这篇主要讲larbin的配置问题,由于作者已经讲得很详细,在此我只把原文进行翻译提炼:
(1)larbin对外的接口
作者为我们提供了一个文件,叫做%LARBIN_HOME%/src/interf/useroutput.cc,用户可以在这里面进行一些扩展操作。
具体的借口请看%LARBIN_HOME%/src/interf/useroutput.h,实现在上面的文件中。larbin自身已经实现了里面的所有接口,所以用户可以选择重新实现或者在上面做一些additional function。
(2)运行配置文件
larbin.conf
这个文件主要定义了一些量化的参数。
From :爬虫的email
UserAgent:爬虫的Agent
httpPort:运行webserver的端口
depthInSite:一个网页搜索的层数
StartUrl:抓取的起始页面
limitToDomain:域限制
forbiddenExtensions:扩展名限制
option.h
这里面主要对一些策略进行定制
1.输出形式
DEFAULT_OUTPUT:不输出
SIMPLE_SAVE:只简单存储文件
MIRROR_SAVE :按站点结构存储
STATS_OUTPUT:在webserver上产生一些状态
下面还有好多,希望大家去看他的那个网页进行学习了
http://larbin.sourceforge.net/custom-eng.html(英文版)
分享到:
相关推荐
larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫
经典的网络爬虫,经典的larbin,采用asdn域名异步解析,单线程非阻塞模型。
LINUX下的网络爬虫。larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。
larbin是一种开源的网络爬虫/网络蜘蛛
larbin2.6.3爬虫,错误已全部改正,已在ubuntu下通过运行,可进行简单的爬网页任务。
larbin网络爬虫的体系结构[参照].pdf
这个是larbin的头文件,其实这个在哪都可以找到,我只想要赚点积分。各位乡亲父老好不好啊?
关于Larbin网络爬虫的权威文档,你可以在这里学会Larbin的详细配置方法,让你的Larbin工作得更好
Larbin 开发语言:C++ 简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。 Larbin只是...
主要是网络爬虫,整个网络进行景象,得到网络资源
网络蜘蛛Larbin的设计和优化,Larbin是利用c++开发的一种网络爬 虫,由法国人Sebastien Ailleret发布,因此 它是开源的(基于GPL标准)。Larbin最初 开发出来是为了XYLEME工程。Larbin的 目的是在网络上抓取xml页面,然后...
Larbin 开发语言:C++ 简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。 Larbin只是...
Larbin 开发语言:C++ 简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎 提供广泛的数据来源。 Larbin只是一...
Larbin的设计与优化,叶建平,,搜索引擎是万维网能够更好为人类利用的重要工具。而网络爬虫是搜索引擎的核心组成部分。Larbin是一个高效,比较简单,而且功能比较
主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始讲解、分析代码。
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 larbin是一个被广大搜索引擎爱好者应当...
修改好的larbin源代码,可以直接在ubuntu8.10下编译使用
开源的网络爬虫,一个外国年轻人写的,有一定的参考价值,附件带有移植到windows的参考文档
一个高手写的东西 值得一看
介绍larbin原理和在win下怎么移植