一款用C#开发的网络爬虫程序
2016-08-23
0 0 0
暂无评分
其他
如何获取积分?
ShootSearch是一款用C#开发的网络爬虫程序。其内核包含爬虫,存储,网页后期处理,索引生成等。 在抓取网页的过程中,可以灵活的制定多种规则,过滤URL,内置一个可无限增长的后继队列模块,可以随时暂停或者停止抓取,抓取的网页可以分时或者按照指 定大小切块存储(自定义的大文件系统)。 在网页的处理过程中,内置一个规则处理引擎,可以通过编写正则表达式灵活的提取或者过滤文字信息,将有用的信息存储到数据库(通用的数据库接口)或者 生成索引(支持Lucene和Hubble.NET)。 内置一个支持Lucene的中文切词模块。 基于Quartz.NET的任务调度(),每一个步骤(抓取,处理,生成索引)都是一个Job,每个Job都可以根据XML来灵活组合和扩充。 内置多种接口,开发人员可随时根据需求自己开发替换某个模块。
c#
爬虫
网络
程序
开发
相关源码推荐
第186号:DX0110-小区物业管理系统源码
0
0
暂无评分
第219号:DX0149-小区物业管理系统源码
0
0
暂无评分
验证码识别
0
0
暂无评分
CSV数据分析工具
0
0
暂无评分
医院病历信息管理系统源码
0
0
暂无评分
暂无评论