赵锦焘大秧歌:发布一款基于C#的网络爬虫程序 - 刘杨 - 博客园
来源:百度文库 编辑:九乡新闻网 时间:2024/07/14 07:53:00
发布一款基于C#的网络爬虫程序
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。
主要特性有:
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
参见下面的截图:
![](http://image28.360doc.cn/DownloadImg/2011/05/0220/11400857_1.png)
今后有空可能加入的特性:
新特性 介绍
爬取文件用Berkeley DB存储 提高性能: 常用操作系统不善于处理大量小文件
基于URL Ranking的优先级队列 主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取
爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等
性能优化 用UDP取代封装好的HttpWebRequest/Response
DNS缓存
异步的DNS地址解析
硬盘缓存或内存数据库以避免频繁的磁盘寻道
分布式爬虫以扩展单机能力(CPU、内存和硬盘访问)
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。
主要特性有:
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
参见下面的截图:
![](http://image28.360doc.cn/DownloadImg/2011/05/0220/11400857_1.png)
今后有空可能加入的特性:
新特性 介绍
爬取文件用Berkeley DB存储 提高性能: 常用操作系统不善于处理大量小文件
基于URL Ranking的优先级队列 主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取
爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等
性能优化 用UDP取代封装好的HttpWebRequest/Response
DNS缓存
异步的DNS地址解析
硬盘缓存或内存数据库以避免频繁的磁盘寻道
分布式爬虫以扩展单机能力(CPU、内存和硬盘访问)
发布一款基于C#的网络爬虫程序 - 刘杨 - 博客园
简介_如何用C#语言构造蜘蛛程序(网络爬虫)
C#程序调用非托管C++ DLL文件的方法 - Chase的技术博客 - 博客园
C#网络聊天程序三大模式浅析
网络爬虫,你知道多少?
C#程序书写规范
C# java 有关“字节序”的描述 . - vhtt - 博客园
c# string.split - pany的后菜园 - 博客园
C#反射的理解-程序开发-红黑联盟
使用C#多线程设计的电脑摇奖程序-程序开发-红黑联盟
用设计模式固化你的C#程序(2)-程序开发-红黑联盟
用设计模式固化你的C#程序(3)-程序开发-红黑联盟
论基于网络的学习共同体(转)
基于建构主义的网络课程设计基础理论
基于知识链结构的社交网络
试论基于网络的学习共同体
基于网络的综合性学习研究。
基于intel架构的网络课件开发
基于网络的综合性学习研究
基于MSComm控件的串口调试程序及源代码
用VC编写基于Windows的精确定时程序1
用VC编写基于Windows的精确定时程序
c#中的反射机制 - 佚名 - 博客园
C# VSTO(WORD) 参数设置 - lavandachen - 博客园