基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关免费源代码下载-CodeForge.cn

源代码 / 基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

2016-05-19

暂无评分

其他

如何获取积分？

对于Web信息检索来说，网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》，首次将网页正文抽取问题转化为求页面的行块分布函数，这种方法不用建立Dom树，不被病态HTML所累（事实上与HTML标签完全无关）。通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多，在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/，svn的好处是更新及时，zip包作者不能保证每次修改完后都及时上传 :)

There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)

Version

Author

请点击左侧文件开始预览

！预览只提供20%的代码片段，完整代码需下载后查看

加载中

侵权举报

打分

发表评论

暂无评论

0
粉丝

0
发布

0
获赞

关注

查看主页

html
DOM
网页
标签
正文
函数
基于
时间
线性
通用
无关
分布
抽取

相关源码推荐

3d建筑物大屏呈现

0

0

暂无评分
jt808解析类库

0

0

暂无评分
好看的烟花

0

0

暂无评分
问答html首页

0

0

暂无评分
bootstarp制作通讯录

0

0

暂无评分

介绍信息
预览
(0条)评论打分

QQ

微博

QQ交谈

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

评论打分

购买积分

发布代码

帮助中心

服务协议

隐私协议

广告联系QQ：3083263680

邮箱: support@codeforge.com