Quantcast
Channel: 爱积累爱分享 »网络信息采集
Browsing latest articles
Browse All 2 View Live

Image may be NSFW.
Clik here to view.

基于行块分布函数的通用网页正文抽取算法cx-extractor

写作背景 由于项目的需求,最近学习网页信息采集,正文抽取这块儿的技术,发现一款不错的网页正文抽取算法cx-extractor,在此和大家进行下分享。 cx-extractor介绍 对于Web信息检索来说,网页正文抽取是后续处理的关键。...

View Article



网页正文提取技术分析

写作背景 最近做一个项目,其中涉及到网页信息采集,随后对相关的技术进行了学习与研发,网页正文提取技术常用的有joyhtml、boilerpipe、cx-extractor下面将对其做一个简单的对比说明,和大家进行下分享。 相关技术 1、joyhtml: http://code.google.com/p/joyhtml/...

View Article
Browsing latest articles
Browse All 2 View Live




Latest Images