2009-05-25
最近写了一个网页内容的自动抽取器
标签:Deep web数据集成, JobTong, 实验室, 网页抽取研究网页抽取的论文很多,但是系统很少。
研究新闻标题和内容的自动抽取的论文也很多,但是实际可用的自动抽取程序也很少。
我们实验室研究Web抽取技术已经很多年,在国内也算处于领先地位。以前虽然也有一些demo系统,但是离实际可用仍然有一些距离。直到后来,我在lincan师兄的带领下,才开始构造网页数据抽取的系统,学名为Deep Web数据集成系统(深层网络/暗网数据集成系统),俗称网页数据抽取器或者是结构化网页爬虫。这就是Jobtong技术。基于此项技术,我们构建了众多有意思的系统,包括工作通、C-DBLP、图书价格比较网等系统。这些系统的出现,证明了我们的技术能够非常快速的构造面向领域的Deep Web数据集成系统,并且这些系统中的数据质量非常高,抽取准确性非常高。
当然,在保证准确性的前提下,也需要有一定程度的人工参与,虽然这种人工参与的程度是比较低的。
目前,我们在和人大的新闻学院合作,开发一个舆情监控平台。其中,也涉及到了对于新闻内容的自动抽取。由于这个网页内容自动抽取程序是面向整个互联网的。因此,人工参与不太现实。为此,我开发了一个网页内容自动抽取的程序,只要提供一个URL,就能够完全自动地将网页上的正文内容抽取下来,并且能够自动学习和演化。可以很负责任的说,抽取准确性非常高,而且执行效率也非常高。
未来在条件允许的情况下,也许我会将其做成一个在线的抽取演示系统,看情况啦~
本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:http://www.wangzhongyuan.com/archives/691.html
Haimi said,
2009年8月4日 at 22:41
使用的网页爬虫是网上现有的工具吗?
仲远 said,
2009年8月5日 at 19:04
不是
Fuller said,
2009年9月12日 at 21:17
可以尝试一下网页抓取/数据抽取软件工具包MetaSeeker,是GooSeeker开发的免费发布的面向语义网络的网络内容结构化工具。GooSeeker网站上的中英文资料都很齐全
huohoo said,
2009年12月21日 at 11:12
能不能详细说下你们写的网页内容自动抽取器是怎样实现的,如何使用deepweb的一些技术及工具.看你的博客很充实~