2009-05-25

最近写了一个网页内容的自动抽取器

Posted in 实验室, JobTong at 21:39 Author:仲远

标签:

研究网页抽取的论文很多,但是系统很少。

研究新闻标题和内容的自动抽取的论文也很多,但是实际可用的自动抽取程序也很少。

我们实验室研究Web抽取技术已经很多年,在国内也算处于领先地位。以前虽然也有一些demo系统,但是离实际可用仍然有一些距离。直到后来,我在lincan师兄的带领下,才开始构造网页数据抽取的系统,学名为Deep Web数据集成系统(深层网络/暗网数据集成系统),俗称网页数据抽取器或者是结构化网页爬虫。这就是Jobtong技术。基于此项技术,我们构建了众多有意思的系统,包括工作通C-DBLP图书价格比较网等系统。这些系统的出现,证明了我们的技术能够非常快速的构造面向领域的Deep Web数据集成系统,并且这些系统中的数据质量非常高,抽取准确性非常高。

当然,在保证准确性的前提下,也需要有一定程度的人工参与,虽然这种人工参与的程度是比较低的。

目前,我们在和人大的新闻学院合作,开发一个舆情监控平台。其中,也涉及到了对于新闻内容的自动抽取。由于这个网页内容自动抽取程序是面向整个互联网的。因此,人工参与不太现实。为此,我开发了一个网页内容自动抽取的程序,只要提供一个URL,就能够完全自动地将网页上的正文内容抽取下来,并且能够自动学习和演化。可以很负责任的说,抽取准确性非常高,而且执行效率也非常高。

未来在条件允许的情况下,也许我会将其做成一个在线的抽取演示系统,看情况啦~

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

5 Comments »

  1. Haimi said,

    2009年August4日 at 22:41

    使用的网页爬虫是网上现有的工具吗?

  2. 仲远 said,

    2009年August5日 at 19:04

    不是

  3. Fuller said,

    2009年September12日 at 21:17

    可以尝试一下网页抓取/数据抽取软件工具包MetaSeeker,是GooSeeker开发的免费发布的面向语义网络的网络内容结构化工具。GooSeeker网站上的中英文资料都很齐全

  4. huohoo said,

    2009年December21日 at 11:12

    能不能详细说下你们写的网页内容自动抽取器是怎样实现的,如何使用deepweb的一些技术及工具.看你的博客很充实~

  5. 德国阳光蓄电池 said,

    2015年June15日 at 17:08

    Deep Web数据集成系统,怎样安装使用呢?

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word