2008-12-20

百度研发“阿拉丁平台”,欲覆盖“暗网”信息检索

Posted in 实验室, Web Data Management, JobTong, 新闻点评 at 15:21 Author:仲远

标签:

虽然之前央视曝光了百度的竞价排名模式可能带来的危害(感兴趣的朋友可以点击关键字百度进行查看),但是百度CEO李彦宏坚称竞价排名的商业模式本身没问题,百度不会放弃该业务模式。并且李彦宏提到“百度离破产只有30天。大家之所以看好搜索市场,就是因为它的成长速度非常高。成长也是变化的一种,如果不能及时把握市场需求的变化,就会被淘汰”。这其实是微软比尔·盖茨曾经说过的“微软离破产永远只有18个月”的一个“山寨版”。

李彦宏
李彦宏比较帅

“阿拉丁平台” 计划

另外,百度公布了正在研发的搜索引擎新平台“阿拉丁平台” 计划,并成立“上海研发中心”,下一步打算成立“东京研发中心”。百度说联网上有着大量的“暗网”的存在,即是目前能被搜索引擎检索到的信息只占所有信息中很小的一部分,大量的信息仍然处在未知世界的“暗网”当中。搜索引擎上的已知信息只占所有信息比例大约为千分之二

而“阿拉丁平台”,可大幅增加百度的数据搜索量,如果现在的信息量是百亿量级的话,“暗网”的数量则是万亿级。全球的主流搜索公司都进行了大幅投入

虽然百度没有公布更多的细节,但是按照我对互联网的理解,百度在这里所指的“暗网”应该指的就是“Deep Web”,而“阿拉丁平台”,应该就是一种将Deep Web Surfacing化的的搜索技术。

以下是关于Deep Web的一些基本概况:
World Wide Web[CIDR07]

  • 目前可访问的网页超过550 billion
  • 目前主流搜索引擎只索引了超过1billion的页面
  • 规模不断增加:

  • 2001年7月BrightPlanet.com:Web数据库的数量超过4万个
  • 2004年UIUC统计:Web数据库超过45万个
  • 2007年CIDR:Web数据库超过2500万个
  • 是Surface Web的500多倍
  • 其实我们实验室开展Deep Web数据集成的研究已经很多年了。也有了相当的技术积累。更多的介绍,可以参见我今年10月份报告过的一个ppt:《一种数据驱动的Wrapper自动生成与维护方法》。并且,在今年的WAMDM实验室年报上,我也将有一篇文章,论述《云计算与Web数据管理》(我之前在网站上提供过部分内容,请见《“云数据库”是数据库以及Web数据管理发展的未来吗?》,过些天我会将其全文放在我的网站上),这篇文章里,也介绍了Deep Web的一些相关知识和技术,并且对于这种超大规模的数据管理与云计算的关系进行了思考。

    本文可以自由转载,转载时请保留全文并注明出处:
    转载自仲子说 [ http://www.wangzhongyuan.com/ ]
    原文链接:

    3 Comments »

    1. 谷歌中国:地图与移动搜索将迅速成长,暗网早已覆盖 仲子说 Deep Web Data Integration, Google, Web Data Management, 实验室, 搜索引擎 暗网 said,

      2009年February20日 at 22:02

      […] 谷歌大中华区总裁李开复今日召开媒体见面会,探讨谷歌2009年的发展重点和方向。李开复认为谷歌中国在2008年的发展是巨大的,市场份额也比2007年有了巨大的提高。同时,他认为在未来1、2年内,地图与移动搜索将迅速成长、爆发。针对《百度研发“阿拉丁平台”,欲覆盖“暗网”信息检索》,李开复认为Google早已经覆盖了暗网(Deep Web)中的内容,并将其整合到了Google的搜索结果中。 […]

    2. dgf said,

      2009年March8日 at 14:56

      原来如此

    3. 德国阳光电池 said,

      2015年June15日 at 17:12

      说的真好,看的大概有点明白,还是不是太懂

    Leave a Comment

    *
    To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
    Click to hear an audio file of the anti-spam word