2008-03-15

下一代搜索引擎

Posted in 转载, Web Data Management at 20:26 Author:仲远

标签:

搜索引擎是伴随着互联网的发展而不断发展的,由于互联网已经成为人们学习工作和生活中不可缺少的平台,几乎每一个上网的人都会使用搜索引擎,围绕搜索已经形成一个重要的产业链,有些媒体甚至造出了“搜索经济”这个词。

既然搜索这样魅力无穷,人们除了关心目前的搜索的现状外,更加关心下一代搜索引擎是什么样的,也就是想知道搜索引擎的发展趋势。要回答这个问题,我们从搜索引擎所紧密关联的两个对象入手来分析。搜索引擎实际上就是在用户(搜索引擎的使用者)和互联网资源(搜索引擎的搜索对象)这两者之间建立起一个联系,将用户真正想要的内容呈现给用户,同时用户不想要的内容不呈现给用户。我们称这一要求为“所得即所需”(What You Get is What You Want)。因此,本文从搜索引擎的用户体验和互联网资源的组织和获取这两个角度来分析一下搜索引擎技术的未来发展之路,并简要回答一些疑问。

第一、从互联网资源组织的角度来看搜索引擎技术的发展趋势。

互联网资源主要是以非规范文本或者多媒体形式存在的,如何让这些资源达到某种程度的结构化是提供快速准确搜索的客观的要求。也就是说如何表示互联网资源是搜索引擎首先要回答的问题。在数据库领域我们喜欢用数据模型的不同来作为区分技术进步的主要依据。同样,我们也可以从数据模型的角度来看一看搜索引擎技术的发展轨迹。

第一代搜索引擎的特征是目录搜索,代表产品当然就是YAHOO了。这个时期的技术思路,不可避免地受传统的图书情报管理方法的影响。我们知道,传统的图书馆面对大量的文献资源,采用的办法是首先建立一套图书文献分类标准,然后将文献按照分类标准手工或者计算机辅助地进行分类,这样用户就可以按照这个分类进行文献的检索了。第一代的搜索引擎也是采用类似的方法来建立网络文献的数据模型的,不过需要指出的是,YAHOO所采用的分类体系,比起传统文献分类体系来说,要简单的多和不规范的多。从这种意义上讲,YAHOO的技术创新不大。第一代搜索引擎的弊端和传统图书馆文献管理方法的弊端也是一样的。首先,这个分类体系是由文献的管理者人为的给出来的,用户并不一定清楚,或者说普通用户并不一定理解,这样就有可能找不到想要的信息。其次,手工分类的成本太大、效率太低,不能适应快速增长的网上信息资源管理的需要。

第二代搜索引擎在看到了第一代搜索引擎的弊端后,创新性地提出了页面重要性分析技术pageranking技术和超链分析技术等,将最重要的页面优先呈现给用户。代表产品就是GOOGLE。与YAHOO不同的是,GOOGLE并不对文献进行分类,而是从文献中识别出“关键字”来,然后建立倒排索引。也就是说文献是用一组关键字列表来表示的,这就是网络资源的数据模型。这一模型的好处就是计算机可以自动地完成,无需人工干预,这使得大规模的搜索成为可能。根据用户提交的查询关键字,然后对出现这些关键字的页面按照确定的方法对其进行排序,并按照得分的高低顺序呈现给用户。这种方法的最大好处是用户不需要额外的负担,只需要敲入适当的关键字就可以了。用户获得了前所未有的信息体验。GOOGLE也因此获得了蓬勃的发展。

然而,在这里“关键字”仅仅是出现在网页中的符号而已,它所指代的语义并没有被使用。页面分析所依据的也是存在于页面之间的链接关系,它不能表示这些页面本身包含什么信息。这就决定了搜索引擎还不能还好地处理页面信息的语义,因此,目前搜索引擎出现了一系列的困难。根据中国互联网网络信息中心(CNNIC)的报告称,用户认为在互联网上查询信息时遇到的最大问题是重复信息太多(44.6%)、信息太陈旧更新缓慢(27.5%)、得到的有用信息太少(10.7%)、信息查找不方便(10.2%)。这些问题中的第一项和第三项的主要根源都是搜索引擎不能理解存在于网页中的信息的语义。为了解决这些问题,搜索引擎必须能够表达和处理语义信息。所以,我们相信,下一代搜索引擎的数据模型必须是语义数据模型。

我们认为语义网(Semantic Web)是这种语义模型的最好的选择。语义网采用XML+RDF+Ontology三个层次描述信息资源,构成了计算机理解内容的基础。关于语义网我们已经在2006年第4期本刊中给出了介绍,这里就不详细介绍了。

围绕着建立语义网,将会发展一系列的技术,将是下一代搜索引擎所必须的。比如,自动标注技术,信息抽取技术等等。因此,从这种意义上讲,下一代搜索引擎将是智能化的。

第二、从用户信息体验的角度来看搜索引擎技术的发展趋势。

用户对网络的信息体验是从分类检索体验开始的,第一代搜索引擎呈现给用户的是“千人一面”的分类体系和网页内容。人们在经过了初始短暂的兴奋后,很快就对这样的信息访问方式不满意了。第二代的搜索引擎是以关键字作为表达查询的主要手段的,以按相关度大小排列的文献列表为展示方式。为了克服千人一面的不足,人们还引进了一些个性化的技术,包括对查询输入的修正,查询结果的聚类等。但是,到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。笔者以为如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向,这里包括如何表达信息需求,如何展示/浏览搜索结构,如何对个性化的信息需求建立模型等等。从这种意义上讲,下一代搜索引擎将是个性化的。

第三、从互联网资源获取与更新策略的角度来看搜索引擎技术的发展趋势。

互联网搜索首先需要的是及时地获得新的信息,这里涉及资源抓取和更新策略问题。这方面笔者没有深入研究,难以进行推测。一种观点认为,第一代搜索引擎是集中式的,第二代是分布协同式的,而第三代将是“社会性”的,比如P2P这样的模式。

综上所述,下一代搜索引擎的发展趋势将是智能化的、个性化的。

根据上述分析,我们来看一看目前关于搜索工具的一些观点,回答一些疑问。有一种观点认为“垂直搜索”或者叫做“专业搜索”是未来搜索引擎的发展趋势。这是相对于那些什么都做的通用搜索引擎而言的。对于通用搜索引擎,无论是信息采集、还是信息的更新都是巨大的挑战,将搜索引擎限定在某个领域,有利于做深做精。因此,从经营模式上,有其价值,就象图书馆也有专业的图书馆一样。但是,从技术上讲,并没有多大的新意。

有一种观点认为,下一代搜索引擎应能处理深层网页(DEEP WEB)。所谓深层搜索是指搜索那些放在数据库中的信息。目前的搜索引擎主要处理普通的网页(称为浅层网页),对于深层网页的信息难以搜索,而据说这样的信息是普通网页的500倍。显然,如何能够将搜索引擎的触角深入到数据库里去,是下一代搜索引擎所关心的。但是,这里的技术关键是如何获得数据库中的全部信息,这个技术是信息获取中的一部分,并不能代表下一代搜索引擎的本质。

还有一种观点认为,下一代搜索引擎必须是跨媒体的,也就是说用户通过统一的界面和单一的提问,就能够获得以各种媒体形式存在的语义相似的结果。无疑,这是我们所提到的良好的个性化信息体验中所需要的功能。但是,这一功能的获得,也需要分解成对数据对象的语义标注和个性化的信息展示这两个方面。因此,可以说是包括在我们上面的分析框架中的。

在本文成文过程中多次与实验室的杨敏和赵峰同学进行了讨论,他们贡献了一些很好的想法和素材,在此表示感谢。(作者:杜小勇/中国人民大学信息学院)

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word