2009-07-11

人立方的六度使得我和奥巴马联系起来了

Posted in Web Data Management at 15:59 Author:仲远

标签:

人立方是微软亚洲研究院的一个对象级搜索产品。自推出以来,已经受到广泛关注,其核心思想是将页面中的“对象”(也有称为“实体”的)抽取出来,组建关联,然后提供给用户进行搜索。其后,人立方搜索引擎又推出升级版本,在升级版本中,加入了“六度搜索”功能。

何谓“六度搜索”?

六度空间的概念来源于美国哈佛大学的社会心理学家米尔格兰姆所设计的“连锁信件实验”。在1967年,米尔格兰姆写了一封信,信中提到了一个股票经纪人的名字,要求每个收到这封信的人都将信转寄给自认为和那个经纪人 关系最接近的朋友。米尔格兰姆给160个朋友寄出了这封信。结果大部分信件经过五、六次辗转都到达了那个经纪人的手中。 六度空间理论体现了一个客观规律:世界上任何两个人之间没有间隔361度,也没有100度,只有六度。

人立方六度搜索试用

应该来说,人立方的六度搜索功能,新奇意义大于实际意义。因为目前的实体自动抽取技术,其准确性还不能令人满意,同时也还无法正确地区分同名实体。例如,我在人立方中输入我的名字,在搜索目标中,输入“奥巴马”,得到如下结果:

六度搜索(1)

在人立方的六度搜索中,确实经过4步就到达奥巴马了。但是我们研究一下中间的步骤,其中最搞笑的关系出现在“王子光”到“哈里王子”这一步上,我们可以看看这个关联是如何建立起来的:

六度搜索(2)

从图中可以看出,人立方从“哈里王子光顾麦当劳”这句话中抽取出了“哈里”和“王子光”这两个人名,明显是错误的,这说明人立方还无法做到语义级别的对象抽取。

不过平心而论,微软亚洲研究院的这项研究还是很有意义的,并且这种在关联关系上的挖掘,也将是未来的一种趋势。

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word