2008-01-12

昨天参加了YOCSEF的“垂直搜索技术”专题报告会

Posted in 实验室, Web Data Management, JobTong at 23:56 Author:仲远

标签:

垂直搜索是相对于通用搜索(如google、百度……)而提出的一种概念,它针对某一特定领域,如房产、旅游、职位、汽车、文献等,涉及结构化以及对象化的搜索技术。垂直搜索比通用搜索更专业、更精确、更及时、更深入。

垂直搜索可以从多个角度入手,例如IR、NLP或者数据库等等。就数据库角度而言,我们通常认为垂直搜索技术是在某一个具体领域上Deep Web数据集成的应用,也就是说,我们试图构建一个大规模的面向领域的Deep Web数据集成系统。这个系统的难点是如何处理不同结构的数据源,如何将页面上半结构化的信息还原成结构化的数据。因此,可以这样说,我们实验室所开发的Jobtong就是一个面向工作信息领域的从数据库角度出发而实现的垂直搜索引擎,或者叫工作信息集成系统。

这次报告有三个特邀讲者,分别是哈工大信息检索实验室的刘挺教授、微软亚洲研究院研究员聂再清博士以及北大天网的负责人之一姚从磊博士。基本上他们介绍的东西都比较概况一些,没有涉及到过多具体的实现技术或者研究点。

刘挺教授报告的题目是“垂直搜索,可以燎原”,他主要介绍了什么是垂直搜索,垂直搜索的一些特征以及他对于那些否定垂直搜索的观点的一些评价。因为他是哈尔滨工业大学信息检索实验室的,所以他研究垂直搜索技术主要从NLP角度出发。不过他也承认,在现实商业系统中,要想利用自然语言处理的技术来构建一个真正可用的垂直搜索引擎,难度还比较大,关键是其准确率会低到人们不愿意接受。

微软的聂再清博士报告的题目是“Object-level Vertical Search”,这个研究题目是他和文继荣博士等人一起合作的一个课题吧。我在Sigmod2007上也听过微软的人报告过他们在这方面的一些研究工作。其中基于视觉的分块与我们实验室刘博在WebDB上发表的基于视觉的信息抽取有些类似。聂再清博士主要介绍了微软所开发的是三个系统,分别是Libra学术搜索,Windows Live商品搜索,以及Guanxi(关系)互联网对象关系挖掘和搜索引擎。这几个系统都是蛮有意思的系统。其中Libra所做的工作与我们实验室的DBRef系统有些相似。有机会的话,我倒是满想去微软亚洲研究院互联网搜索与挖掘组实习一下,这个组和我们的研究方向十分切合,内容也比较有趣。只不过孟老师一般不同意我们去公司实习。

北大的姚从磊博士介绍的题目是“垂直搜索及其与Web实体提取和关系分析的关系”。他从事Web实体提取方面的研究以及很多年了。北大的网络实验室应该是一个满不错的实验室,从中走出了许多深刻影响互联网的人,包括百度前CTO以及酷讯的创始人。酷讯就是一个和Jobtong极其类似的系统,不过他们做得比我们早一些,而且他们是商业公司,又拿到风投,又有一个像样的团队。不像Jobtong,之前是我跟着lincan师兄做,之后带着几个大三的同学断断续续弄。而我呢,又得做系统,又得做研究,到目前为止,都基本上没有太多的时间和精力来继续深入开发Jobtong,还得从中苦苦挖掘研究的题目。我担心不用多久,我们就会远远被别人抛在后面,这也正是许多实验室系统最终无法和商业系统抗衡的原因吧,而且也是为什么有那么多的人有了想法之后必须辍学去全心全意创业最后才可能取得成功的原因吧。

总之,听完这次报告,还是有许多收获的。唉,不过接下来还得回归到实验室中,继续做研究……

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

4 Comments »

  1. haopeng said,

    2008年January13日 at 13:59

    恩,其实从报告可以看出,hit他们的系统做的也比较困难,还是毕业生出去创业后才能真正做大

  2. 王若宁 said,

    2008年December10日 at 14:24

    您好,我是51job的产品经理,负责数据挖掘和职位搜索方向,希望能和你多多交流和探讨

  3. 仲远 said,

    2008年December10日 at 21:40

    王若宁,谢谢您的关注:)

  4. allen said,

    2011年October19日 at 16:52

    总结的很不错,看来也是搜索同道中人。
    请邮件联系。

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word