查询的标签:


向大家推荐一个有趣的搜索引擎:人立方关系搜索

标签: , , , , and

微软亚洲研究院终于正式推出对象级别的搜索引擎了!
这就是人立方关系搜索:http://renlifang.msra.cn/
之前我曾经写过一篇文章叫做《昨天聆听了微软亚洲研究院聂再清博士《Object-Level Vertical Search》的演讲》,就介绍了微软亚洲研究院正在进行的对象级别搜索引擎的研究。当时聂再清博士已经给我们演示过“关系搜索”,不过那时“关系搜索”还处于微软内测阶段,...

No Comments »

又一个新型搜索引擎Cuil诞生

标签: , , and

本周一,又一个新的搜索引擎Cuil (http://www.cuil.com/ )诞生。
这个搜索引擎相信许多站长应该都会注意到,因为早在数月之前,其爬虫Twiceler就经常进行网页爬取。当时,按照爬虫所给出的url可以看到,这个搜索引擎在进行数据积累,但是并没有发布,直到本月的28日,Cuil正式发布。

Cuil是Google公司的前技术工程师开发的一个新型的以内容为核心的搜索引擎。据说...

No Comments »

搜狗昨天正式推出卫星地图搜索服务

标签: , , and

看到搜狐昨天报道,搜狗正式推出了卫星地图的搜索服务。其称:这是目前国内第一个应用了最新数据的卫星图片产品,首次发布21个城市的高清晰影像服务,其中涵盖全部七个奥运城市。这是搜狗卫星地图搜索的网址:http://map.sogou.com 。
我试用了一下,感觉还是不错的。访问速度流畅,地图功能基本上和Google卫星地图差不多,不过搜狗上面的标注都是中文,应该能够...

1 Comment »

隆重推出中文文献系统C-DBLP的Beta版!

标签: , , and

暑期进行系统开发是实验室的一个传统。这个暑期我们又利用Jobtong技术开发了一个集成系统,展现我们的集成技术。这就是C-DBLP,其发布网址如下:
C-DBLP: www.cdblp.cn
C-DBLP顾名思义,是中文版的一个DBLP,其目标是建立一个国内计算机类中文文献的集成数据库系统,从而为用户提供权威的论文数据和方便的查询服务。目前这个系统已经集成了9本国内权威期刊的数据。...

No Comments »

《Recrawl Scheduling Based on Information Longevity》阅读笔记

标签: , , , and

《Recrawl Scheduling Based on Information Longevity》是发表在WWW2008上面的一篇论文,其作者是Yahoo的高级工程师,因此可以在一定程度上看作是Yahoo搜索引擎在未来可能改进的方向。这篇论文的中文题目可以译为《基于信息生命周期的重新抓取调度》。
我们知道,当前搜索引擎在互联网中扮演越来越重要的角色。面对繁杂海量的Web数据,如果没有搜索引擎的存在,Web用户在信息获...

No Comments »

国际上做Data Integration的两个牛人的去向

标签: , , , and

Data Integration是近些年来国际上的一个研究热点,目前已经有许许多多的相关paper发表了。在这个领域上的牛人自然很多,今天就说说其中两个牛人的去向吧。
一个是Alon Y. Halevy,他是最早提出Data Integration框架的人,他在VLDB1996上的那篇《Querying Heterogeneous Information Sources Using Source Descriptions》文章获得VLDB2006年颁发的十年最佳paper,并由此提出了Dataspace的概念,在全世界上...

1 Comment »

又要有两次断电,看来我们的实验没啥希望了~

标签: , and

上一次的断电,使得我们用来做实验的网站被Google完全删除,到目前也没有恢复。于是我们采用了备用域名重新开始实验。正当实验重新步入正轨时,又看到通知说下周因为检修线路,又要有两次停电,很有可能又会导致新的实验域名再被Google删除。看来我们的实验室是没有什么希望啦,刚建立起的沙土城堡又要倒塌了。。。

...

No Comments »

我所观察到的一次Google Dance现象

标签: , , , , and

虽然大家每日使用Google,看起来没有什么不同,使用起来也没有什么不同。但是其实Google是经常调整她的算法的,据称Google去年一年就调整过450次搜索算法。通过算法一次次的调整,Google不断改进用户体验,同时提供搜索结果的质量。
其中,这个算法的调整,可能伴着Google Dance现象的发生。所谓的Google Dance,就是Google每个月固定调整她的索引库(当然是指她的BigTable),...

No Comments »

一场断电引起的“血案”?

标签: , , , , , and

最近在针对搜索引擎做一项实验,于是利用实验室的废弃电脑搭建起来一个测试网站:AntiIndexTest,刚开始数天,实验十分顺利,各个搜索引擎也非常快速的进行收录。正当期望实验取得进一步进展时,学校停电了,实验室也不能幸免。
经过一个晚上的停电,刚开始还未发现任何异常,但是到下午时,突然发现Google不再来爬取网站页面,而整个网站在Google中搜不到任何...

No Comments »

原来压缩论文也是很痛苦的~

标签: , and

当时投NDBC年会文章的时候,只顾着把东西往上写,周围师兄师姐也说"先写上去再说呗,以后删还不容易吗"。于是一不小心就写了7页满满的。这几天接到论文录取通知,要求提交正式论文,并且不能超过7千字,看以往的文章,似乎年会论文一般在5页,于是不得不“操刀自残”,却发现总也下不去手。看看这里也觉得必不可少,看看那里也觉得删掉后语义不连贯。于...

4 Comments »