欢迎您光临我的个人网站!


2009-05-25

最近写了一个网页内容的自动抽取器

Posted in 实验室, JobTong at 21:39 by 仲远

标签:
Zhongyuan Wang

97100fe403b8

研究网页抽取的论文很多,但是系统很少。
研究新闻标题和内容的自动抽取的论文也很多,但是实际可用的自动抽取程序也很少。
我们实验室研究Web抽取技术已经很多年,在国内也算处于领先地位。以前虽然也有一些demo系统,但是离实际可用仍然有一些距离。直到后来,我在lincan师兄的带领下,才开始构造网页数据抽取的系统,学名为Deep Web数据集成系统(深层...查看全文

2008-12-26

C-DBLP系统添加了一个有趣的新功能: 论文数量趋势图

Posted in 实验室, Web Data Management, JobTong at 21:39 by 仲远

标签:
C-DBLP系统添加了一个有趣的新功能: 论文数量趋势图

C-DBLP是一个以作者为中心的中文文献集成系统。系统现在集成了12本中文计算机权威期刊和1个数据库会议,目前有超过5万名的作者信息以及接近6万条的论文记录。
C-DBLP中有很多丰富的数据和关联等待挖掘,我们也已经制定了下一步的开发计划。
今天,我们推出了基于Google Chart API所开发的一个作者文献数量趋势图的小功能,它能够反映出作者在不同年份发表的论...查看全文

2008-12-20

百度研发“阿拉丁平台”,欲覆盖“暗网”信息检索

Posted in 实验室, Web Data Management, JobTong, 新闻点评 at 15:21 by 仲远

标签:
百度研发“阿拉丁平台”,欲覆盖“暗网”信息检索

虽然之前央视曝光了百度的竞价排名模式可能带来的危害(感兴趣的朋友可以点击关键字百度进行查看),但是百度CEO李彦宏坚称竞价排名的商业模式本身没问题,百度不会放弃该业务模式。并且李彦宏提到“百度离破产只有30天。大家之所以看好搜索市场,就是因为它的成长速度非常高。成长也是变化的一种,如果不能及时把握市场需求的变化,就会被淘汰”。这其实是...查看全文

2008-12-12

垂直搜索何去何从?

Posted in Web Data Management, JobTong at 15:14 by 仲远

标签:
垂直搜索何去何从?

垂直搜索自前几年兴起以后,这些年有许许多多人以此为契机,进行创业。比较出名的有酷讯、去哪儿等网站,Google也开发了“生活搜索”:
 
此外,还有许许多多的人已经创建了或者正在创建垂直搜索网站(也有的称为生活搜索)。
我们实验室,利用数据集成技术,也开发了一些网站,例如Jobtong(工作通),政务通等网站。当然,由于是在实验室,这些网...查看全文

2008-07-31

又一个新型搜索引擎Cuil诞生

Posted in Web Data Management, JobTong at 15:37 by 仲远

标签:
又一个新型搜索引擎Cuil诞生

本周一,又一个新的搜索引擎Cuil (http://www.cuil.com/ )诞生。
这个搜索引擎相信许多站长应该都会注意到,因为早在数月之前,其爬虫Twiceler就经常进行网页爬取。当时,按照爬虫所给出的url可以看到,这个搜索引擎在进行数据积累,但是并没有发布,直到本月的28日,Cuil正式发布。

Cuil是Google公司的前技术工程师开发的一个新型的以内容为核心的搜索引擎。据说...查看全文

2008-07-26

隆重推出中文文献系统C-DBLP的Beta版!

Posted in 实验室, Web Data Management, JobTong at 22:36 by 仲远

标签:

暑期进行系统开发是实验室的一个传统。这个暑期我们又利用Jobtong技术开发了一个集成系统,展现我们的集成技术。这就是C-DBLP,其发布网址如下:
C-DBLP: www.cdblp.cn
C-DBLP顾名思义,是中文版的一个DBLP,其目标是建立一个国内计算机类中文文献的集成数据库系统,从而为用户提供权威的论文数据和方便的查询服务。目前这个系统已经集成了9本国内权威期刊的数据。...查看全文

2008-05-27

原来压缩论文也是很痛苦的~

Posted in 实验室, Web Data Management, JobTong at 20:34 by 仲远

标签:

当时投NDBC年会文章的时候,只顾着把东西往上写,周围师兄师姐也说”先写上去再说呗,以后删还不容易吗”。于是一不小心就写了7页满满的。这几天接到论文录取通知,要求提交正式论文,并且不能超过7千字,看以往的文章,似乎年会论文一般在5页,于是不得不“操刀自残”,却发现总也下不去手。看看这里也觉得必不可少,看看那里也觉得删掉后语义不连贯。...查看全文

2008-05-16

昨天聆听了微软亚洲研究院聂再清博士《Object-Level Vertical Search》的演讲

Posted in 实验室, Web Data Management, JobTong at 21:05 by 仲远

标签:

昨天的《智能信息检索》课程请的是微软亚洲研究院的聂再清博士来向我们介绍《Object-Level Vertical Search》,这已经是我第二次听聂博士的介绍了。上一次是在参加Yocsef举办的《垂直搜索》时听过他演讲,主题也是“对象级别的垂直搜索”。
目前微软亚洲研究院正在进行的几项研究,包括Libra, Guanxi, Product Search等,都是很有意思的对象级别的垂直搜索。其实对象这个词,...查看全文

2008-03-23

图书价格比较网进行重要修改,添加Ajax功能

Posted in 实验室, JavaScript, Web Data Management, mashup, JobTong at 13:32 by 仲远

标签:

图书价格比较网:http://books.wangzhongyuan.com
仲子说的图书价格比较网由于是采用实时采集数据,因此用户输入一本书的名字后,需要等待这个查询实时提交到当当网和卓越网,然后取回结果进行比较。因此用户在查询的时候,很有可能等待很久查询结果网页才能够打开。
在考虑如何增加用户体验上,我最后打算使用Ajax来实现对数据的采集与比较。所以这次图书价格...查看全文

2008-02-29

仲子说:图书价格比较网Beta版隆重发布!

Posted in 实验室, Web Data Management, mashup, JobTong at 0:51 by 仲远

标签:

一直以来,我都非常想用我们的Deep Web数据集成技术做一些有意义的事(好好活就是做有意义的事,做有意义的事就是好好活),因此才有了Jobtong系统的开发以及在此基础上构建的工作信息集成网站:工作通。
但是工作通的应用领域只是工作信息集成与发布,而这个领域是有很强的时间序列性,也就是每年的一个特定时间段,针对一个特定人群(当然,主要是大学毕业生)...查看全文

Pages (2): [1] 2 »