2009-08-01

实验室组织去北戴河

Posted in 随笔, 实验室 at 0:56 Author:仲远 浏览量: 1,227

标签:,

又一周的忙碌,实验室暑期集中进入了尾声。

今天,实际上应该是昨天(31日),正在内测中的舆情监控系统遇到了让人惊出一身冷汗的意外,由于程序“漏洞”加上网页“意外”,导致后台数据库中的所有数据,全都被复制成为了同一条数据。就像黑客帝国中的史密斯一样,“程序数据有了自我复制能力”,一百多万条数据全都被同化,我惊出了一身冷汗。

好在冷静下来后,发现幸亏前两天备份了一次数据库用于做测试。所以我小心翼翼地从其中恢复出大部分的数据,但是仍然丢失了近几日的数据。这个“事故”充分告诉我们,数据库备份时非常非常重要的。还记得前几个月,又一次学校研究生院的考试数据库被误删,居然也没有任何备份,最后只好召集一般学生重新录入数据,真是暴汗啊~

言归正传,恢复数据,打上“补丁”之后,舆情监控系统又能够正常运作了。以下是监控到的近期一些热点关键字的关注度变化情况,与大家分享:

曾哥
曾哥

新股
新股

将心比心
将心比心

经济
经济

实验室今天(8月1日)组织所有同学到北戴河开会研讨,4号回来。这段时间没法更新网站了,呵呵。

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

5条评论 »

  1. haimi said,

    2009年8月4日 at 22:39

    这里的关键词是通过Ik Analyzer分词得到的吗? 我看分词器对分词很细,例如:轻量级的中文分词工具包 它分解成 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具
    这样单词有重复,想请教下是怎么解决的? 如果不算,这样不把一些词重复计算了? 结果大概会不怎么准确吧!

  2. 仲远 said,

    2009年8月5日 at 19:06

    是通过Ik Analyzer分词得到的,分词确实比较细,但正因为这样,才是我们想要的效果。词不会被重复计算。

  3. Haimi said,

    2009年8月6日 at 9:50

    是在IK Analyzer分词开发呢,还是过滤分词? 还有那个图中的帖子数量是什么意思,看不懂。

  4. 仲远 said,

    2009年8月7日 at 12:25

    就是使用IK Analyzer进行分词,词频统计是使用的我们的程序,帖子数量也是和我们的Application相关的,现在还没有对外发布。

  5. Haimi said,

    2009年8月7日 at 14:21

    嘻嘻,我现在也做这方面的东西,keyword的变化趋势,以后多交流。

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word