2009年7月28日 22:06
最近我们在通过使用Eclipse3.4版来开发部署Hadoop的工程以及Hbase的工程。不过首要条件是需要先将Hadoop在本地部署起来。在本地下载部署Hadoop源代码的时候,需要注意几点:
1、Hadoop需要在Linux/Unix下进行工程部署
如果打算在Windows下使用Eclipse来部署Hadoop工程,需要安装Linux虚拟环境。所以还是建议直接在Linux下使用Eclipse部署Hadoop。
2、添加两个software update
http:...
No Comments »
2009年7月26日 20:12
IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现。经过与mmseg4j-1.7.2、庖丁解牛等其它中文分词程序比较后发现,IKAnalyzer的中文分词效果好,程序调用简单。所以采用IKAnalyzer作为我们中文分词的程序。
调用IKAnalyzer来进行中文分词的代码十分简单:
/**
* 传入一个中文语句,返回一个List列表,列表中的每...
2 Comments »
2009年7月22日 16:54
Sun公司开发了Java,这一创新性的编程语言发布十几年来,已经风靡全球,成为最广为使用的编程语言之一。不过,一个好的编程语言,还需要一个好的开发环境,为此,IBM开发了Eclipse这个集成开发环境,又大大方便了Java的推广与使用。Eclipse的中文意思是日食,俗称“天狗吃太阳”。不知道IBM当初给这个IDE命名的时候,是不是希望把Sun这个太阳吃掉?不过,总而言之,不管...
No Comments »
2009年7月19日 23:28
对于树结构(典型的为二叉树),通常可以使用深度优先遍历和广度优先遍历两种方法来进行树节点的浏览,这些都是最基本的算法。以下就提供一个对于树形索引使用深度优先遍历的代码示例,由于代码中涉及到对于别的方法的调用,因此仅供参考,感兴趣的人理解算法思想即可。
package com.databese.index.bplustree;
import java.io.BufferedWriter;
import jav...
No Comments »
2009年5月27日 13:17
随着计算机以及编程语言的不断发展,或许我们现在对于各种类型变量的上限已经不如C语言中的那么敏感。例如,int类型(整型)的变量,它的上限值已经远远超过以前C语言中的整型变量的上限。在一个典型的C语言中,int型变量的范围为-32768~32767,而在java中,int型的变量的范围就达到了-2147483648 到2147483647。因此,通常情况下,我们不用考虑溢出问题。但是,最近我在使...
No Comments »
2009年4月21日 23:55
前段时间,传言IBM欲花费65亿美元洽购Sun公司,结果最后Sun董事会觉得IBM的收购报价过低,于是拒绝了IBM提出的收购报价。
结果昨天晚上,全球第二大的软件公司Oracle(甲骨文)宣布以74亿美元收购Sun。甲骨文CEO拉里·埃里森(Larry Ellison)说,“我们收购Sun将改变IT业,整合第一流的企业软件和关键任务计算系统。甲骨文将成为业界唯一一家提供综合系统的厂商,系统的性...
No Comments »
2009年3月29日 20:34
Java版本发展速度很快,从几年前的JDK1.4,到现在的JDK1.6 Update13,基本上一两个月就会有一个新的JDK/JRE版本出来。不过,在公司里,似乎JDK1.4.2仍然占据很大一部分:因为这个版本被证明是十分稳定的。
因此,你可以会遇到这样的情况,在本地开发时,使用的是JDK1.6版开发的,而部署服务器上所使用的JDK版本确实1.4的。这样就会导致无法运行程序的错误。
不过,如...
2 Comments »
2009年3月19日 15:59
据国外媒体报道,知情人士表示,IBM正在与Sun进行谈判,准备收购后者,收购金额可能超65亿美元,以加强IBM在网络、软件、金融和电信市场的业务。
知情人士称,尽管IBM与Sun在进行谈判,但谈判可能破裂,该交易可能不会发生。并指出,如果双方能够达成交易,IBM将至少向Sun支付65亿美元现金。该价格比Sun周二收盘价高一倍以上。
Sun公司开发的Java语言现在是使...
2 Comments »
2009年3月16日 17:21
今天在Java中想使用正则表达式来获取一段文本中的任意字符。于是很随意得就写出如下匹配规则:
(.*)
结果运行之后才发现,无法获得换行之后的文本。于是查了一下手册,才发现正则表达式中,“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。同时,手册上还有一句话:要匹配包括 '\n' 在内的任何字符,请使用像 '[.\n]' 的模式。于是我...
No Comments »
2009年3月5日 21:45
有时候,你可能需要从一段字符串String或者文本中抽取出或者说是过滤出日期或者时间,可以使用如下程序:
public String run(String text) {
String dateStr = text.replaceAll("\r?\n", " ");
dateStr = dateStr.replaceAll("\\s+", " ");
try ...
No Comments »