echo ""; echo ""; echo ""; echo ""; if(!is_admin){echo "";} » Ubuntu下使用Java调用IKAnalyzer中文分词程序失效的解决方法 仲子说

2009-07-26

Ubuntu下使用Java调用IKAnalyzer中文分词程序失效的解决方法

Posted in Java, FreeBSD/Unix服务器 at 20:12 Author:仲远

标签:

IKAnalyzer??lucene2.0??API?????????????????????????Lucene Analyzer?????????mmseg4j-1.7.2????????????????????IKAnalyzer????????????????????IKAnalyzer????????????

??IKAnalyzer???????????????

  1. /**
  2. * ?????????????List???????????????String????????????
  3. */
  4. public static ArrayList<String> testJe(String testString) throws Exception {
  5.         ArrayList<String> tokenList = new ArrayList<String>();
  6.         Analyzer analyzer = new IK_CAnalyzer();       
  7.        
  8.         Reader r = new StringReader(testString);
  9.         TokenStream ts = (TokenStream) analyzer.tokenStream("", r);
  10.         Token t;
  11.         while ((t = ts.next()) != null) {
  12.             tokenList.add(t.termText());
  13.              System.out.println(t.termText());
  14.         }
  15.         return tokenList;
  16.     }

????????Windows???Eclipse???????????????????????????Linux????Ubuntu?????????????Java????????“??”??????IKAnalyzer1.4???GBK????????????linux?????Ubuntu???????UTF-8?????????Linux?Unix??????????????????

?????2??
1????????dic????Windows?????jdk?nativetoascii.exe????GBK???UTF-8?
2???Dictionary???????load????InputStreamReader???????“UTF-8”?

?????????????????????1???IKAnalyzer1.4.jar??????IKAnalyzer1.4.jar????????org\mira\lucene\analysis\dict???????4????????????????UTF-8??“???”????????????????
2???????????zip??????????????????????org?META-INF?
3?????zip??jar???

??????jar?????IKAnalyzer1.4.jar???Ubuntu???????Java????????

??????????Ubuntu?Cron???????java??????????????????????????Linux??Cron??????????????????????????????????????????????????????????????????????????????UTF-8?

  1. #! /bin/bash
  2. . /home/wangzhongyuan/.profile
  3. LANG=zh_CN.UTF-8
  4. LC_ALL=zh_CN.UTF-8
  5. export LANG LC_ALL

????????????java????????Ubuntu?Cron???????????????

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

2 Comments »

  1. 张鹏 said,

    2009年July27日 at 0:12

    哈,师兄好。我用过类似的一个俄罗斯人写的sphinx搜索引擎,并将sphinx成功运用在晒晒网(www.shaishai.cc)。关于lucene我不太清楚,我唯一知道的是lucene php版的不太好。不过我的一个朋友告诉我,lucene和sphinx对于大数据效果都不太好(他没有给我具体规模)。
    我想知道这个IKAnalyzer是否也是需要建立索引的?并且是否需要建立主索引+增量索引来更新数据?

  2. 仲远 said,

    2009年July27日 at 10:28

    这两个开源的搜索引擎都是非常有名的搭建全文搜索引擎的项目,用它们来搭建一个普通网站的全文搜索应该是绰绰有余了。

    IKAnalyzer实际上是实现了lucene的一些api,来实现的中文分词功能,而并不是用来建立索引的。

    lucene和sphinx都自带了分词功能,其中sphinx的中文分词据说已经很好,而lucene的中文分词也许还需要依靠IKanalyzer这个外部程序来改善一下。

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word