际遇:对日开采语言管理

供给:深入分析词语,将词语中的意大利语单词分割,转变形式。

分析:

  职务1:词语拆分

  职务2:转换情势

 

拉脱维亚语的款型调换可以用kanavetor去得以达成 很简单直接调用Kana类的convert方法就足以,在Kana的官网络得以看来用法(尽管看不懂介绍,见到管网的表格应该也就了然入怀了~)。

主要在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是生机勃勃款特别好用的斯拉维尼亚语分词工具,何况,分解后的词是能够活动将汉字,平假名等调换到カタカナ的,有像样供给的能够一向用这么些而不用再去找出其他工具了。Kuromoji我找到了多个本子,三个是kuromoji,0.7.7版本,官方网址络说捐出给了apache,内置在Lucene的4.0,5.0本子里,由于忘记Lucene的用法,一时半刻不考虑。别的二个本子是kuromoji-ipadic,这么些东东和kuromoji都以多少个公司出的,不过略有不一致,微微商量了生龙活虎晃,kuromoji在行使的时候是必须要找到jar包,找不到源代码文件的,通过maven下载能够,可是gradle是引进不了的。而kuromoji-ipadic则是gradlle也能够援引,况且引进之后可以看看源码。其他kuromoji毕竟是原先的api,还应该有局地微细的毛病。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑这几个api对俄文汉字的识别率比不上上面包车型客车api(有个别简体阿拉伯语汉字和特别生分的甄别不出去,究竟是老版本卡塔尔国,并且境遇不认知的汉字时token调用get方法会获得null。。。不提出采纳。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带生龙活虎提,kuromoji-ipadic由于是用new产临盆生实例的,所以生龙活虎旦你的工具或连串要求转移大批量语汇,要留心不要做太多的new操作,不然会相当慢非常慢相当的慢,那个时候得以定义成静态常量只怕单例形式。

招待大家批评和指教。

 

相关文章