遇到:对日开辟语言管理

立陶宛语分词工具-Kuromoji 日本語単語割り切れツール:Kuromoji,-kuromojikuromoji

条件:对日开采语言管理

供给:分析词语,将词语中的韩文单词分割,转换方式。

分析:

  职务1:词语拆分

  职分2:调换方式

 

马耳他语的情势转变能够用kanavetor去达成 非常简单直接调用Kana类的convert方法就能够,在Kana的官英特网能够看看用法(纵然看不懂介绍,看到管网的报表应该也就一览无遗了~)。

驷马难追在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款特别好用的马耳他语分词工具,并且,分解后的词是能够自行将汉字,平假名等调换到カタカナ的,有近似必要的能够一直用那些而不用再去搜索其他工具了。Kuromoji笔者找到了多个本子,二个是kuromoji,0.7.7版本,官方网站络说捐赠给了apache,内置在Lucene的4.0,5.0本子里,由于忘记Lucene的用法,权且不思虑。其余二个版本是kuromoji-ipadic,这一个东东和kuromoji都以贰个专营商出的,不过略有区别,稍微切磋了一晃,kuromoji在使用的时候是不得不找到jar包,找不到源代码文件的,通过maven下载能够,但是gradle是引入不了的。而kuromoji-ipadic则是gradlle也得以援用,况且引进之后能够看来源码。别的kuromoji毕竟是原先的api,还恐怕有一部分小小的老毛病。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑那个api对英语汉字的识别率不及上面包车型地铁api(有个别简体拉脱维亚语汉字和非常生分的分辨不出去,终究是老版本),而且境遇不认知的汉字时token调用get方法会获得null。。。不提出利用。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new爆发发生实例的,所以只要您的工具或系统供给更改大量词汇,要留心不要做太多的new操作,不然会不快一点也不快异常慢,此时能够定义成静态常量大概单例情势。

接待我们商量和指教。

 

东瀛語単語割り切れツール:Kuromoji,-kuromojikuromoji
境况:对日开辟语言管理 要求:深入分析词语,将词语中的法语单词分…

务求:剖析词语,将词语中的土耳其共和国(Türkiye Cumhuriyeti)语单词分割,调换方式。

分析:

  职责1:词语拆分

  职责2:转变情势

 

朝鲜语的款式调换能够用kanavetor去落到实处 特别轻巧直接调用Kana类的convert方法就足以,在Kana的官英特网得以见见用法(纵然看不懂介绍,看到管网的报表应该也就一望而知了~)。

重在在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款相当好用的保加利亚共和国(Народна република България)语分词工具,并且,分解后的词是足以活动将汉字,平假名等调换来カタカナ的,有附近要求的能够一向用那些而不用再去搜索别的工具了。Kuromoji小编找到了两个版本,一个是kuromoji,0.7.7本子,官互连网说捐出给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,权且不思索。其他一个本子是kuromoji-ipadic,那一个东东和kuromoji都以一个厂家出的,不过略有区别,稍微切磋了一下,kuromoji在使用的时候是只好找到jar包,找不到源代码文件的,通过maven下载能够,可是gradle是引进不了的。而kuromoji-ipadic则是gradlle也能够援用,而且引入之后方可看看源码。其余kuromoji毕竟是原先的api,还会有一对非常的小的毛病。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑这一个api对土耳其共和国语汉字的识别率比不上下边包车型客车api(某个简体丹麦语汉字和极度生分的识别不出来,究竟是老版本),并且遭遇不认得的方块字时token调用get方法会获得null。。。不建议使用。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new发生产生实例的,所以只要您的工具或种类必要转移大批量词汇,要留神不要做太多的new操作,不然会比异常的慢极慢异常的慢,此时得以定义成静态常量或许单例情势。

迎接大家批评和指教。

 

相关文章