盤古分詞可以對一些不在字典中的未登錄詞自動識別
詞頻優(yōu)先
盤古分詞可以根據(jù)詞頻來解決分詞的歧義問題
多元分詞
盤古分詞提供多重輸出解決分詞粒度和分詞精度權(quán)衡的問題
中文人名識別
輸入: “張三說的確實在理”
分詞結(jié)果:張三/說/的/確實/在理/
輸入 “李三買了一張三角桌子”
分詞結(jié)果:李三/買/了/一張/三角/桌子/
強(qiáng)制一元分詞
輸入 “張三說的確實在理”
分詞結(jié)果: 張(0,1)/張三(0,5)/三說的(1,1)/三(1,1)/說(2,5)/的(3,5)/確(4,1)/確實(4,5)/實(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁體中文分詞
輸入"我的選擇"
分詞結(jié)果: 我/的/選擇/
同時輸出簡體和繁體
輸入"我的選擇"
分詞結(jié)果:我(0,5)/的(1,5)/選擇(2,1)/選擇(2,5)/
中文詞性輸出
盤古分詞可以將以登錄詞的中文詞性輸出給用戶,以方便用戶做進(jìn)一步處理。
全角字符支持
盤古分詞可以識別全角的字母和數(shù)字
英文分詞英文分詞
英文單詞通常都是靠空格等符號分割,這個比較簡單,盤古分詞分英文自然也沒有什么問題。
英文專用詞識別
一些英文簡寫是字母符號混合,或者是字母數(shù)字混合,這個分詞起來就不能按照空格符號這樣分割了,對于字母符號混合的如 U.S.A ,
只要將這個詞錄入到字典中,盤古分詞就可以分出整詞。對于字母和數(shù)字混合的,盤古分詞會自動作為整詞輸出。
英文原詞輸出
英文大小寫同時輸出
其他功能停用詞過濾
對于一些標(biāo)點(diǎn)符號,連詞,助詞等有時候需要在分詞時過濾掉,盤古分詞提供一個 StopWord.txt 文件,用戶只要將需要過濾的詞加入到這個文件中,
并將停用詞過濾開發(fā)打開,就可以過濾掉這些詞。
設(shè)置分詞權(quán)值
盤古分詞可以讓用戶對如下特性設(shè)置自定義權(quán)值
1.未登錄詞權(quán)值
2.最匹配詞權(quán)值
3.次匹配詞權(quán)值
4.再次匹配詞權(quán)值
5.強(qiáng)行輸出的單字的權(quán)值
6.數(shù)字的權(quán)值
7.英文詞匯權(quán)值
8.符號的權(quán)值
9.強(qiáng)制同時輸出簡繁漢字時,非原來文本的漢字輸出權(quán)值。
*用戶自定義規(guī)則
字典管理
盤古分詞提供一個字典管理工具 DictManage 通過這個工具,你可以增加,修改,和刪除字典中的單詞
動態(tài)加載字典
通過字典工具增加,修改,和刪除字典中的單詞后,保持字典,盤古分詞會自動將新的字典文件加載進(jìn)去,而不需要重新啟動。
關(guān)鍵詞高亮組件
Lucene 提供了一個關(guān)鍵詞高亮組件,但這個組件對中文的支持不是特別好,特別是如果還有多元分詞的情況,處理的就更不好。
盤古分詞提供了一個針對中文和英文的關(guān)鍵詞高亮組件 PanGu.HighLight ,其對中文的支持要好于Lucene 那個高亮組件。
同義詞輸出(后續(xù)版本提供)
Lucene.net 接口及示例
在PanGu4Lucene 這個包里面有我做的一個盤古+Lucene 的簡單新聞搜索Web示例程序,Release 包里面有使用說明。
性能指標(biāo)
Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒,2線程分詞速度為 690K 字符每秒。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版