東坡下載:內(nèi)容最豐富最安全的下載站!

幫助|文件類型庫|最新更新|下載分類|排行榜

搜索查詢電子工業(yè)辦公軟件壓縮解壓轉(zhuǎn)換翻譯時鐘日歷文檔管理電子閱讀漢字輸入文字處理刪除恢復(fù)計算器

首頁應(yīng)用軟件文字處理 → 盤古分詞(中英文分詞工具) V2.3.1.0 官方最新版

盤古分詞(中英文分詞工具)

盤古分詞(中英文分詞工具)V2.3.1.0 官方最新版

  • 大。194KB
  • 語言:中文
  • 平臺:WinXP
  • 更新:2013-07-07 11:3
  • 等級:
  • 類型:文字處理
  • 網(wǎng)站:http://pangusegment.codeplex.com/
  • 授權(quán):免費(fèi)軟件
  • 廠商:
  • 產(chǎn)地:國產(chǎn)軟件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
軟件介紹軟件截圖相關(guān)軟件軟件教程網(wǎng)友評論下載地址
盤古分詞提供的字典包括17萬個中文常用單詞,但這個字典依然不夠完整,如果要分詞更準(zhǔn)確,需要適當(dāng)維護(hù)一下這個字典。
中文人名的識別能力取決于 ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt 這三個文件,它們分別表示單子人名,
雙字人名的首字和雙字人名的尾字,如果有的人名沒有分出來,需要維護(hù)這三個文件。
中文分詞功能中文未登錄詞識別
盤古分詞可以對一些不在字典中的未登錄詞自動識別
詞頻優(yōu)先
盤古分詞可以根據(jù)詞頻來解決分詞的歧義問題
多元分詞
盤古分詞提供多重輸出解決分詞粒度和分詞精度權(quán)衡的問題
中文人名識別
輸入: “張三說的確實在理”
分詞結(jié)果:張三/說/的/確實/在理/
輸入 “李三買了一張三角桌子”
分詞結(jié)果:李三/買/了/一張/三角/桌子/
強(qiáng)制一元分詞
輸入 “張三說的確實在理”
分詞結(jié)果: 張(0,1)/張三(0,5)/三說的(1,1)/三(1,1)/說(2,5)/的(3,5)/確(4,1)/確實(4,5)/實(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁體中文分詞
輸入"我的選擇"
分詞結(jié)果: 我/的/選擇/
同時輸出簡體和繁體
輸入"我的選擇"
分詞結(jié)果:我(0,5)/的(1,5)/選擇(2,1)/選擇(2,5)/
中文詞性輸出
盤古分詞可以將以登錄詞的中文詞性輸出給用戶,以方便用戶做進(jìn)一步處理。
全角字符支持
盤古分詞可以識別全角的字母和數(shù)字
英文分詞英文分詞
英文單詞通常都是靠空格等符號分割,這個比較簡單,盤古分詞分英文自然也沒有什么問題。
英文專用詞識別
一些英文簡寫是字母符號混合,或者是字母數(shù)字混合,這個分詞起來就不能按照空格符號這樣分割了,對于字母符號混合的如 U.S.A ,
只要將這個詞錄入到字典中,盤古分詞就可以分出整詞。對于字母和數(shù)字混合的,盤古分詞會自動作為整詞輸出。
英文原詞輸出
英文大小寫同時輸出
其他功能停用詞過濾
對于一些標(biāo)點(diǎn)符號,連詞,助詞等有時候需要在分詞時過濾掉,盤古分詞提供一個 StopWord.txt 文件,用戶只要將需要過濾的詞加入到這個文件中,
并將停用詞過濾開發(fā)打開,就可以過濾掉這些詞。
設(shè)置分詞權(quán)值
盤古分詞可以讓用戶對如下特性設(shè)置自定義權(quán)值
1.未登錄詞權(quán)值
2.最匹配詞權(quán)值
3.次匹配詞權(quán)值
4.再次匹配詞權(quán)值
5.強(qiáng)行輸出的單字的權(quán)值
6.數(shù)字的權(quán)值
7.英文詞匯權(quán)值
8.符號的權(quán)值
9.強(qiáng)制同時輸出簡繁漢字時,非原來文本的漢字輸出權(quán)值。
*用戶自定義規(guī)則
字典管理
盤古分詞提供一個字典管理工具 DictManage 通過這個工具,你可以增加,修改,和刪除字典中的單詞
動態(tài)加載字典
通過字典工具增加,修改,和刪除字典中的單詞后,保持字典,盤古分詞會自動將新的字典文件加載進(jìn)去,而不需要重新啟動。
關(guān)鍵詞高亮組件
Lucene 提供了一個關(guān)鍵詞高亮組件,但這個組件對中文的支持不是特別好,特別是如果還有多元分詞的情況,處理的就更不好。
盤古分詞提供了一個針對中文和英文的關(guān)鍵詞高亮組件 PanGu.HighLight ,其對中文的支持要好于Lucene 那個高亮組件。
同義詞輸出(后續(xù)版本提供)
Lucene.net 接口及示例
在PanGu4Lucene 這個包里面有我做的一個盤古+Lucene 的簡單新聞搜索Web示例程序,Release 包里面有使用說明。
性能指標(biāo)
Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒,2線程分詞速度為 690K 字符每秒。
PC官方
安卓官方手機(jī)版
IOS官方手機(jī)版

盤古分詞(中英文分詞工具)截圖

下載地址

盤古分詞(中英文分詞工具) V2.3.1.0 官方最新版

熱門評論
最新評論
第 1 樓 美國CZ88.NET 網(wǎng)友 東坡網(wǎng)友 發(fā)表于: 2019/1/17 9:58:14
是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

支持( 0 ) 蓋樓(回復(fù))

發(fā)表評論 查看所有評論(1)
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字?jǐn)?shù): 0/500 (您的評論需要經(jīng)過審核才能顯示)

編輯推薦

報錯

請簡要描述您遇到的錯誤,我們將盡快予以修正。

轉(zhuǎn)帖到論壇
輪壇轉(zhuǎn)帖HTML方式

輪壇轉(zhuǎn)帖UBB方式