NO IMAGE

摘要

學習中文NLP,記錄學習歷程,順便弄個WIKI
持續更新中。。。。


Chapter 1

中文分詞

中科院計算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分詞器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清華大學THULAC https://github.com/thunlp/THULAC
斯坦福分詞器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分詞器 https://github.com/hankcs/HanLP
結巴分詞 https://github.com/yanyiwu/cppjieba
KCWS分詞器(字嵌入 Bi-LSTM CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer

詳情請看知乎文章: 其中竹間智慧 Emotibot的回答最有參考價值
https://www.zhihu.com/question/19578687

PS: 實測我的MBA Yosemite裝不了HIT-LTP (T.T)


Chapter3: 分詞技術

語料庫連結(在百度上搜尋了一些,發現能用的還是挺多):
1. 《某位不知名NLPer的整理》


常見的三種分詞技術

  1. 機械式分詞法(基於詞典)
  2. 基於語法和規則的分詞法
  3. 基於統計的分詞法(要考慮詞粒度等)