vsm

文字特徵抽取的向量空間模型(VSM)和TF/IDF方法

文字特徵抽取 兩組小說,一組是愛情的,另一組是科幻的。我們能否用支援向量機訓練一個模型,用來識別小說型別呢? 這個並不容易。因為支援向量機這類機器學習演算法只能接受數學裡面的向量作為輸入。如果用它來做文字分類,必須先把文字轉化成向量才行。這就是涉及到一個很重要的話題,如何把文字轉化成向量? 把文字轉 […]

VSM向量空間模型對文字的分類以及簡單實現

1:對文字的分類,不管用什麼高階的方法,首先還是需要建立數學模型的,這個地方就用SVM來建立,他的原理是根據文字的特徵,比如一個文字有10個特徵(一般來說每個特徵是一個代表這個文字的關鍵詞),那麼這個文字向量大小就是10了。具體的每個值就是這個特徵的權重(關於權重的計算很多種,我這個地方只用了詞頻來 […]