tf-idf

文字特徵抽取的向量空間模型(VSM)和TF/IDF方法

文字特徵抽取 兩組小說,一組是愛情的,另一組是科幻的。我們能否用支援向量機訓練一個模型,用來識別小說型別呢? 這個並不容易。因為支援向量機這類機器學習演算法只能接受數學裡面的向量作為輸入。如果用它來做文字分類,必須先把文字轉化成向量才行。這就是涉及到一個很重要的話題,如何把文字轉化成向量? 把文字轉 […]

自然語言處理系列之TF-IDF演算法

TF-IDF演算法 TF-IDF(詞頻-逆文件頻率)演算法是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。該演算法在資料探勘、文字處理和資訊檢索等領域得到了廣泛的應用,如 […]

TensorFlow與NLP(TF-IDF:垃圾簡訊檢測)

開篇 在NLP的前一篇文章,我希望關注的點就是我們文字的表示,說淺顯一點就是詞語的向量化,前面我們使用了one-hot編碼,使用詞袋模型,但是詞袋模型幾乎在現在的NLP任務中是不被使用的,只是作為一個入門的基礎,我們是需要慢慢過渡到我們要使用的詞向量去,當然在說詞向量之前,我們還是要提一下一個比較重 […]

python實現TF-IDF演算法解析

TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與資料探勘的常用加權技術。 同樣,理論我這裡不再贅述,因為和阮一峰大神早在2013年就將TF-IDF用一種非常通俗的方式講解出來 TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞 […]

TF-IDF、詞袋模型與特徵工程

如標題,TF-IDF與詞集詞袋模型都是資料預處理中常用的演算法,這裡展示一下這兩種演算法的聯合應用。 一. 詞集與詞袋模型 這個演算法的主要作用也就是對文字做單詞切分,有點從一篇文章裡提取關鍵詞這種意思,旨在用向量來描述文字的主要內容,其中包含了詞集與詞袋兩種。 詞集模型:單詞構成的集合,集合中每個 […]