短文字和長文字

文字資料的機器學習自動分類方法(上)

本文為第一部分,著重介紹文字預處理以及特徵抽取的方法。 隨著網際網路技術的迅速發展與普及,如何對浩如煙海的資料進行分類、組織和管理,已經成為一個具有重要用途的研究課題。而在這些資料中,文字資料又是數量最大的一類。“文字分類是指在給定分類體系下,根據文字內容自動確定文字類別的過程”(達觀資料科技聯合創 […]

文字特徵抽取的向量空間模型(VSM)和TF/IDF方法

文字特徵抽取 兩組小說,一組是愛情的,另一組是科幻的。我們能否用支援向量機訓練一個模型,用來識別小說型別呢? 這個並不容易。因為支援向量機這類機器學習演算法只能接受數學裡面的向量作為輸入。如果用它來做文字分類,必須先把文字轉化成向量才行。這就是涉及到一個很重要的話題,如何把文字轉化成向量? 把文字轉 […]

文字情感分析 python 正面和負面新聞 新浪微博 情感字典 機器學習

文字情感分析 從上一篇完成了對新浪微博的爬取,以及模擬登入的問題,小編又開始研究對微博文 本的正面和反面分析,從網上搜尋了好多方法,有機器學習和情感字典,可是機器學 習需要比較深的知識鏈,而小編還是小白,所以就選擇了情感字典方法。好了,直接 上程式碼嘛,直接可以執行的。 前提需要安裝相關的庫jieb […]