自然語言處理

1/22ページ

敏感詞過濾演算法

字串 多模式精確匹配(髒字/敏感詞彙/關鍵字過濾演算法)——TTMP演算法 之實戰F模式   字串 多模式精確匹配(髒字/敏感詞彙搜尋演算法)——TTMP演算法 之B模式概述 字串 多模式精確匹配(髒字/敏感詞彙搜尋演算法) 之演算法前傳II 字串 多模式精確匹配(髒字/敏感詞彙搜尋演算法) 之演算 […]

協方差矩陣, 相關係數矩陣

  變數說明: 設為一組隨機變數,這些隨機變數構成隨機向量,每個隨機變數有m個樣本,則有樣本矩陣                                                            (1) 其中對應著每個隨機向量X的樣本向量,對應著第i個隨機單變數的所有樣本值構成的 […]

搜尋引擎重複網頁發現技術分析

搜尋引擎重複網頁發現技術分析 中科院軟體所  張俊林 TIMESTAMP:2006年6月1日   一.  介紹 統計結果表明,近似映象網頁數佔總網頁數的比例高達全部頁面的29%,而完全相同的頁面大約佔全部頁面的22%。這些重複網頁有的是沒有一點改動的拷貝,有的在內容上稍作修改,比如同一文章的不同版本 […]

自然語言處理入門學習系列<一>

最近在學習和實踐自然語言處理相關的知識,在這個文件從頭到尾做個總結,防止自己忘記,也提供給新人來參考。本教程英文處理使用的是NLTK這個Python庫,中文處理使用的是jieba這個Python庫,主要是看July7月學習NLP視訊學習而來,如有侵權,立即刪除。Natural Language Pr […]

自然語言處理與機器學習技術部落格、學習資料精選[附網盤地址]

   自然語言處理與機器學習技術部落格、學習資料精選! 首先,恭喜點開了這篇文章的讀者,本文所提供的資料是免費的,小編不賣資料,是贈送資料! 今天咱們的學習社群裡有學員提出要推薦一些NLP方面的部落格、站點,因此小編整理了一下。順便贈送一些NLP方面的網盤資料。  自然語言處理與機器學習相關部落格和 […]

自然語言處理學習感悟——感覺自己好笨

學習自然語言處理也有幾天了,發現自己效率好低,一個函式看好久才明白是怎麼回事。實踐上也不盡如人意,很多寫法都是看了就忘,還要翻看自己之前的學習筆記。然而導師給定的畢設題目還是機器翻譯…… 其實一直有一個困惑,可能因為自己是理科出身,沒有工科式的思維,做什麼都想掌握透徹。而工科似乎更偏向於應用,只要能 […]

機器翻譯模型Transformer程式碼詳細解析

谷歌一個月前發了一篇論文Attention is all you need,文中提出了一種新的架構叫做Transformer,用以來實現機器翻譯。它拋棄了傳統用CNN或者RNN的定式,取得了很好的效果,激起了工業界和學術界的廣泛討論。本人的另一篇部落格也對改論文進行了一定的分析:對Attention […]

新浪微博使用者興趣建模系統架構

/* 版權宣告:可以任意轉載,轉載時請標明文章原始出處和作者資訊 .*/                                                      author: 張俊林 /*作者注:這是2011年左右新浪微博個人興趣模型的技術架構,所以你從中是看不到目前很多流行的N […]

問答系統(QA)0

現有的檢索系統,無論是受限領域的檢索還是網際網路搜尋引擎,一般都是基於關鍵字檢索(1.相關答案多2.意圖表達差3.語言層,未觸及語義層)。 Frequently Asked Questions,FAQ,即通過提取問題特徵進行相似度計算來返回排序後的答案, 問題解析:主要包括分詞、詞性標註、句法分析、 […]