挖掘非結構化文字資訊:一種新的機器學習方法

NO IMAGE

本文翻譯自:http://www.ai-one.com/2012/02/13/mining-unstructured-text-a-new-machine-learning-approach/

轉載請註明出處

          我們覺得我們找到了一種通過挖掘非結構化話文字,用於解決特定領域問題的一般機器學習方法。這種方案解決了在知識管理方面的基本問題。

如何從難以描述的問題中找到資訊

        例如,你想指導兩個人在爭奪同一個空缺職位時誰更合適。你是通過使用何種屬性來作為一個複雜集合(例如一個人?),能讓你知道誰更合適?

 

如果最好的解決方案都潛藏在大量的非結構化資訊之後呢??? 

        比方說你想要吃個什麼藥-例如使用帶有一定副作用的化學藥品區對抗疾病,這種藥品可能使用了一種新發現促進代謝方式的方法。你如何在PutMed檢索210億的論文,找出2000種已知的最匹配的複合藥物呢?

 

如果文字資訊一直在變呢?

       如果你想通過一個人在facebook、twitter或者LinkedIn上說的話來提供個性化營銷你將怎麼做呢?你首先必須瞭解他們說話的含義,最精確的方式就是讓人們去閱讀並解釋他們的說話內容,因為人在理解複雜的語言上沒有什麼問題。但是讓電腦這麼做卻需要其他的方式:機器需要像人類一樣學習。他們必須懂得談話中含義的變化,如何消除其中的歧義,如何確定一個最重要的概念等等。

 

大資料意味著更大的機遇

         這些都是一些大資料問題-但是他們很難解決。找到一個解決方案可以改變很多事情,從我們如何發現新的藥品到社交媒體是如何傳播資訊給我們。

已經有許多試圖讓機器像人類一樣學習的嘗試了。人工智慧已經大膽預言這個問題將在50年內解決。但是,我們還沒有什麼有效地方法讓機器像人類一樣學習和理解。

         現在,比起以往任何時候,我們都能通過挖掘非結構化文字資訊來找到一些方案。2012年2月,據稱網際網路已經有6億1400萬個網站。超過了1.8zettabytes(zettabyte = 1024 petabyte , petabyte = 1024terabyte).無數的非結構化文字資訊,文章,新聞等都在上面,這些都只是人們通過語言溝通的,而非數字。

        非結構化文字並不能像結構化資訊那樣處理。他需要讓知識能夠被機器處理並且以表格什麼的方式來處理。

        知識表示是一個廣闊的領域,裡面有非常多的工作以及創新要做,難以言表的多。然而,我們仍舊生活在一個絕大多數人(包括每個CIO,開發者和消費者)都不能快速查詢資訊的世界裡。更有甚者,文字資料分析挖掘都是專家們擅長的事情,他們呢使用一些比較難用的工具,有時候很難操作部署(因為這些都需要很高技巧的程式設計師來做)

我們建立了一個工具集,它可以使得每個程式設計師簡歷非結構化文字的資料探勘工具。

 

Ai-browser:人機互動原型

        在過去的幾個月裡,我們一直在找一些文字分析和資料探勘的新方法。想法就是通過建立一個工具,可以讓挖掘非結構化資料尋找最佳方案時的人機互動更加高效。

我們現在有了一個工作原型,叫做ai-browser,他可以解決知識管理和挖掘非結構化資料時的一些問題。他結合了自然語言處理(NLP)和模式識別的一些技術做出了一個比較精確地知識表達圖。我們組選用了OpenNLP,因為它是開源的,易於上手並且比較個性化,我們使用了Topic-Mapper API,進過分部分預處理後,在文字中檢測模式。這個系統同樣使得使用者使用本體 and/or 引用文章來細化結構。輸出就是一個圖,可以被第三方以很多方式使用。

提交給查詢工具:Google、Bing、Lucene等

分析模型工具:Cytoscape、Matlab、SAS等

用來彙報、知識管理和決策支援的一些企業工具

這個圖可以使提問簡單化“幫我找到一些像_______?”或者找到一組答案的結果,而不是需要幾百萬次點選才能出現的結果。

更厲害的是,ai-browser是一個很高效的工具,應用範圍非常廣泛。

         醫療– 醫療決議提供給一些給外科醫生,可以讓醫生能夠收到存在電子醫療記錄裡的更多相關資訊,做出更好地判斷。包括融合了與分析患者趨勢和關係的分析

社交媒體 – 檢測更總回話的敏感點(例如twitter),理解顧客的一些資訊

創新管理 – 發現資訊管理培養出更加高效產出與內部合作的一些方案。

資訊比較/校驗 – 決定在兩個內容資源中的相關性、差異性

人力資源 – 根據工作經驗最佳候選人的源頭、替換

Ai-browser的動機就是提供給開發者建立提供給客戶具體場合一些點。例如,修改系統可以給一下幾種場合一些解決方案:

         幫助醫生決定確診時是否需要額外的測試

         決定一個品牌是否在twitter是如何被理解的

         找出通過在PubMed上一些案例的一些使用,並且決定專利相關的一些問題

         確定股票市場加以方案,通過比較資訊源和一些相關公司和工業的一些問題

         通過上網找到一個工作的最合適人選“去年誰幹過這些工作”

 

企業資料探勘:快速、節約的方式

不像其他的資料探勘方式,ai-browser通過建立本體可以瞭解文字資訊,一個動態文件在各種資料元素間描述關係。通過提供上下文檢測而他們聯絡的關鍵詞。他描述了關鍵詞和他們提供的上下文之間的聯絡。這種關鍵詞的結合使得詞彙可以協作,例如x是關鍵詞,y是一些特定場合的聯絡。這些協作創造了一二寫文字的本體:G(V,E),G是圖,V是節點。代表每個詞彙,E是這些關鍵詞之間的聯絡

我們把這個圖叫“all-fingerprint”(全指紋)。它是一個知識表示模型。他通過展示上下文詞彙和聚簇的概念來捕捉文字中詞彙的意義。這是無損的一種方案因為他捕捉了直接連線圖直接的關係-因此展示了每個詞的意義,也可能出現了一次,但是對於一個大型複雜的文字集確是一個關鍵。

Ai-browser通過在REST中使用XGMML表達出全指紋資訊。這個可以使得他適應各種動態資料,因此他可以根據文字變化動態改變(例如社交資訊種子)

 

聯絡Olin Hyde來要一個ai-browser的呼叫。原始碼開放給所有程式設計師,並且可以修改它來解決具體問題。

微博請加:杜龍_hmily