分享|Strata Data Conference北京見聞

NO IMAGE

Strata會議講師PPT已經陸續上線,點選閱讀原文可以看到更多資訊。



本文轉自TalkingData公眾號。

在2017年這個炎熱的7月,由O’Reilly舉辦的Strata Data Conference 2017北京站繼去年之後第二次在北京舉辦。在去年,名字還叫做Strata Hadoop Conference,可能由於Hadoop已經不能夠完全代表Big Data,今年的系列峰會從年初San Jose站開始就改名為了Strata Data Conference。

由於是Committee的成員,與去年一樣,我仍舊參與了候選主題的評選,並主動報名了分會場主持。同去年一樣,我今年仍舊是主持了5B C的分會場,唯一的區別是去年僅僅主持的下午場,今年則是上下午全都是我主持的。

之所以報名參加主持,是我可以全天的從頭到尾聽一個主會場所有的內容,沒得選擇,有的時候就更專注。一天聽下來,還是有很多值得記錄下來的東西,這裡分享給大家。

Angel面向高維度的機器學習框架

上午主題演講結束後,5B C的第一個演講嘉賓是來自於騰訊的黃明。實話說,一直不知道阿里明風的真名是黃明。知道明風是大約3年前了,那個時候Spark剛剛在國內興起。而北京的Spark社群活動一直組織的不錯,TalkingData由於是國內比較早引入Spark的,因此在過往的Spark Meetup都有參加。

其中有一期在Intel舉辦的Spark Meetup就請了明風來做分享。當時明風的主要精力還是在Spark上進行圖計算相關的工作,分享的是GraphX相關的內容。再後來,就聽說明風離開了阿里,加入了騰訊。去了騰訊,自然不能用花名,於是就恢復了本名黃明。在騰訊,黃明主要負責的就是大規模機器學習相關的平臺的研發,這個平臺就是去年騰訊公開宣佈將要開源的Angel。在2017年6月份,Angel
1.0.0正式釋出。截止到今天,Angel在github上得到了1900多個star,算是一個不錯的成績了。

演講開始前,簡單的和黃明聊了一會兒,提到了他為什麼想做Angel。實際上,在大資料時代,如何解決在十億以上規模並且有上億以上維度的機器學習模型訓練效率變成了一個很大的挑戰。不同的公司有不同的做法,TalkingData的資料科學團隊基於Spark開發了自己的大規模機器學習庫Fregata並且做了開源。行業內更常見的做法是基於Parameter Server來解決並行處理的問題。

不過正如黃明所說的,目前並沒有很好的開源的基於PS的大規模機器學習平臺。Petuum在融資後選擇了閉源,而其他的幾個框架都轉型做其他的了。正式基於這個原因,騰訊選擇基於Parameter Server開發一套開源的大規模機器學習平臺。

從黃明的介紹看,整個平臺無論效能還是易用性上,都做得不錯。而且由於黃明本身是Spark社群的活躍分子,Angel可以支援Spark on Angel。這樣對於很多用Spark來做機器學習的同學來講,可以比較容易的利用Spark on Angel來實現大規模機器學習了。 有興趣的同學可以嘗試一下Angle和Fregata,並且做個對比的測試。

多檢視建模與半監督學習:應用於海量使用者資料探勘與行為分析

下午第一個主題是來自於聯想大資料的楊帆的這個題目。我對這個題目比較有興趣,因為他想解決的問題就是在訓練樣本不足的情況下,如果先用半監督學習來利用使用者行為資料進行樣本的擴充,然後再基於這些被擴充之後的樣本進行機器學習。這個主題的場景和我們目前基於裝置行為資料進行人口統計學的預測的場景類似。

以年齡為例子,他們的基本做法:

1. 用二部圖傳播的方法,迭代找到有明顯年齡段傾向的文件,並區分使用者年齡段。

2. 發現頻繁序列模式強規則,找到高置信度的樣本,補充到樣本池中

3. 同時用多個方法進行學習

4. 每個方法預測結果中的高置信度樣本都補充到標註集中

5. 迭代直到一定條件退出

6. 對多個方法的預測結果進行投票

7. 將最後補充後的標註集,訓練RFM特徵檢視下的LR模型,對新增資料進行預測。

拋開演算法選擇不提,整個思路對於樣本有限的機器學習來講,無疑非常值得借鑑。正好我們做性別預測的同事也聽了這一場,希望他能有所收穫。

欺詐的潛伏性:用大資料進行反欺詐檢測

這個演講來自於DataVisor中國區的負責人吳博士。DataVisor是今年比較炙手可熱的做防欺詐的公司。整個演講主要是講了常見的欺詐的型別,以及DataVisor發現的一些欺詐的典型的特徵。

整個演講的技術和演算法的東西不多,不過不同型別的網站、app面對的不同的欺詐的方法還是讓人比較有收穫的。近些年來防欺詐在不同領域都變得越來越重要,相信利用移動裝置上的行為資料,我們能夠探索出一些有價值的防欺詐模型,利用這些資料對不同領域的防欺詐提供支援和幫助。

GraphSQL圖資料和分析平臺

接下來的演講來自於GraphSQL。這是GraphSQL第一次亮相Strata做主題演講。不過GraphSQL和TalkingData算是老朋友了,在他們的產品還不成熟的時候我們就有過接觸。經過兩年的發展,GraphSQL終於比較成熟了。最近幾年無疑是圖演算法和圖儲存比較火熱的時期,而GraphSQL就是在這股熱潮中發展起來的。

演講嘉賓烏博士一直是從事資料庫的研發工作,在加入GraphSQL之前曾經是微軟、Oracle和Turn的資料庫核心研發成員,也是GraphSQL的前幾號的員工。這場演講主要講了GraphSQL的一些優勢以及設計理念,並且介紹了GraphSQL如何在移動運營商做實時的防詐騙。

在防欺詐這個領域裡邊,圖無疑是具備很大價值的。不過的確目前真正好用的圖資料庫並不多,Neo4j在一定資料規模下還可以,但是大規模的資料情況下,效能則是一個巨大的問題。我們在測試的ArangoDB雖然發展不錯,不過離成熟應該也還有很大的距離。包括與烏博士溝通,真正面臨一個非常大的圖的時候,GraphSQL也要去專門的做些工作在能支撐。

微軟的通用異常檢測平臺

最後的一個演講是來自微軟的Tony Xing,是微軟的通用異常檢測平臺的介紹。異常檢測對很多場景來說非常的有價值,比如系統運營狀況的異常檢測,商品銷售的異常檢測等等。微軟希望通過一個標準的平臺,實現對輸入的資料進行異常點的檢測。

正如演講嘉賓所講,對於這個通用平臺來講,如何解決維度非常多的情況下還能夠高效能的完成異常檢測是個巨大的挑戰。具體到異常檢測演算法,實際上本身並沒有太多的可說的。

對於微軟的這個平臺來講,目前對維度很多的情況並不能很好的支援。結合TalkingData自己的業務來講,目前我們的業務運營和技術運營並沒有引入異常檢測能力,監控都是基於規則,這樣對於很多東西我們並不能發現問題。隨著資料的積累,我們也有必要在業務系統和技術運營系統引入異常檢測的能力,從而能夠更早的發現問題。

整個大會期間,遇到了不少熟人和朋友,國內的大資料的技術圈子不大,希望有更多的有質量的類似的會議。在9月中旬,TD將要舉辦智慧資料峰會,我們的技術專場將會有不少新興的大資料技術公司來分享,TalkingData的技術團隊也會有幾場乾貨滿滿的分享,歡迎同學們參加。

0?wx_fmt=png