spark實踐

1/14ページ

Spark XGBoost的一些問題

在使用Spark版本的xgboost的時候會有一些單機版本遇不到的問題,可能對使用的人造成一些困擾,經過兩週的踩坑,總結一下,希望有幫助 1、輸入、預測資料的一致性 Spark版本的XGBoost處理的輸入可以是RDD或者DataFrame。由於Spark的機制,在沒有顯式指定的情況下,是不會儲存R […]

用Spark和DBSCAN對地理定位資料進行聚類

機器學習,特別是聚類演算法,可以用來確定哪些地理區域經常被一個使用者訪問和簽到而哪些區域不是。這樣的地理分析使多種服務成為可能,比如基於地理位置的推薦系統,先進的安全系統,或更通常來說,提供更個性化的使用者體驗。 在這篇文章中,我會確定對每個人來說特定的地理活動區域,討論如何從大量的定位事件中(比如 […]

spark遠端debug之除錯spark on yarn 程式(基於CDH平臺,1.6.0版本)

簡介         由於spark有多種執行模式,遠端除錯的時候,雖然大體步驟相同,但是還是有小部分需要注意的地方,這裡記錄一下除錯執行在spark on yarn模式下的程式。 環境準備         需要完好的Hadoop,spark叢集,以便於提交spark on yarn程式。我這裡是基 […]