filesystem

Spark把RDD資料儲存到一個單個檔案中

Spark是當前最流行的分散式資料處理框架之一,相比於Hadoop,Spark在資料的處理方面更加靈活方便。然而在最近的使用中遇到了一點小麻煩:Spark儲存檔案的的函式(如saveAsTextFile)在儲存資料時都需要新建一個目錄,然後在這個目錄下分塊儲存檔案。如果我們想在原有的目錄下增加一個檔 […]