Spark作為新興的、應用范圍廣泛的大數(shù)據(jù)處理開源框架,吸引了大量的大數(shù)據(jù)分析與挖掘從業(yè)人員進行相關內(nèi)容的學習與開發(fā),其中ML是Spark 3.0機器學習框架使用的核心。本書用于Spark 3.0 ML大數(shù)據(jù)分析與挖掘入門,配套示例源碼、PPT課件、數(shù)據(jù)集、思維導圖、開發(fā)環(huán)境和作者答疑服務。本書共分13章,從Spark 3.0大數(shù)據(jù)分析概述、基礎安裝和配置開始,依次介紹ML的DataFrame、ML的基本概念,以及協(xié)同過濾、線性回歸、分類、決策樹與隨機森林、聚類、關聯(lián)規(guī)則、數(shù)據(jù)降維、特征提取和轉換等數(shù)據(jù)處理方法;*后通過經(jīng)典的鳶尾花分析實例,回顧前面的學習內(nèi)容,實現(xiàn)了一個完整的數(shù)據(jù)分析與挖掘過程。本書采取實例和理論相結合的方式,講解細致直觀,示例豐富,適合Spark 3.0機器學習初學者、大數(shù)據(jù)分析和挖掘人員,也適合高等院校和培訓機構人工智能與大數(shù)據(jù)相關專業(yè)的師生教學參考。
|