這本Python爬蟲技術(shù)書是一個(gè)完整大數(shù)據(jù)應(yīng)用框架:從數(shù)據(jù)收集、分析到數(shù)據(jù)可視化、數(shù)據(jù)建模。本書各章節(jié)以實(shí)際案例為出發(fā)點(diǎn),對(duì)大數(shù)據(jù)分析、爬蟲技術(shù)應(yīng)用感興趣的小伙伴們來說,值得購買。 本書是一本通過實(shí)戰(zhàn)教初學(xué)者學(xué)習(xí)爬取數(shù)據(jù)、清洗和組織數(shù)據(jù)進(jìn)行分析和可視化的Python 讀物。書中案例均經(jīng)過實(shí)戰(zhàn)檢驗(yàn),筆者在實(shí)踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。本書共13 章,包括6 個(gè)核心主題,其一是Python 基礎(chǔ)入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計(jì)、代碼優(yōu)化、爬蟲效率優(yōu)化、無線端的數(shù)據(jù)采集、容錯(cuò)處理、反防爬蟲、表單交互和模擬頁面點(diǎn)擊;其三是Python數(shù)據(jù)庫應(yīng)用,包括MongoDB、MySQL 在Python 中的連接與應(yīng)用;其四是數(shù)據(jù)清洗和組織,包括NumPy 數(shù)組知識(shí),以及pandas 數(shù)據(jù)的讀寫、分組、變形,缺失值、異常值和重復(fù)值處理,時(shí)序數(shù)據(jù)處理和正則表達(dá)式的使用等;其五是綜合應(yīng)用實(shí)例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;很后是數(shù)據(jù)可視化,包括matplotlib 和pyecharts 兩個(gè)庫的使用,涉及餅圖、柱形圖、線圖、詞云圖等圖形,幫助讀者進(jìn)入可視化的殿堂。本書以實(shí)戰(zhàn)為主,適合Python 初學(xué)者及高等院校相關(guān)專業(yè)的學(xué)生閱讀,也適合Python 培訓(xùn)機(jī)構(gòu)作為實(shí)驗(yàn)教材。
|