不知不覺中,人們進入了一個數(shù)據(jù)為王的時代。大數(shù)據(jù)的字眼以一種迅雷不及掩耳之勢進入人們的視野,更加強調了數(shù)據(jù)在這個時代的重要性。不管人們愿意或者不愿意,都在誠惶誠恐地擁抱著這個所謂的大數(shù)據(jù)時代。大數(shù)據(jù)的火熱也帶火了另外一個看上去有點神秘、有點距離感的學科:統(tǒng)計學。 為什么編寫本書 筆者作為一個在校園里學了11年統(tǒng)計學的資深學院派,深深地被這門學科打動:它有著數(shù)學的美感,充滿了哲學的智慧,并且透露出思辨的洞察力。你可以把它看作一種工具,或者一種武器。有了它,你可以事半功倍地直擊事物本質的規(guī)律。 筆者很想把這門學科分享給有興趣的人。這就是編寫這本書的初衷。 統(tǒng)計學本身就是大數(shù)據(jù)時代的一門重要學科。隨著大數(shù)據(jù)逐漸走進公眾的視野,統(tǒng)計學也必然會迎來更多的關注。這就意味著,越來越多的非統(tǒng)計學專業(yè)人士會了解統(tǒng)計學、應用統(tǒng)計學。人們也必然需要更多的統(tǒng)計學讀物。 據(jù)筆者觀察,市場統(tǒng)計學的教材大多像教科書,充斥著枯燥的公式和深奧的理論。當然,也有一些幽默風趣、深入淺出的入門書籍,如查爾斯?韋蘭的《赤裸裸的統(tǒng)計學》(Naked Statistics),但也因為是外國作品編譯的問題,在語言和寫作方式上很難符合東方人的閱讀習慣。 這本書討論大數(shù)據(jù),討論統(tǒng)計學,更討論二者之間千絲萬縷的聯(lián)系。大數(shù)據(jù)時代將迎來技術的變革,以及工作方式和思維模式的變革。大數(shù)據(jù)時代也挑戰(zhàn)著傳統(tǒng)統(tǒng)計學的思維和研究模式。統(tǒng)計學這門學科是將要面臨江河日下的被取代的危機,還是迎來一個破繭而出的春天?本書試著拋磚引玉地給出一部分答案。 大數(shù)據(jù)時代,對于統(tǒng)計學來說,是最好的時代,也是最壞的時代。統(tǒng)計學,必須與時俱進,勇敢地接受大數(shù)據(jù)時代的挑戰(zhàn)和變革,才會走得更長遠。而大數(shù)據(jù),沒有了統(tǒng)計學思維的輔助、修正和補充,當熱潮退去,也只能在這個浮躁的時代中漸漸被人們遺忘。 本書特點 本書從當下熱門話題大數(shù)據(jù)切入,引入與之息息相關的統(tǒng)計學。深入淺出地講述了在“數(shù)據(jù)為王”的時代下,統(tǒng)計學作為分析、解讀數(shù)據(jù)的學科,如何為商業(yè)、社會、生活等領域提供決策支持。 熱門性——業(yè)界和學術界熱議的詞“大數(shù)據(jù)”對大多數(shù)人來說仍是“猶抱琵琶半遮面”。 經(jīng)典性——久經(jīng)時間考驗的統(tǒng)計學理論仍是實踐中數(shù)據(jù)處理的重要依據(jù)。 洞察性——站在統(tǒng)計學哲學的思想高度對時下熱門話題進行分析思考。 前瞻性——下一個時代是數(shù)據(jù)的時代。無論什么行業(yè),未來都是數(shù)據(jù)生意。 本書和市面上很多書籍相比,有兩點最具特色: 本書將統(tǒng)計學和大數(shù)據(jù)結合在一起,探討兩者的差異和相關性。 本書行文按照【案例】+【知識點】+【分析】的結構,清晰明了。應用的案例也都和人們的生活息息相關,更符合國人閱讀習慣,更具代入感和認同感。 本書內容 本書共分為8章,各章內容如下。 第1章 大數(shù)據(jù)時代下的統(tǒng)計學,講解了統(tǒng)計學的基本原理、應用領域及數(shù)據(jù)的獲取方法。 第2章 樣本魅影,重點介紹了統(tǒng)計學最核心的思想,即用樣本信息推論總體,并和大數(shù)據(jù)的推論思想進行比較,強調二者在實踐中結合使用的重要性。 第3章 描述數(shù)據(jù),告訴讀者面臨大量數(shù)據(jù)的時候,如何迅速提煉出有用信息,以一種直接、感性的方式勾勒出隱藏在冷冰冰的數(shù)據(jù)背后的內涵。 第4章 正態(tài)女神,隆重推出了統(tǒng)計學最經(jīng)典、最重要、最具代表性的一個分布——正態(tài)分布,詳細介紹了關于正態(tài)分布的理論、應用和相關的知識點。 第5章 統(tǒng)計推斷,講述了統(tǒng)計推斷是用樣本來估計總體的,是一種具有科學依據(jù)的合理猜測,盡管它不可能百分百準確,卻對人們認知事物有著不可估量的作用。 第6章 變量間的關系,從大數(shù)據(jù)思維的其中一個角度切入,即強調事物的相關關系而非因果關系,重點講述了究竟什么是相關關系,它的統(tǒng)計學內涵、方法及應用。 第7章 統(tǒng)計雜談,以一種漫談的方式,深入淺出地講解了統(tǒng)計學一些熱門應用的理論。特別強調了這些理論在實踐中的誤用,并告訴讀者正確的使用方法和解讀方法。 第8章 大數(shù)據(jù),在水一方,探討了大數(shù)據(jù)巨大的商業(yè)價值,除此之外還強調如何從大數(shù)據(jù)中獲取洞察力和決策力。 關于作者 本書由楊軼莘主筆編寫,其中第6章由王輝撰寫。 楊軼莘:瑞典厄勒布魯大學商學院統(tǒng)計學博士畢業(yè),北京諾貝倫思教育咨詢有限公司高級咨詢師,旗下商學院CN網(wǎng)站聯(lián)合創(chuàng)始人和網(wǎng)站知識分享類微信節(jié)目《楊博夜話》制作人和主持人。 王輝:北京大學匯豐商學院金融學(數(shù)量金融方向)研究生。善于統(tǒng)計綜合評價方法的應用、金融計量學、經(jīng)濟計量分析領域的研究。2013—2014年,主持項目《社區(qū)養(yǎng)老現(xiàn)狀和需求研究》,獲第四屆全國大學生市場調查分析大賽一等獎和第三屆海峽兩岸市場調查分析大賽二等獎。2014—2015年,參與朱喜安教授的國家社科基金課題《綜合評價方法的優(yōu)良標準研究》。 作者簡介 楊軼莘:瑞典厄勒布魯大學商學院統(tǒng)計學博士畢業(yè),北京諾貝倫思教育咨詢有限公司高級咨詢師,旗下商學院CN網(wǎng)站聯(lián)合創(chuàng)始人和網(wǎng)站知識分享類微信節(jié)目《楊博夜話》制作人和主持人。 王輝:北京大學匯豐商學院金融學(數(shù)量金融方向)研究生。善于統(tǒng)計綜合評價方法的應用、金融計量學、經(jīng)濟計量分析領域的研究。2013—2014年,主持項目《社區(qū)養(yǎng)老現(xiàn)狀和需求研究》,獲第四屆全國大學生市場調查分析大賽一等獎和第三屆海峽兩岸市場調查分析大賽二等獎。2014—2015年,參與朱喜安教授的國家社科基金課題《綜合評價方法的優(yōu)良標準研究》。
目錄: 第1章 大數(shù)據(jù)時代下的統(tǒng)計學1 1.1 統(tǒng)計學——天使還是惡魔1 【知識點】統(tǒng)計學的定義1 1.2 概率——上帝的指引3 【案例1】硬幣的指引3 【案例2】賭徒的錯覺3 【知識點1】隨機性4 【知識點2】概率4 1.3 小概率事件必然不會發(fā)生的事件6 【案例】挑戰(zhàn)者號航天飛機(STS Challenger)失事6 【知識點】“必然會發(fā)生”和“必然不會發(fā)生”的事件6 1.4 你真的了解數(shù)據(jù)嗎7 【案例】淘寶的客戶評價體系8 【知識點】數(shù)據(jù)的類型8 1.5 數(shù)據(jù)來自哪里10 【案例】大數(shù)據(jù),大偏差——谷歌的流感預測模型真的靠譜嗎10 【知識點1】二手數(shù)據(jù)11 【知識點2】相關關系和因果關系11 第2章 樣本魅影14 2.1 樣本——窺一斑而見全豹,觀滴水而知滄海15 【案例1】客戶滿意度調查15 【案例2】救護車壟斷業(yè)務調查16 【知識點】隨機樣本,方便樣本和自愿回應樣本17 2.2 抽樣——嘗一勺鍋里的靚湯18 【案例1】紅豆和綠豆18 【案例2】“捉放法”估算魚苗成活率19 【案例3】被解雇的市場調研部員工20 【知識點1】簡單隨機抽樣21 【知識點2】抽樣中存在的錯誤風險22 【知識點3】訪問員23 2.3 不回應誤差——沉默不是金24 【案例】不回應的影響有多大24 【知識點1】不回應(Nonresponse)24 【知識點2】如何降低不回應率25 2.4 措辭的藝術——僧推/敲月下門26 【案例1】娛樂圈話題:鋒菲戀26 【案例2】幾字之差對于民眾支持率的影響27 【案例3】雙重否定的疑惑28 【知識點1】響應誤差(Response Error)29 【知識點2】有效性(Validity)和可靠性(Reliability)29 2.5 大數(shù)據(jù)時代,當“樣本”已成往事31 【案例】Farecast,美國創(chuàng)業(yè)夢31 【知識點】大數(shù)據(jù)的4V特征32 第3章 描述數(shù)據(jù)34 3.1 均值——可能會說謊的天平34 【案例1】中關村創(chuàng)業(yè)者平均39歲34 【案例2】令人啼笑皆非的統(tǒng)計局數(shù)據(jù)35 【知識點】均值計算36 3.2 尋找中位數(shù)——排序,數(shù)到中間37 【案例1】騰訊筆試題:大數(shù)據(jù)量尋找中位數(shù)37 【案例2】淘寶賣家評分體系38 【知識點1】求取中位數(shù)39 【知識點2】四分位數(shù)40 3.3 標準差、標準誤,傻傻分不清楚42 【案例1】均值-方差證券資產(chǎn)組合理論42 【案例2】語文成績調研42 【知識點1】標準差(Standard Deviation)43 【知識點2】標準誤(Standard Error)43 3.4 圖形替數(shù)據(jù)說話——“剩女”和相親市場46 【案例】“剩女”和潛力巨大的相親市場46 【知識點1】餅狀圖(Pie Chart)48 【知識點2】條狀圖(Bar Chart)49 【知識點3】散點圖(Scatter Plot)50 3.5 數(shù)據(jù)可視化——“云想衣裳花想容”51 【案例】誰在開網(wǎng)店51 【知識點1】什么是數(shù)據(jù)可視化54 【知識點2】數(shù)據(jù)可視化主要應用領域55 【知識點3】數(shù)據(jù)可視化的工具55 第4章 正態(tài)女神57 4.1 期望——量化你的預期58 【案例1】擲骰子和伯努利試驗58 【案例2】賭場就是概率場59 【知識點1】概率分布60 【知識點2】期望(Expectation)61 【知識點3】方差62 4.2 大數(shù)定律——為什么十賭九輸63 【案例1】澳門風云63 【案例2】誰會是被騙的大傻瓜64 【知識點】大數(shù)定律65 4.3 正態(tài)分布——大道至簡,大美天成65 【案例1】高爾頓釘板65 【案例2】女博士嫁人難,誰之過67 【知識點】正態(tài)分布68 4.4 中心極限定理70 【案例】肯家和麥家的博弈70 【知識點】中心極限定理70 第5章 統(tǒng)計推斷74 5.1 點估計——統(tǒng)計學家比間諜干得漂亮75 【案例1】二戰(zhàn)中的德軍坦克數(shù)75 【案例2】首家新鮮咖啡速遞服務企業(yè)76 【知識點1】樣本統(tǒng)計量和總體參數(shù)77 【知識點2】點估計77 5.2 置信區(qū)間——責善切戒盡言79 【案例】美國蓋洛普公司的民意調查79 【知識點1】置信水平79 【知識點2】置信區(qū)間80 5.3 兩類錯誤:有罪被判無罪和無罪被判有罪哪個更嚴重81 【案例1】法律中的人文精神81 【案例2】抗擊埃博拉要避免兩類錯誤82 【知識點1】零假設和備擇假設84 【知識點2】兩類錯誤84 5.4 假設檢驗——“湊巧”可以拒絕嗎85 【案例1】奶茶情緣85 【案例2】咖啡新鮮嗎87 【知識點1】顯著性水平88 【知識點2】p值88 【知識點3】統(tǒng)計顯著88 【知識點4】統(tǒng)計顯著 vs. 實際顯著89 【知識點5】假設檢驗 vs. 置信區(qū)間89 【知識點6】單側檢驗 vs. 雙側檢驗90 5.5 p值——打開潘多拉魔盒的鑰匙92 【案例】金榜題名無望、少年得志夢斷92 【知識點1】p值的歷史和思想93 【知識點2】p值誤用94 第6章 變量間的關系96 6.1 卡方分析——細膩的眼神里豈容得半粒沙97 【案例1】仙道遲到事件發(fā)生率分析97 【案例2】性別和文化程度是相互獨立的嗎98 【知識點1】卡方分布99 【知識點2】卡方檢驗100 6.2 相關性分析——早起的鳥兒有蟲吃102 【案例1】早起的鳥兒有蟲吃102 【案例2】化妝品銷售額與廣告費的關系分析103 【知識點1】相關關系104 【知識點2】相關分析105 【知識點3】相關表、相關圖和相關系數(shù)106 【知識點4】相關系數(shù)t統(tǒng)計量107 6.3 ANOVA——地域,我們沒有什么不同107 【案例】地域歧視問題107 【知識點1】方差分析108 【知識點2】方差分析統(tǒng)計模型109 【知識點3】離差平方和及其分解110 【知識點4】均方111 【知識點5】AMOVA F統(tǒng)計量112 【知識點6】方差分析表113 6.4 回歸分析——對不起,其實我也想長高117 【案例1】子女身高遺傳學的發(fā)現(xiàn)117 【案例2】身高地區(qū)差異分析117 【知識點1】回歸分析119 【知識點2】隨機誤差項119 【知識點3】最小二乘法120 【知識點4】回歸分析T檢驗121 【知識點5】回歸分析F檢驗122 【知識點6】擬合優(yōu)度R2123 第7章 統(tǒng)計雜談124 7.1 為什么對回歸情有獨鐘124 【回歸和電影】126 【回歸和手游】128 7.2 調查問卷中的分類變量132 【疼痛】133 【Rank-Invariant】134 【Svensson Method】135 【工作環(huán)境和員工滿意度】136 7.3 條件概率和更多的信息138 【生男生女的問題】139 【門后的世界:到底是誰錯了】140 7.4 極大似然估計——看起來最像142 【白狐,iphone 6 plus和房價】143 7.5 R you happy145 【名門閨秀SAS】145 【國民初戀SPSS】146 【小家碧玉Stata、Minitab、Excel】147 【清新蘿莉R】148 7.6 貝葉斯149 【起源】150 【定義】150 【自拍桿和藍牙耳機】152 7.7 來自星星的統(tǒng)計陷阱155 【被黑的統(tǒng)計機構】155 【統(tǒng)計局的無奈】157 【王老吉狀告加多寶】158 第8章 大數(shù)據(jù),在水一方161 8.1 洛陽紙貴——大數(shù)據(jù)思維161 【案例1】罩杯和敗家程度166 【案例2】外灘踩踏悲劇167 【案例3】大數(shù)據(jù)和途牛網(wǎng)169 8.2 大數(shù)據(jù)驅動運營171 【案例】DataEye,數(shù)據(jù)驅動手游運營175 8.3 商業(yè)智能——決策者的錦囊177 【案例】廣告業(yè)的商業(yè)智能178 8.4 市場智能——商業(yè)智能的衍生智慧179 8.5 消費智能——當數(shù)據(jù)成為一種服務182
|