大數據

【陳景祥專欄】有了大數據卻不一定要用大數據

作者:淡江大學統計系 陳景祥老師

虛擬情境:

資訊出身的「專家」得意的對統計出身的同仁說,有了大數據,母體的資料都可以算
,不再需要統計了!

統計專家問:算一次要多久?

資訊專家說:四天,因為資料量超過 1 PB!

統計專家問:為什麼不乾脆隨機抽出 100 萬筆資料,1 秒就搞定?

結論:
1. 在現有的電腦硬體限制與成本考量下,計算速度太慢的 Big Data, 就算可以使用母體資料,實用性跟即時性都太差!
2. 不懂統計的人以為他們手上的資料就是「母體」。可是,除非這些資料都不再增加,那也僅僅是比較大的樣本而已(更何況,根本不算隨機樣本),怎麼有資格稱為「母體」呢?

教學課程請參考:
1.學習影片-R語言入門
2.學習影片-Big Data大數據採礦分析with R語言
3.學習影片-文字探勘與R語言實作