作者:淡江大學統計系 陳景祥老師
虛擬情境:
資訊出身的「專家」得意的對統計出身的同仁說,有了大數據,母體的資料都可以算
,不再需要統計了!
統計專家問:算一次要多久?
資訊專家說:四天,因為資料量超過 1 PB!
統計專家問:為什麼不乾脆隨機抽出 100 萬筆資料,1 秒就搞定?
結論:
1. 在現有的電腦硬體限制與成本考量下,計算速度太慢的 Big Data, 就算可以使用母體資料,實用性跟即時性都太差!
2. 不懂統計的人以為他們手上的資料就是「母體」。可是,除非這些資料都不再增加,那也僅僅是比較大的樣本而已(更何況,根本不算隨機樣本),怎麼有資格稱為「母體」呢?