【陳景祥專欄】有了大數據卻不一定要用大數據

作者:淡江大學統計系 陳景祥老師

虛擬情境:

資訊出身的「專家」得意的對統計出身的同仁說,有了大數據,母體的資料都可以算
,不再需要統計了!

統計專家問:算一次要多久?

資訊專家說:四天,因為資料量超過 1 PB!

統計專家問:為什麼不乾脆隨機抽出 100 萬筆資料,1 秒就搞定?

結論:
1. 在現有的電腦硬體限制與成本考量下,計算速度太慢的 Big Data, 就算可以使用母體資料,實用性跟即時性都太差!
2. 不懂統計的人以為他們手上的資料就是「母體」。可是,除非這些資料都不再增加,那也僅僅是比較大的樣本而已(更何況,根本不算隨機樣本),怎麼有資格稱為「母體」呢?

【陳景祥專欄】如何預測一篇文章到底是正評、中立、還是負評?

作者:淡江大學統計系 陳景祥老師

文字探勘的情感分析就是取代人力,用電腦預測文章的正評或負評,

進一步就可以收集/偵測網路輿情。

網路上可以抓到的旅館住宿客戶正負評價資料,總共 4000 筆留言。

初步簡單模型分析出來,訓練樣本預測正確率 99.97%,預測樣本的預測正確率 90.75%

接下來的模型還可以再用更複雜的 algorithms 來提升預測正確率

【張偉豪專欄】SEM模型配適度好,裡面的線性關係為什麼不一定好?

學員問題:

SEM(結構方程模型)模型中有6條待驗證的線
只有2條顯著,其餘皆不顯著
但看到配適度的結果,發現各項指標都是出人意料的好
若這反應模型很好,那該如何解釋參數估計不顯著的問題呢?

張偉豪老師回覆:

一般人以為配適度好是與顯著性高低成正比,這是不對的
配適度指的是模型共變異數矩陣與樣本共變異數矩陣差異的大小
差異愈小或兩者愈相似,配適度就愈好
有時候當構面或題目之間相關較低時,當然會得到不顯著的結果
因為SEM是依單一構面準則設定模型
每個題目只會與一個構面相關
所以交叉負荷量均是假設為0
所以題目相關愈低,交叉負荷量愈有可能接近0
因此,會導致不顯著但卻會有良好的配適度
所以,配適度良好,只代表您的模型與資料相似性高
並不保證模型一定是對的(要靠理論證明)
也不保證所有的估計值均是顯著的

【張偉豪專欄】Bootstrap是有母數或無母數的方法?

三星統計 張偉豪老師回覆:

bootstrap是無母數的估計方法,主要是建立非對稱性的信賴區間,因為間接效果為直接效果的乘積,

必然不符合常態分配,因此無法採用一般常態分析的對稱區間.

可以參考 beyond baron & kenny 這篇文章 :
Hayes, A. F. (2009). Beyond Baron and Kenny: Statistical mediation analysis in the new millennium. Communication monographs, 76(4), 408-420.