按月存檔:五月 2015

【張偉豪專欄】SEM中遠程中介如何用PRODCLIN2計算

在計算二因子因果模型的中介效應時,有一條需要計算的中介效應是由變量A到變量B再到變量C,如果是在這種情況下(涉及3個變量的中介路徑),應該如何用PRODCLIN2計算呢?

張偉豪老師回覆:
PRODCLIN2無法計算遠程中介的大小及顯著
如果要計算,請採用HAYES (2013)所提供的SPSS MACRO
安裝PROCESS,分析時請直接選擇MODEL 6進行分析即可

一哥​

補充說明:遠程中介的圖形

me01

 

最新課程請參考:PROCESS課程

【張偉豪專欄】AMOS遺漏值插補的時機

請問有關AMOS遺漏值插補的時機,是否是在問卷分析前先進行貝氏估計插補,還是在各構面下分別作插捕及模型修正?

張偉豪老師回覆:
一般來講,處理方式如下:
1.如果資料漏值不多,而樣本數較多,可以直接刪除有遺漏值的樣本即可
2.如果資料漏值不多,樣本數也不大,必須保留所有樣本,這時最簡單的方法是採用HOT DECK插補法,亦即找其它樣本填答的方式與有遺漏值樣本雷同的值直接代入。
3.如果遺漏值還真不少,這時就要看您的目的來決定要不要插補,如果您只是想將結果跑出來,並不需要完整沒有遺漏值的資料檔作後續分析,只要將View–>Analysis Properties –>Estimation–>Estimate Means and Intercepts打勾即可

amos-estimate means
如果要完整沒有遺漏值的資料檔作後續分析進行插補時,宜每個構面進行插補,除了可節省時間外,也可以了解插補後CFA分析的結果。

三星統計小提醒: 久久會遇到一次當機也會這樣,把軟體關掉重開就會正常了

最新課程請參考:結構方程模型課程

【張偉豪專欄】請問為何我在Amos分析時,無法在OUTPUT看到常態檢定的結果?

張偉豪老師回覆:

amos-analysis-properties

在Amos的OUTPUT無法看到常態檢定的結果大概有以下的原因:
1. 您沒有在View- >Analysis Properties->Output中的Test for Normality and Outlier選項打勾。

2.如果已經打勾了,仍是看不到,有可能您的輸入資料不是原始資料而是相關矩陣或共變異數矩陣。常態檢定的結果只有在資料為原始資料時才可以分析。

3. 如果您的資料是原始資料,但仍看不到常態檢定的結果,只剩一個原因,那就是原始資料中有遺漏值,而您將View-> Analysis Properties-> Estimation中的Estimate Means and Intercepts打勾。
註: SEM分析時是不允許資料中有遺漏值發生,除非將Estimate Means and Intercepts打勾。

4. 如果以上皆非,那就是農鬼七月,見鬼了ha, ha, ha…

最新課程請參考:結構方程模型課程

【張偉豪專欄】SEM結構方程模型的​​reciprocal effect能否用Amos跑?

張偉豪老師好:

最近讀了一篇期刊是跑,但是他是用MPLUS跑的,想請問張老師這能否使用AMOS跑呢?

 

張偉豪老師回覆:

AMOS當然可以執行reciprocal的模型
每一個SEM的軟體都可以執行
問題是能不能收斂
AMOS在非遞回路徑會估計穩定系數(stability Index)
如果在1以內(不知有沒有記錯,要再確認)表示模型會穩定
否則表示模型是發散的,不能用

一哥 20150513

最新課程請參考:結構方程模型課程

 

 

【陳景祥專欄】當統計專家遇上機器學習專家

作者:淡江大學統計系 陳景祥老師

今天收到某個合作的公司在上海那邊的人所寄來的一封 email,問到統計專家跟機器學習專家(machine learing) 的差異。我想了一下,回覆了這封 email,順便把我的看法在這裡跟大家分享。

Dear XXXXX,

在您所引述的文章中,Ryan Adams 說: “我认为统计学和机器学习最本质的区别在于根本目标不同。统计学家更关心模型的可解释性,而机器学习专家更关心模型的预测能力。”

身為一個也在研究機器學習的統計學家,我必須說,他的角度是錯的,或者說是偏頗的。因為,統計學家當然也關心預測能力。

統計學家跟機器學習專家的差異,在於機器學習專家很少有懂統計的,但是統計學家跨入學機器學習領域卻是非常容易。

事實上,機器學習源於資訊科學領域 (Computer Science),但資訊科學本身並不像統計領域那麼難入門。舉例來說,我在美國留學的時候,當時就見到不少大陸去唸書的女孩子從中文系、歷史系等文科領域直接跳到資訊電腦相關研究所,而且都很快就能進入狀況。反過來說,要掌握統計相關專業卻不是那麼容易。

我這十幾年指導統計研究生的心得是,他們通常都能在很快的時間內(例如半年)搞定機器學習跟程式語言(programming languages)相關的專業,但我們卻無法期待資訊電腦專家們在兩三年內知道統計領域的專業知識。

不管是統計專家或機器學習專家,甚至是太空物理學家,基本上都是想要建立模型(models)來詮釋這世界的種種現象,但主要的差別在於,統計模型有考慮了隨機誤差,並且對隨機誤差有一整套嚴密的解釋體系,但其他領域的專家所建立的模型未必有考量到隨機誤差。

所以主要的差別在於:
一般科學模型: Y = f(X1,X2,…,Xk)
統計模型: Y = f(X1,X2,…,Xk) + 隨機誤差

如果自然界與人類社會的種種現象沒有這個隨機誤差的存在,整個統計領域可以完全消失也無所謂。但事實當然不是這樣。

此外,過度重視「預測能力」也會有誤導的可能性:所謂的「預測能力好」,到底只是特定時間(某幾個月?)、特定空間(只限於某個國家某個地區中的某個公司?) ?還是這樣的模型在不同時空狀況下表現就很差?

接觸過機器學習、資料探勘、類神經網路(Artificial Neural Network)的人大概都知道,如果沒有整個母體(Population)的模型假設加上隨機誤差模型的搭配,很多號稱「表現很好」的模型,其實過一陣子就都會完蛋,也因此經常需要持續不斷的微調參數。可是,話說回來,一個經常需要不斷調整的模型,能夠認為它表現很好嗎?

我最後做個小結論:

1. 機器學習領域往往是透過過去收集的(大量)資料來當作預測的基礎。如果過去的資料並不完整,無法包含所有可能的狀況,這時候機器學習所得的模型就算短時間內預測很精準,但很快就會完蛋。相反的,有考量母體隨機特性的統計模型,因為模型本身就已經把各種可能性都包含在內,就比較不會受到過去局部資料的太大影響。

2. 機器學習相關技術如果有採納「隨機誤差」的觀念,其實就可以視為是統計模型,所以兩者之間的區分並不是那麼的嚴格。反過來說,除非是像 E = m(C 平方) 這種純物理學模型,不考量隨機誤差現象的任何模型,基本上都是局部的、暫時的,無法長遠表現良好。事實上,很多很厲害的物理學家們在量子力學裡面使用了非常高階的統計模型在分析資料,但這樣的睿智未必能在機器學習領域看到。

教學課程請參考:
1.學習影片-R語言入門
2.學習影片-Big Data大數據採礦分析with R語言
3.學習影片-文字探勘與R語言實作

 

【陳景祥專欄】有了大數據卻不一定要用大數據

作者:淡江大學統計系 陳景祥老師

虛擬情境:

資訊出身的「專家」得意的對統計出身的同仁說,有了大數據,母體的資料都可以算
,不再需要統計了!

統計專家問:算一次要多久?

資訊專家說:四天,因為資料量超過 1 PB!

統計專家問:為什麼不乾脆隨機抽出 100 萬筆資料,1 秒就搞定?

結論:
1. 在現有的電腦硬體限制與成本考量下,計算速度太慢的 Big Data, 就算可以使用母體資料,實用性跟即時性都太差!
2. 不懂統計的人以為他們手上的資料就是「母體」。可是,除非這些資料都不再增加,那也僅僅是比較大的樣本而已(更何況,根本不算隨機樣本),怎麼有資格稱為「母體」呢?

教學課程請參考:
1.學習影片-R語言入門
2.學習影片-Big Data大數據採礦分析with R語言
3.學習影片-文字探勘與R語言實作

【陳景祥專欄】如何預測一篇文章到底是正評、中立、還是負評?

作者:淡江大學統計系 陳景祥老師

文字探勘的情感分析就是取代人力,用電腦預測文章的正評或負評,

進一步就可以收集/偵測網路輿情。

網路上可以抓到的旅館住宿客戶正負評價資料,總共 4000 筆留言。

初步簡單模型分析出來,訓練樣本預測正確率 99.97%,預測樣本的預測正確率 90.75%

接下來的模型還可以再用更複雜的 algorithms 來提升預測正確率

教學課程請參考:
1.學習影片-R語言入門
2.學習影片-Big Data大數據採礦分析with R語言
3.學習影片-文字探勘與R語言實作

【謝章升專欄】Facebook廣告的地點鎖定方式改版

你是一個義大利麵控,去到哪都要吃義大利麵,
結果有一天你出外旅行,打開手機滑FB的時候,發現附近的一間義大利麵餐館廣告出現在你的手機上…

這是目前已經發生的應用,Facebook廣告的地點鎖定方式又在這幾天悄悄改版,在以往宣稱可以把居住在該地方與手機進到該地方的人鎖定,讓他們看到廣告,目前又更進一步的細拆成(詳細請見圖):

1.位於此地點的所有人
2.居住在此地點的人
3.最近在此地點的用戶
4.在此地點旅行的用戶
(這點我比較好奇FB怎麼設定,根據資料推測應該是紀錄定位軌跡判斷是旅行或是出差)

三星課程網 http://goo.gl/Ymifo1