論文研究-應用文字探勘與機器學習技術於探討好眠與失眠對於睡眠認知行為差異。
前言
出社會過了10年左右覺得大數據很夯其研究方法技術也可和UI與UX結合,也為了彌補學歷上的缺憾(一直讀的都是美術、設計相關)因此去考了非設計類碩士專班,很榮幸入取了北醫醫學資訊和輔大應用統計所。因為北醫上課時間的不能配合和覺得輔大師生的親切,最後選擇了輔大就讀。研究所就讀期間學習除了傳統的統計如假設檢定、階層式分群、回歸分析等等,也學了機器學習的技術如SVM、決策樹、隨機森林、ARIMA、文字探勘等非常充實。而我的畢業論文主要就是應用文字探勘技術,來分析好眠與失眠人士的說話表達差異,預測使用SVM、隨機森林和類神經網路,分析上有使用Weka、SPSS、R與Python。 下面只列出部分研究結果,詳細請見>>>論文全文連結 。
研究動機
失眠不單單只是單純的睡不好,其背後可能有廣大的沒有解決的心理問題,有可能是遺傳得來的性格,天生容易緊張、焦慮加上不良的睡眠習慣導致慢性失眠的生理認知。語言學家Slobin提出『我說故我在』(thinking for speaking),其概念是,語言是人們將知覺經驗轉化成語言。於失眠方面的研究,主要搭配不同的量表與問卷或搭配儀器來進行,而少有對於透過失眠者的“文字探勘”的研究。因此本研究希望從好眠與失眠者的失眠訪談對話和問卷中,運用文字探勘分析與機器學習,來探討好眠與失眠的認知與行為差異,來試圖了解其心理。如下圖1我們已知失眠受到心理影響,而心裡也影響人的說話,因此反過來是什麼樣的話語影響著失眠呢?
研究架構
本研究用PSQI失眠量表來確認失眠與好眠士,接著使用Morin和Espie的失眠訪談大綱進行訪談,每個人訪談時間約30分鐘,再把訪談錄音檔打成逐字搞,逐字稿每人約7800字。然後使用Pennebaker和黃金蘭等等學者研發的中文版語文探索與字詞計算CLIWC,把每個人的訪談大綱分成79個詞類,再把每個詞類做特徵選取選擇有預測力的詞類,接著選出失眠與好眠的詞類做預測,看是否可以準確預測,最後把可預測的詞做平均數檢定看是兩群說話是否有差,流程如圖二。同時本研究亦做了好眠與失眠人士的分群和關聯法則。
研究發現
研究發現其使用I-疑問詞、I-概數詞、I-因果詞和I-過去詞用SVM作預測時失眠時,其正確率可達到92.0%。而造成其失眠說話模式有,失眠與好眠族群對於問題的表達方式不同。好眠族群傾向直接提出心中的疑惑,例如遇到不懂的問題時會直接詢問“什麼”,而失眠族群則比較少提出“什麼”,其原因有失眠族群傾向“重複題目”來達到問問題的效果,例如“你剛剛是說…..嗎”,因此建議失眠者如和人交談時有不清楚的地方,可直接大方提問。 好眠族群的輪廓與睡眠行為為“上班族有穩定收入中年女”,睡眠時間6~7小時,有穩定的工作與收入和維持良好的日夜作息的功能。失眠的族群為“無收入中年女”,睡眠時間5~6小時,無穩定的收入,日夜作息的功能失調,失眠時間大約0.6年。 最後隱藏在好眠與失眠背後的關聯是,“正向情緒詞”比例高於2.83%為好眠,信賴度為0.88,支持度為0.36。 網路用語詞小於3.19%為失眠,信賴度為0.88,支持度為0.36。