前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數據挖掘下的慕課學習需求特征分析范文,希望能給你帶來靈感和參考,敬請閱讀。
【摘要】本文通過挖掘慕課數據來研究學習者對課程需求的特征。首先構建了非線性回歸的學習人數預測模型和基于隨機森林的學習人數分類模型,得到開課時間、課程類別、開課學校這三個變量對學習人數有影響。然后用TF-IDF提取關鍵詞并進行可視化以及基于Gibbs抽樣建立主題個數為9的LDA主題模型,發現學習者對高等數學這門課的講解思路、習題答疑、課程內容以及開課學校都有較強的關注點。
【關鍵詞】非線性回歸;隨機森林;課程特征;可視化;LDA主題模型
1引言
現階段國內有許多提供慕課學習資源的平臺,如中國大學MOOC、智慧樹等,覆蓋大部分學科,且資源充足,授課形式各式各樣。但是海量的慕課資源也帶來一定的問題,如慕課質量參差不齊,這給慕課學習者在選擇課程時帶來一定的困擾,并且造成資源的浪費。因此,如何制作出高質量且能滿足絕大部分學習者需求的慕課成為一大重點,本文將從數據挖掘角度去建立學習人數預測模型以及分類模型,推斷影響學習者選擇的課程特征;并對評論進行文本挖掘來研究學習者所期望的課程特征。
2數據采集與預處理
本文用Python工具爬取中國大學MOOC平臺的十五類課程數據,每類課程數據包括學習人數、開課時間、學時安排、開課學校以及課程評論五個變量。然后清洗數據,剔除異常值。接著對變量進行賦值,定義學習人數為因變量y,課程類別為自變量x1,開課時間為自變量x2,學時安排為自變量x3,開課學校為自變量x4。將所有課程匯總為86種搭配,對每一種搭配的學習人數取均值,來反映某一特征課程的受歡迎程度。
3學習人數預測模型與分類模型
3.1預測模型的建立——多元回歸模型
將預處理后的數據隨機拆分為75%的訓練集和25%的測試集,然后對訓練集分別建立線性回歸模型與非線性回歸模型,并對測試集進行預測。首先,通過參數檢驗剔除不顯著變量后,最終擬合的線性回歸方程為:y=597.10χ1+596.56χ4此時模型相對誤差較大,擬合效果較差,接下來通過非線性對回歸模型做進一步改進。分別擬合y對每個自變量的單因素最佳一元非線性回歸模型,得到最終擬合的非線性回歸模型的方程:y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4將兩個模型的擬合結果、預測結果以及顯著性檢驗情況進行對比,根據擬合模型的R2a以及預測結果的RRMSE,認為非線性回歸模型優于線性回歸模型。
3.2分類模型的建立——支持向量機與隨機森林
對某一類型的課程學習人數取均值,均值小于等于3000的課程賦值為0,均值大于3000的課程賦值為1,然后將數據集按照7:3的比例隨機分為訓練集和測試集。利用RBF核函數建立支持向量機模型,并假設RBF核函數的模型參數cost=100,gamma=1,得到的模型分類效果,效果較為一般。為改進支持向量機模型的不足,使用默認參數建立隨機森林模型。準確率結果可以看出,隨機森林模型(準確率76.92%)比支持向量機模型(準確率69.23%)的分類模型效果更好,且從準確率和特異性的角度分析發現,開課時間和課程類別這兩個特征相對較為重要。
4課程評論的文本挖掘
4.1特征選擇與可視化
以高等數學課程評論為對象,利用ROSTCM軟件做初步處理,刪除重復評論、空行、英文字符。然后用R的tm包對初步處理后的評論中文分詞和去除停用詞。對預處理后的評論建立語料庫,約束每個詞最少2個字符,生成TF-IDF權重矩陣,并調整稀疏性,然后將同一個詞的權重值相加,并用詞云圖進行可視化,結果發現該門課程學生關注的焦點,“內容”、“清晰”、“講解”,“詳細”“知識”等詞匯突出,權重值較大,說明學生對課程內容的安排以及老師講課的思路重視程度大。對評論進行情感分析,對情感分析的好評提取關鍵詞,其中“思路”、“時間”、“細致”、“全面”這幾個詞的權重大,說明該門課程的時長、內容安排比較合理。對情感分析的差評提取關鍵詞,其中“在念”、“解析”、“考試”、“作業”、“口音”等詞權重大,說明有些課程尚存在講解者口音重、念ppt以及考試題目安排難度不合理的現象。
4.2基于Gibbs抽樣的文本主題建模
設定主題先驗參數α=0.1,β=0.1,主題數K的范圍為3到30,基于Gibbs抽樣算法,使用最大似然估計得到最優主題個數為9個。根據詞語在不同主題上的最大概率分布,將模型生成的九個主題中的前五個高頻詞取出,結果說明主題一、二、五、六、七、九能反映學習者在慕課學習過程中的關注點,主要有以下四點:(1)授課老師的講解思路;(2)習題的講解;(3)課程內容的合理安排;(4)開課的學校。
5結語
非線性回歸預測模型得到開課時間、課程類別以及開課學校對學習人數有顯著影響,并且寒假期間開課的課程學習人數最少,所以平臺可以在暑假時多推出新課程。分類模型的分類結果顯示,文學文化、計算機以及理學類的學習人數相對較多,這與當今時代的行業潮流發展有莫大關系,所以課程的數量比要跟時代相結合。對于高等數學這門課的慕課,學習者對課程的內容設置、授課老師的思路以及開課學校這四個方面關注點高,建議平臺設置階梯式課程以適應不同水平的學習者。
【參考文獻】
[1]王江榮,文暉.基于多元非線性回歸理論的坦克蓄電池剩余容量非線性回歸預測研究[J].電氣自動化,2015,37(06):109-110,113.
[2]于韜,王洪巖.基于TF-IDF算法的文本信息提取[J].科技視界,2018(16):117-11.
作者:林媛 葉幸 郭桂璇 肖莉 周燕 單位:華南農業大學