前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據分析統計學方法主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:大數據時代;統計學;影響
隨著大數據時代的到來,各企業采用了新的策略,獲得了更多的利潤。對于統計專業來說,改變發展策略,使培養出來的專業人才能夠適應大數據背景的需求是其主要任務。目前,高校統計學專業逐漸認識到大數據時代綜合性人才培養的重要性,并對專業建設進行了相關改革。
一、大數據時代對統計學的影響
大數據時代的到來對現代統計專業的發展造成了新的沖擊,要確保培養出來的人才能夠起到應有的作用,首先要了解大數據時代對統計專業所造成的影響。
(一)大數據時代使數據結構和數據性質發生變化
網絡技術以及基于網絡技術的電子商務等新的數據記錄模式標志著大數據時代的到來。大數據時代,不再依賴于抽樣調查的記錄模式,網站瀏覽、視頻監控都將形成大量數據。傳統的數據結構甚至是數據性質發生了變化。大量的數據信息對于需求者來說,如何甄別其可用價值成為關鍵。傳統的數據可以二維表格顯示和整理。但大數據時代所產生的數據具有多樣化和復雜化特征,往往包含了大量的音頻、視頻、HTML等。這要求大數據的收集具有較強的目的性,才能實現其價值。
(二)大數據時代要求統計分析方法和統計思維更新
大數據時代的主要特征為數據多且復雜,數據分析要求分析者對總體進行分析。在這一背景下,參數統計不再具有意義,假設檢驗法也隨著總體分析而失去價值。數據的復雜化對傳統大數據統計思維造成了巨大的沖擊,要求統計者具有活躍的思維。只有對傳統數據的改變進行分析,并且樹立新的統計方法。
二、大數據時代下的統計學發展新策略
為適應大數據時代的需求,統計學專業的發展勢必要對傳統模式進行改革。目前,多數高校統計學專業已經認識到大數據對于其發展帶來的沖擊。為此,本文提出了以下策略,以及能夠幫助統計學取得更好發展。
(一)加強統計應用性教學
根據大數據時代數據的總體分析特征,數據分析人員應掌握全面的分析方法。在人才培養過程中,應致力于培養實踐分析能力,提高數據和資料收集能力,并且培養其強烈的數據價值觀,使其能夠從眾多數據中找到所需的。另外,對傳統模式進行改革,增加大數據統計內容,以適應時代的需求。基于大數據的結構特點,實施資料透視化教學,提高分析者對復雜數據的分析能力。
(二)培養大數據統計思維
在人才培養過程中,新的統計思維的培養具有重要意義,即強調數據分析實踐能力的提高。統計思維的培養有助于數據分析者對復雜的數據進行區分,從而整理有效信息。在大數據時代,不僅要以傳統的平均思維、動態思維和變異思維為基礎,還要注重基于整體分析的大數據思維。另外,還要培養數據分者的復雜性思維,以應對復雜的數據庫。總之,大數據時代需要數據分析者具有全面的、創新性的思維。
(三)強化基礎性統計知識
統計學自身具有復雜性,其改變多且抽象。基礎的統計知識是進一步掌握大數據分析思維的基礎,可見學習基礎性統計知識的重要性是不言而喻的。為此,應該采取深入淺出的方法,利用多媒體等方式使復雜的數據統計清晰化、簡單化。結合具體的案例使數據分析者正確認識統計概念、掌握統計原理和方法。此外大數據分析不再是一種專業,而是更傾向于一種技術,這要求我們將大數據分析與統計學以外的相關知識相互聯系。注重真實相關與偽相關的講解,強調商務智能的開發和分析。只有具有堅實的基礎,才能確保數據分析者大數據分析思維的養成,適應現代社會的需求。
(四)加強復合型人才培養
為適應大數據時代的需求,復合型人才的培養是關鍵。所謂復合型人才,是指其不但要具有專業的數據分析能力,還要相應的具備管理以及其從事專業的技術。大數據時代,高校應建立全面的人才培養模式,注重培養人才的數據分析能力、編程能力等,使其真正了解大數據,懂得如何利用大數據對其所處的行業起到積極作用才是關鍵。總之,大數據時代對綜合性人才具有更高的需求,大數據時代不僅培養的是一種能力,而且是一種思維,是對全新模式下的數據的分析和利用。高校作為人才培養的重要基地,其教學模式的改革、對大數據時代所需教學模式的認識是高校的主要任務。
三、總結
統計學是經濟學的基礎課程,傳統的統計人才培養具有定向性。而隨著大數據時代的到來,數據產生的形式多樣,且具有復雜性。大數據分析不僅是作為一種專業存在,而是應以一項必備的技術而存在。大數據時代,傳統的統計思維和統計方法發生了改變,統計人才培養方式的改革也就勢在必行。(作者單位:海南師范大學)
參考文獻:
[1] 朱懷慶.大數據時代對本科經管類統計學教學的影響及對策[J].高等教育研究,2014(3).
[2] 姚壽福.經濟管理類本科專業統計學課程教學改革思考[J].高等教育研究,2012(3).
[3] 孫耀東.大數據背景下統計學專業課程教學探究[J].廊坊師范學院學報(自然科學版),2015(06).
一、數理統計思想的形成
統計思想需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的數理統計思想。
二、數理統計思想的特點
數理統計思想從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在數理統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)數理統計思想強調方法性與應用性的統一;(2)數理統計思想強調科學性與藝術性的統一;(3)數理統計思想強調客觀性與主觀性的統一;(4)數理統計思想強調定性分析與定量分析的統一。
三、數理統計思想
就是統計實際工作、數理統計學理論及應用研究中必須遵循的基本理念和指導思想。數理統計的思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有數理統計學理論,是數理統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。數理統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模于此而預示的可能性”。
6.檢驗思想
數理統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
四、數理統計的思想方法?
1.要更正不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
2.要不斷拓展統計思維方式
數理統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.要深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析、推斷性數據分析和探索性數據分析等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
數理統計思想方法應用必須堅持以事實為依據、用數據說話的原則,把統計技術的應用與專業技術緊密結合,在考慮統計項目實施時,應從理論和事實層面上注重分析和使用條件,認真權衡各種關聯因素。數理統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
參考文獻
[1] 陳福貴.統計思想雛議[J]北京統計,?2004,(05).
[2] 龐有貴.統計工作及統計思想[J]科技情報開發與經濟,?2004,(03).
[3] 范文正.幾種基本統計思想的現實意義[J]統計與決策,?2007,(08).
【論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2 統計學中的幾種統計思想
2.1 統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2 比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2 變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4 相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3 統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3 對統計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如gnp、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(dda)、推斷性數據分析(ida)和探索性數據分析(eda)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1] 陳福貴.統計思想雛議[j]北京統計, 2004,(05) .
[2] 龐有貴.統計工作及統計思想[j]科技情報開發與經濟, 2004,(03) .
一、統計學中的幾種常見統計思想
統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等。統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想。統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想。事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想。擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
6.檢驗思想。統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
二、對統計思想的若干思考
1.要改變當前存在的一些不正確的思想認識。英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
培養數據分析觀念是小學數學“統計與概率”領域內容的核心目標,《義務教育數學課程標準(2011)》后,特別是在2015年教育部提出“核心素養”以來,數據分析觀念的培養得到前所未有的關注和重視。
數據分析是反映由一組數據引發的思考,人們可以分析與推測出可能的結論。數據分析強調的是數據,是實證判斷,而不是憑感覺臆斷,既要回顧分析,又要做出預期,既要關注局部,又要關注整體。因此,數據分析觀念的培養需要學生親歷與體驗。
史寧中教授在他的《基本概念與運算方法》一書中指出:“統計學研究的基礎是數據,是通過對數據的分析得到產生數據背景的信息。”統計學與數學有所不同,數學研究的基礎是抽象了的定義與假設,而統計學強調的是數據,是數據分析觀念。如平均數在數學里只是一個算式的運算結果,而在統計學里是一個重要概念,使用平均數反映一組數據的水平以及產生的影響。
當前,教師們關注與研究更多的是數學,對統計學的認識還比較模糊,在實際教學中難免出現偏差。那么,如何引導學生經歷統計過程,更好地促進和培養數據分析觀念呢?筆者認為,“統計與概率”教學要重視以下四個方面的轉變。
一、資源利用變虛擬為真實
教材提供的活動設計,或出現的一組數據,本質上都是虛擬情境,學生難以獲得真實的經歷與體驗,如果開發真實的活動資源,經歷真實的統計過程,效果更佳。
例如,教師組織課堂內的統計活動――摸球游戲:袋子里裝了10顆球,有紅球和黃球。不打開袋子看,你怎樣才能知道紅球多還是黃球多?要求先討論摸球規則,再分組進行“我摸你猜”的摸球游戲。學生根據小組內的摸球統計數據,初步猜想哪種顏色的球多,感受小數據信息的作用。接著,學生進行小組摸球情況對比,分析與大多數摸球情況不同的個案,探討能讓實驗判斷更為準確的方法。最后,匯總全班數據,感受數據信息量變大之后給“哪種球多”的判斷帶來的變化。學生經歷試驗、猜想與驗證的過程,感受隨機現象的不確定性,以及隨機現象背后隱藏的一般規律。有些統計活動還可以從課堂內延伸到課堂外,使學生親歷實實在在的統計過程。
二、統計活動變“一般”為內涵
小學階段的統計方式最為簡單,無非是收集數據、整理數據與簡單的數據分析,但從統計背景和統計學的視角看,在統計過程中還可以從以下方面挖掘內涵。
1. 樣本感知。
例如,教學中進行“全班學生最喜歡哪個體育項目”的調查活動,教師不應著急調查統計,讓學生先對樣本的選擇有初步的感受。引導學生選擇與討論:三種調查方法,哪種比較合適?(1)問自己最要好的幾位同學;(2)問自己小組的所有同學;(3)問全班同學。然后,再次討論:要知道全校同學最喜歡哪種體育項目,你認為哪種方法比較合適?(1)問全校學生;(2)調查每個年級的一個班級學生;(3)在校門隨機詢問部分學生。引導學生聚焦樣本的代表性與可操作性,建立樣本概念,感知總體與抽樣調查的樣本選擇。
2. 嘗試方法。
在收集數據與統計數據的過程中,不同情況下采用的統計方法也會不一樣,教師需要提供給學生嘗試不同方法的機會,感受調查方法的多樣性和不同方法的優點。
例如,每學年末的不同學科教師的滿意度調查,先采用逐一詢問同學后畫正字的統計方式,讓學生感受該方法效率的低下;然后采用全班舉手的方式,學生感受快捷與方便,但又發現這樣統計真實性受到影響,學生對這樣的調查統計沒有心理安全感,進而討論更科學的調查統計方法。最后采用不記名問卷統計完成調查任務,學生對無記名問卷的真實性有了初步的感受。如果用網絡無記名調查問卷的方式,學生在規定時間內,可以在不同地方完成問卷,時效更佳。
3. 體會價值。
一般情況下,課堂上教師都會讓學生說一說統計與統計結果的用處,比如調查統計學生最喜歡的運動項目,那么就可以建議學校多開展這項體育活動,但這就像是一場模擬活動,學生還是沒有獲得真切的價值體驗。我們所期待的效果是,通過統計活動,學生可以發現問題,讓他們看到事物的發展變化,才能更好地體驗統計的價值。
例如,筆者針對校園周邊環境臟亂差的現象,組織學生開展研究性學習活動。學生通過調查,發現校園周邊臟亂差現象的成因是小攤小販占道經營,不僅阻礙學生通行,還留下了許多垃圾。隨著調查的深入,他們發現在小攤販購買早餐的主要群體是學生。進一步在五年級開展的問卷調查中,學生發現:經常在小攤販吃早餐的學生占全年級總數的34%,其中外來務工人員子女占92%,主要原因是父母沒時間準備早餐。取得第一手數據資料后,由學生策劃的“家里吃早餐,安全又健康”的活動隨即展開:給家長一封倡議書,開設保健與養生課,與街道、城管等多部門齊抓共管,使得校園周邊環境得到徹底改善。在調查、統計、分析、活動的過程中,學生真切感受到調查統計對具體事物所產生的變化,體現了它的實用價值。
三、統計圖的選擇變“絕對”為“相對”
在小學階段,主要有三種統計圖供教學選擇,它們都可以直接表述數據,但還是有各自的特點:條形統計圖能清楚地表述數量的多少,扇形統計圖能清楚地表述數量所占的比例,折線統計圖能清楚地表述數量的變化情況。一般統計圖選擇的標準是:離散的數據用條形統計圖,連續的數據用折線統計圖。但統計學與數學不同,統計圖的選擇只有“好壞”之分而無“對錯”之分,也就是說,要表述離散數據的變化規律或發展趨勢,也可以采用折線統計圖,要表述連續數據的多少,也可以用條形統計圖。
例如,要表述兩個班在運動會4個項目上的成績對比。
如果用折線統計圖表示,也能清楚地反映1班各個項目成績總體高于2班,但在第三個項目成績對比中出現反差,2班的得分明顯高于1班,要引起1班的重視,查找原因;而2班在第三個項目上總結成功經驗,在其他項目上要總結經驗教訓、改變策略。
因此,統計圖選擇的關鍵在于你要表達什么,能達到目的即可,教學時切忌一刀切。
四、統計課程變單一學科教學為學科整合
“統計與概率”作為數學課程重要內容,分布在每一冊教材中,它作為數學教學的一個模塊,意味著課時量有限,讓學生充分體驗統計過程有一定難度。教師需要拓展統計教學的時間與空間,將統計活動滲透到各個相關學科的教學中,與學科教師合作,整合課程內容,更好地培養統計意識,達成提升學生數據分析觀念水平的目的。
舉例來說,筆者所在學校開展全員體鍛活動一年有余,體育教師感覺學生的體質健康水平有了很大提高,這一結論要有說服力,就需要用數據證明,讓學生親歷數據收集、整理、分析與判斷的過程是很有意義的活動。學科教師合作引導學生收集體鍛前與體鍛后同年級身高、脈搏、近視率,以及各項運動水平的真實數據,制作成復式條形統計圖和折線統計圖,條形統計圖對比前后兩年同期學生的健康水平,折線統計圖顯示同一個學生在體鍛前與體鍛后健康水平的差異,數據顯示,學生的脈搏與近視率等各項指標的變化讓人吃驚,學生在經歷統計的過程中體驗運動的重要性。讓人意想不到的是,全校師生在數據面前統一了思想認識,全員體鍛的理念得到持久地貫徹與落實。
關鍵詞:大數據;應用統計學;教學改革
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2016)43-0101-03
一、研究背景
自2002年桂林理工大學在廣西開辦了第一個統計學本科專業以來,針對當時理學學位的統計學專業培養的學生雖然數理基礎相對扎實,但普遍統計思想不夠,實際應用能力較弱的現狀和特點,對統計學專業進行了全方位的改革研究,確立了"數學與統計學相融,從培養學生扎實的數理基礎和極強的統計分析應用能力有機相結合的理念出發,構建了新的課程體系和教學內容,取得了系列研究成果。2009年研究成果開創“應用性、實驗性、案例性”一體化的統計學專業課程體系和教學模式,獲得廣西高等教育自治區級教學成果二等獎[1],并在其后分別把統計學學科建成廣西重點學科和廣西高等學校優勢特色專業,以及把應用統計實驗室建成廣西高等學校重點實驗室。
雖然我校統計學專業的教學改革和建設取得了許多成果,但近幾年,我們也逐漸感覺到在大數據新形勢下,我校應用統計學專業的教學體系還有一些不適應的地方,且某些問題還有日益凸顯的趨勢,我們原來的某些研究成果已不再適應新時代的要求,這就迫使我們繼續進行改革研究,探討在大數據背景的新形勢下,如何培養統計學專業復合型和應用型人才,如何準確把握統計學的發展方向與發展形勢,如何調整人才培養模式,如何調整相關課程和課程內容,以培養適應大數據背景下社會經濟發展需要的統計學專業人才。
許多國家越來越重視數據在大數據時代重要作用,我國也不例外,2012年9月,國家統計局第7次局務會提出,盡快開展在政府統計中應用大數據的研究。2013年可以看作是我國政府統計之大數據元年。2015年9月《國務院關于印發促進大數據發展行動綱要的通知》(國發〔2015〕50號)[2]頒布,標志著我國正逐步進入大數據建設的新時代,為此,國家統計局積極推動大數據在各方面的應用與實踐。而大數據的核心是數據,應用統計學學科是與數據分析處理聯系最為緊密的應用性學科,因此,應用統計學專業的教學體系應順應大數據發展的趨勢。在大數據背景下,應用統計學專業在繼承傳統數據分析技術的基礎上,對所需的數據處理技能提出的需求更高了。這就是說,大數據對應用統計學的培養目標,以及教學內容等的沖擊無疑是最大且不可避免的,這給應用統計學專業帶來了巨大的挑戰,同時也為應用統計學學科的發展帶來了前所未有的機遇。
大數據逼迫人們改變分析、處理數據的手段、思維和理念,這就逼迫應用統計學專業改革必須引入新手段、新思維和新理念。培養應用統計學人才必須與時俱進,才能不斷適應大數據新時代的要求,這關系到應用統計學專業培養的人才能否適應和滿足社會的需求,因此,這一研究是十分必要、十分迫切且有著重要的理論和實際應用意義。
二、大數據背景下應用統計學專業的改革探討
一、大數據與統計學的區別
統計知識在大數據的利用研究中有多樣化的應用形式,主要是對“大數據”進行肢解,對爆炸增長的數據信息進行搜索、分類以及整合主要依賴于統計學。因此,大數據的相關研究在一定程度上運用了統計學的知識。但是,大數據的使用尚未被統計學這門學科充分利用,這主要是因為大數據的運用方式,使用模式和統計學之間存在著重要差異。統計學主要利用的是樣本統計資源,樣本主要在根據既定的概率標準從總體中抽樣調查,但是隨機抽樣調查是帶有成本屬性的,例如消耗時間、資本投入的成本等。在樣本數量逐漸增加的情況下,樣本估計的誤差范圍是伴隨著總體樣本數量的增大而逐漸增加的,這是樣本統計學不能忽視的缺點。大數據時代最具代表性的就是海量的信息數據化以及即時電子商務信息,大數據在整體上呈現出“總體樣本數據化”的趨勢,這樣的特征恰好可以補充樣本統計的弊端。大數據環境下的整體樣本統計即使可以囊括全部的樣本容量,但是因為很多情況下數據具有非結構性和半數據化的特征,而且大量的數據資源呈現的是重視尾部分布的狀態,方差、標準差等標準化的方法變得毫無意義,整體依靠性和不穩定性經常會超越經典時間內的時間序列的整體假設性,所以概率論的應用范圍呈現狹窄化的發展趨勢。因此,統計學在利用大數據進行樣本統計的過程中,可以對整體上的數據資源進行融合和選擇,這和樣本統計中的數據化處理技術存在異曲同工之妙。
二、大數據時代統計學教育的發展
1.全面培養人才素質
統計學專業的學生需要具備良好與人交往能力。統計學的學生很多都是理科出身的學生,不善于交際。但是在日常的工作中,有數據經驗的科學家應該經常和每個部門的工作人員交流,協同工作。怎么樣才能讓頗具專業性的數據分析結果讓普通的老百姓也可以讀懂,讓每個部門的工作人員都能無障礙地理解,這是不容易做到的。要訓練自己的交往能力和溝通技能,主動地參加演講活動是不錯的渠道,演講活動鍛煉了演講者的自信,在整個演講的過程中,能否清晰地表達自己的思想以及給人以信服力是至關重要的。需要培養數據常識,廣其見聞。數據科學家經常面對各種各樣的海量數據,并需要從這些數據中挖掘出有價值的信息,這就需要數據科學家具有強烈的數據敏感性。對數據的敏感程度的訓練不是一蹴而就的,要經過長時間的積累和數據分析工作的磨練,同時也可以根據閱讀數據分析材料積累閱歷,提升對數據資源的敏感程度。
2.培養應用型人才
大數據時代培養的數據科學家需要兩方面的基本素質,第一是概念性,也就前面所說的數據科學家需要掌握的基本素養和專業知識;第二是實踐性,也就是本文中我們提及的應用型人才,也就是實際操作中處理數據的能力。在高校開展大數據分析研究生學科,最大的問題是沒有可用的數據,這就需要高效與大數據企業合作,進行研究生的聯合培養,注重學生的實際操作能力,這里面涉及到我們的應用統計學專業碩士的雙導師培養制度,一名校內導師一名校外導師,校內導師注重學生的概念性,校外導師注重學生的實踐性,學生通過在校外導師單位的實習,從而熟悉并且掌握實際工作中所需要的技能。
3.促進統計與數學、計算機學科合作
“大數據”時代需要的海量數據分析資源僅僅憑借統計學科單一學科的發展是不能滿足發展需求的,大數據的數據結構性特征已經拋棄了傳統意義上的數據分析模式的非智能化框架,而且數據分析需要利用新型的數據運算方式以及計算機技能分析,這也是進行數據分析工作的攔路虎。所以,數據科學家的成長僅僅依靠單一的統計學科知識的學習是遠遠不夠的,其需要的是數學、計算機和統計學三門學科融合發展,緊密結合。三門學科之間交叉發展,融會貫通,這樣既可以發揮學科的優勢資源,同時也能彌補其他學科的弊端。
【關鍵詞】函數數據 函數數據分析 網上拍賣
近幾十年來,由于統計學的不斷發展,出現并發展了一些新的方法解決了很多問題。然而,無論獲得的是截面數據還是時間序列數據,我們只能進行某一橫向研究或縱向研究,同時其前提條件很多不能滿足,因此常常導致數據分析結果的不可靠性。雖然面板數據模型將截面數據和時間序列數據結合起來,具有較強的因果推理屬性,但是三者存在共同的缺陷:即所建立的模型都是線性的,而在實際應用過程中無法完全保證變量間的線性關系,并且也難以確保數據滿足前提假設條件,從而使方法的具體應用及方法適用于數據的類型均具有一定的局限性。函數數據分析是將觀測數據當作一個整體(函數),而不是一系列單個離散的觀測結果。之所以這樣做是因為在研究中我們不僅關心的已得到的數據,更關心未得到的或者無法得到的數據。函數性數據分析(Functional Data Analysis,FDA)的概念,始見于加拿大統計學家J.0.Ramsay和C.J.Dalzell于1991年發表的論文《函數性數據分析的一些工具》。文中提出了適用于研究時間上無限維度的函數型數據一些方法和工具,并使用函數型數據的主成分分析和線性模型對加拿大溫度與降水量的關系進行實證研究。此后在1997年J.0.Ramsay和B.W.silverman總結了函數數據分析的理論和方法,出版了《Functional Data Analysis》一書。
雖然函數性數據的來源形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線,也可能是不光滑的藍線。函數性數據分析的基本思想是把觀測到的數據函數看作一個整體,而不僅僅是個體觀測值的順序排列。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。實際中,之所以要從函數的視角對數據進行分析是因為:實際中,獲得數據的方式和技術多種多樣,更重要的是,原本用于工程技術分析的修勻(光滑)和插值技術,可以由有限組的觀測數據產生出相應的函數表示;盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數范式下進行考慮,會使分析更加全面、深刻;在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征;將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。
函數型數據分析有以下優點:打破了連續型數據和離散型數據長期以來的分離狀態,實現離散和連續的過渡;可分析大批量的數據,實現從有限維數據到無限維數據的轉換,得到的數據信息更豐富、更可靠;很少依賴于模型構建及假設條件;由于假設函數都是可導的,因此可進行微分分析,如:得到位相圖,實現動能與勢能之間的轉換;將多元統計分析方法進一步延伸。
典型的函數數據具有這樣的形式:
Y1,Y2,…Yn,其中Yi=(Yi1,Yi2,…Yini)來自第i條曲線,Yij是在時間tij上測量,i=1,…N;j=1,…ni,為了簡化,我們通常都假定nij=n,Yij=Xi(tij)+εij,εij是測量誤差,E(εij)=0,Var(εij)=σ2。
估計X(t)在函數數據分析中是關鍵的一步,最常用的兩種方法是基展開和平滑判罰。
一、基展開的方法
原理:一組在某種意義下相互獨立的函數{φk},其線性組合可以逼近任意的函數。
這樣函數Xi(t)有如下的基展開
一般情況下,對于周期函數,我們常用Fourier級數來擬合;而對于非周期函數,我們常用樣條函數來擬合。
Fourier級數:1,sin(wt),cos(wt),sin(2wt),cos(2wt),…
樣條函數:將函數的定義區間用斷點序列,τ=(t0,t1,…,tL)(t0與tL:為定義區間兩端點)分成L個子區間,在每個子區間上,定義一個階為m的多項式,這里的階是指定義多項
式所需的系數個數。相鄰多項式要求在斷點處連續,并且在定義域上存在m-2次導數,這樣樣條函數就m-2次可導。
樣條函數的自由度=階數+內點個數。
B樣條:每個m階B樣條基函數只在不超過m個相鄰子區間上取正值,在其他定義域上取0,這種緊支集性質就給了B樣條基函數良好的數值計算性質。
Bi,1(t)=1 ti≤t≤ti+10 else
二、平滑判罰
在基展開方法中,平滑參數K的選擇比較麻煩,我們可以獲得更好的結果多選一些基但加一個粗糙度判罰來控制模型復雜度。
通常選擇J(x)為二階導數的積分
三、函數數據的主成分分析
在多元統計分析中,記錄的是同一時期或時點上對每一觀測對象多個變量的數據信息.為了達到簡化數據的目的,通常是把大量的原始變量綜合為少數幾個綜合變量。
函數性數據記錄了每個觀測對象的同一個變量某個區間上很多個時刻的數據信息.如果將時間看作多元數據對應的變量(變化因素) ,則發現函數性數據分析面臨更大的"維數災難"基于這種特點,可以將多元主成分分析的技術引入到函數性數據分析中,稱為函數性主成分分析。
四、函數性數據分析的基本步驟總結
(1)原始數據的收集、整理和組織。
(2)將離散數據轉換成函數型數據。采用基函數的線性組合,常用的B樣條基和傅立葉基。
[關鍵詞] 大數據時代;數據質量;信息孤島
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 23. 093
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2016)23- 0178- 02
1 大數據與大數據時代
近年來,隨著英國維克托?邁爾-舍恩伯格的《大數據時代》和美國Bill Franks的《駕馭大數據》等著作的出版,大數據引起了社會的廣泛關注,人們已經意識到大數據時代正在呼嘯而至。大數據幾乎對每個領域都會產生影響,所以限于不同領域各自的特點,對大數據的表述也不同,但是一個廣泛的觀點是:“大數據是一個數據集合,這個數據集合是無法在規定時間里用常規軟件工具對它進行搜集、整理和分析的。”
2 大數據時代對統計數據的挑戰
大數據時代需要既講機遇也講挑戰。各個應用領域的不斷變化使得統計學成為一門難以成熟的學科。所以在數據分析的世界里,統計學發展的終身動力是不斷提高駕馭數據的能力。大數據是推斷數據,不是原始數據,所以會存在抽樣偏倚、隨機的和非隨機的誤差。數據包括原始數據和推斷的數據。數據的認知范圍有限,所以數據可解釋的范圍就有限。模型是對數據信息的匯總,由于數據信息有限,所以模型可解釋的程度也有限。超出模型可解釋的程度,就是對模型進行一系列的假設。大數據方法研究需要多學科的聯合,統計學家需要關注實時決策和計算機資源,計算機學家需要了解算法和統計推斷的復雜性。
3 大數據時代對統計數據質量的影響
3.1 大數據時代對數據時效性的影響
庫克耶和舍恩伯格認為:大數據不用抽樣調查的方法,而用所有數據的方法。數據科學家甚至提出“樣本=總體”,這或許意味著統計工作重心要轉移。舍恩伯格和庫克耶認為抽樣調查有很多自身的不足:一是樣本的隨機性很難實現;二是不適合考察有子類別的情況;三是采樣忽略了細節的考察,而大數據分析則可以彌補抽樣調查的這些不足之處。如果說之前統計工作的重點在于數據搜集和整理,那么大數據時代統計工作的重心就是如何搜集整理分析有用的信息。這樣一來,已經得出的數據結論可能不具有這個時代的特點,即失去了時效性。
3.2 大數據時代對數據真實性的影響
大數據時代除了對數據的時效性有影響之外,對數據的真實性也有影響。由此,當通過網絡搜集數據時,首先需要考慮的是,數據是否是由自動化算法系統產生?如果是,究竟有多少?以淘寶網為例,大量的虛假評論已經影響了信息的真實。
4 大數據時代統計工作的應對之策
大多數的研究指出,當前統計方面存在的問題在于業務部門沒有利用好大數據導致數據資源缺乏;企業內部信息孤島導致數據的有效信息無法充分利用;工作人員數據分析能力差導致大數據時代下統計工作很難進行。
4.1 國家應對之策
在大數據時代下,要保障統計數據質量,國家應當做到以下幾點:
(1)盡快改革當前統計管理體制的制約,保證統計獨立調查、獨立報告、獨立監督的職權不受侵犯。在大數據時代,統計體制改革要與時俱進,盡快建立符合我國國情的統計管理體制。
(2)充分發揮黨委政府的主導作用,賦予各其統計數據質量的主體責任。要發揮各級地方黨委政府對本區域統計數據質量的主體責任,將統計數據質量的好壞作為考核一個地區領導業績的主要方面之一。
(3)盡快建立引導一個提速增效的統計考核評價指標體系,完善黨政領導的績效考評機制。
4.2 企業應對之策
企業應做到以下幾點:信息以數據形式呈現,強化建設數據標準;融合結構化和非結構化數據;推廣應用大數據,促進使用信息資源;重視數據的安全管理。
4.3 個人應對之策
統計學家必須積極學習新事物,適應大數據環境,拓展統計學的應用領域,創造出新的統計方法。大數據時代帶給我們的挑戰與機遇并存。
主要參考文獻
[1]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(2).
[2]鄭京平,王眾全.官方統計應如何面對BigData挑戰[J].統計研究,2012(12).
[3][英]維克托?邁爾-舍恩伯格.大數據時代――生活工作與思維的大變革[M].周濤,譯.杭州:浙江人民出版社,2013.
[4]Brian Hopkins,Boris Evelson.Expand Your Digital Horizon with Bigdata[N/OL],2011-09-30.
[5]邱東.大數據時代對統計學的挑戰[J].統計研究,2014(1).