国产丁香婷婷妞妞基地-国产人人爱-国产人在线成免费视频麻豆-国产人成-91久久国产综合精品-91久久国产精品视频

公務員期刊網 論文中心 正文

數據挖掘的電影票房分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數據挖掘的電影票房分析范文,希望能給你帶來靈感和參考,敬請閱讀。

數據挖掘的電影票房分析

【摘要】在電影產業迅猛發展的今天,票房直接反映了一部電影所帶來的經濟效益,也是衡量一部電影成功與否的重要指標,因而對電影票房進行分析和預測來輔助電影投資和排片十分必要。本文選取了2015~2017年三年的電影數據,通過建立C5.0決策樹模型,分析了類型、檔期、發行公司、國家地區等八個重要因素對電影票房高低的影響,構建了電影票房預測模型。在此基礎上,本文也對這些影響因素進行了關聯規則分析。通過實驗分析,得出了諸多有意義的結論,如制式是影響票房的關鍵因素。此外,結果表明,本文構建的預測模型效果良好,可將其用于電影票房預測。

【關鍵詞】電影票房;數據挖掘;分類預測;決策樹;關聯分析

1引言

隨著人們生活水平不斷提高,我國影視行業發展迅速,成為全球第二大電影市場,同時也是增長最快的市場之一。據中國新聞出版廣電總局調查顯示,2017年全國電影總票房已經超過550億[1],這說明中國電影產業有著良好的發展前景。然而,電影行業本身的高風險性和社會環境的多樣性也為電影票房帶來許多不確定因素,高投入低票房低收益的電影案例也屢見不鮮,如2016年上映的《封神傳奇》斥資5億,卻只收獲2.84億的票房。因而,研究電影票房的預測模型和相關影響因素對電影投資和排片的決策有著至關重要的指導性作用。電影作為一種特殊的生存期短的商品,對其票房的預測難度非常大。然而,電影在制作和宣傳過程中的高成本、高風險使得對電影票房的預測至關重要。吳發翔等[2]選取了2015年上映的200部國產電影作為實驗數據,通過觀眾期待度、電影自身影響度、同期競爭力等作為預測因變量,提出了基于決策樹C5.0的票房預測模型。鄭堅等[3]選取2008~2010年之間192部國產電影作為數據集,提出了一種基于多層反饋神經網絡的票房預測模型。王煉等[4]選取了2011年上映的211部電影進行分析,提出了基于網絡搜索的票房預測模型。對比這些現有的票房預測研究[5],他們選取的數據集多為2016年之前,缺乏時效性。此外,他們并未將電影制式作為影響票房的因變量因素進行分析。基于此,本文將2015~2017三年間在中國內地上映的所有電影票房數據作為實驗數據,選取了類型、檔期、發行公司、國家地區、制式、導演影響力、主演影響力、同期競爭力八個影響因素,對電影票房進行了分類分析和關聯規則分析,建立了電影票房預測模型。本文選取的實驗數據具備很強的時效性,覆蓋度廣,同時創新性地選取了電影制式作為因變量影響因素,對電影票房預測模型的研究具有非常重要的意義。

2數據選擇和處理

數據的選擇和處理作為數據分析的重要組成步驟,會直接影響到數據分析的結果。

2.1數據選擇

本文選取了2015~2017三年的電影票房數據,與其他已有的電影票房預測模型相比,具備很強的時效性和適用性。本文抓取的電影數據來源于中國票房網,中國票房網是電影票房統計官方網站,提供詳細的電影相關信息,保證了數據的權威性、準確性和完整性。本文預測的目標變量為電影票房,預測的因變量為電影票房的八個影響因素(詳見第3章)。

2.2數據處理

本文的數據預處理分三個部分:異常處理,如,對空數據通過其他途徑得到并進行填充或者直接剔除;數據去重,對重復數據進行刪除;字段處理,統一每個字段的格式和類型,僅保留有效字段。

3電影票房的重要影響因素

電影票房預測對于降低電影的投資風險至關重要。電影票房預測模型的好壞很大程度上取決于電影票房影響因素的選擇。電影自身的影響力決定了這部電影的質量和口碑,而質量和口碑影響著電影的后期票房。主創團隊影響力影響的則是觀眾對電影的期待度,這會影響電影的前期票房。基于此,本文主要從電影自身影響力和主創團隊影響力這兩方面出發,研究了類型、檔期、發行公司、國家地區、制式、導演影響力、主演影響力和同期競爭力對電影票房的影響。

3.1類型

不同類型的電影有不同的受眾群體,不同的群體又具有不同的消費水平。例如動畫類電影,觀影人群大多為兒童,相對其他群體來說人數較少,且消費水平較低,因此會對票房產生一定影響。本文將電影的類型通過離散化分為12類,分別為愛情、災難、藝術、恐怖、戰爭、記錄、動畫、喜劇、科幻、奇幻、動作、劇情,分析了類型對票房的影響。

3.2檔期

從某種程度上來說,檔期是電影的縱向市場。一年中的不同時段,人們的觀影需求和消費能力有明顯差異,比如節假日通常會比非節假日的觀影需求要大得多,進而影響票房。本文將數據進行了離散化處理,將檔期分為5類,分別為五一檔(4.27-5.10)、暑期檔(7.1-9.1)、國慶檔(9.27-10.10)、賀歲檔(12.26-次年2.1)和其他。

3.3發行公司

好的電影發行公司一般具有專業的制作團隊,先進的技術條件和雄厚的資本積累,是電影票房的潛在保障。本文對數據進行了離散化,通過調研和總結,將制片公司分為3類:好萊塢八大電影公司、中國十大電影公司和其他。其中,好萊塢八大電影發行公司包括:華納兄弟公司、米高梅電影公司、派拉蒙影業公司、哥倫比亞影業公司、環球影片公司、聯美電影公司、20世紀福克斯電影公司、迪士尼電影公司,而中國八大電影發行公司包括:中影CFGC(中國電影集團公司)、光線傳媒(北京光線傳媒股份有限公司)、華誼兄弟(華誼兄弟傳媒股份有限公司)、博納影業BONA(博納影業集團股份有限公司)、上影(上海電影(集團)有限公司)、萬達影業(大連萬達集團股份有限公司)、樂視影業(樂視網信息技術(北京)股份有限公司)、寰亞(香港寰亞綜藝集團有限公司)、安樂EDKO(安樂影片有限公司)、嘉映影業(北京嘉映文化傳媒有限公司)。

3.4國家地區

各個國家和地區的電影風格各具特色,因此也會受到人們不同程度的喜愛,所以國家地區也是要考慮的因素之一。本文通過對數據進行離散化,結合不同國家和區域的電影出品特點,將國家地區分為5類:中國大陸(中國)、港臺(香港、臺灣)、歐美(美國、英國、法國、意大利)、日韓(日本、韓國)和其他。3.5制式近年引入的電影制式,如3D、IMAX等,其具備的立體動畫和巨型屏幕會比2D電影的代入感更強,會帶給觀眾更好的觀影體驗,所以被不少觀眾青睞。通過分析抓取到的電影詳情數據,發現很多電影有多種制式,如2D和3D并存。本文選取一部電影最先進的制式(IMAX制式>3D制式>2D制式)作為離散化標準,將電影制式離散化為四類:2D、3D、IMAX和其他。

3.6導演影響力

如果一名導演自身有很高的知名度,則通常他導演的電影也將被大眾所期待,對電影票房起著積極作用。本文將導演影響力作為影響電影票房的因素之一。具體地,某部電影的導演影響力可通過計算該電影的導演在此之前導過的兩部電影票房總和得到。通過分析2015~2017年三年來每部電影的導演影響力,本文將導演影響力離散化為5類:很低(<100)、較低(100-1000)、一般(1000-5000)、較高(5000-10000)和很高(>10000)。

3.7主演影響力

主演是電影的主角,是電影表現力和票房號召力不可或缺的一部分。如果參演人員本身具有表演實力和一定知名度且受人們喜愛,則電影的受期待程度通常較高,對電影票房有著積極影響。本文將主演影響力作為影響電影票房的因素之一。具體地,某部電影的主演影響力可選取該電影排名前三的主演進行分析,即分別計算每位主演在此之前作為排名前三的主演參與演出的前三部電影票房總和,最后將其求和作為該電影的主演影響力。通過分析計算出的結果,本文將主演影響力離散化為4類:很低(<1000)、較低(1000-80000)、較高(80000-300000)和很高(>300000)。

3.8同期競爭力

因為觀眾通常會選擇質量好、話題度高且性價比高的電影,因此同期其他電影的上映情況會間接對該電影票房產生影響。本文將同期競爭力作為影響電影票房的重要因素之一。本文通過計算某部電影上映前后一周(共兩周)的電影票房總和得到同期競爭力,對其離散化后分為4類:很低(<50000)、較低(50000-120000)、較高(120000-200000)、很高(>200000)。

4實驗與分析

本文采用IBMSPSSModeler對2015~2017三年的電影票房進行分析:用C5.0決策樹[2,5,6]分析影響電影票房的因素,用Apriori算法[5,6]分析各影響因素之間存在的關聯規則。

4.1分類分析

為了降低電影投資的風險,幫助投資者做出相關決策,本文對電影票房進行了預測與分析。

4.1.1決策樹的構建

本文采用C5.0決策樹對票房預測模型進行構建。C5.0決策樹是基于C4.5開發的分類算法。由于國家地區和發行公司間存在關聯性,而貝葉斯分類算法需要各因素間相互獨立,因此并不適用于電影票房預測模型。此外,線性回歸和神經網絡預測模型適用于連續的因變量預測,且不易理解和部署,因此C5.0決策樹算法更為適合電影票房的預測分析。決策樹是一種樹形的數據結構,其中每個非葉子節點表示一個屬性,每個葉子節點代表一種分類結果。C5.0決策樹算法[6]是目前最經典的決策樹算法之一,根據能帶來最大信息增益的特征屬性來拆分樣本,經過數次迭代,可生成決策樹或規則集以完成分類和預測。本文采用IBMSPSSModeler數據分析軟件,首先將類型、檔期、發行公司等八個電影票房的重要影響因素(詳見本文第3章)進行離散化,作為決策樹的輸入變量,同時將票房通過離散化分為5類:非常低(<1000=、較低(1000-5000)、一般(5000-10000)、較高(10000-50000)和非常高(>50000)作為決策樹的目標變量,采用C5.0算法建立了決策樹模型。

4.1.2實驗結果與分析

該模型的準確率為76.06%,通過分析實驗結果可知,電影制式對票房的影響最大,預測變量重要性高達0.39。其次是主演影響力和國家地區。而同期競爭力、發行公司是重要性最低的兩個因素。在此基礎上,本文將實驗結果分析如下:(1)由于3D、IMAX等技術相對先進,制作成本高,因此票價比一般2D電影貴,導致票房普遍較高,這可能是制式影響票房的主要原因。其次,觀眾對3D、IMAX電影更有新鮮感,同時這些電影也會給觀眾帶來好的觀影體驗,觀影人數較多,所以票房較高。(2)除制式外,國家地區也是影響票房的關鍵因素之一,原因可能是大多在中國內地能夠上映的國外電影,都已經在該地區內上映,并且取得了良好成績,電影質量、口碑也相對較好。因此,國外電影在中國內地上映后能取得高票房也在情理之中。(3)發行公司是影響票房的因素中重要性最低的,這可能是因為目前國內制片公司仍然沒有形成“幾支獨秀”的局面,即國內還沒有形成像美國好萊塢一樣占有絕對領先地位的制片公司或集團,因此發行公司對電影票房的影響相對較低。

4.2關聯分析

為進一步梳理影響票房的重要因素之間的相關性,本文對類型、檔期、發行公司等八個影響因素進行了關聯規則分析。

4.2.1關聯規則構建

關聯規則[6]是形如的蘊含式,其中X是關聯規則的條件,Y是關聯規則的結果。支持度和置信度是衡量關聯規則質量的重要指標。其中,支持度指的是X和Y同時出現的概率,置信度指的是X出現時,Y出現的概率。通過設定最小支持度和最小置信度,可將高于這兩個閾值的關聯規則作為強關聯規則,進而指導決策結果。在電影票房的分析中,很多因素之間具有很強的關聯性,研究其中的關聯規則對電影產業的發展能夠提供一定的幫助。本文采用IBMSPSSModeler數據分析軟件,通過Apriori算法[6]研究了類型、制式、國家地區、檔期、發行公司、同期競爭力、主演影響力、導演影響力之間的關聯規則,設置最小條件支持度為20%,最小規則置信度為95%。

4.2.2實驗結果與分析

通過關聯規則實驗,本文選擇了兩條最有意義的關聯規則如下:(1)當某部電影的主演影響力低,在其他檔期上映,國家地區為中國大陸,并由其他發行公司發行時,該電影的制式很大可能為2D(置信度98%,支持度21%)。原因可能是此類電影影響力和制作資本均不夠,沒有制作成更高級制式的條件。(2)當電影類型為愛情時,電影制式通常為2D(置信度97%,支持度20%)。原因可能是愛情片通常靠劇情吸引觀眾,通過考量各種綜合因素,將愛情片制作成2D性價比更高。

5討論

本文提出的C5.0決策樹模型的準確率為76.06%,限制其正確率的原因有兩點:本次采用的電影票房數據時間跨度較大,在不同時期下,人們的消費水平不同,因此票房會產生普遍的差異,對分析得到的模型準確度可能也會有較大影響。此外,對連續的數據的離散化可能也會影響實驗結果。

6總結與展望

本文采用C5.0決策樹算法,基于中國票房網上的數據,對2015~2017三年間的電影票房進行了分類分析,選取了類型、檔期、發行公司、國家地區、制式、導演影響力、主演影響力、同期競爭力八個因素,構建了電影票房預測模型,得到76.06%的準確率,效果良好。通過對各因素之間的關聯性進行分析,本文還得到了一些關聯規則,如當電影類型是愛情時,制式通常為2D。然而,本文的票房預測模型的準確率由于數據和離散化的限制仍有待提升,筆者將會把下一步的工作更多地聚焦于提高模型準確率方面。一方面,筆者將研究離散化過程,同時增加票房影響因素,如網絡輿情數據等。同時,筆者將探索其他預測模型,如線性回歸、神經網絡等,研究更適合電影票房預測的模型。

參考文獻

[1]2017年中國電影票房559億元[EB/OL].2018.

[2]吳發翔,錢佳威,劉江帆.一種基于C5.0決策樹算法的票房預測研究[J].科技廣場,2016(4):186~192.

[3]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,34(3):742~748.

作者:席稼瑋 單位:陜西省西安市高新唐南中學

主站蜘蛛池模板: 黄色成人免费观看 | 99精品欧美一区二区三区 | 一道精品视频一区二区三区图片 | 亚洲精品资源在线 | 台湾精品视频在线播放 | 日本乱人伦在线观看免费 | 免费女人18毛片a级毛片视频 | 波多野结衣在线观看高清免费资源 | 国产成人精品视频播放 | 日韩aⅴ在线观看 | 毛片免费大全 | 国产精品极品美女自在线看免费一区二区 | 亚洲国产精品aaa一区 | 成人黄色在线观看 | 欧美成人h版在线观看 | 99久久精品国产自免费 | 岛国精品成人 | 日韩免费一级a毛片在线播放一级 | swag国产精品一区二区 | 99re伊人| 三级韩国一区久久二区综合 | 日韩高清在线不卡 | 日本精品久久久久中文字幕 1 | 一级做a爰全过程免费视频毛片 | 久久久综合结合狠狠狠97色 | 在线免费观看一级毛片 | 久草视频免费看 | 亚洲国产成人久久精品图片 | 手机看片日韩日韩韩 | 欧美大胆a | 成人影院一区二区三区 | 97国产在线视频公开免费 | 成人精品在线视频 | 亚洲 欧美 中文字幕 | a级毛片在线视频免费观看 a级免费 | 日本a级毛片视频播放 | 成人毛片在线视频 | 国产手机在线视频放线视频 | 国产成人aaa在线视频免费观看 | 精品乱人伦一区二区 | 97高清国语自产拍中国大陆 |