91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 459KB
    文件類型: .docx
    金幣: 1
    下載: 1 次
    發布日期: 2022-09-30
  • 語言: ASP
  • 標簽: 數據分析??

資源簡介

一、數據分析項目介紹
1. 項目所需的模塊庫介紹
pandas用法:
需要導入以下模塊
import numpy as np
import pandas as pd
from pandas import Series, Dataframe
2.項目背景介紹
互聯網電影資料庫(Internet Movie Database,簡稱IMDB)是一個關于電影演員、電影、電視節目、電視明星和電影制作的在線數據庫。電影作為藝術和娛樂載體已成為我們生活中的一部分,作為電影愛好者之一,希望通過分析了解電影市場大體情況,以便于以后選擇電影觀看。
使用的數據是IMDB美國票房排名前1000的電影數據,數據包含了電影名稱,票房金額,上映年份,演職人員,IMDB評分,電影類型等信息,數據中的很多電影大家也比較熟悉。相信不少人都有這樣的經歷,當想要看一部電影的時候,會去百度一下誰是導演,誰是主演。如果導演是克里斯托弗?諾蘭,心里已經給電影打了個8分以上的評分了。而阿湯哥的動作片,預期也都能腎上腺素飆升。對于已上映的電影,不少人會去豆瓣搜索現時的評分,或是前作的評價,若是豆瓣高分、高評論數,也會按奈不住去蹭下熱度。如果要去電影院觀看的話,想必不少人會更傾向選擇動作片或者科幻大片這類特效豐富,影音沖擊強烈的電影。近幾年特效技術和3D動畫的日漸成熟,影院觀影已經是越來越多人的第一選擇。
IMDB的資料中包括了影片的眾多信息、演員、片長、內容介紹、分級、評論等。對于電影的評分目前使用最多的就是IMDB評分。
截至2018年6月21日,IMDB共收錄了4,734,693部作品資料以及8,702,001名人物資料。
3.項目所需數據介紹
數據的屬性包括:電影名稱、評論數、評分、導演、上映時間、上映國家、主要演員、語言、IMDB評分等。
理解數據:
color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes
4.項目功能詳細介紹
顯示電影評分分布的情況;
電影數量與平均分年度變化的情況;
評論家評論數與評分的關系;
評分與電影票房的關系;
電影數量大于5前提下平均分前十的導演推薦的數據;
不同電影類型的年份累計分析;
電影時長的分布及時長是否和評分有相關性;
電影時長的分布及時長是否和評分有相關性。
二、數據分析過程
1.主要功能實現的類和方法介紹
# 清洗runtime電影時長列數據,可使用str.split()方法
df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int)
df['runtime'].head()
# 清洗year列,使用str[:]選取年份數字并轉換成int類型,使用df.unique()方法檢查數據
df['year'] = df['year'].str[-5:-1].astype(int)
df['year'].unique()

2. 數據分析過程代碼和解釋說明
導入包:

導入、查看、清洗數據:


評分分布圖:


電影數量與平均分布年度變化:





評論家評論數&評分、評分&票房:



電影數量大于5平均分前十的導演:


統計不同年份、不同類型電影的數量:
cumsum = df.groupby(['main_genre', 'year']).title.count()
# 使用累加功能統計1980年起不同年份不同電影類型的累計數量,對于中間出現的缺失值,使用前值填充
genre_cumsum = cumsum.unstack(level=0).cumsum().ffill()
# 只選取總數量大于

資源截圖

代碼片段和文件信息

評論

共有 條評論

相關資源