Incheon University
2018.09 ~ 2018.12
우리나라 YouTube 영상의 데이터를 이용하여 영상의 trend를 분석
R, Python
Youtube trend analysis
2017.02 ~ 2018.06 Youtube trend analysis
Youtube trend analysis
2017.02 ~ 2018.06 Youtube trend analysis
Incheon University
2018.09 ~ 2018.12
우리나라 YouTube 영상의 데이터를 이용하여 영상의 trend를 분석
R, Python
Description
① 일정 기간 동안 영상들이 어떤 주제를 많이 다루었는가
② 어떠한 카테고리, 영상들이 많이 찾고, 영상들을 좋아했는가
③ ‘dislike’를 적게 받고 ‘like’를 많이 받은 좋은 영상들은 어떤 종류들 인가
데이터 출처: https://www.kaggle.com/datasnaek/youtube-new
데이터의 구조 이해
① 2017년 2월부터 2018년 6월 13일까지의 유튜브 영상으로 이루어져 있다.
② 출처로부터 다운로드 받은 파일 중 KRvideos.csv 파일을 열어보면 다음과 같은 형태로 이루어져 있다.
③ 출처로부터 다운로드 받은 파일 중 KR_category_id.json 파일을 열어보면 다음과 같은 형태로 카테고리 ID에 대한 정보가 있다
정보 중에 title에 카테고리의 이름을 알 수 있다.
중복되는 영상을 제거 (가장 최근 추세 된 데이터 이용)
csv 파일에서 문자의 인코딩 문제로 일부 글자들이 깨져 보여서 인코딩을 ‘UTF-8’로 새로 csv 파일을 만들었다.
R에서 csv 파일을 불러왔을 때, csv 파일이 제대로 읽히지 않았다. 이 문제를 해결하기 위하여 시스템 기본 locale을 바꿔주었다
필요 없는 features 제거 (video_id, thumbnail_link)
comments_disabled, ratings_disabled, video_error_or_removed의 데이터 값을 True를 1로 False를 0으로 표현
KR_category_id.json을 읽어서 category_id에 대한 title을 정리하여 새로 csv 파일로 저장
I. 산점도
II. 상관 행렬 그래프
상관관계를 분석하였을 때 ‘views’, ‘likes’, ‘dislikes’, ‘comment_count’가 대부분 양의 상관관계를 가지고 있었으며, 특히 ‘views’와 ‘likes’, ‘likes’와 ‘comment_count’가 크게 나타났다.
조회수와 ‘likes’수가 선형관계를 띄는지 확인해보기 위하여 선형회귀분석을 한 결과 p-value가 굉장히 작은 값으로 이 회귀식은 회귀분석 모델 전체에 대해 통계적으로 의미가 있다고 볼 수 있다. 결정계수는 0.6872로 원 자료에 대해 68.72% 설명력을 띄고 있음을 알 수 있다.
조회수와 ‘dislikes’수가 선형관계를 띄는지 확인해보기 위하여 선형회귀분석을 한 결과 p-value가 굉장히 작은 값으로 이 회귀식은 회귀분석 모델 전체에 대해 통계적으로 의미가 있다고 볼 수 있다. 결정계수는 0.2965로 원 자료에 대해 29.65% 설명력을 띄고 있음을 알 수 있다.
조회수와 댓글 수가 선형관계를 띄는지 확인해보기 위하여 선형회귀분석을 한 결과 p-value가 굉장히 작은 값으로 이 회귀식은 회귀분석 모델 전체에 대해 통계적으로 의미가 있다고 볼 수 있다. 결정계수는 0.5808로 원 자료에 대해 58.08% 설명력을 띄고 있음을 알 수 있다.
Marvel의 인피티니워 트레일러, 방탄소년단의 뮤직비디오가 조회수가 높았다. 조회수가 높은 대부분의 영상은 영화와 음악에 관한 영상이었다. ‘To our Daughter’ 라는 영상은 댓글 입력, rating이 불가능한 영상으로 댓글 수나 좋아요, 싫어요 수 가 0이었다. 대부분 조회수가 높은 영상들 순으로 좋아요나 싫어요, 댓글 수가 많았으나 그 중 방탄소년단의 뮤직비디오가 좋아요 수나 댓글 수가 월등하게 높았으며, ‘YouTube Rewind’ 영상이 싫어요 수가 특이하게 많았다.
Entertainment 카테고리가 업로드 된 영상이 가장 많았으며, 그 다음으로 News&Politics, People&Blog 카테고리가 업로드 된 영상이 많았다. Trailers 카테고리는 영상이 없는 것으로 보이는데 대부분의 영화 trailer들은 Entertainment나 Film&Animation 카테고리로 등록을 해 놓아서이다. 그 외에는 Travel&Events, Science&Technology, Auto&Vehicles 카테고리의 영상이 적었다.
데이터가 right skewed이기 때문에 육안으로 확인하기 쉽게 하기 위하여 로그 변환을 해주었다
대부분 Science&Technology나 Music 카테고리의 사분위간 범위 상자나 중위수, 평균이 컸다. Science&Technology 카테고리 영상은 업로드 된 영상 수에 비해 높은 수치를 보인다.
영상들의 한글 title, tag를 word cloud로 나타내었을 때, 시사, 정치 관련된 단어들이 많이 등장하였으며, 그 외에 먹방, 영상 등이 많이 등장 하였다.
위 word cloud는 단순히 영상 타이틀 내에서 단어의 빈도(TF)를 이용하여 word cloud를 나타낸 것이라면 월별 영상들의 핵심 키워드를 찾아 내기 위해서 TF에 단어의 특수성(IDF)를 곱하여 나타낸 TFIDF 수치를 이용하여 Word cloud를 나타내었다.
한글로 된 title, tag중 가장 많이 언급된 단어들은 시사, 정치에 관련된 단어들이었으며, 매월 이슈가 되었던 사건들이 무엇이었는지 잘 나타내고 있었다.
한국 유튜브 기준 2017년 2월부터 2018년 6월 13일까지의 유튜브 영상으로 분석하였을 때,조회수와 좋아요, 싫어요, 댓글수는 양의 상관관계를 가지며 특히 조회수와 좋아요, 댓글 수는 강한 양의 상관관계를 띄고 있었다. 또한 선형적인 관계를 띄는지 분석하였을 때 매우 유의하게 나왔다. 가장 많이 본 영상으로는 마블의 인피니티워 영화의 트레일러, 방탄소년단의 뮤직비디오가 있었으며, 많이 본 영상들의 대부분은 영화나 음악에 관련된 영상이었다. 업로드 되는 영상들의 카테고리를 보았을 때, Entertainment, News&Politics, People&Blog 카테고리의 영상이 많이 업로드 되었다. 카테고리 별 조회수, likes, dislikes, 댓글 수의 분포를 boxplot으로 보았을 때 대부분 Science&Technology나 Music 카테고리의 사분위간 범위 상자나 중위수, 평균이 컸으며, Science&Technology 카테고리 영상은 업로드 된 영상 수에 비해 높은 수치를 보였다. 한글 title, tag를 wordcloud로 나타냈을 때, 시사, 정치에 대해 많이 나왔으며, 월별로 나타냈을 때 그 시기의 이슈가 되었던 시사, 정치적 사건이 무엇이었는지 알 수 있었다.