구글 클라우드 빅데이터 분석 서비스를 활용한

 

 

아이폰7 SNS 메시지 반응 분

최유석

이 글은 구글 클라우드 플랫폼의 빅데이터 분석 플랫폼의 학습 및 정보 공유 목적으로 작성하였으며, 조대협님의 구글 빅쿼리와 데이타 플로우를 이용한 노트7 소셜 반응 분석 (http://bcho.tistory.com/1136, 7, 8) 관련 글 들을 참고하여 원본 글의 작성자(조대협님)의 허가를 받고 작성하였으며, 이 글의 내용에 대한 악의적인 해석이나 활용되지 않기를 바랍니다. 이 글에 대한 라이센스는 원본 글 작성자인 조대협님과 이글의 작성자인 본인이 소유하고 있으며 원본 글과 동일하게 출처를 밝히는 인용을 포함하여 모든 인용 및 내용에 대한 활용을 금합니다.

 

시작

구글 클라우드 플랫폼의 빅데이터 분석 서비스들인 빅쿼리, 데이터플로우에 대한 학습 및 실습을 하면서 익혀가고 있던 도중, 우연한 기회에 조대협님에게 아이폰7에 대한 분석에 대한 제의를 받고 원본 글을 읽고 개인적인 호기심과 흥미가 있었던 상황이라서 시작하게 되었다. 이 글은 설명하기 위한 목적보다는 원본 글에서 분석의 대상이 되었던 노트7과 비슷한 시기에 출시된 아이폰7에 대한 분석 결과를 공유하고자 작성하게 되었다.

 

*데이터의 수집부터 분석하기까지 전체과정에 대한 전반적인 설명은 http://bcho.tistory.com/1136 , http://bcho.tistory.com/1137 , http://bcho.tistory.com/1138 의 글에 자세히 되어있기 때문에 생략한다. 만약 자세한 내용이 궁금하다면 위의 글들을 참고하기 바란다. 또한 원본 글들의 과정을 토대로 거의 동일하게 진행하였으며, 단지 분석의 대상만 변경하였다.

 

데이터 수집 기간

트위터와 같은SNS의 특성상 특정한 이슈가 있을 때 발생하는 메시지가 증가하고 통상적인 메시지와 내용이나 양이 달라진다. 따라서 이후 분석할 데이터의 기준이 되는 데이터를 수집한 기간은 9월26일(월) 오전부터 9월30일(금) 오전까지 이다.

 

데이터 스튜디오를 이용한 데이터의 시각화 분석

원래는 데이터에 대한 수집 및 저장은 원본 글의 구성을 따르고 시각화 및 분석은 제플린(zeppelin.apache.org)을 이용한 데이터의 시각화 및 분석을 하려고 하였으나, 최근 원본 글에서도 소개된 리포트 도구인 구글의 데이터 스튜디오(https://datastudio.google.com/)가 한국에도 베타로 릴리즈되고 사용할 수 있게 되어서 원본 글과 비슷하게 데이터 스튜디오, 제플린 두 가지를 같이 사용하여 데이터의 시각화 및 분석을 한 내용을 공유하려고 한다.

 

명사 전체 통계 분석 (9/26 ~ 9/30)

먼저 해당기간 동안에 수집된 명사에 대한 통계 이다.

  *전체 수집된 데이터에서 iphone7이 가장 많았으나, 원본처럼 iphone7을 포함해서 불 필요한 명사들은 필터링하였다.

 

명사 데이터 분석하기

명사에 대한 표와 그래프를 이용해서 수집된 데이터의 통계정보를 살펴보자.

첫번째로 공짜, 증정품 등을 의미하는giveaway가 처음부터 끝까지 전체 데이터에서 1위를 꾸준히 유지하고 있으며, 28일에 피크 상태까지 올랐다가 이후 하강세를 보인다. 이는 미국 이동통신회사인 버라이즌, AT&T, T모바일에서 각각 조금씩 다르지만 이전모델인 아이폰5, 6을 반납하고 2년약정을 하면 아이폰7을 일종의 "공짜폰" 마케팅을 진행했기 때문으로 보여진다. 

http://www.edaily.co.kr/news/NewsRead.edy?SCD=JE31&newsid=01954886612784712&DCD=A00503&OutLnkChk=Y

http://fortune.com/2016/09/30/verizon-ending-free-iphone-7-trade-in/ 

그리고 giveaway가 28일에 피크를 치고 이후 하강세로 나타나고30일에는 매우 큰 폭으로 떨어지는 이유는 위의 무료행사가 종료되기 때문인 것으로 보인다.

 

두번째는 아이폰이 전작과 마찬가지로 기본모델(4.7인치)과 플러스모델(5.5인치)로 출시하고 전작과 다르게 크기만 다른 것이 아니라 가장 큰 부분은 카메라가 아이폰7은 싱글 카메라이고 플러스는 듀얼카메라이고 그 외 다른 스펙에서도 약간 높다. 이러한 스펙의 차이로 사람들이 많은 관심을 보이는 듯하다. 물론 가격은 더 비싸다. 

http://www.kookje.co.kr/news2011/asp/newsbody.asp?code=0200&key=20160908.99002073718

 

세번째는 &amp로 나타나지만 이는 특수문자인 &을 HTML에서 변환하기 위한 코드이기 때문에 생략하고, 결국 세번째로 많이 나타난 단어는 case로 생각 할 수 있는데 아무래도 새로운 제품으로 출시되었기 때문에 많은 해당모델에 대한 케이스에 대한 관심을 많이 가지는 것으로도 볼 수 있으나, 이번 아이폰7은 많이 이슈가 된 것처럼, 헤드폰 단자가 없기 때문에 부가적인 악세서리에 대한 관심이 높아 진 것으로 보여진다. 관련 된 내용을 찾다 보니 여러가지 형태로 이어폰 잭을 사용할 수 있는 부가 악세서리 정보가 많았다. 

*HTML에서 특수문자를 표현하기 위한 코드인 &amp(3위)와 &gt(7위)가 구글 자연어 분석API(CLOUD NATURAL LANGUAGE API )에서 왜 명사로 구분되었을 까? 이 글에서는 크게 중요한 부분은 아니기 때문에 넘어가도록 한다.

 

http://www.itworld.co.kr/news/101479

 

네번째(eztech231)와 다섯 번째(nbt88yt)는 각종 IT제품들의 리뷰를 진행하고 SNS, 유튜브 등을 통해서 홍보하고 공개하는 사람들의 트위터 ID로 확인된다.

 

데이터 스튜디오를 이용한 형용사 전체 통계 분석 (9/26 ~ 9/30)

다음은 해당기간 동안에 수집된 형용사에 대한 통계이다.

 

형용사 데이터 분석하기

형용사에 대한 표와 그래프를 이용해서 수집된 데이터의 통계정보를 살펴보자

첫번쨰는 새로운 출시된 제품이기 때문인지 new가 가장 많았다.,

두번째는 free로 명사처럼 무료 마케팅 때문인 것으로 보여진다.

세번째는 이번에 아이폰7이 블랙계열 색상으로 나온 모델이 블랙(무광)과, 제트블랙(유광)이 두가지가 출시되어서 black이라는 단어가 세번째로 많은 것으로 보여진다.

네번째(good)와 다섯 번째(best)는 아이폰7에 대한 긍정적인 반응을 의미하는 것으로 보여진다.

 

제플린을 이용한 데이터의 시각화 상세분석

지금까지 수집한 전체에 데이터를 기준으로 구글의 데이터 스튜디오를 이용해서 분석을 해보았다. 이제 제플린을 이용해서 날짜 및 시간단위로 수집된 데이터에 대해서 상세한 분석을 해보도록 한다.

 

시간대 명사의 전체 카운트 그래프 (상위 5개)

먼저 시간대 별로 명사의 카운트 그래프를 보면 명사의 카운트 수가 최대 4,833, 최저 149이고 대략적으로 통상500정도이다. 해당 결과는 카운트의 수가 상위5개의 명사의 수량만 카운트한 결과의 그래프이며 분석 대상이 되는 iphone7등 불 필요한 단어는 제외한 상태이다.

위의 그래프를 통해서 확인해보니 완만한 곡선을 그리는 부분을 제외하고, 사이사이에 트윗이 높게 발생하는 시점이 대략 1000 정도이다. 따라서 명사 카운트가 1000을 넘는 시점(9/26 11:00, 9/27 4:00, 9/27 5:00, 9/27 23:00, 등) 에 특정한 이슈가 있었던 것으로 간주하고 명사 카운트 1000이상이 되는 시간을 기준으로 분석 해보도록 한다.

 

시간대 별 카운트 된 각각의 명사에 대한 그래프

다음과 같이 각각의 명사의 카운트 수를 그래프로 확인하고 분석해보려고 하였으나, 그래프에 표현 될 각각의 명사의 개수가 늘어나니 그래프로 확인하기는 어렵다.

전체 기간 동안의 시간대 별 단어 그래프(상위5건)

 

1000건 이상 카운트 된 시간대의 단어들의 그래프(상위 5건)

명사 카운트가 1000건 이상 발생한 시간대 별 상위 5건의 단어에 대해서 그래프로 표현해보았으나, 전체에 대한 그래프보다는 보기가 편하지만, 각각의 시간대 별 단어들에 대해서 직관적으로 파악하고 분석하기 어렵다. 따라서 표를 이용해서 분석을 진행하기로 한다. 

 

표를 이용한 데이터 분석

앞에서 언급한 것처럼 명사의 카운트가 1000건 이상 발생한 주요한 시점을 기준으로 상위 5개씩 검출해서 명사 단어들을 표를 이용해서 확인해보도록 하자.

 

926 11 (1497)

9월26일 11시에 features, water, camara, phone, wireless라는 단어가 많이 검출되었다.

특정한 이슈가 발생 한 것 보다는 아이폰7의 기능, 특징, 방수 등에 대한 내용과 위에서 언급했던 이어폰 잭 제거로 인한 무선 이어폰, 헤드폰 관련 내용이 트윗 메시지로 발생한 것으로 보여진다.

 

927 4(1282), 5(1264)

트위터 같은 SNS서비스의 특성 상 특정한 이슈나 메시지가 발생하면 지속적으로 비슷한 성향의 메시지가 나타나는 경향이 있으니 1000건이상 카운트 된 시간이 연속되어 있는 경우 해당 시간대들을 연결해서 보도록 하자.

 

9월 27일 4시와 5시에는 앞에서 전체 통계 분석에서 확인했던 것처럼 아이폰7의 케이스에 대해서 트윗에서 많이 언급 된 듯하다. 기case를 포함해서 neroccocases, etsy, learhercase라는 단어가 많이 보이는 데 찾아보니, 트위터에서 etsy라는 핸드메이드 쇼핑몰에서 판매하는 nerocco라는 일종의 브랜드에서 판매하는 가죽 케이스(learher-case) 많이 언급된 것으로 보여지고 가죽케이스에서 지갑(wallet) 역할도 하기 때문에 wallet이라는 단어도 언급된 것으로 보인다.

 

트위터에서 해당 검색어를 넣고 트윗된 메시지를 검색해서 나온 페이지를 들어가보니 다음과 같은 결과를 얻을 수 있었다. 이 페이지를 보니 왜 위와 같은 단어들이 검색되었는 지 파악할 수 있었다. 물론 해당 메시지에도 위에서 본 단어들이 메시지 자체의 내용이나 태그에 있어서 검출된 것으로 보인다.

https://www.etsy.com/listing/464824974/iphone-7-leather-case-iphone-7-wallet

 

또한, 앞서 명사에 대한 전체 통계분석에서 전체적으로 가장 많이 나온 단어인 giveaway도 보인다.

 

927 23 (4565), 928 0 (4833) 증가 및 정점

928 1(2423),2(1459),3 (1041) 하락

데이터를 수집한 총 기간 중에 9월 27일 23시에 4천건이상으로 급증하기 시작해서 9월28일 0시에 4833건으로 정점을 찍고 카운트는 하락하지만 9월28일3시까지 1000건이상 발생한 시점이다. 해당 시간대의 전체적인 단어들을 살펴보면 처음 트윗이 증가하기 시작해서 줄어들기까지 지속적으로 나온 단어들이 여러가지 나오고 카운트수가 시간대 별 동일한 것으로 봐서는 같은 메시지에 위에서 나온 여러 단어들이 조합되어 있었을 가능성을 고려해본다. 그래서 단어 하나 하나 살펴보던 중 sqeezereport라는 단어가 이렇게 트윗이 증가하게한 중요 키워드인 것을 발견했다. 그래서 sqeezereport라는 단어를 토대로 검색을 해보았다. 

위와 같은 결과를 얻게 된 것은 이 트윗 메시지가 원인인듯 하다. http://www.squeezereport.com/ 라는 곳에서 주식관련 리포트를 내놓은 듯한데 관련 내용에 대해서 문외한이니 자세히 알 수는 없었다. 그러나 메시지와 태그에 있는 단어들이 위의 표에서 확인할 수 있는 단어들과 같다. 단어들의 카운트가 동일한것으로 봐서는 해당 시간대에 최초의 메시지가 지속적으로 리트윗된 것으로 보인다.

 

9월28일 2시와 3시에는 지속적으로 나오는 단어인 giveaway 가 상위권에 있는 것도 보인다.

 

928 15 (1131)

9월28일 15시에는 iphone7plus, sleeve, iphone7plussleeve, giveaway, iphone7pluspouch

라는 단어가 많이 발생했다. 지속적으로 나온 단어인 giveaway 제외하고 나머지 4단어인 iphone7plus, sleeve, iphone7plussleeve, iphone7pluspouch 무언가 단어들끼리 연관성이 있어 보이고 케이스와 관련된 같다. 그래서 해당 단어들을 토대로 확인해보니 다음과 비슷한 트윗이 많이 나온 것을 발견했다.

앞서 sqeezereport에서 처럼 하나의 트윗이 지속적으로 리트윗 되었다기보다는 아이폰7 플러스의 케이스(sleeve, pouch 포함하는) 대한 소개 또는 홍보 트윗이 보인다.

 

9월30일 3 (1172)

1000건이상 단어가 카운트 된 마지막 시간대인 9월30일 3시에는 flipkart라는 인도의 최대 온라인 쇼핑몰에서 아이폰7 preorderyour7( 주문) 관련 메시지가 많이 발생한 것으로 보인다.

해당시기에 위와 비슷한 트윗을 많이 발견할 있었다.

 

http://economictimes.indiatimes.com/magazines/panache/wait-over-indian-apple-fans-finally-grab-iphone-7/articleshow/54741023.cms

또한, 인도에서 9 30 아직 아이폰7 출시되지 않아서 107 출시되었기 때문에 wait라는 단어가 많이 나온 것으로 보인다.

 

http://www.business-standard.com/article/companies/flipkart-cashes-in-on-strong-iphone-7-launch-binny-delivers-first-device-116100701137_1.html

위에서 언급 한 것처럼 10월 7일 Flipkart에서 아이폰7 런칭 했다는 기사를 확인 있었다.

 

지속적으로 나온 단어인 giveaway wireless(무선) 관련 카운트도 높은 것으로 보이나 위에서 언급하였으니 생략한다.

 

마무

아이폰7은 데이터를 수집한 시기에 노트7과 같은 특수한 이슈는 없었지만 데이터를 모으고 분석하기 위해 확인하면서 개인적으로는 많이 흥미로운 결과를 볼 수 있었다. 사실 뒤에 V20출시나 아이폰도 유머인지 정확히 확인할 수는 없지만 폭발이라는 이슈가 있었기 때문에 조금 더 데이터를 수집했다면, 더욱 더 흥미로운 결과를 볼 수 있었을 것 같아서 아쉬운 마음도 남는다. 짧은 기간이기는 하지만 비교적 큰 비용을 들이지 않고도 SNS서비스를 통해 데이터를 수집하고 구글 클라우드 플랫폼의 빅데이터 분석서비스들을 이용해서 특정한 제품에 대한 트렌드를 손쉽게 파악할 수 있었고, 이러한 특정한 사례만이 아니라 데이터를 분석하는 거의 모든 경우에서 활용할 수 있을 듯 하다. 

처음 노트7분석글을 보았을 때만 해도 과연 내가 이러한 분석을 따라서 라도 할 수 있을 까? 라는 의문이 많이 들었다. 하지만 원본 글을 읽고 따라서 진행하다 보니 처음 구성을 마치기 까지 대략3, 4시간정도 밖에 걸리지 않았다. 물론 약간의 우여곡절이 있어서 바로 데이터를 수집할 수 는 없었지만 말이다. 아직 이러한 시스템을 구축해보고 운영해본 경험이 거의 없는 것과 데이터 플로우는 개념적인 부분만 알고 있었고 실제 사용하는 부분은 살펴보기 시작한 즈음이었는데도 따라서 하기는 했지만, 이러한 시스템을 만들고, 데이터를 수집해서 분석하고 하는게 혼자서 몇시간이면 가능하다는 것이 놀라울 따름이다.

 

 

+ Recent posts