2010년 독일 뮌헨공과대학에서는 2009년 독일 연방 총선 결과가 트위터 여론 분석 결과와 일치한다는 연구 결과를 발표한 적이 있습니다.
투표일 전 트윗들에서 각 정당과 정치인이 언급된 비율이 실제 득표율과 거의 일치한다는 내용이었는데요, 우리나라에서 치러진 이번 지방자치단체 재보궐 선거는 어땠을까요?
결론부터 말씀드리자면 ‘그렇다’입니다. 물론, 독일의 예측 방법이 우리나라에서는 통하지 않겠지만요.
트윗믹스에서는 서울시장 후보인 박원순과 나경원에 대한 트위터 언급 추이를 볼 수 있는 사이트를 만들어 공개한 바 있습니다. 그런데, 독일에서의 분석 방법이 우리나라에도 통했다면 나경원 압승이었을 것입니다. 하지만 결과는 정반대였죠.
<선거 6일전부터 선거일 까지의 나경원, 박원순 후보에 대한 트위터 언급 수 추이, 출처: 트윗믹스>
이번 선거가 네거티브 선거전 양상을 보였던 만큼 트위터에서도 각 후보에 대한 좋지 않은 글들이 많이 쏟아졌을 것이기 때문입니다. 즉, 단순한 정량 분석으로는 우리나라의 선거 결과 예측에는 어려움이 있다는 얘기죠.
그런데 동아일보가 SAS코리아의 서울시장 후보에 대한 20대, 30대, 30대 연령층의 트위터 여론 분석 결과를 공개했는데, 10월23일 마지막 조사일의 박원순 지지 대 나경원 지지는 65% 대 35%였습니다. 각 후보에 대한 긍정적인 언급을 분석한, 정성 분석 결과입니다.
실제 선거 결과는 어떻게 나왔을까요. 선관위의 발표를 기다려봐야 하겠지만, 우선은 아쉬운대로 출구조사 결과를 토대로 비교해 볼 수 있었습니다.
SBS의 출구조사 결과에 따르면 20·30·40대 연령층의 박원순 지지 대 나경원 지지는 71%대 29%입니다. 물론 이 결과와 10월23일 트위터 여론 분석결과 사이에는 약 6% 정도의 차이가 나타났는데, 10월3일부터 10월19일 간의 오프라인 여론과 동기간 SAS코리아 트위터 여론 사이에서 발생한 편차보다도 적은 수준이었습니다.
예측 정확성에 있어서도 트위터 분석이 오프라인 여론조사를 앞선 것으로 판명되었습니다.
동아일보가 마지막으로 발표한 10월19일 오프라인 여론 조사 결과에서는 박원순 지지 52% 대 나경원 지지 34%였던 반면 같은 날 트위터 여론은 박원순 지지 66% 대 나경원 지지 34%였습니다.
결론적으로 볼 때, 오프라인 여론과 트위터상의 여론에서 평균적으로 발생하는 편차만 고려하고 정교한 정성 분석 기법을 사용한다면 이제는 어느정도 정확한 선거 결과를 예측하는 것이 가능하다는 얘기일 것입니다. 물론, SNS 주 이용자 층인 20~40대에 한정될 테지만요.
가트너에서 발표한 2012년 전략 기술 톱10에 빅데이터 분석이 포함되었습니다. SNS의 급성장으로 실시간으로 엄청난 양의 데이터들이 쏟아지고 있기 때문일텐데, 내년 총선과 대선이 맞물리면서 국내에도 소셜분석 열풍이 불지 않을까요.