Written by zinicap
Published under DATA ANALYSIS
2011년 12월 2일
No comments
‘뿌리깊은 나무’라는 드라마 덕분에 ‘한글’의 우수성이 해외에서도 인정받고 있다는 기사가 나왔다. TV 드라마를 보지 않는 편이라 어떤 내용인지 궁금해 검색해 보고 놀랐다.
세상에나~~~ 언론에서도 TV 드라마 관련해 이렇게 많은 기사를 올리는지는 처음 알았다. 드라마, 영화, 오락 프로그램에 관한 글은 주로 연예 정보를 다루는 블로거(blogger)들이 하는 것인 줄만 알았더니 그게 아니다.
그 만큼 이 드라마에 등장하는 배우들이 관심을 많이 받고 있다는 것 아니면 한글이 갖는 역사적 의미 때문이리라 생각 한다. 언어학자, 문화학자, 유명 대학교수, 노벨 문학상 수상자들이 인정한 한글의 우수성에 대한 기사 내용을 발췌해 보았다.
미국의 언어학자 로버트 램지와 레드야드 교수는 각각 “한글보다 뛰어난 문자는 세계에 없다. 세계의 알파벳이다”, “한글은 그 무엇과도 비교할 수 없는 문자의 사치이며 세계에서 가장 진보된 문자다”고 극찬했다.
또 영국의 문화학자 존맨, 독일 함부르크 대학의 사세 교수도 “한글은 모든 언어가 꿈꾸는 최고의 알파벳이다”, “세종대왕은 서양보다 500년이나 먼저 음운이론을 완성했다. 한글은 전통 철학과 과학 이론이 결합한 세계 최고의 문자다”라고 표현하기도.
시카고대학의 J.D 맥컬리 교수 역시 “한글날은 모든 언어학자들이 기념해야 할 경사스런 날”이라며 한글 날을 언급했으며, 1938년 노벨 문학상수상자이며 소설 ‘대지’로 유명했던 미국의 여류작가 펄 벅도 “한글은 전 세계에서 가장 단순한 글자이며, 가장 훌륭한 글자이다. 세종은 천부적 재능의 깊이와 다양성에서 한국의 레오나르도 다빈치다”고 극찬을 아끼지 않았다.
<출처>http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=106&oid=009&aid=0002586948
매일 일상에서 한글을 너무나도 당연하게 사용하는 입장에서는 이들의 반응이 다소 오버스럽게 느껴질지도 모르겠다. 우리가 SNS를 분석하면서 형태소 분석에 기반한 센티멘털(sentimental) 분석 작업을 시작하기 전에는 나 역시도 우리말 표현법의 깊은 맛을 제대로 알지 못 했다.
구글 검색엔진의 최종 목적지는 인공지능(artificial intelligence)에 있다. 이들은 알고리즘으로 접근하고 있고 페이스북은 진짜 살아 움직이는 인공지능(페이스북 사용자간 engagement에 기반한 정보 추천 방식)으로 가고 있다.
트위터, 블로그와 뉴스, 카페에 붙는 댓글, 페이스북 의견, 커뮤니티에 참여하는 다양한 의견을 빠르고 정확하게 분석하기 위해서는 검색엔진 도움 없이는 불가능하다. 그래서 구글이 앞으로 어떤 방식으로 인공지능을 구현해 낼지는 나의 최대 관심사기도 하다.
해외 시장을 타깃한 검색엔진 최적화(SEO) 작업을 오랫동안 해본 경험과 오래 되지는 않았지만 올해 영문 트위터를 분석해 보면 이들은 비교적 긍정어와 부정어 구분이 한글 보다는 쉽다는 느낌을 받는다.(물론, 이 부분도 더 깊이 파고들면 내 생각이 틀렸다는 결론에 도달하게 되겠지만 최소한 분석 속도와 정확도, 최종 완성도 높은 결과물 도출까지는 한글 보다는 쉬운 것 같다는 것이 지금까지의 내 생각이다.)
SNS 분석을 시작 하면서 애초에 가졌던 생각과 방향이 지금은 많이 달라졌지만(그 동안 많이 발전했다고 자평하고 싶음) 결과적으로 기계적 분석의 한계를 인정한 센티멘털(sentimental) 분석이 더 효율적이란 것이다. 긍정어 사전과 부정어 사전이야 얼마든지 완성해 가면 되겠지만 반어법과 신조어를 어떻게 해결할 것인가의 문제에는 아직 답을 못 찾고 있다.(이 문제에 대한 해답을 갖고 계신 분이 있다면 꼭 만나고 보고 싶다) – 요즘 10대 아이들 사이에 끼여 한 시간만 얘기 듣다 보면 진짜 외계인 같은 느낌 임.
곧 공개할 평판(reputation) 분석 프로그램을 개발하면서 우리는 재밌는 실험적 과제를 수행했다. 평소 어떤 사람이 긍정적인 단어를 자주 사용하고 있으며, 또 어떤 사람이 상대적으로 부정적인 생각(단어)를 자주하는지에 대해서 알아 보는 재밌는 주제였다.
부정적인 단어를 많이 사용한다고 그 사람의 사고가 부정적인 것은 아니다. 비판적(criticism) 접근을 해야하는 위치에 있는 사람이 사용하는 단어와 그 반대편에서 평가를 받는 사람이 사용하는 단어는 다를 수 밖에 없다는 점은 전제하고 보는 작업이였다.
우리가 사용하는 단어, 말, 기록하는 문장을 긍정(positive)과 부정(negative) 그리고 그 중간에 있는 보통(normal), 이도저도 아닌 기타(etc)로 분류할 때 어느 쪽 비율이 높을까? 그 경계선이 개인에 따라 모호하긴 하겠지만 한 인물을 중심에 놓고 이 프로젝트도 해 보면 재밌겠다는 생각을 해 본다.
[ONCLICK-SHOW-POPUP:GROUP=GROUP1]
답글 남기기