토픽 추출을 통한 삶의 변화 살펴보기

4c17f14a98f67ecb4a3ca75426c2f1fd.jpeg

오랜만에 여유가 생겨 미뤄둔 몇 가지 분석 연습을 했다. 계속 다루고 있는 문제 가운데 하나는 텍스트에서 토픽을 추출하는 것이다. 텍스트 마이닝을 통해 추출한 토픽의 타당성을 검토하는 가장 좋은 실험 데이터는 내가 작성한 글이라는 생각이 들었다. 일단 글의 작성자인 나만큼 글의 내용과 맥락을 아는 사람이 없을 것이기 때문이다. 졸업 전후의 대략 2년간 페이스북에 쓴 글을 취합해서 각 글의 주제어를 몇 가지 방법을 결합해 결과를 검토했다. 위 표는 그 중 한 방법을 택한 결과이다.

[선택한 알고리듬]

시기별 각 단어의 고유성을 측정하기 위해 기존의 방식에 나름의 방식으로 개선을 해보았다. 간단히 표현하면 특정어의 문서 내 빈도에 특정어가 출현하는 문건 비율의 역수의 로그값을 곱하고, 이 값의 단어 *시기별 누적값을 구했다. 이 값이 클수록 개별 텍스트의 주제를 고유하게 드러내는 주제어일 가능성이 커지는 것이다.

[표의 해석]

졸업 전후의 주제어 점수를 순위별로 나열하였다. 순위가 높을수록 각 시기의 특성을 보다 고유하게 반영하는 것으로 이해할 수 있다. 아울러 포착된 주제어와 의미상 관련이 있는 범주를 가족, 연구, 강의로 크게 대별하고 여기에 속하지 않는 기타 모든 단어는 ‘생각’으로 분류했다. 비교를 쉽게 하기 위해서 범주별로 색을 칠했다. 주제어 옆 수치는 고유어 수준을 나타내는 점수이다.

[분석 결과 정리]

첫째, 상위 개념 범주가 졸업 전후를 거치면서 다양해졌다. 가족과 관련한 주제어가 늘어났고, 강의와 관련된 주제어도 새롭게 많이 나타난다. 이 두 범주는 모두 졸업후 상위 랭킹을 차지하고 있다.

둘째, 연구의 경우 두 시기 모두 중요 범주를 차지하고 있지만, 세부적인 내용에는 차이가 있다. 졸업전 연구 관련 주제는 대부분 데이터 분석 기법 혹은 응용 영역에 대한 내용이 많았다면, 졸업후의 경우는 연구와 관련한 다양한 경험이나 태도와 관련한 내용이 많아졌다는 것이다.

셋째, 졸업전 내용의 경우 급박했던 사회적 변동, 대학에 대한 고민과 관련한 내용이 많고, 졸업후에는 상대적으로 그런 내용이 줄어들고 사회적 참여와 관련한 주제어가 일부 포착되고 있음을 알 수 있다. 졸업전 “대통령”, “사과”, “후보”, “시민” 등은 모두 대통령 탄핵, 촛불집회, 조기 대선 등 당시 급박한 사회적 변화와 관련이 있다.

[결론]

전반적으로 졸업후 삶의 주제가 좀 더 풍부해졌다고 평가할 수 있을 것 같다. 다만, 생각과 경험 세계가 풍부해지는 대신 업무 로드와 건강에 유의할 필요가 있겠다. 가족과의 시간을 지금과 같은 추세로 더 보내되, 아내에 대해 좀 더 관심을 기울일 필요가 있다. 그리고, 분석 알고리듬을 넘어 연구 자체에 대한 고민의 폭이 넓어지는 것과 더불어서 그와 같은 고민이 구체적인 성과로 이어질 수 있도록 현실감을 놓치지 말아야 한다는 생각도 든다.

분석 결과의 타당성이 예상보다 만족스럽다. 나도 미처 생각하지 못했던 그간의 변화를 돌아보게 된 점도 있다. 계속 개선을 해보자.

댓글 남기기

워드프레스닷컴에서 웹사이트 또는 블로그 만들기

위로 ↑