- 1 - 이런 비교 자체가 한강 작가님에게는 너무나 죄송하지만, 작가님의 노벨상 수상 연설과 히틀러가 유태인에 대한 적대시를 분명히 한 1922년 뮌헨 연설을 비교하고 싶어졌다. 두 연설은 각각 사랑과 폭력을 가장 극명하게 드러내는 연설이라고 생각했기 때문이다. 기계는 두 연설에 담긴 문장의 감성을 어떻게 읽어낼까 궁금했다. 아래 그림에서 흰 선은 작가님 연설 감성의 평균적 흐름이고, 분홍색은... Continue Reading →
한국 단편 문학에서 드러나는 비극성의 전개
텍스트에 담긴 고통을 어떻게 측정할 수 있을 것인가가 요즘 나의 큰 관심사이다. 한국 문학은 분석 모형을 테스트하고 해석을 연습함에 있어 너무나도 소중한 자료원이다. 그리고 작품에 담긴 문학적 깊이를 알고리즘이 읽지 못함을 느끼면서 데이터 분석가에 필요한 겸손도 배우게 된다. 그 가운데 한국 단편 문학에서 비극성은 어떻게 드러나는지 알아보고 싶어졌다. 여기서 비극성은 "가난", "슬픔", "죽음"의 의미 구조로... Continue Reading →
이야기를 데이터로 새롭게 포착하기
아래는 지난겨울에 했었던 작업이다. 비정형 텍스트 자료(소설, 시나리오, 댓글 등)에서 일정한 정보를 추출하고 패턴을 발견하는 작업을 때때로 해왔다. 최근에 실제 대규모 행정 데이터를 활용하여 이와 같은 문제를 다룰 기회를 얻게 되었다. 전산망에서 구조화가 되어 있는 자료라 문학 작품보다는 다루기 쉬울(?) 것으로 보인다. 소설이나 시나리오의 서사를 어떻게 데이터화하여 다룰까? 관건은 특별한 가공이 되어 있지 않은 문건에서... Continue Reading →
엄마와 아이가 굶주려 세상을 떠났다.
그제 굶주려 세상을 떠난 탈북민 엄마와 아이의 소식을 보았다. 아이가 생긴 뒤로 이런 뉴스를 보면 마음이 찢어질 듯 아프다. 엄마와 아이는 얼마나 힘들고 외로웠을까. 오늘 뉴스를 보니 기본적인 생계유지에 도움이 될 제도에 대해서 엄마에게 소개가 거의 되지 않았을 가능성이 크다고 한다. 나도 이런저런 프로젝트에 관여하고 있지만 "빅데이터 활용 위기 발굴 모형 구축"이니 "지능정보기반 서비스... Continue Reading →
토픽 추출을 통한 삶의 변화 살펴보기
오랜만에 여유가 생겨 미뤄둔 몇 가지 분석 연습을 했다. 계속 다루고 있는 문제 가운데 하나는 텍스트에서 토픽을 추출하는 것이다. 텍스트 마이닝을 통해 추출한 토픽의 타당성을 검토하는 가장 좋은 실험 데이터는 내가 작성한 글이라는 생각이 들었다. 일단 글의 작성자인 나만큼 글의 내용과 맥락을 아는 사람이 없을 것이기 때문이다. 졸업 전후의 대략 2년간 페이스북에 쓴 글을 취합해서... Continue Reading →
언론 보도 자료 추출과 자살 관련 보도 추이
특정 검색어를 정하면 관련 언론 보도를 웹에서 검색해서 자동으로 축적하는 프로세스를 만들어 보았다. 첫 테스트로 “자살”을 키워드로 2001년부터 2017년까지 17년간 인터넷에 공개된 거의 모든 언론사의 기사를 수집했다. 이 과정에서 대략 12만 건의 기사를 모았다. 그림은 2001년부터 2017년까지 일일 자살 관련 기사의 보도 빈도를 나타낸 것이다. 특정 시점에서 지나치게 튀는 지점이 있고 이로 인해서 전반적 추세... Continue Reading →
