아래는 지난겨울에 했었던 작업이다. 비정형 텍스트 자료(소설, 시나리오, 댓글 등)에서 일정한 정보를 추출하고 패턴을 발견하는 작업을 때때로 해왔다. 최근에 실제 대규모 행정 데이터를 활용하여 이와 같은 문제를 다룰 기회를 얻게 되었다. 전산망에서 구조화가 되어 있는 자료라 문학 작품보다는 다루기 쉬울(?) 것으로 보인다. 소설이나 시나리오의 서사를 어떻게 데이터화하여 다룰까? 관건은 특별한 가공이 되어 있지 않은 문건에서... Continue Reading →
