토픽 추출을 통한 삶의 변화 살펴보기

오랜만에 여유가 생겨 미뤄둔 몇 가지 분석 연습을 했다. 계속 다루고 있는 문제 가운데 하나는 텍스트에서 토픽을 추출하는 것이다. 텍스트 마이닝을 통해 추출한 토픽의 타당성을 검토하는 가장 좋은 실험 데이터는 내가 작성한 글이라는 생각이 들었다. 일단 글의 작성자인 나만큼 글의 내용과 맥락을 아는 사람이 없을 것이기 때문이다. 졸업 전후의 대략 2년간 페이스북에 쓴 글을 취합해서... Continue Reading →

메르스의 추억

한참 메르스가 큰 공포로 우리 사회를 휘감았던 2015. 마침 그때 나는 병원에 소속된 한 연구소에서 연구원으로 일하고 있었다. 뒤숭숭한 병원 분위기를 뒤로 하고 어느날 점심 시간을 할애해서 했던 시뮬레이션 작업 가운데 하나. [질문] -접촉에 의한 전염률과 감염에 의한 치명률은 전체 사망확률에 어떤 영향을 미치는가? -그리고 이를 통해 어떤 행동 전략을 도출할 수 있을까? [가정] -인구는... Continue Reading →

패널기반 효과추정과 음악대장의 추억

오래 전에 쓴 글이다. 음악대장이 한참 활약하던 시기. 워낙 좋아하는 가수라 그의 활약은 나에게 큰 즐거움 중에 하나였다. 기쁜 마음에 효과 추정 기법 하나를 활용했던 추억이 떠오른다. 음악대장은 복면가왕에 어떤 영향을 미쳤는가? 올 상반기는 음악대장의 존재가 큰 낙이었다. 국카스텐의 음악을 좋아하는 사람으로서 음악대장의 멋진 무대는 색다른 즐거움을 주었다. 그 즐거움을 추억으로 넘기면서, 그리고 최근의 연구용... Continue Reading →

타당한 지역 비교를 위한 시각화 작업

3년 전 언제인가 썼던 글. 다양한 분석 도구를 사회과학과 정책학적 목적에 맞게 응용하고 필요한 경우 새로운 개선 방법 시도하는 것은 나에게 늘 흥미로운 주제이다. 요즘은 졸업 논문 작업을 하다가 짬이 나면 GIS 도구를 사회과학 연구 목적에 적합하게 응용하는 문제를 검토중이다. 최근에 관심을 가지고 있는 퍼즐은 지역의 속성을 어떻게 왜곡 없이 잘 보여줄 것인가다. 한국처럼 도시화... Continue Reading →

텍스트 마이닝과 역대 대통령 생각 엿보기

대통령 취임사에 담긴 역대 대통령들의 고유한 생각을 엿보고 싶어졌다. 탐색적인 첫걸음으로 역대 대통령들의 취임 연설문을 수집했다. 박정희 전 대통령의 1978년 취임 연설문 이후를 수집 기준으로 했다. 이 작업의 핵심은 각 연설문에 실린 대통령의 고유한 어휘 사용 패턴을 살펴보는 것이다. 고유한 사용 패턴은 전체 집단의 평균적인 사용 수준과 비교해서 분석해야 한다. 예를 들어, “국민” 혹은 “오늘”이라는... Continue Reading →

차원축약과 신비아파트

현상의 탐구는 크게 두 방향으로 이뤄질 수 있다. 하나는 나무에서 시작해서 숲을 보는 방식이고, 또 다른 하나는 숲에서 시작해서 나무로 관찰 단위를 옮기는 방식이다. 우리집 꼬마는 신비아파트와 관련해서 전자의 방식으로 나보다 관찰 경험이 많다. 어떤 귀신이 언제 방영되었고, 사연이 무엇이고, 어떤 특징을 가졌는지 알고 있다. 현상 관찰에서 꼬마보다 후발 주자인 나는 숲에서부터 시작하기로 했다. 출연한... Continue Reading →

언론 보도 자료 추출과 자살 관련 보도 추이

특정 검색어를 정하면 관련 언론 보도를 웹에서 검색해서 자동으로 축적하는 프로세스를 만들어 보았다. 첫 테스트로 “자살”을 키워드로 2001년부터 2017년까지 17년간 인터넷에 공개된 거의 모든 언론사의 기사를 수집했다. 이 과정에서 대략 12만 건의 기사를 모았다. 그림은 2001년부터 2017년까지 일일 자살 관련 기사의 보도 빈도를 나타낸 것이다. 특정 시점에서 지나치게 튀는 지점이 있고 이로 인해서 전반적 추세... Continue Reading →

워드프레스닷컴에서 웹사이트 또는 블로그 만들기

위로 ↑