2023 하계 토픽모델링 방법론 세미나

CIAD
2023년 9월 5일
1분 분량

2023년 7월 20일, 서울대학교 국제농업기술대학원 국제농업개발협력전공 졸업 후 현재 국제산림연구센터(CIFOR)에서 컨설턴트로 재직중인 신성민 연구원이 토픽모델링 방법론 세미나를 진행했다.

토픽모델링 기법은 기존의 텍스트 분석과는 달리 선험적 이론에 기초한 사전적 코딩 범주의 투입을 요구하지 않으며, 전통적인 가까이서 읽기의 방법으로는 도저히 소화할 수 없는 방대한 양의 텍스트 뭉치에서 유의미한 토픽들을 자동적으로 산출해주는 방법론이다. 이는 토픽모델링 기법이 ‘어휘들의 의미는 어휘 자체에 내재하기보다는 어휘가 사용되는 맥락 혹은 함께 사용되는 어휘들과의 관계에 기초한다.’는 전제하에서 만들어진 알고리즘이기 때문에 가능하다.

토픽모델링 기법을 이용하면 전체 텍스트뭉치에서 토픽들이 어떻게 분포되는지, 개별 문서들은 어떤 토픽으로 구성되는지, 네트워크 분석을 통해서 각각의 토픽간에도 어떤 유사성이 있는지, 그리고 연도별로 각각의 토픽이 어떤 비중을 차지하고 있는지까지도 알아볼 수 있다.

토픽모델링을 실제로 실행할 때는 주로 LDA(Latent Dirichlet Allocation; 잠재디클레할당) 알고리즘을 사용하며, 다음과 같은 전제를 두고 단어를 토픽에 할당하는 과정이 이루어진다.

1. 모든 문서들(Documents)은 여러 개의 토픽들을 가지고 있다.

2. 각 토픽은 단어들의 분포이다.

3. 문서 집합이 동일하다면 각 문서의 토픽의 비중은 변하지 않는다.

4. 문서 내 각 단어들은 이러한 토픽들로부터 샘플링된다.

추출된 토픽은 자동으로 네이밍되지 않기 때문에 연구자의 주관적인 해석이 필요하며, 초기화 파라미터(토픽 개수, α, β) 및 Document-Term 행렬의 단어 필터링 최적화가 어렵다는 단점이 있긴 하지만, 대규모의 문서집합에서 유의미한 토픽을 자동으로 추출해주기 때문에 활용성이 매우 높은 방법론이다.

세미나에 참여한 서울대학교 연구진은 이론 설명을 들음과 더불어 넷마이너 프로그램 실습을 통해 토픽모델링의 기초를 익힐 수 있었다. 이로써 추후 다양한 연구에 유용하게 사용될 수 있는 방법론을 함께 학습하는 유익한 시간이 되었다.