[사이람 뉴스레터 37호] 자동 토픽 분석 플러그인 무료 배포!

작성자 사이람
날짜 2018-03-12
조회수 665
첨부 첨부파일이 없습니다.

안녕하세요. 소셜네트워크분석 전문기업 ㈜사이람입니다.

 

 NetMiner를 활용하여 SNS, 뉴스, 논문 등의 text 데이터에서 토픽을 분석하고, 분석 결과를 다양한 형태로 제공하는 ‘자동 토픽 분석 Plug-in’을 소개하고 무료로 여러분께 제공해 드리려 합니다.

 

 토픽 분석(Topic Modeling)은 기계학습 기법 중 하나로 문서 데이터에 내재된 토픽을 파악하여 문서를 분류하거나 토픽을 구성하는 단어 클러스터를 도출할 수 있게 해줍니다. SNA의 2-모드 네트워크 데이터와 연계하여 활용할 수 있는 분석방법으로 더 풍부한 비정형 텍스트 분석을 위해 최근 많은 연구자들과 분석가들이 활용하고 있습니다.


 


□  자동 토픽 분석Plug-in이란?

 

단 2번의 클릭만으로 아래의 복잡한 토픽 분석 과정을 한 번에 처리하실 수 있습니다.


 

 

자동 토픽 분석 Plug-in은 토픽 모델링 기법 중 하나인 잠재 디리클레 할당(LDA) 알고리즘을 통해 토픽을 추출하고 토픽별 주요 단어문서 클러스터링 등을 다양한 시각화 결과물과 함께 제공합니다.

 


 ▶ 자동 토픽 분석 Plug-in 다운로드

 

 

□  자동 토픽 분석Plug-in 분석 프로세스

 


○ 분석 데이터

 

2017년 말부터 큰 이슈를 불러 일으킨 ‘bitcoin’을 검색 키워드로 하여 2018년 2월 27일 기준 트윗글 6,088개를 수집하여 플러그인 실행을 위한 샘플 데이터로 활용하였습니다.  

 

 플러그인 실행 결과

 

 문서 분류 : 토픽별 문서 분류 결과를 토대로 전체 문서에서의 각 토픽의 비중을 파악

 

 

 

- 비트코인과 관련하여 작성된 트윗글을 6개의 토픽으로 분류한 결과

- 전체 약 6,000개 트윗글에는 6개의 토픽이 약 17%의 비슷한 비중으로 존재하고 있음을 확인할 수 있음 

 

 토픽 별 주요 단어(워드클라우드) : 토픽별 단어의 영향력(할당 확률)이 클수록 중요한 단어로 표시

 

 

 

- 토픽 별로 할당확률이 큰 단어는 크게 표시

- 단어의 크기만 의미가 있으며 색상, 위치는 의미 없음

 

 토픽 별 단어 네트워크 맵(+원문 보기)

 

 

 

- 토픽 별 할당확률이 높은 상위 100개 단어로 단어 네트워크를 구성(빨간 점(  )은 각 단어를 뜻 함) 

- 단어 네트워크는 단어가 다른 단어와 문서에서 얼마나 가깝게 등장하였는지에 따라 생성(Word distance – Window size 기준) 

- 가깝게 등장한 단어끼리 링크가 생성됨

 

- 토픽에 대한 할당확률이 높은 단어일수록 의 크기가 큼 

 

- 추가로 위의 네트워크 맵에서 특정 단어를 선택하면 해당 단어가 어떤 문서와 문장에서 어떻게 쓰였는지 확인할 수 있음

 

                                                                <단어(Venezuela)가 등장한 원문 보기> 

 

④ 토픽-키워드 네트워크 : 추출된 토픽을 이루고 있는 주요 키워드를 토픽-키워드 간 네트워크 형식으로 시각화

 

 

 

- 토픽 분석 결과, 토픽 별로 영향력이 높은 단어를 선택하여 시각화

- 빨간 점(  )은 토픽을 뜻하며, 노란색 글자는 토픽명(연구자가 주요 단어를 참고하여 주관적인 판단 하에 결정), 파란 점()은 토픽 별 주요 단어를 뜻 함

- 선 굵기는 주요 단어()의 해당 토픽(  )에 대한 할당확률로서, 높을수록 두껍게 표시 

 

NetMiner의 Semantic Network 분석 기능 및 자동 토픽 분석 플러그인을 활용하여 비트코인 관련 트윗글에 숨어 있는 주제와 주요 키워드를 확인할 수 있었습니다. 
보다 자세한 내용과 플러그인 사용 방법 및 지원 라이선스 사양을 확인하시려면 블로그를 참고해 주시기 바랍니다. 

감사합니다. 



 


다음글[알림] 사무실 이전 안내