LDA(Latent Dirichlet Allocation)


매번 공부해야지 했던 LDA
결국 논문을 읽진 않고 간단하게 개념만 학습하기 위하여 인터넷으로 찾아봤다.
대충 토픽 클러스터링 정도로 알고 있었는데 어쨌든 이번 기회에 조금 더 잘 알게 된 것 같다.

LDA는 간단히 말하면 Unsupervised generative topic model. 문서를 모델링하는 기법이다.
문서 컬렉션(corpus)을 표현하는 방법을 generative한 방법으로 찾는 것이며, 주제 분류나 문서간 유사도 계산에 많이 쓰인다.

LDA는 각각의 문서를 토픽들의 집합으로 본다는 것이 특징.
즉, document는 mixture of topics.

<LDA 모델>

LDA가 문서를 모델링하는 방법:
1. 문서의 토픽들을 정하고
2. 각 단어의 토픽을 정하며
3. 토픽을 형성하는 단어의 집합에서 단어를 뽑아 문서에 쓴다.



참고한 블로그:

http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply

http://arongdari.tistory.com/entry/Latent-Dirichlet-Allocation

+ Recent posts