Diplomová práca

So far, so good...

Téma: Klastrovanie dokumentov štatistickými metódami

 Ciele:

 

Cieľom tejto diplomovej práce bude skúmať pravdepodobnostné modely s latentnými premennými a ich použitie na automatické klastrovanie textových dokumentov. 

Ďalej nás bude zaujímať správanie sa modelov ktoré umožňujú dokumentom vyskytovať sa vo viacerých triedach a modelov, ktoré každý dokument priradia do pravé jedného klastra.

Bude potrebne vytvoriť softvérový balík na klastrovanie dokumentov, pomocou ktorého bude možné používateľovi vhodným spôsobom prezentovať výsledky.

 

Články:

GTM: The Generative Topographic Mapping (Christopher M. Bishop, Markus Svensén, Christopher K. I. Williams ) Bishop-GTM-Ncomp-98.pdf  

A Combined Latent Class and Trait Model for the Analysis and Visualization of Discrete Data  (A.Kabán, M.Girolami) kaban_PAMI.pdf (2001)

 

Text:

Working copy" diplomka.pdf t

Experiment:

  •  Klastrovanie testovacej množiny 600 dokumentov po cca. 4100  z wikipédie v 3 hlavných kategóriách (Biologia, IT, Ekonomika) - video output.avi (cca. 1MB)