So far, so good...
Téma: Klastrovanie dokumentov štatistickými metódami
Ciele:
Cieľom tejto diplomovej práce bude skúmať pravdepodobnostné modely s latentnými premennými a ich použitie na automatické klastrovanie textových dokumentov.
Ďalej nás bude zaujímať správanie sa modelov ktoré umožňujú dokumentom vyskytovať sa vo viacerých triedach a modelov, ktoré každý dokument priradia do pravé jedného klastra.
Bude potrebne vytvoriť softvérový balík na klastrovanie dokumentov, pomocou ktorého bude možné používateľovi vhodným spôsobom prezentovať výsledky.
Články:
GTM: The Generative Topographic Mapping (Christopher M. Bishop, Markus Svensén, Christopher K. I. Williams ) Bishop-GTM-Ncomp-98.pdf
A Combined Latent Class and Trait Model for the Analysis and Visualization of Discrete Data (A.Kabán, M.Girolami) kaban_PAMI.pdf (2001)
Text:
Working copy" diplomka.pdf t
Experiment:
-
Klastrovanie testovacej množiny 600 dokumentov po cca. 4100 z wikipédie v 3 hlavných kategóriách (Biologia, IT, Ekonomika) - video output.avi (cca. 1MB)