Первый профессиональный пакет тематического моделирования и визуального анализа для русского языка (TopicMiner).
Язык разработки: C++, Delphi XE3
Время разработки: 09.2012 - наст.вр.
Разработчики: С. Кольцов, В. Филиппов.
Возможности информационной системы:
1. Препроцессинг документов, который включает сборку и лематизацию больших русскоязычных данных (объединение всей коллекции в единый формат tmlda), создание списка стоп-слов и удаление их из текстов.
2. Работа с файлом формата tmlda включает в себя выгрузку оригинальных документов и лематизированных документов в формате csv для сторонних пакетов, выгрузка документов на основе списка слов, удаление пустых документов, получившихся в ходе препроцессинга, расчет и выгрузка term – document matrix для статистического пакета ‘Orange’.
3. Тематическое моделирование по модели сэмплирования Гиббса, включает в себя проведение тематического моделирования по моделям: 1. LDA. 2. SLDA. 3.GLDA.
4. Тематическое моделирование по моделям: 1. PLSA, 2, PLSA + линейка регуляризаторов.
5. Визуализация результатов тематического моделирования, включает: 1. Визуализация распределений документов по темам. 2. Визуализация распределений слов по темам. 3. Визуализация распределений отсортированных документов в темах. 4. Визуализация отсортированных распределений слов по темам. 5. Выгрузка результатов тематического моделирования в сторонние пакеты в формате csv.
6. Анализ результатов моделирования: 1. Сравнение тематических моделей на основе ‘Kullback - Leibler distance’ и Jaccard index.
7.Визуализация результатов тематического моделирования в картографической системе Quantum GIS.
Информационная система реализована в виде инсталлятора для операционных систем: windows 8 и выше (64 bits).
Инструкция по работе с программой TopicMiner:
TopicMiner_Manual (PDF, 2.96 Мб)
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.