• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Первый профессиональный пакет тематического моделирования и визуального анализа для русского языка (TopicMiner).




Язык разработки:
C++, Delphi XE3
Время разработки: 09.2012 - наст.вр. 
Разработчики: С. Кольцов, В. Филиппов.

Возможности информационной системы:

1. Препроцессинг документов, который включает сборку и лематизацию больших русскоязычных данных (объединение всей коллекции в единый формат tmlda), создание списка стоп-слов и удаление их из текстов.

2. Работа с файлом формата tmlda включает в себя выгрузку оригинальных документов и лематизированных документов в формате  csv для сторонних пакетов, выгрузка документов на основе списка слов, удаление пустых документов, получившихся в ходе препроцессинга, расчет и выгрузка term – document matrix для статистического пакета ‘Orange’.

3. Тематическое моделирование по модели сэмплирования Гиббса, включает в себя проведение тематического моделирования по моделям: 1. LDA.  2. SLDA. 3.GLDA.

4. Тематическое моделирование по моделям: 1. PLSA, 2, PLSA + линейка регуляризаторов.

5. Визуализация результатов тематического моделирования, включает: 1. Визуализация распределений документов по темам. 2. Визуализация распределений слов по темам. 3. Визуализация распределений отсортированных документов в темах. 4. Визуализация отсортированных распределений слов по темам. 5. Выгрузка результатов тематического моделирования в сторонние пакеты в формате csv.        

6. Анализ результатов моделирования: 1. Сравнение тематических моделей на основе  ‘Kullback - Leibler distance’ и Jaccard index.

7.Визуализация результатов тематического моделирования в картографической системе Quantum GIS.

Информационная система реализована в виде инсталлятора для операционных систем: windows 8 и выше (64 bits).

Инструкция по работе с программой TopicMiner:

 TopicMiner_Manual (PDF, 2.96 Мб)

 

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.