• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Оценка эффекта семантической стабильности и выбора числа тем на результаты тематического моделирования интернет-контента

Руководитель проекта:  Кольцов С.Н.
Исполнители проекта:  Филипов В. Кольцов М.

2018 год.

Тематическое моделирование является одним из основных алгоритмов анализа больших текстовых коллекций. Однако применение тематического моделирования вызывает ряд вопросов, прежде всего, связанных как с анализом стабильности моделей, так и с проблемой выбора числа тем.  Возможное решение этих проблем следует искать за счет применения некоторых идей из статистической физики.

Данный проект направлен на реализацию термодинамического подхода в тематическом моделировании. В рамках данного направления, коллекция документов и слов рассматривается в виде мезоскопической информационной системы, для которой можно сформулировать и рассчитать значения таких понятий как свободная энергия, энтропия Реньи и Тсаллиса. При этом число тем в тематической модели интерпретируется в виде аналога физической температуры. Соответственно, проблему поиска оптимального числа тем в коллекции документов можно свести к проблеме  поиска минимума энтропии или максимума информации при изменении температуры.

В данном исследовании анализируется ряд тематических моделей (pLDA, LDA, VLDA, GLDA) с точки зрения поведения энтропии как функции от числа тем, а также анализируется эффект ‘Т инвариантности’, выраженный в виде квазипериодического поведения коэффициента Жаккара при изменении числа тем.   

В работе задействовано программное обеспечение ‘TopicMiner’. Сбор данных для тематического моделирования частично осуществляется при помощи ПО ‘VkMiner’.

Публикации данного проекта

1.     S. Koltsov, O.Koltsova, S.Nikolenko. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. NY : ACM, 2014. P. 161-165.

2.     Sergei Koltcov, Nikolenko S. I., Olessia Koltsova, Vladimir Filippov, Svetlana Bodrunova. Stable Topic Modeling with Local Density Regularization, in: Internet Science, Proc. of 3d conf INSCI 2016, Lecture Notes in Computer Science series Vol. 9934. Switzerland : Springer, 2016. doi 10.1007/978-3-319-45982-0_16 P. 176-188.

3.     Koltcov S. N., A thermodynamic approach to selecting a number of clusters based on topic modeling, Technical Physics Letters, 43(6), 584-586.

4.     S. N. Kol’tsov*, S. I. Nikolenko, and E. Yu. Kol’tsova, Gibbs Sampler Optimization for Analysis of a Granulated Medium, Technical Physics Letters, 2016, Vol. 42, No. 8, pp. 837–839.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.