• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

 

Руководитель проекта: Сергей Кольцов

Участники (в разные годы): Сергей Николенко, Константин Воронцов, Мурат Апишев, Владимир Филиппов, Максим Кольцов

 

 

Тематическое моделирование – перспективный инструмент для современных социальных и гуманитарных наук, позволяющий автоматически выявлять тематическую структуру больших текстовых коллекций, а это – важнейшая задача в эпоху больших интернет-данных. Однако тематическое моделирование, и в частности LDA как его основной алгоритм, имеет ряд проблем, которые не позволяют эффективно использовать его на практике, например, для аналитики социальных медиа. Во-первых, он не обеспечивает воспроизводимых результатов, то есть колеблется от запуска к запуску при одних и тех же входных параметрах. Во-вторых, этот инструмент не предлагает способов оптимизации его параметров, таких как альфа и бета в LDA, а также числа тем. И в-третьих, на данный момент не существует надежных мер качества, которые могли бы использоваться для такой оптимизации и для оценки работы алгоритма.

 

Этот проект представляет собой постоянное направление работы ЛИНИС по решению описанных проблем.

 

Во-первых, проект тестирует существующие меры качества и разрабатывает новые. Он также разрабатывает подходы к тестированию метрик и теоретические концепции качества тематического моделирования и представления о “ground truth”. В одной из недавних публикаций предлагается мера tf-idf согласованности, которая показывает лучшие результаты, чем обычная согласованность, и легко обобщается для оценки качества не одной темы, а всего тематического решения в целом.

 

Во-вторых, проект ищет пути регуляризации алгоритмов тематического моделирования для улучшения их стабильности. Команда предлагает различные решения, такие как сэмплирование соседних слов из текстов (gLDA – granulated LDA), алгоритмы с частичным обучением на ключевых словах (ISLDA – interval semi-supervised LDA) и экспериментирует с аддитивной регуляризацией pLSA (в сотрудничестве с командой Константина Воронцова ВШЭ-Москва).

 

В-третьих, проект развивает методы эффективного определения оптимального количества тем, с учетом того, что это вычислительно затратная задача. Проект закладывает теоретические основания для жадных алгоритмов, использующих понятия из термодинамики, такие как неэкстенсивная энтропия и свободная энергия. Этот подход позволяет по-новому взглянуть на проблему неоднозначности стохастического разложения и сформулировать задачу поиска оптимального числа тем в терминах минимизации энтропии и максимизации информации.

 

В-четвертых, команда проекта вкладывает много усилий в разработку и поддержание TopicMiner, интерфейсное научное ПО для тематического моделирования. Освобождая исследователей от программирования, оно позволяет им сконцентрироваться на содержательных задачах: с одной стороны, представители компьютерных наук и лингвистики могут быстро применять и оценивать модели; с другой стороны, социальные и гуманитарные исследователи получают возможность быстро изучать и интерпретировать результаты моделирования. Текущая версия  TopicMiner содержит: базовый pLSA, LDA Е-М алгоритм и сэмплирование Гиббса), модели, основанные на BigARTM (https://bigartm.readthedocs.io/en/stable/), ряд мер качества и визуализацию прогресса моделирования. ПО также содержит модуль препроцессинга и модуль работы с результатами (визуализацию, просмотр и сортировку миллионов текстов и экспорт).

 

Скачать Софт TopicMiner

Скачать Мануал к TopicMiner  (Русский)

 

Публикации

       Koltsov S., Nikolenko S. I.Koltsova O. Gibbs Sampler Optimization for Analysis of a Granulated Medium // Technical Physics Letters. 2016. Vol. 8. No. 42. P. 837-839

       Apishev M., Koltsov S., Koltcova E. Y. Mining ethnic content online with additively regularized topic models // Computacion y Sistemas. 2016. Vol. 20. No. 3. P. 387-403

       Sergei KoltcovNikolenko S. I.Olessia KoltsovaVladimir FilippovSvetlana BodrunovaStable Topic Modeling with Local Density Regularization, in: Internet Science, Proc. of 3d conf INSCI 2016, Lecture Notes in Computer Science series Vol. 9934.Switzerland : Springer, 2016

       Koltsov S.Nikolenko S. I.Koltsova O.Bodrunova S. Stable topic modeling for web science: Granulated LDA, in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference. Elsevier B.V., 2016. P. 342-343.

       Sergey NikolenkoSergei KoltcovOlessia KoltsovaTopic modelling for qualitative studies // Journal of Information Science. 2016

       Koltsov S.Koltsova O.Nikolenko S. I. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014. NY : ACM, 2014. P. 161-165.

        Nikolenko S. I.Koltsov S.Koltsova O. Measuring Topic Quality in Latent Dirichlet Allocation, in: Proceedings of the Philosophy, Mathematics, Linguistics: Aspects of Interaction 2014 Conference. St. Petersburg : The Euler International Mathematical Institute, 2014. P. 149-157.

       Bodrunova S., Nikolenko S. I.Koltcova E. Y.Koltsov S., Шиморина А. Interval Semi-Supervised LDA: Classifying Needles in a Haystack, in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013) Part I: Advances in Artificial Intelligence and Its Applications. Berlin : Springer Verlag, 2013. P. 265-274.

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!