• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

Руководитель проекта: Сергей Кольцов

Участники (в разные годы): Сергей Николенко, Константин Воронцов, Мурат Апишев, Владимир Филиппов, Максим Кольцов, Вера Игнатенко


Тематическое моделирование – перспективный инструмент для современных социальных и гуманитарных наук, позволяющий автоматически выявлять тематическую структуру больших текстовых коллекций, а это – важнейшая задача в эпоху больших интернет-данных. Однако применение тематического моделирования вызывает ряд вопросов, прежде всего, связанных как с анализом стабильности моделей, так и с проблемой выбора числа тем и выбора значений других параметров модели. А также на данный момент не существует надежный и вычислительно эффективных мер качества, которые могли бы использоваться для такой оптимизации и для оценки работы алгоритма. Возможное решение этих проблем следует искать за счет применения некоторых идей из статистической физики.

Этот проект представляет собой постоянное направление работы ЛИНИС по решению описанных проблем.

Во-первых, проект тестирует существующие меры качества и разрабатывает новые. Он также разрабатывает подходы к тестированию метрик и теоретические концепции качества тематического моделирования и представления о “ground truth”. В одной из публикаций предлагается мера tf-idf согласованности, которая показывает лучшие результаты, чем обычная согласованность, и легко обобщается для оценки качества не одной темы, а всего тематического решения в целом.

Во-вторых, проект ищет пути регуляризации алгоритмов тематического моделирования для улучшения их стабильности. Команда предлагает различные решения, такие как сэмплирование соседних слов из текстов (gLDA – granulated LDA), алгоритмы с частичным обучением на ключевых словах (ISLDA – interval semi-supervised LDA) и экспериментирует с аддитивной регуляризацией pLSA (в сотрудничестве с командой Константина Воронцова ВШЭ-Москва). 

В-третьих, проект развивает методы эффективного определения оптимального количества тем, с учетом того, что это вычислительно затратная задача. Проект закладывает теоретические основания для жадных алгоритмов, использующих понятия из термодинамики, такие как неэкстенсивная энтропия и свободная энергия. Этот подход позволяет по-новому взглянуть на проблему неоднозначности стохастического разложения и сформулировать задачу поиска оптимального числа тем в терминах минимизации энтропии и максимизации информации. В одной из последних публикаций предлагается использовать энтропию Реньи для определения оптимального числа тем (Koltcov, 2018).

В-четвертых, команда проекта вкладывает много усилий в разработку и поддержание TopicMiner, интерфейсное научное ПО для тематического моделирования. Освобождая исследователей от программирования, оно позволяет им сконцентрироваться на содержательных задачах: с одной стороны, представители компьютерных наук и лингвистики могут быстро применять и оценивать модели; с другой стороны, социальные и гуманитарные исследователи получают возможность быстро изучать и интерпретировать результаты моделирования. Текущая версия  TopicMiner содержит: базовый pLSA, LDA Е-М алгоритм и сэмплирование Гиббса), модели, основанные на BigARTM, ряд мер качества и визуализацию прогресса моделирования. ПО также содержит модуль препроцессинга и модуль работы с результатами (визуализацию, просмотр и сортировку миллионов текстов и экспорт).

 

Скачать Софт TopicMiner

Скачать Мануал к TopicMiner  (Русский)

 

Публикации:

 

 

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.