• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Константин Воронцов: Аддитивная регуляризация тематических моделей (ARTM)

11 сентября 2014 в лаборатории Интернет Исследований прошел научно исследовательский семинар на тему аддитивной регуляризации тематических моделей. В рамках семинара выступил доктор физико-математических наук, старший научный сотрудник отдела Вычислительных методов прогнозирования ВЦ РАН, доцент кафедры «Математические методы прогнозирования» ВМиК МГУ, заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ и профессор базовой кафедра Яндекс в Высшей Школе Экономике.

Воронцов К.В. рассказал о достоинствах и недостатках различных подходах в рамках тематического моделирования. В ходе изложения были затронуты проблемы не единственности стохастического матричного разложения и влияние этой проблемы на результаты тематического моделирования. Было отмечено что тематическое моделирование, по сути дела, является некорректно поставленной задачей, качественное решение которой без привлечения дополнительной априорной информации невозможно, так как существует непосредственная связь между количеством такой априорной информации и устойчивостью алгоритма решения.

В ходе семинара был рассмотрен новый подход ‘ARTM’, который позволяет существенно улучшить результаты тематического моделирования. Суть данного подхода заключается в следующем. За основу берётся классическая модель вероятностного латентного семантического анализа PLSA. Для оценивания параметров модели PLSA применяется EM - алгоритм, который ищет максимум правдоподобия. К функционалу логарифма правдоподобия добавляются штрафные слагаемые (регуляризаторы), выражающие различные дополнительные требования к модели. Каждая аддитивная поправка к функционалу приводит к аддитивной поправке в формуле M-шага EM-алгоритма. Это позволяет комбинировать произвольное число требований и строить многоцелевые тематические модели.

Воронцов К. В. показал, что исходя из этого подхода, стандартный вариант LDA является частным случаем модели аддитивной регуляризации. После окончания основного выступления Воронцова К.В. участники семинара обсудили возможные совместные проекты и сотрудничество. На основании проведенного семинара и обсуждений стороны договорились о возможности совместных работ. Предполагается активная интеграция пакета BigART в проект TopicMiner и запуск исследований возможности применения регуляризаторов социологических проектов лаборатории.