Приглашаем на семинар в Школе Анализа Данных Яндекса
4 октября состоится семинар, организованный московскими коллегами из Школы Анализа Данных Яндекса, на котором представит свой доклад сотрудник ЛИНИС Сергей Кольцов. Мероприятие будет посвящено обсуждению разных подходов к проблеме определения числа тем в тематических моделях.
Анонсы докладов семинара:
Термодинамический подход к результатам тематического моделирования.
Кольцов С.Н. (канд. физ. мат наук), Лаборатория интернет-исследований, Высшая Школа Экономики, Санкт-Петербург.
Термодинамический формализм, реализованный на основе минимизации свободной энергии, успешно применяется в различных областях, таких как обработка изображений, нейронные сети, кластерный анализ. Существенное развитие методов кластеризации произошло в рамках тематического моделирования. В ТМ решается задача восстановления исходного многомерного распределения в виде смеси мультиномиальных распределений со скрытыми параметрами. Одной из нерешенных проблем в ТМ является выбор числа распределений в смеси. Причем эта проблема возникает как в кластерном анализе, сетевом анализе, так и при исследовании фазовых переходов веществ с различной пространственной структурой. Другой проблемой ТМ является семантическая стабильность, которая, с одной стороны зависит от типа модели ТМ, с другой стороны, зависит от числа тем.
В рамках данного доклада рассматривается подход к анализу зависимости ТМ от числа кластеров на основе идей из статистической физики. ТМ представляет как мезоскопическая информационная термодинамическая система, поведение которой определяется фактором ‘число тем’. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Тсаллиса. Кроме того, в докладе будут представлены результаты расчетов семантической стабильности по 4 моделям (PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling)) в диапазоне тем [2-320], с шагом 2 темы.
Проблема определения числа тем в тематических моделях.
Воронцов К.В. (доктор физ. мат наук), профессор базовой кафедры Яндекс в Высшей Школе Экономике
В докладе сравниваются два подхода к определению числа тем в тематических моделях. Первый - непараметрический байесовский вывод в модели Hierarchical Dirichlet Process. Второй - отбор тем с помощью кросс-энтропийного регуляризатора разреживания. Основной вывод: в обоих методах увеличение числа тем ведёт к измельчению их лексических ядер и детализации семантики тем. Не существует универсальных объективных критериев, где остановиться в этом процессе -- какие бы мелкие темы мы ни выделили, их можно разбить на ещё более мелкие. Таково свойство реальных данных. Это может послужить мотивацией для построения тематических иерархий. В некоторых приложениях оптимальное число тем всё же удаётся определить по дополнительным критериям качества, например, по качеству классификации, информационного поиска или рекомендаций.
Семинар пройдет 4 октября в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2).