СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ
Руководитель проекта: Сергей Кольцов
Участники (в разные годы): Сергей Николенко, Константин Воронцов, Мурат Апишев, Владимир Филиппов, Максим Кольцов, Вера Игнатенко
Тематическое моделирование – перспективный инструмент для современных социальных и гуманитарных наук, позволяющий автоматически выявлять тематическую структуру больших текстовых коллекций, а это – важнейшая задача в эпоху больших интернет-данных. Однако применение тематического моделирования вызывает ряд вопросов, прежде всего, связанных как с анализом стабильности моделей, так и с проблемой выбора числа тем и выбора значений других параметров модели. А также на данный момент не существует надежный и вычислительно эффективных мер качества, которые могли бы использоваться для такой оптимизации и для оценки работы алгоритма. Возможное решение этих проблем следует искать за счет применения некоторых идей из статистической физики.
Этот проект представляет собой постоянное направление работы ЛИНИС по решению описанных проблем.
Во-первых, проект тестирует существующие меры качества и разрабатывает новые. Он также разрабатывает подходы к тестированию метрик и теоретические концепции качества тематического моделирования и представления о “ground truth”. В одной из публикаций предлагается мера tf-idf согласованности, которая показывает лучшие результаты, чем обычная согласованность, и легко обобщается для оценки качества не одной темы, а всего тематического решения в целом.
Во-вторых, проект ищет пути регуляризации алгоритмов тематического моделирования для улучшения их стабильности. Команда предлагает различные решения, такие как сэмплирование соседних слов из текстов (gLDA – granulated LDA), алгоритмы с частичным обучением на ключевых словах (ISLDA – interval semi-supervised LDA) и экспериментирует с аддитивной регуляризацией pLSA (в сотрудничестве с командой Константина Воронцова ВШЭ-Москва).
В-третьих, проект развивает методы эффективного определения оптимального количества тем, с учетом того, что это вычислительно затратная задача. Проект закладывает теоретические основания для жадных алгоритмов, использующих понятия из термодинамики, такие как неэкстенсивная энтропия и свободная энергия. Этот подход позволяет по-новому взглянуть на проблему неоднозначности стохастического разложения и сформулировать задачу поиска оптимального числа тем в терминах минимизации энтропии и максимизации информации. В одной из последних публикаций предлагается использовать энтропию Реньи для определения оптимального числа тем (Koltcov, 2018).
В-четвертых, команда проекта вкладывает много усилий в разработку и поддержание TopicMiner, интерфейсное научное ПО для тематического моделирования. Освобождая исследователей от программирования, оно позволяет им сконцентрироваться на содержательных задачах: с одной стороны, представители компьютерных наук и лингвистики могут быстро применять и оценивать модели; с другой стороны, социальные и гуманитарные исследователи получают возможность быстро изучать и интерпретировать результаты моделирования. Текущая версия TopicMiner содержит: базовый pLSA, LDA Е-М алгоритм и сэмплирование Гиббса), модели, основанные на BigARTM, ряд мер качества и визуализацию прогресса моделирования. ПО также содержит модуль препроцессинга и модуль работы с результатами (визуализацию, просмотр и сортировку миллионов текстов и экспорт).
Скачать Софт TopicMiner
Скачать Мануал к TopicMiner (Русский)
Публикации:
- Koltsov, S., Ignatenko, V., Koltsova, O. (2019). Estimating Topic Modeling Performance with Sharma–Mittal Entropy. Entropy, Vol. 21, No. 7., p. 660 doi: 10.3390/e21070660
- Koltcov, S. (2018). Application of Rényi and Tsallis entropies to topic modeling optimization. Physica A: Statistical Mechanics and Its Applications , 512 , 1192–1204. https://doi.org/10.1016/j.physa.2018.08.050
- Ignatenko, V., Koltcov, S., Staab, S., & Boukhers, Z. (2019). Fractal approach for determining the optimal number of topics in the field of topic modeling. Journal of Physics: Conference Series. Vol. 1163, No. 1, pp. 1- 6. doi: 10.1088/1742-6596/1163/1/012025
https://iopscience.iop.org/article/10.1088/1742-6596/1163/1/012025/meta Download preprint version - Koltcov S. N., A thermodynamic approach to selecting a number of clusters based on topic modeling, Technical Physics Letters, 43(6), 584-586.
- Koltsov S., Nikolenko S. I., Koltsova O. Gibbs Sampler Optimization for Analysis of a Granulated Medium // Technical Physics Letters . 2016. Vol. 8. No. 42. P. 837-839
- Apishev M., Koltsov S., Koltcova E. Y. Mining ethnic content online with additively regularized topic models // Computacion y Sistemas . 2016. Vol. 20. No. 3. P. 387-403
- Sergei Koltcov, Nikolenko S. I., Olessia Koltsova, Vladimir Filippov, Svetlana Bodrunova. Stable Topic Modeling with Local Density Regularization, in: Internet Science, Proc. of 3d conf INSCI 2016, Lecture Notes in Computer Science series Vol. 9934.Switzerland : Springer, 2016
- Koltsov S., Nikolenko S. I., Koltsova O., Bodrunova S. Stable topic modeling for web science: Granulated LDA, in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference. Elsevier B.V., 2016. P. 342-343.
- Sergey Nikolenko, Sergei Koltcov, Olessia Koltsova. Topic modelling for qualitative studies // Journal of Information Science . 2015
- Koltsov S., Koltsova O., Nikolenko S. I. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014 . NY : ACM, 2014. P. 161-165.
- Nikolenko S. I., Koltsov S., Koltsova O. Measuring Topic Quality in Latent Dirichlet Allocation, in: Proceedings of the Philosophy, Mathematics, Linguistics: Aspects of Interaction 2014 Conference . St. Petersburg : The Euler International Mathematical Institute, 2014. P. 149-157.
- Bodrunova S., Nikolenko S. I., Koltcova E. Y., Koltsov S., Shimorina A. Interval Semi-Supervised LDA: Classifying Needles in a Haystack, in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013) Part I: Advances in Artificial Intelligence and Its Applications. Berlin : Springer Verlag, 2013. P. 265-274.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.