• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Sentiment analysis текстов постов в ЖЖ

Руководитель проекта: Павлова Ю.В.
Участники проекта: Маслинский К., Сенева В., Ефимова Т., Терещенко Е.

Данный проект выполнен при поддержке Фонда академического развития НИУ ВШЭ – Санкт-Петербург в 2012 году.

Sentiment analisis, или  тональный анализ – это автоматическое определение тональности текста, то есть преобладания в нем какой-либо эмоции или отншения (отрицательной, положительной, нейтральной или более сложных эмоций). Задачей данной работы было апробировать такую методику для определения отношения к тематике Ислама в русскоязычных комментариях к блогам.  Для этого была проведена адаптация ПО Sentistrength к русскому языку и апробация его на русскоязычных данных. Процесс адаптации включал в себя перевод на русский язык англоязычного словаря, на основе которого работает ПО, составление частотного словаря на основе комментариев к постам ЖЖ, включение частотных слов в словарь и кодирование словаря по шкале эмоциональности от -5 до 5.

Апробация осуществлялась на трех выборках комментариев к постам в ЖЖ. Каждая из исследованных выборок содержала по 1000 комментариев к постам блогеров Живого Журнала, входящим в топ-2000 рейтинга ЖЖ. Две выборки (за 15.08-15.09.2011 и за декабрь 2011 года) были условно названы «исламскими», так как посты, к которым относились выкаченные комментарии, содержали корни слов «ислам*» или «мусульман*». Третья выборка была случайным образом сформирована из обоих временных периодов и играла роль контрольной, по отношению к которой определялось, отличается ли эмоциональная заряженность комментариев к теме «мусульманство» от заряженности случайных комментариев.

Частотные распределения, полученные  на основе автоматической оценки текстов, показали, что преимущественно все комментарии как в «исламских» выборках за оба периода, так и по случайной выборке не имеют ярко выраженной эмоциональной окраски (большинство комментариев имеет оценки 0 или 1). Затем для проверки полученных результатов было использовано кодирование тех же текстов кодировщиками. По результатам ручного кодирования был сделан вывод, что, не смотря на аналогичное преобладание 0 и 1 в оценках комментариев, значительно большее число комментариев было закодировано как -3, -4, -5 по сравнению с автоматическим анализом. Особенно такое различие обнаружилось на выборке комментариев, взятых в ЖЖ за сентябрь, периоде вокруг мусульманского праздника Ураза-байрам. Это указало на то, что данная тема вызвала эмоции у пользователей ЖЖ, и по большей части они все-таки стали негативными.

Различие между автоматическим анализом текстов и ручным кодированием может быть вызвано тем, что составленный словарь не включает в себя все основные слова, которые могут выражать эмоциональное отношение в блогах, в особенности по отношению к Исламу. Стоит обратить внимание на то, что ПО SentiStrength работает практически исключительно с отдельными словами, почти  без учета грамматики и контекстов. Таким образом, сильными сторонами подобного автоматического метода исследования текстов стала его способность работать с большим массивом данных и выдавать быстрый результат, по которому можно судить о наличии или отсутствии социального напряжения по отношению к той или иной теме, событию, персоне. Слабой же стороной оказалась сложность учета всех нюансов при составлении словаря, с помощью которого работает программа и необходимость привлечения человеческих ресурсов для постоянного совершенствования словаря и проверки полученных данных.


Публикации: 
Павлова Ю. Метод автоматического анализа тональности текста в применении к социологическим задачам: на примере анализа комментариев к постам Живого Журнала / Избранные тезисы докладов IV Студенческой социологической межвузовской конференции / Отв. ред.:  М. Р. Демин . СПб.: НИУ ВШЭ (Санкт-Петербург), 2013.

Методическое пособие:
Павлова Ю., Кольцова О., Кольцов С. Метод автоматического анализа тональности текста в применении к социологическим задачам: на примере анализа комментариев к постам Живого Журнала. Методическое пособие. 2012.

Программное обеспечение:
Sentistrength - Программное обеспечение для sentiment analysis разработано проф. Майклом Феллволоем, главой Statistical Cybernetics Research Group университета Вулверэмптона и ассоциированным научным сотрудником Oxford Internet Institute, Великобритания.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.