• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

Первый в России словарь для тональной разметки текстов

В рамках проекта, поддержанного Российским Гуманитарным Научным Фондом, командой исследователей ЛИНИС был создан словарь для сентимент-анализа Интернет-документов.

На сегодняшний день, данный словарь является единственным в России подобным интеллектуальным продуктом, применяемым в области анализа тональности социально-политических текстов. Данная разработка позволяет социальным исследователям на качественно новом уровне анализировать данные об отношении Интернет-активной части населения к разным социально значимым вопросам.

Словарь разрабатывался на основе авторских постов, размещенных на блог-платформе Live Journal (Живой Журнал), которые были отобраны с помощью метода тематического моделирования текстов. Учеными ЛИНИС была создана краудсорсинговая онлайн-платформа LINIS Crowd, на базе которой порядка 90 добровольцев из 16 городов осуществили тональную разметку около 20 000 текстов постов и примерно 8000 тысяч слов.

Проверка качества словаря производилась путем сопоставления результатов работы краудсорсинговой разметки с результами сентимент-анализа, полученного с помощью программного обеспечения SentiStrength. По качеству предсказания результаты проверки оказались сравнимы с результатами разработчика SentiStrength Майкла Фелволла, полученные на основе коротких английских текстов.

Полученная коллекция слов вносит существенный вклад в решение фундаментальной лингвистической проблемы – проблемы отсутствия русскоязычного словаря тональной лексики для оценки пользовательских текстов общественно-политической тематики.

Общедоступность данного словаря дает возможность исследователям и разработчикам из данной области использовать его для бенчмаркинга.

В дальнейшие планы сотрудников ЛИНИС входит использование полученной коллекции для машинного обучения автоматической классификации тональности текста.

По словам исследователя Сергея Кольцова, интерес также представляет дальнейшая работа с комментариями к постам в Живом Журнале, поскольку они зачастую являются наиболее эмоционально насыщенными.