• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка концепции и методологии многоуровневого мониторинга состояния межнациональных отношений по данным социальных сетей


Руководитель проекта: Кольцова Е.Ю.
Исполнители проекта: Бодрунова С.С., Кольцов С.Н., Воронцов К.В., Николенко С.И., Потапенко А.А., Апишев М.А., Алексеева С.В., Юденкова Д.В.

Основная задача мониторинга, для которого в нашем проекте была разработана концепция и методология – полуавтоматическое отслеживание распределения дискуссий об этничности в русскоязычных социальных сетях по времени и по регионам РФ. Первоочередная цель такого отслеживания - раннее выявление назревающих межэтнических конфликтов. Концепция, которая была создана в ходе обширного набора экспериментов – это  целостное представление о последовательности действий, необходимых для успеха мониторинга; она воплощается в комплексе конкретных методов и алгоритмов, а они, в свою очередь, собраны в единое программное обеспечение, доступное через онлайн-интерфейс. Эта онлайновая система проста в использовании и  сопровождается методическими рекомендациями  по проведению мониторинга, в которых простым языком описана сама концепция, методологические основания и практические советы тем, кто заинтересован в проведении такого мониторинга.

  • Онлнай-система доступна по адресу: https://topicminer.hse.ru/
  • Техническое руководство пользователя доступно по адресу: https://topicminer.hse.ru/docs/index.html.
  • Методические рекомендации доступны по адресу: https://linis.hse.ru/rnf2015/
  • Оффлайновая десктопная версия системы: доступна на диске
  • Сайт проекта, содержащий публикации и другие материалы:  https://linis.hse.ru/rnf2015/

Методология разработана для мониторинга межэтнических взаиомоотношений на пост-советском пространстве и содержит следующие возможности и компоненты.

Во-первых, методология рассчитана на то, что пользователю доступны только шумные, нефильтрованные данные с низкой долей текстов по этнической тематике (например, сплошные выборки постов из соцсетей). Система не собирает данные, но включает ряд уникальных инструментов для их предобработки, ядро которых – методика фильтрации не релевантных этничности текстов. Все эксперименты показали, что извлечение трендов обсуждения этничности из нефильтрованных коллекций невозможно. Методика фильтрации включает два компонента: отбор текстов по словарю пост-советских этнонимов объемом 3680 индивидуальных слов и 12470 биграмм (точность до 74%) и отбор с помощью обученного алгоритма классификации (точность и полнота также 74%). Эти две методики рекомендовано сочетать для повышения полноты.

Во-вторых, методология позволяет вычленять из обогащенных коллекций темы, или контексты, в которых обсуждаются вопросы этничности и которые заранее не известны пользователю. Для этого был разработан ряд усовершенствований для алгоритмов тематического моделирования, качество которых было протестировано с помощью ручного кодирования и новой, специально разработанной для проекта метрики качества tf-idf-когерентность. Тесты показали, что мультимодальный алгоритм из серии BigARTM с базовым pLSA и нашим словарем этнонимов дает наилучшее качество среди других моделей BigARTM. Он лучше всего подходит для выявления всего спектра этнорелевантных тем, сравнения их между собой по объему, а также для нахождения тем, посвященных нескольким этническим группам сразу. Для выявления контекстов освещения конкретной этнической группы лучше подходит другой наш алгоритм с более жестким частичным обучением – ISLDA, который также превосходит базовый LDA как по доле этнорелевантных тем, так и по их tf-idf-когерентности. Алгоритмы тестировались на разных коллекциях объемом от 100 тысяч до 9 млн. текстов, с разной средней длиной текстов и разной долей этнорелевантных текстов, и показали хорошие результаты на коллекциях, содержащих определенную долю длинных и этнорелевантных тестов. Основной вклад в качество моделей внес наш словарь этнонимов. В целом, был сделан вывод о том, что хотя тематическое моделирование не подходит для задач вычленения этнорелевантных текстов из коллекций с низкой долей таких текстов (и эта задача была решена через обучение с учителем), оно хорошо работает на задачи вычленения контекстов обсуждения этнических групп. Все перечисленные алгоритмы встроены в систему, которая также оснащена функцией подсказок этнорелевантности тем, на основе сравнения топ-слов тем с нашим словарем этнонимов.

В-третьих, методика позволяет выявлять распределение этнорелевантных тем во времени и пространстве и визуализировать их на временной шкале и на карте РФ, соответственно. Помимо простого суммирования вероятностей темы в текстах данного региона или временного отрезка, методика содержит специально настроенные в ходе исследования мультимодальные алгоритмы тематического моделирования, где метки времени и геотеги являются отдельной модальностью. Эксперименты показали, что этот подход лучше выявляет темы, локализованные во времени, чем простое суммирование, хотя при этом и наказывает равномерно распределенные темы. Для получения более точного распределения тем по регионам был также эмпирически получен набор поправочных коэффициентов, позволяющих учитывать неравномерное проникновение социальных сетей в регионы.

В-четвертых, методика позволяет выявлять ряд аспектов отношений к проблемам этничности. Для разработки этой части методологии на размеченной вручную коллекции объемом 15 000 сообщений о 115 пост-советских этнических группах был обучен ряд алгоритмов классификации. Были проведены эксперименты с разработанным комплексом аспектов отношения: на уровне текстов в целом: (1) общая проблематизированность темы в тексте (есть ли в тексте негативный / позитивный сентимент?); (2) общая конфликтность темы в тексте (упоминается ли в тексте межэтнический конфликт / позитивное межэтническое взаимодействие?). На уровне отдельного упоминания этнической группы: (3) общее отношение (как автор текста относится к данной этнической группе: негативно / позитивно / нейтрально); (4) восприятие этнической иерархии (оценивает ли автор этническую группу как высшую / низшую?); (5) восприятие опасности / угрозы (оценивает ли автор этническую группу как опасную?); (6) возложение вины (в случае конфликта, описывает ли автор этническую группу как агрессора / жертву?); (7) призыв к насилию (призывает ли автор к насильственным действиям против этнической группы?). Для аспектов 5 и 7 оказалось недостаточно данных; другие аспекты на уровне отдельных упоминаний дают смешанные результаты, лучшее качество предсказания среди них - у классов «высший» и «агрессор». На уровне текста хорошо предсказываются негативные аспекты – негативный сентимент и наличие конфликта; именно эти классификаторы и были встроены в онлайновую систему мониторинга. Кроме этого, в систему добавлена функция сентимент-анализа тем по их топ-словам с использованием нашего тонального словаря.

Эксперименты с классификацией показали, что увеличение объема коллекции в два раза, хотя и повышает качество, не решает проблему радикально; также качество оказалось не связано с уровнем согласованности кодировщиков. Это говорит о том, что дальнейшее улучшение вычленения отношений к вопросам этничности должно, скорее всего, идти по пути выделения специфических языковых конструкций.

В ходе разработки методологии мониторинга был собран и проанализирован ряд коллекций текстов пользователей социальных сетей. Во-первых, были созданы коллекции из собранной ранее базы постов популярных блоггеров Живого Журнала, объемом от 100 000 до 1,58 млн, из которых 2000 прошло пилотную ручную разметку. Во-вторых, была создана выборка 74 000 случайных пользователей ВКонтакте из каждого субъекта федерации, включающая около 9 млн постов и 1 млн комментариев. В-третьих, была создана выборка всех постов, содержащих пост-советские этнонимы из всех русскоязычных сетей за два года; после всех фильтраций в ней оказалось 2,7 млн записей.  Размеченная коллекция в 15 000 текстов была создана в основном на базе последней выборки. Анализ этих коллекций показал следующие результаты.

В случайной выборке доля текстов, содержащих этнонимы, составляет доли процента, причем наиболее частотны нации с глобальным влиянием (американцы, немцы), а не пост-советские этнические группы. Темы в случайной выборке в основном рекреационно-бытовые, а тексты короткие. В выборке, отобранной по этнонимам, средняя длина текста в 20 раз больше и преобладают социально-политические темы негативной окраски, что говорит о проблематизированности этнической тематики и  подтверждает оправданность ее мониторинга. Упоминаемость в этой выборке пост-советских этнонимов и квазиэтнонимов также распределена сильно неравномерно (преобладают русские, украинцы, евреи, славяне, азиаты, европейцы, татары, чеченцы). Кроме этого, крайне неравномерно региональное распределение; в национальных республиках в местных рейтингах упоминаемости соответствующие  титульные этнические группы выигрывают в среднем по 45 позиций по сравнению с общим рейтингом. Это говорит об оправданности регионального разреза мониторинга.

Около 45% текстов содержат более одного этнонима; в размеченной выборке эта доля составляет 66%. Анализ совместной встречаемости говорит о том, что вместе чаще всего оказываются этнические группы, обладающие культурно-географическим сходством, а не конфликтные пары, как предполагалось изначально. Последние тоже имеются; однако то, что в размеченной коллекции только 6% текстов содержит полярные отношения к этническим группам, говорит о том, что таких действительно меньшинство. При этом еще 15% текстов содержит сочетание нейтрального отношения с тональным, и вместе это осложняет автоматическое выявление отношений в текстах. Между тем, можно утверждать, что эти отношения также неравномерно распределены по этническим группам. Так, ручной анализ постов Живого Журнала показал, что представители Северного Кавказа вызывают значимо больше типов негативного отношения, чем представители Средней Азии, и это согласуется с опросными данными других исследователей.

Следует отметить, что прямые призывы к насилию по отношению к каким-либо этническим группам встречаются не более чем в 1% этнорелевантных текстов. В целом, в постах соцсетей за пределами Живого Журнала позитивные типы отношений к этническим группам преобладают над негативными, но это может обэясняться перепредставленностью в размеченной выборке малых народов. При этом для дискурса об этничности больше характерно сверх-обобщение, негативный сентимент и обсуждение конфликтов, чем позитивный сентимент и обсуждение позитивных межэтнических взаимодействий и конкретных людей той или иной национальности. Иными словами, авторы постов проблематизируют в целом тему этничности чаще, чем высказывают прямое негативное отношение к конкретным этническим группам или людям.





 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.