• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка методологии анализа интернет-данных

«Разработка методологии сетевого и семантического анализа блогов для социологических задач» 

Руководитель проекта: Кольцова Е.Ю.
Участники проекта: Пивоварова Л.М., Маслинский К.А., Терещенко Е. А ., Павлова Ю. А ., Ефимова Т.Г.

Проект выполнен при поддержке Научного фонда ГУ-ВШЭ (Решение №2 от 26.11.2010 г) в рамках конкурса «Учитель-Ученики 2011-2012 гг». Проект заключался в исследовании обсуждений социально значимых тем в русскоязычной блогосфере. Для этого был произведен сбор и анализ больших массивов интернет-данных. А долгосрочной задачей проекта стала разработка новой методики, которая позволила бы вывести социальные интернет-исследования на качественно иной уровень.

В ходе исследования было установлено, что топ блогосферы имеет постоянную тематическую часть, связанную с приватно-рекреационной сферой, и переменную, связанную с социально-политической тематикой;  третью часть составляет не интерпретируемый шум.  Было отмечено, что декабре 2011 года резкое возрастание интереса к протестам и выборам происходило за счет сужения другой социально-политической тематики; к апрелю 2012 года интерес к протестам и выборам несколько снизился, но зато социально-политическая тематика расширяется за счет шума.Также выяснилось,  что сообщества сокомментирования имеют некоторую зависимость от автора постов, которые входят в сообщества. Т.о. коммуникация строится в большей степени вокруг личностей, чем вокруг общих тематических интересов.

В процессе изучения большого количества алгоритмов и программного обеспечения было выяснено, что методология для анализа больших текстовых и сетевых данных находится в стадии становления и не принимает на данный момент форму готовых программных продуктов с прозрачными оттестированными алгоритмами, пригодных для использования социальными исследованиями. Это требует написания собственного ПО, что и было реализовано. Всего было создано около десяти различных модулей и/или скриптов для закачки, препроцессинга и анализа данных.

Материалы:

1. Павлова Ю., Кольцова О. К методологии сбора Интернет-данных для социологического анализа. 2011
2. Терещенко Е., Равлик М. Инструменты социологического анализа Интернет-текстов и Интернет-сетей: обзор современного программного обеспечения. 2011
3. Кинчарова А. Применение алгоритмов выявления сообществ для социологического исследований блогов - результаты пилотного исследования. 2011

Публикации:

1. Кольцова О. Выявление социальных проблем и изменений через анализ больших массивов текстов в блогах и социальных сетях. Материалы всероссийского научно-практического симпозиума "Социальные коммуникации: универсум профессиональной деятельности", СПб: Скифия-Принт; Интерсоцис, 2011. С. 274-284

2. Кольцова О. Чем дышит блогосфера? К методологии анализа больших текстовых данных для социологических задач. Онлайн исследования в России 3.0 / Под редакцией Шашкина А.В., Девятко И.Ф., Давыдова С.Г. - М.: Издательский дом "Кодекс", 2012. С.163-187

3. Павлова Ю. Разработка методологии составления выборок электронных текстов для социологического анализа русскоязычных блогов. Избранные тезисы докладов III Студенческой социологической межвузовской конференции / от.ред. М.Р.Демин; редсовет: Д.А.Александров, М.Р.Демин, Е.Ю.Кольцова и др. НИУ ВШЭ - Санкт-Петербург: Отдел оперативной полиграфии НИУ ВШЭ - Санкт-Петербург, 2012. С.10-12

4. Терещенко Е. Социологический анализ русскоязычных блогов: выбор алгритма кластеризации. Избранные тезисы докладов III Студенческой социологической межвузовской конференции / от.ред. М.Р.Демин; редсовет: Д.А.Александров, М.Р.Демин, Е.Ю.Кольцова и др. НИУ ВШЭ - Санкт-Петербург: Отдел оперативной полиграфии НИУ ВШЭ - Санкт-Петербург, 2012. С.12-14


Программное обеспечение, использованное в проекте: 

gCluto - графическая версия программы Cluto, академическое ПО, рассчитанное на офф-лайн кластеризацию относительно больших объемов текстов на основе подхода типа «мешок слов». В программе используется 17 алгоритмов, включая плоскую и иерархическую кластеризацию и graph-based алгоритмы.

Stanford Topic Modeling Toolbox - инструмент моделирования тем для социологов и других исследователей, желающих провести анализ данных, в которых большая частья данных является текстовой составляющей.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!