• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

ЛИНИС обнаружила ограничения в кластеризации текстов в Интернете

На конференции по Web Science в Университете Идианы в США сотрудник ЛИНИС Сергей Кольцов рассказал о проблемах тематического моделирования интернет-текстов.

ЛИНИС обнаружила ограничения в кластеризации текстов в Интернете

Что такое Web Science? Новая область науки или еще одна модная дисциплина? Веб, это самый большой в истории человечества информационный конструкт, который трансформирует общество. Web Science в свою очередь изучает обширную информационную сеть людей, сообществ и организаций, которые формируют и формируются вебом.

Здесь программирование, физика и социальные науки, дополняя друг друга, объединились, чтобы изучать то, как веб влияет на взаимодействие людей и их поведение.

Конференция посвященная Web Science в этом году состоялась в Университете Индианы в Блумингтон, США. Ее спонсорами в этот раз стали Google, Facebook, Microsoft и другие IT-компании. Конференция включала 30 докладов, которые были тщательно отобраны среди сотни присланных.

Самой заметной работой стало исследование 2,3 млн твитов посвященных протестам в Гези в Турции, в результате чего выяснилось, что со временем обсуждение темы становилось более демократичным, а способность влиять на пользователей – равномерным.

Работа Сергея Кольцова, сотрудника ЛИНИС, также вызвала большой интерес. Он рассказывал о нерешенных до этого методологических проблемах кластеризации больших массивов текстов из Интернета. В частности, исследователем был поднят вопрос о неусточивости алгоритма при тематическом моделировании.

В ходе экспериментов в рамках проекта ЛИНИС, выяснилось, что результаты производимые алгоритмом различаются значительно при каждом повторном моделировании, поэтому общие выводы о компазиции всего массива текстов не могут быть сделаны. Например, нельзя сказать, была ли тема протестов в Гези более обсуждаема в определенный момент времени, по сравнению с другими периодами.

Сейчас ЛИНИС работает над тем, чтобы стабилизировать тему результатов моделирования.