Программное обеспечение
1. TopicMiner
Первый профессиональный пакет тематического моделирования и визуального анализа для русского языка
Язык разработки: C++, Delphi XE3Время разработки: 09.2012 - наст.вр.
Разработчики: С. Кольцов, В. Филиппов.
Возможности информационной системы:
1. Препроцессинг документов, который включает сборку и лематизацию больших русскоязычных данных (объединение всей коллекции в единый формат tmlda), создание списка стоп-слов и удаление их из текстов.
2. Работа с файлом формата tmlda включает в себя выгрузку оригинальных документов и лематизированных документов в формате csv для сторонних пакетов, выгрузка документов на основе списка слов, удаление пустых документов, получившихся в ходе препроцессинга, расчет и выгрузка term – document matrix для статистического пакета ‘Orange’.
3. Тематическое моделирование по модели сэмплирования Гиббса, включает в себя проведение тематического моделирования по моделям: 1. LDA. 2. SLDA. 3.GLDA.
4. Тематическое моделирование по моделям: 1. PLSA, 2, PLSA + линейка регуляризаторов.
5. Визуализация результатов тематического моделирования, включает: 1. Визуализация распределений документов по темам. 2. Визуализация распределений слов по темам. 3. Визуализация распределений отсортированных документов в темах. 4. Визуализация отсортированных распределений слов по темам. 5. Выгрузка результатов тематического моделирования в сторонние пакеты в формате csv.
6. Анализ результатов моделирования: 1. Сравнение тематических моделей на основе ‘Kullback - Leibler distance’ и Jaccard index.
7.Визуализация результатов тематического моделирования в картографической системе Quantum GIS.
Информационная система реализована в виде инсталлятора для операционных систем: windows 8 и выше (64 bits).
Инструкция по работе с программой TopicMiner:
TopicMiner_Manual (PDF, 2.96 Мб)
Скачать:
TopicMiner_LINIS (RAR, 19.47 Мб)
2. Web Topic Miner
Данный софт представляет собой последнюю веб-версию программы Topic Miner, предназначенный для работы с большими коллекциями текстов. Веб-версия содержит ряд нововведений, облегчающих анализ и визуализацию. результатов. В данный момент веб-версия TopicMiner поддерживает алгоритмы LDA и BigARTM, а также возможность осуществлять сентимент-анализ слов для большинства европейских языков (включая русский).
Ссылка на Web Topic Miner
3. VKMiner (Social Network)
Скачать VKMiner_2017
Информационная система для работы с социальной сетью "ВКонтакте".
Язык разработки: Delphi XE2, SQL
Время разработки: 02.2013 – наст.вр.
Разработчик: С.Кольцов, В.Филипов.
Возможности:
- Загрузка персональные данные пользователей из списка Id
- Загрузка списка друзей конкретного пользователя.
- Загрузка списка групп конкретного пользователя.
- Загрузка списка пользователей конкретной группы.
- Расчет эго сети (Network of friends).
- Загрузка исходных данных для сети друзей
- Засчет сети друзей
- Загрузка данных со стены пользователя или группы.
- Загрузка списка обсуждений и самих обсуждений со стены.
- Загрузка 'Discussion'
- Загрузка 'Group Distribution'.
- Загрузка 'Group Distribution'.
- Загрузка 'Random User sampling'.
- Загрузка 'Network of freinds + wall'.
- Выгрузка результатов загрузки в формате csv.
- Загрузка 'User parameter profile'.
- Мониторинг процесса загрузок.
4. DigiFriends App
Приложение было создано для сбора данных в рамках исследовательского проекта Digital Friends (DigiFriends) и внедрено в социальную сеть Вконтакте. Таким образом, полученные данные касаются пользователей социальной сети Вконтакте. В основе приложения лежит анкета, вопросы которой касаются следующих характеристик пользователя:
психологические и социально-демографические особенности пользователя:
-склонность устанавливать социальные связи [1]
-уровень самооценки [2]
-уровень субъективного благополучия
-социально-демографические характеристики (пол, возраст, уровень образования)
особенности онлайн-поведения:
-подверженность рискам приватности в Сети [3]
-поведение в области приватности в социальной сети Вконтакте
-частота и продолжительность пребывания в социальной сети Вконтакте
-цели использования социальной сети Вконтакте
Социальный капитал пользователя:
-шкала воспринимаемого социального капитала [4]
Всего анкета содержит 42 вопроса.
В приложение встроена функция сбора данных из личного профиля пользователя в Вконтакте: анкетные данные, id друзей пользователя, характеристики активности пользователя на "стене". Все данные собираются с согласия пользователя, до начала заполнения анкеты и сбора данных пользователя информируют о том, какие данные собираются в рамках исследовательского проекта. Сбор данных начинается после того, как пользователь нажмет кнопку "Начать".
По итогу заполнения анкеты, приложение генерирует обратную связь для пользователя, основываясь на его ответах.
Разработчик приложения: Максим Кольцов.
Ссылка на приложение здесь.
[1] Totterdell P., Holman D., Hukin A., "Social networkers: measuring and examining individual differences in propensity to connect with others," Social Networks, vol. 30, pp. 283-296, 2008.
[2] Rosenberg, M. (1965). Society and the adolescent self-image. Princeton, NJ: Princeton University Press.
[3] Stutzman, F., Capra, R., & Thompson, J. (2011). Factors mediating disclosure in social network sites. Computers in Human Behavior, 27(1), 590-598
[4] Williams, D. (2006). On and off the’Net: Scales for social capital in an online era. Journal of computer-mediated communication, 11(2), 593-628.
5. LINIS CROWD
LINIS-CROWD - это веб-приложение, предназначенное для краудсорсинговой разметки текстовых данных. Данная система была использована для разработки русскоязычного сентимент-словаря, ориентированного на социально-политическую тематику.
Веб-платформа и сентимент-словарь доступны по ссылке.
Вы можете больше узнать о LINIS-CROWD в данной публикации:
Алексеева, С. В., Кольцов, С. Н., & Кольцова, О. Ю. (2015). Linis-crowd.org: лексический ресурс для анализа тональности социально-политических текстов на русском языке. In XVIII Объединенная научная конференция «Интернет и современное общество» (IMS‑2015) (pp. 25–34). Санкт-Петербург. http://openbooks.ifmo.ru/ru/file/2203/2203.pdf
По вопросам использования баз данных и программного обеспечения, разработанного в ЛИнИс, обращайтесь на linis-spb@hse.ru.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.