Удобная кровать и большие бургеры или методы извлечения информации из больших массивов данных
26 ноября Лабораторией Интернет Исследований был организован workshop с участием приглашенного специалиста Яна Жижки - профессора кафедры информатики (Mendel University, Brno), члена программного комитета конференции CONECO (Computer Networks & Communications) и почетного члена центра «Academy & Industry Research Collaboration». Профессор Жижка занимается автоматическим анализом больших текстовых данных различными методами, интеллектуальным поиском в неструктурированной текстовой информации (Text Mining) и извлечением данных (Data Mining, Opinion Mining), категоризацией и кластеризацией больших текстовых массивов (Text Clustering, Automatic Categorization).
В первой части встречи Ян рассказал о его исследовании отзывов об отелях, которые оставляют посетители сайта booking.com. Большая текстовая коллекция отзывов на разных языках (от английского до японского!) была проанализирована на предмет выявления значимых слов, которые могут отражать положительные и отрицательные стороны в работе отелей. Метод отбора таких слов – генерирование дерева решений на основе минимизации показателей энтропии.
На второй части встречи, посвященной text mining - методам обработки массивов текстов и извлечения неявной информации из них, старший научный сотрудник ЛИнИС Сергей Кольцов представил результаты работы лаборатории в этой области. Ян Жижка рассказал про исследование, посвященное построению классификатора позитивных и негативных рецензий для заведений питания на английском и чешском языках на основе программы gCluto. Ян описал, с какими проблемами сталкивался - в основном это ложные срабатывания системы (false positive, false negative), связанные с неоднозначностью выражения позитивных и негативных оценок различными словами.
На протяжении всего времени workshop сопровождался оживленной дискуссией. У присутствующих возникло множество вопросов друг к другу, замечаний и советов для дальнейших исследований.