Вакансия Программист - Аналитик Данных (Data mining)
В данный момент в лаборатории открыта вакансия Программист – дата-майнер.
Частичная занятость обсуждается.
Обязанности:
- Изучение API, написание запросов для загрузки данных, загрузка.Организация хранения данных, контроль, проверка, очистка, переструктурирование.
- Разнообразный анализ текстовых данных (включая проведение длительных расчетов).
- Feature selection / feature engineering, включая добавление внешнего знания в исходные данные.
- Подбор, настройка, применение классификаторов, проверка их качества. Настройка и применение тематического моделирования. И т.д.
- Написание программ с интерфейсами и базами данных для экспериментов с людьми, в основном нацеленными на ручную разметку текста, но не только.
- Для перечисленных выше задач: написание собственного кода, где надо (а не где не надо).
- Поиск, применение и интеграция готовых кодов. Работа с чужими кодами предшественников и с интерфейсным софтом.
- Взаимодействие с программистом С++.
- Взаимодействие с исследователями, умеющими программировать и не умеющими программировать.
- Написание рабочих отчетов, записок и мануалов. Комментирование кода.
Требования:
- Свободное владение Python.
- Готовность научиться работать с html.
- Представление о методах машинного обучения либо образование, позволяющее постепенно их освоить.
- Умение работать в команде, в том числе включающей не-программистов.
- Отсутствие аллергии на Windows.
Условия:
- 100% оформление по ТК и все гарантии государственной организации.
- Работа в одном из ведущих вузов страны.
- Молодой, энергичный и очень умный коллектив.
- При желании: возможность сделать научную карьеру.
Проекты, в которых предстоит участвовать (примерный и неполный список).
- Распознавание фейковых новостей пользователями: загрузка и тематическое моделирование новостей, создание интерфейса для онлайн-эксперимента, сбор данных пользователей во время эксперимента, обработка данных.
- Распознавание этнической речи ненависти: построение лингвистических правил и добавление их в фичи, другой feature engineering, настройка алгоритмов классификации, в том числе эксперименты с нейронными сетями.
- Сентиментный словарь: работы, похожие на предыдущие.
- Распространение новостей в соцсетях: помощь в обработке данных для каскадных и регрессионных моделей.
- (Возможно) мониторинг обсуждения актуальных городских проблем по данным соцсетей: загрузка данных по ключевым словам, тематическое моделирование, сентимент-анализ, описательная статистика, представление результатов экспертам-практикам.
- (Возможно) Улучшение качества тематического моделирования: создание word embeddings и добавление их в тематическое моделирование, эксперименты и измерение качества, программирование новых метрик качества, обработка данных ручной разметки тем. Добавление других внешних знаний.
- (Возможно) Улучшение алгоритмов машинного обучения на основе когнитивных экспериментов на людях.
Если вы хотите сотрудничать с нами, напишите нам на почту (linis-spb@hse.ru), приложите свое резюме и мотивационное письмо. Мы обязательно их рассмотрим.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.