• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Вакансия Программист - Аналитик Данных (Data mining)

В данный момент в лаборатории открыта вакансия Программист – дата-майнер. 

Частичная занятость обсуждается.


Обязанности:

  • Изучение API, написание запросов для загрузки данных, загрузка.Организация хранения данных, контроль, проверка, очистка, переструктурирование.
  • Разнообразный анализ текстовых данных (включая проведение длительных расчетов).
  • Feature selection / feature engineering, включая добавление внешнего знания в исходные данные.
  • Подбор, настройка, применение классификаторов, проверка их качества. Настройка и применение тематического моделирования. И т.д.
  • Написание программ с интерфейсами и базами данных для экспериментов с людьми, в основном нацеленными на ручную разметку текста, но не только.
  • Для перечисленных выше задач: написание собственного кода, где надо (а не где не надо).
  • Поиск, применение и интеграция готовых кодов. Работа с чужими кодами предшественников и с интерфейсным софтом.
  • Взаимодействие с программистом С++.
  • Взаимодействие с исследователями, умеющими программировать и не умеющими программировать.
  • Написание рабочих отчетов, записок и мануалов. Комментирование кода.

 

Требования:

  • Свободное владение Python.
  • Готовность научиться работать с html.
  • Представление о методах машинного обучения либо образование, позволяющее постепенно их освоить.
  • Умение работать в команде, в том числе включающей не-программистов.
  • Отсутствие аллергии на Windows.

 

Условия:

  • 100% оформление по ТК и все гарантии государственной организации.
  • Работа в одном из ведущих вузов страны.
  • Молодой, энергичный и очень умный коллектив.
  • При желании: возможность сделать научную карьеру.

 

Проекты, в которых предстоит участвовать (примерный и неполный список).

  1. Распознавание фейковых новостей пользователями: загрузка и тематическое моделирование новостей, создание интерфейса для онлайн-эксперимента, сбор данных пользователей во время эксперимента, обработка данных.
  2. Распознавание этнической речи ненависти: построение лингвистических правил и добавление их в фичи, другой feature engineering, настройка алгоритмов классификации, в том числе эксперименты с нейронными сетями.
  3. Сентиментный словарь: работы, похожие на предыдущие.
  4. Распространение новостей в соцсетях: помощь в обработке данных для каскадных и регрессионных моделей.
  5. (Возможно) мониторинг обсуждения актуальных городских проблем по данным соцсетей: загрузка данных по ключевым словам, тематическое моделирование, сентимент-анализ, описательная статистика, представление результатов экспертам-практикам.
  6. (Возможно) Улучшение качества тематического моделирования: создание word embeddings и добавление их в тематическое моделирование, эксперименты  и измерение качества, программирование новых метрик качества, обработка данных ручной разметки тем. Добавление других внешних знаний.
  7. (Возможно) Улучшение алгоритмов машинного обучения на основе когнитивных экспериментов на людях.

Если вы хотите сотрудничать с нами, напишите нам на почту (linis-spb@hse.ru), приложите свое резюме и мотивационное письмо. Мы обязательно их рассмотрим.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.