Секция посвящена проблемам повторяемости и достоверности результатов в науках о данных.
Тематики секции
- проблемы воспроизводимости в науках о данных (машинное обучение, вычислительная математика, математическая статистика, биоинформатика, и др.)
- проблемы разработки систем доверенного машинного интеллекта
- методы решения задач повторяемости вычислительных экспериментов
- применение методов программной инженерии в машинном обучении
- методы и средства автоматизации экспериментов в науках о данных
- проблемы организации совместной работы и управления данными при проведении вычислительных экспериментов.
В настоящей работе разработана библиотека mldev-kubernetes, позволяющая выполнять вычислительные эксперименты на кластере под управлением Kubernetes для поддержки масштабирования и распараллеливания вычислений. Проведено сравнение разработанной библиотеки mldev-kubernetes с другой библиотекой для решения аналитических задач в Kubernetes – kubeflow. С библиотекой mldev-kubernetes проведено сравнительное тестирование для подтверждения возможности масштабирования вычислений.
Рассматривается задача онлайн рекомендательных систем в постановке стохастического нестационарного многорукого бандита. Одним из наиболее важных направлений исследований данной задачи является повышение качества рекомендаций в нестационарной среде. Нестационарность выражается в изменении награды за рекомендацию различных действий с течением времени.
В данной работе рассматривается задача объединения изменений, вносимых разными пользователями независимо друг от друга в YAML файл, содержащий конфигурацию эксперимента. Был предложен способ сохранения таких конфликтующих обновлений в YAML файл, и сформулированы требования к использующему его ПО, благодаря которым удастся однозначно восстановить конфигурацию при наличии конфликтующих обновлений.
Инструмент MLDev позволяет автоматизированно запускать сложные вычислительные эксперименты машинного обучения, в том числе - с рекомендательными системами. Рекомендательные системы требуют тщательного тестирования из-за опасности негативно повлиять на пользователя. Был реализован дополнительный функционал для MLDev, позволяющий тестировать системы с помощью тестовых инвариантов (metamorphic testing).
Доклад посвящен проблеме повторяемости и масштабированию экспериментов в машинном обучении. Отсутствие повторяемости экспериментов приводит к искаженным результатам, которые могут повлиять на конечный результат всего исследования. Повторяемость экспериментов также связано с задачей масштабирования экспериментов. Обе эти задачи требуют унификации кода, которое позволяет перезапускать код эксперимента множество раз, причем гарантируя единый результат.