Секция посвящена проблемам повторяемости и достоверности результатов в науках о данных
Работа рассматривает проблему тестирования сложных систем программного обеспечения, допускающих ошибки в процессе работы. Ставится задача разработки нового метода на основе тестирования инвариантами (metamorphic testing) и разработанного авторами ранее метода составных инвариантов для проверки систем с допустимым уровнем ошибок.
Для воспроизводимости и анализа эксперимента необходимо иметь подробную и актуальную спецификацию, а именно краткая информация об основных этапах, плане и полученных промежуточных результатов эксперимента. Во время работы создание спецификации является рутинной и ресурсозатратной задачей, особенно в случае сложного, долгосрочного, развивающегося со временем проекта. Таким образом, возникает необходимость в автоматизации построения спецификации эксперимента.
Недостаточная воспроизводимость - одна из актуальных проблем в науках о данных. Решается задача генерации текстовых описаний и отчетов по структурированным данным в применении к данным экспериментов в машинном обучении. Data-to-text generation преобразует информацию из структурированного формата, например таблица, в естественный язык. Структурированные данные описывают какое-то событие, которую модель, в свою очередь, должна описать на понятном человеку естественном языке
В настоящее время одной из острых проблем исследований с применением машинного обучения является плохая воспроизводимость их результатов. Решить её можно, снабдив исследования спецификацией, описывающий пайплайн экспериментов. Получить такую спецификацию можно, решив следующую задачу: по исходному коду восстановить структуру проведения эксперимента.
Разработан индекс стабильности временных рядов, удовлетворяющий определённым требованиям. Для проверки соответствия требованиям проведены эксперименты на сгенерированных данных.
Работа посвящена командной разработке продуктов на основе машинного обучения. Исследуется проблема синхронизации изменений от разных её членов, и предлагаются способы её решения на основе Conflict-Free Replicated Data Type (CRDT).