Секция посвящена проблемам искусственного интеллекта
Рабочий язык: русский
Формат проведения: очный
Дата проведения: 06 апреля 2023г., в 14:00 часов, 101 Учебно-производственные мастерские
Дана картинка и вопрос, необходимо выделить прямоугольник, являющийся ответом на вопрос
В работе представляется методика построения классификатора радарных данных, оценивающего регулярность явлений, основанного на использовании генеративно-состязательных нейронных сетей.
Проблема обратной совместимости эмбеддингов особенно актуальна в случае крупных технологических компаниях, где возникает необходимость постоянно обновлять версии эмбеддингов для более точных предсказаний, например, в задачах рекомендаций и ранжирования. В данной работе будут рассмотрены методы по достижению свойства обратной совместимости эмбеддингов с помощью применения contrastive learning.
В представленной работе описан метод деконволюции микроскопических изображений при помощи сверточных нейронных сетей. Также описана процедура генерации данных для обучения, процесс тренировки модели.
Продемонстрированы результаты нейросетевой деконволюции реальных микроскопических снимков, проведено сравнение реализованного метода с традиционными методами деконволюции.
В цифровую эпоху фундаментом экономики является информация, которую можно монетизировать. Исключением не стала сфера розничной торговли. Здесь таким фундаментом являются отзывы покупателей и упоминания в СМИ. И важно правильно, основываясь на мнении в сети, выстраивать стратегию предприятия. Тут помогут технологии NLP.
Геомагнитная активность характеризуется при помощи геомагнитных индексов. Одним из часто используемых является индекс Dst. Предлагается метод распознования геомагнитных бурь на основе информации с мюонного годоскопа, используя нейронные сети для предсказания Dst-индекса. Полученные результаты могут быть применимы в предсказании геомагнитных бурь.
Проблема предсказания названия функции по ее исходному коду представляет существенный интерес. Есть много способов ее решения. Большинство из них используют трансформеры, сверточные нейросети или статический анализ кода. В работе исследуется алгоритм KGMNGen для предсказания имен функций. Показано, что он крайне неэффективен на больших датасетах. Предложены улучшения алгоритма, повысившие precision и recall в 2 раза. Показано, что улучшенный алгоритм сопоставим с текущими SOTA-методами.
В данной работе рассмотрено применение адаптивной детекции в симуляторе AI2Thor и в реальной жизни.
Проблема плагиата рекламных сообщений все чаще заполоняет нашу общественность. В научной работе представлены тезисы, раскрывающие проблему плагиата новостей, рекламных ссылок, а также уникального контента. Сама работа включает в себя введение, основную часть, выводы, а также список использованных источников.
Рассмотрен метод обучения, позволяющий повысить способность модели обобщать данные в задаче text2sparql. Для проведения эксперементов задача text2sparql рассматривалась в постановке композиционного обобщения
В данной работе рассмотрена динамика спайковой активности в зависимости от частоты генерации спайков в мультирегиональной модели зрительной коры
В работе предложена и рассмотрена нейросетевая модель семантической сегментации изображений, основанная на вероятностных диффузионных моделях (DM). DM показали впечатляющие результаты для генеративного моделирования изображений, превзойдя альтернативные подходы как по реалистичности создаваемых выборок, так и по их разнообразию. Однако работ с использованием DM в качестве источника эффективных представлений изображений для дискриминативных задач компьютерного зрения относительно мало.
Предложена нейросетевая модель пост-коррекции текста на выходе системы распознавания речи, которая решает задачу детекции и исправления в транскрипции искаженных слов/фраз из заданного пользовательского словаря, например, специальных терминов или имен собственных.
Реализован способ генерации синтетических данных для обучения модели.
Продемонстрировано улучшение метрики WER относительно базовой модели распознавания речи на трех тестовых наборах разной тематики.
Предложено новое правило обучения импульсной нейронной сети, основанное на синхронизации поступающих в нейрон импульсов путем изменения толщины миелиновой оболочки на входящих аксональных ветвях. Работа правила продемонстрирована на задаче распознавания простейших образов двух классов.
Данная работа посвящена изучению поведения агентов игры многошаговой матричной социальной дилеммы при обучении алгоритмами машинного обучения с подкреплением. В ходе работы рассмотрен алгоритм Q-Learning. Получена сходимость политик игроков к равновесию по Нэшу. Выявлена ловушка алгоритма Q-Learning для многошаговой игры. Найдена зависимость частоты сходимости к разным равновесиями от размера характерных промежутков в матрице выплат.
В работе рассмотрена проблема неявного представления объемной сцены в виде
полносвязной нейронной сети (NeRF) на основе теории “полей светимости”. По сравнению
с оригинальной работой, в данном исследовании уделено внимание влиянию параметров
нейросетевого представления на выучивание 3D структуры сцены (определение глубины).
Разработана бинарная метрика bIoU для оценки качества формируемых масок в задачах семантической сегментации изображений по запросу. Данная метрика обладает двумя ключевыми особенностями по сравнению с популярными метриками в задаче семантической сегментации. 1) Площадь объединения предсказанной и реальной маски не влияет на величину вклада данной маски в финальное значение метрики, 2) в финальном значении метрики учитывается частота встречаемости класса в наборе данных.
В работе представлен способ внедрения подхода хеширования для значительного ускорения времени обучения модели Semantic-NeRF.
В работе был поставлен вопрос поиска оптимальных примитивов движения для решения задачи планирования траектории беспилотного агента с учетом его кинодинамических ограничений. Было рассмотрено три различных взаимоотличающихся категории примитивов. По группе метрик был выбран наилучший набор. Также дополнительно были варьированы различные параметры планирования и проанализировано их влияние на итоговый результат.
Цель работы - заложить в архитектуру нейросетевых моделей, используемых в алгоритме обучения с подкреплением TreeQN, априорные знания о природе среды, о том, что состояние среды полностью описывается состояниями входящих в неё объектов, а смена состояний и генерируемое вознаграждение обусловлены взаимодействием объектов между собой.
В работе исследуется возможность использования распутанных объектно-ориентированных отображений в латентное пространство для использования новых диффузионных нейросетевых алгоритмов планирования в сложных игровых средах. Подобный подход позволяет получать долгосрочные планы при помощи декомпозиции сцены на объекты. Предложенный алгоритм успешно строит объектную модель среды Atari Pong, пригодную для долгосрочного планирования.
Рассмотрена задача распознавания места на основе данных лидара. Проведен сравнительный анализ современных методов и их тестирование на собственных данных, собранных с помощью беспилотного автомобиля.
В работе исследуется применение предварительно обученных больших языковых моделей (БЯМ) в задаче планирования поведения воплощённого агента. Проводится сравнительный анализ современных БЯМ, находящихся в открытом доступе, а также не требующих большого числа вычислительных ресурсов.
Локализация беспилотных транспортных средств – сложная задача, поскольку требует учета различных условий окружающей среды, таких как временная потеря или полное отсутствие данных системы глобальной спутниковой навигации (GNSS), а также ошибок, возникающих при локализации, например лидарной. Это может возникнуть в связи с заездом в гараж или туннель, проездом под мостом. Данная работа предлагает один из методов решения данных проблем.
Рассматривается алгоритм использования сплайнов для ускорения оптимизации траектории движения робота при использовании солвера ACADOS.
В работе представлен подход к использованию нейросетевых моделей детекции голосовой активности (VAD) для решения задачи распознавания речи в реальном времени. Основное внимание уделено построению логики работы VAD в режиме реального времени, когда звук поступает в систему в виде небольших фрагментов. Также рассмотрено, как постобработка результатов работы VAD влияет на качество распознавания речи.
В среде «Maniskill» манипулятор выполняет задачи «Открыть ящик шкафа». Объединится алгоритмы обучения с подкреплением PPO и BC, чтобы оптимизировать функцию потерь. Также анализируется возможность извлечения признаков структуры Transformer для информации об облаке точек.
В работе исследуются способы подачи тракеторий в трансформеры для решения задач RL. Помимо этого, показано, что можно обучить мультимодальный трансформер на задачу RL без потери качества его работы в других задачах (распознавание/генерация текста/изображения).