SkyRL добавляет поддержку визуально-языкового RL для мультимодальных моделей

Joerg Hiller 24 апр. 2026 16:33

SkyRL представляет визуально-языковое обучение с подкреплением, обеспечивая масштабируемое обучение для мультимодальных задач. Узнайте, как это влияет на развитие ИИ.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL — библиотека обучения с подкреплением (RL), разработанная Sky Computing Lab Калифорнийского университета в Беркли совместно с Anyscale, — объявила о поддержке дообучения визуально-языковых моделей (VLM). Это обновление позволяет командам обучать мультимодальные модели с использованием рабочих процессов контролируемой тонкой настройки (SFT) и RL, отвечая на растущий спрос на модели, способные одновременно обрабатывать визуальные и текстовые данные.

Мультимодальные рабочие нагрузки, такие как задачи компьютерного зрения, робототехника и агентное рассуждение, требуют от моделей обработки визуальных входных данных, выполнения действий и адаптации на основе обратной связи. Новая функциональность SkyRL делает VLM полноценным участником стека обучения, предоставляя инструменты для масштабирования обучения на локальных GPU или многоузловых кластерах. Это основывается на существующей инфраструктуре SkyRL, которая уже поддерживает сложные агентные задачи, такие как бенчмарки по разработке программного обеспечения и генерация Text-to-SQL.

Ключевые особенности обновления

Одной из основных проблем RL для визуально-языковых задач является поддержание согласованности между обучением и инференсом. SkyRL решает проблему дрейфа логарифмической вероятности — распространённую при обработке визуальных входных данных — путём введения дезагрегированного конвейера. Используя стек инференса vLLM в качестве источника истины, платформа обеспечивает согласованность токенизации и подготовки входных данных во всех рабочих процессах.

Этот подход не только стабилизирует обучение, но и позволяет независимо масштабировать CPU-воркеры для обработки входных данных, гарантируя, что пропускная способность GPU не становится узким местом. Обновление также поддерживает готовые рецепты для задач, таких как навигация Maze2D и Geometry-3k — набор данных, требующий визуального геометрического рассуждения. Ранние результаты показали улучшенную стабильность обучения даже при больших размерах моделей, таких как Qwen3-VL 8B Instruct.

Значение для разработки ИИ

SkyRL позиционирует себя как ключевую платформу для масштабируемого RL и SFT при обучении мультимодальных моделей. Благодаря интеграции с такими инструментами, как Tinker API, пользователи могут развёртывать рабочие процессы RL на собственной инфраструктуре, снижая зависимость от внешних провайдеров. Это особенно актуально с учётом растущих вычислительных требований при обучении крупных моделей.

Эти достижения приходятся на время, когда мультимодальные системы ИИ пользуются высоким спросом для реальных приложений. Задачи, требующие последовательного принятия решений, визуального рассуждения и адаптивности — такие как автономная навигация и динамическое взаимодействие с инструментами — получат значительные преимущества. Модульная конструкция SkyRL также поддерживает быстрое прототипирование, позволяя исследователям и разработчикам экспериментировать с новыми алгоритмами и парадигмами обучения.

Взгляд в будущее

Дорожная карта SkyRL включает такие функции, как упаковка последовательностей, поддержка бэкенда Megatron и обучение на длинном контексте с параллелизмом контекста. Ожидается, что эти обновления дополнительно расширят возможности платформы для работы со сложными агентными нагрузками. Для разработчиков, желающих приступить к обучению VLM, SkyRL предлагает обучающие материалы и документацию.

По мере того как индустрия ИИ всё активнее внедряет мультимодальные системы в практические сценарии использования, способность эффективно обучать и тонко настраивать такие модели станет ключевым конкурентным преимуществом. Последнее обновление SkyRL отражает её приверженность сохранению лидерства в этой эволюции, предоставляя масштабируемую и модульную платформу для передовых исследований и развёртывания RL.

Источник изображения: Shutterstock