В преддверии Дня российской науки мы опубликовали технический отчёт Green‑VLA, посвящённый развитию ключевой технологии физического искусственного интеллекта (Physical AI) — моделей Vision‑Language‑Action (VLA), которые позволяют роботам понимать окружающий мир, интерпретировать инструкции и превращать их в осмысленные физические действия. Материал занял первое место среди статей дня на портале Hugging Face, обогнав работы Moonshot AI и совместные исследования китайских и американских университетов.
Green‑VLA, построенная на основе нейросети ГигаЧат, описывает практический подход к обучению таких моделей, от базового обучения до настройки поведения робота в реальных условиях. В центре внимания не отдельная демонстрация, а целостная методология, которая может быть использована исследователями и инженерами для создания надёжных робототехнических систем.
Physical AI — это динамично развивающаяся область. Современные роботы демонстрируют широкий спектр возможностей, однако ключевыми задачами для их дальнейшего прогресса остаются повышение стабильности, обеспечение кроссплатформенного взаимодействия и выполнение сложных многоэтапных операций. Green‑VLA предлагает системный подход к решению этих задач. Он основан на измеримых и инженерно выверенных принципах обучения систем управления роботов.
Эффективность подхода подтверждена как SOTA‑результатами как на практике, так и на международных бенчмарках Simpler Fractal и Simpler widowX (Стэнфордский университет и Google), а также CALVIN (Фрайбургский университет). На международной конференции AI Journey 2025 робот Грин под управлением Green‑VLA непрерывно работал более 10 часов, выполняя задачи без заметных сбоев и деградации поведения.
Технология VLA становится «мозгом» физического искусственного интеллекта: Vision Action Language модели превращают зрение и язык в исполняемое действие. Именно такие решения помогли сделать нам собственного ИИ‑робота. В Green‑VLA мы показываем, как сделать этот слой инженерно надёжным: с переносимостью между роботами и выравниванием поведения с помощью обучения с подкреплением, чтобы модель работала не только в демо, но и в воспроизводимых сценариях и бенчмарках. Мы планируем делиться своими наработками для развития отечественной экосистемы ИИ и робототехники, предоставляя исследователям и инженерам инструмент для создания инновационных решений.
Модель Green‑VLA рассматривается как очередной шаг к формированию технологического стека Physical AI, в котором VLA‑модели становятся связующим звеном между восприятием мира, пониманием задач и физическим действием. Такой подход открывает путь к созданию более автономных, устойчивых и универсальных робототехнических решений.
Green‑VLA позиционируется как открытая методология обучения, а не готовый универсальный контроллер для роботов. Архитектура решения предполагает этап базового предобучения с последующей адаптацией к целевой роботизированной системе, что определяет его гибкость и потенциал для масштабирования.
С отчётом можно ознакомиться на arXiv и Hugging Face.
Источник


