Пока рынок зациклен на железе, Дженсен Хуанг тихо выложил в открытый доступ модель рассуждений «Системы 2», которая решает парадокс Моравека.Роботизированная руПока рынок зациклен на железе, Дженсен Хуанг тихо выложил в открытый доступ модель рассуждений «Системы 2», которая решает парадокс Моравека.Роботизированная ру

[Перевод] Две секунды, которые изменили всё: NVIDIA научила роботов думать перед тем, как действовать

Пока рынок зациклен на железе, Дженсен Хуанг тихо выложил в открытый доступ модель рассуждений «Системы 2», которая решает парадокс Моравека.

bb517b902e22e47b0dcddf1a992fde5e.png

Роботизированная рука замирает.

Она держит керамическую кофейную чашку над жёстким кафельным полом. Две секунды она не делает абсолютно ничего. Инженеры, наблюдающие за трансляцией, затаили дыхание.

В старом мире робототехники эта пауза означала провал. Код завис, планировщик движений застрял в цикле, или решатель обратной кинематики наткнулся на сингулярность. Это был «синий экран смерти» для железа.

Но на этот раз пауза была намеренной.

Машина не зависла. Она думала.

Защитный ров вокруг автономной робототехники испарился за один доклад. Пока мейнстримные СМИ одержимы новыми чипами NVIDIA Vera Rubin, Дженсен Хуанг тихо выложил в открытый доступ единственное, что реально нужно разработчикам: работающий мозг. Вот технический разбор нового стека Alpamayo, как запустить его локально и почему следующее приложение на триллион долларов не будет чат-ботом.

NVIDIA только что бесплатно выпустила 1 727 часов данных о вождении и мозг на 10 миллиардов параметров. Финансовый барьер входа в робототехнику только что упал с 10 миллионов долларов до нуля.

Перечитайте это. Защитный ров испарился.

Если вы разработчик, который чувствовал, что опоздал на золотую лихорадку LLM - это ваш второй шанс.

Большинство инженеров отвлеклись на терафлопсы и цену акций. Они упускают архитектурный сдвиг, который позволяет машине скачивать здравый смысл из интернета.

Чтобы понять, почему это важно, нужно взглянуть на проблему, которая ставила робототехников в тупик 40 лет.


Проблема мозга

Мы называем это парадоксом Моравека.

Сформулированный Гансом Моравеком в 1980-х, он гласит: высокоуровневое мышление требует очень мало вычислений, но низкоуровневые сенсомоторные навыки требуют огромных вычислительных ресурсов.

Математический анализ для компьютеров - легко. Сложить полотенце - невозможно трудно.

Десятилетиями индустрия пыталась решить это явной логикой. Команды кандидатов наук писали миллионы строк кода на C++, чтобы определить каждый возможный угол сустава, коллизионный бокс и коэффициент трения. Они строили «конечные автоматы» - жёсткие блок-схемы поведения. Если датчик A видит объект B, двигай сервопривод C на угол D.

Вы когда-нибудь пробовали написать код, чтобы робот сложил рубашку?

Это кошмар из краевых случаев. Одна складка на ткани меняет геометрию. Трение стола меняет сопротивление. Если освещение сдвинется с утреннего на дневное, порог камеры для «белой рубашки» может дать сбой.

Если вы жёстко прописываете движение, робот ломается в тот момент, когда реальность отклоняется на миллиметр.

Вот почему промышленные роботы оставались в клетках. Они были сильными, точными и совершенно слепыми к нюансам. Они были не интеллектуальными агентами - они были слепыми магнитофонами, воспроизводящими заранее записанную анимацию.

До вчерашнего дня мы пытались решить это логикой. Дженсен только что заменил логику токенами.


Момент «Ага»: Система 2 для роботов

Решение - новая архитектура модели под названием Alpamayo.

Alpamayo - это Vision-Language-Action (VLA) модель. Чтобы понять VLA, нужно понять, чем она отличается от LLM, которые вы используете каждый день.

Стандартная LLM (вроде GPT-4) принимает текстовые токены и выдаёт текстовые токены. Она живёт целиком в мире символов.

VLA принимает визуальные эмбеддинги (видеокадры) и текст, но её выход радикально отличается. Она выдаёт токены моторного управления. Она относится к повороту запястья на 5 градусов точно так же, как к слову в предложении. Для Alpamayo «Двигай руку влево» - это просто следующее логичное слово в истории, которую она пишет.

Но настоящий прорыв - не в действии. Он в паузе.

Модель внедряет рассуждения «Системы 2» в физических агентов. Эта концепция, популяризированная Даниэлем Канеманом, описывает медленное, осознанное мышление в противовес быстрой, интуитивной реакции.

  1. Восприятие (Система 1: Быстро).

  2. Рассуждение (Система 2: Медленно).

  3. Действие (Система 1: Быстро).

Согласно технической документации, выпущенной вместе с моделью, Alpamayo генерирует внутреннюю «Цепочку рассуждений» прежде чем двигаться. Она смотрит на кофейную чашку и моделирует исход её падения против аккуратной постановки. Она запускает мысленную симуляцию физики перед тем, как зафиксировать моторный токен.

Она не просто видит пиксели. Она предсказывает последствия.

Это решает проблему «чёрного ящика», которая не пускала нейросети в критически важное для безопасности оборудование. Если робот останавливается, вы можете спросить его - почему. Он выдаст текст: «Я увидел, как выкатился мяч, я предсказываю, что за ним выбежит ребёнок, поэтому уступаю дорогу».

Архитектура Alpamayo с петлёй рассуждений
Архитектура Alpamayo с петлёй рассуждений

Архитектура Alpamayo внедряет «петлю рассуждений» (Система 2), которая проверяет действия по физической модели Cosmos перед движением. (Создано автором)

Но мозг бесполезен без мира для практики.


Модель мира

Обучать робота в реальном мире - медленно, дорого и опасно.

Нельзя позволить роботу разбить 10 000 кофейных чашек только чтобы выучить гравитацию. Нельзя позволить автономному автомобилю проехать на 10 000 красных светофоров только чтобы понять, что такое авария.

Здесь появляется вторая часть релиза: Cosmos Reason 2.

Cosmos - это World Foundation Model (WFM). Это цифровое воображение, которое понимает физику.

Вот математика, о которой никто не упоминает.

Cosmos - это не игровой движок. Игровые движки вроде Unity или Unreal используют явные формулы для расчёта гравитации и столкновений. Они выполняют код, написанный людьми.

Cosmos - другое. Он использует нейросеть, чтобы предсказывать следующий кадр видео на основе физической интуиции. Он генерирует будущее пиксель за пикселем, основываясь на вероятности.

Он выучил гравитацию так же, как младенец: наблюдая, как падают предметы.

NVIDIA обучила Cosmos на миллионах часов видео. Он понимает, что стекло разбивается, вода течёт, ткань мнётся, а тени удлиняются на закате. Ему не нужны формулы для этого. Он просто «знает» это как статистические вероятности.

Это позволяет разработчикам использовать технику под названием «Дообучение с наградой стрелы времени».

Вы можете позволить вашему цифровому роботу пробовать задачу в Cosmos миллион раз. Модель награждает агента за исходы, соответствующие физической причинности (чашка остаётся на столе) и штрафует за «галлюцинирование» движений, нарушающих физику (чашка проходит сквозь стол).

И лучшая часть? Вам не нужен настоящий робот для обучения.


Петля симуляции

Это подводит нас к AlpaSim - новому открытому фреймворку симуляции.

Для робототехников, которые годами боролись с ROS (Robot Operating System) и хрупким кодом на C++, это ощущается как магия.

Теперь вы можете создать цифровую версию вашего робота в AlpaSim. Вы подключаете мозг Alpamayo к миру Cosmos. Вы позволяете ему работать 10 000 циклов параллельно, обучаясь хватать кружку или перемещаться по складу.

Именно здесь разрыв «Sim-to-Real» обычно убивает стартапы.

Исторически робот, работающий в симуляции, проваливается в реальной жизни. В симуляции освещение идеальное, текстуры плоские, физика чистая. В реальной жизни солнце слепит от пола, ковёр неровный, датчики шумят. Робот путается и ломается.

NVIDIA заявляет, что решила это «рандомизацией домена» в масштабе.

Cosmos не просто генерирует одну реальность. Он генерирует тысячи хаотичных вариаций. Он меняет цвет пола. Он меняет трение стола. Он добавляет визуальный шум в поток камеры. Он симулирует «диско-режим» реальности.

К моменту, когда код попадает на реального робота, мозг уже видел тысячу версий «реальности». Он научился игнорировать шум и фокусироваться на объекте.

Теперь поговорим о железе, которое вам действительно нужно.


Реальность железа

Пресс-релиз начался с новых чипов Vera Rubin.

Характеристики впечатляют. Они предлагают 4-кратную пропускную способность по сравнению с предыдущей архитектурой Blackwell и снижают затраты на инференс в десять раз.

Если вы бэкенд-инженер, вы уже понимаете, что это значит для задержки.

Но для робототехники задержка - это не только пользовательский опыт. Это безопасность.

Рассмотрим математику «тормозного пути». Если робот движется со скоростью 2 метра в секунду, и ему требуется 500 миллисекунд (полсекунды), чтобы обработать один кадр видео и решить остановиться, робот уже проедет полный метр, прежде чем даже нажмёт на тормоза.

Этот метр - разница между безопасной остановкой и судебным иском.

Запуск петли рассуждений «Цепочки мыслей» требует времени. Модель должна генерировать токены, оценивать вероятности и выбирать действие. На стандартном CPU это заняло бы секунды.

Данные ясны в одном: полную 14B модель пока нельзя запустить на ноутбуке.

Хотя веса бесплатны, вычисления - нет. Чтобы запустить Alpamayo с рассуждениями в реальном времени (задержка меньше 100мс), вам нужно значительное количество VRAM рядом с сенсором. Речь идёт о двух RTX 4090 или новых периферийных компьютерах Jetson Thor для развёртывания.

Но для экосистемы последствия сумасшедшие.


Момент «App Store»

Барьер входа только что упал с 10 миллионов долларов до нуля.

Раньше, если вы хотели создать робота-домработницу, вам нужна была команда из 50 инженеров компьютерного зрения, чтобы построить стек восприятия. Вам нужно было собрать собственный датасет из 100 000 изображений. Вам нужно было купить серверный кластер DGX для обучения.

Теперь вы просто скачиваете Alpamayo.

Это событие вымирания для проприетарного кода промышленных роботов.

Компании, продающие «тупые» манипуляторы с закрытым софтом, в беде. Зачем кому-то покупать робота, требующего кастомного программирования, когда можно купить универсальный манипулятор и загрузить на него бесплатную модель «Универсального дворецкого»?

Победителями станут маленькие команды, которые сфокусируются на данных, а не на базовых моделях.

Ценность больше не в мозге. Мозг - это товар. Ценность - в данных для дообучения на конкретные, высокоценные задачи: складывание белья, сборка печатных плат, нарезка лука или помощь пожилым пациентам.

Чем лучше вы разбираетесь в механике языковых моделей, тем точнее направляете их туда, где они реально полезны, и тем увереннее замечаете, где они могут ошибиться.

BotHub открывает доступ к современным AI-моделям без барьеров!

2c4bcc67ac65964c408a8c7608765a55.png

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.


Так куда всё это движется?

Мы вот-вот увидим фазу «Stable Diffusion» в робототехнике.

Помните 2022 год? До Stable Diffusion AI-арт был закрыт за API-пейволлами (DALL-E 2). Как только веса выложили в открытый доступ, сообщество взорвалось. Мы получили ControlNet, LoRA и тысячи кастомных моделей за недели.

Физический ИИ вот-вот взорвётся на GitHub точно таким же образом.

Запомните мои слова.

Прогноз: к четвёртому кварталу 2026 года первый «Универсальный домашний бот» появится не от Tesla или Google. Он появится от команды из трёх человек, использующей стек Cosmos.

Все компоненты на месте. Мозг (Alpamayo). Симулятор (AlpaSim). Модель мира (Cosmos). Железо (Jetson).

Так что вы можете с этим сделать?


Стартовый набор для физического ИИ

Хватит читать - начинайте строить.

Вот поэтапный подход к началу работы со стеком NVIDIA уже сегодня.

НЕМЕДЛЕННО (Фаза «Ноутбук»)

  • Скачайте веса: Идите на Hugging Face и скачайте nvidia/Cosmos-Reason1-7B. Не пробуйте 14B модель, пока у вас нет 24GB+ VRAM.

  • Хак системного промпта: Модель по умолчанию ведёт себя как стандартная VLM, пока вы не принудите её рассуждать. Вы должны использовать конкретную структуру промпта из документации:

"Answer the question in the following format: \n[Reasoning Trace]\n[Final Action]"

Когда вы это запустите, ваш терминал озарится «Следом мыслей». Вы увидите, как модель рассматривает «Прямой захват», предсказывает высокий шанс проскальзывания и сама себя исправляет на «Захват сверху» - прежде чем отправит хоть одну команду на сервоприводы.

Пауза «Системы 2» в действии: модель отвергает симуляцию «Прямого захвата» перед переходом к безопасному подходу «Сверху».
Пауза «Системы 2» в действии: модель отвергает симуляцию «Прямого захвата» перед переходом к безопасному подходу «Сверху».
  • Не пропускайте этот шаг: Без явного тега рассуждений модель пропускает паузу «Системы 2», и производительность падает на 40%.

ПРОМЕЖУТОЧНЫЙ УРОВЕНЬ (Фаза «Симуляция»)

  • Запустите AlpaSim в headless-режиме: Запустите симуляцию «Hello World» в AlpaSim. Используйте headless-режим для экономии ресурсов GPU.

  • Синтетическое дообучение: Используйте Cosmos Transfer 2.5 для генерации синтетических краевых случаев. Создайте сценарий, где на кухне идёт снег (невозможно в реальности, легко в симуляции) и дообучите 7B модель игнорировать визуальный шум.

АНТИПАТТЕРН

  • Не обращайтесь с видео как с изображениями: Частая ошибка новичков - кормить модель кадр за кадром. Cosmos требует контекстного окна минимум из 17 кадров, чтобы понимать скорость и физику. Если вы подаёте одиночные кадры, он не может рассчитать «Стрелу времени».

ЧЕСТНОЕ ОГРАНИЧЕНИЕ

  • Развёртывание в реальном мире требует денег. Хотя софт бесплатен, установка на физического робота всё ещё требует дорогих периферийных вычислений (Jetson Orin/Thor) для работы на безопасных скоростях.


Вопрос

Мы провели 50 лет, пытаясь научить роботов двигаться, определяя каждое подёргивание мышц.

Мы только что преуспели, научив их мечтать.

Вопрос не в том, будут ли машины думать. А в том, что они решат делать, когда смогут.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.