Пока рынок зациклен на железе, Дженсен Хуанг тихо выложил в открытый доступ модель рассуждений «Системы 2», которая решает парадокс Моравека.
Роботизированная рука замирает.
Она держит керамическую кофейную чашку над жёстким кафельным полом. Две секунды она не делает абсолютно ничего. Инженеры, наблюдающие за трансляцией, затаили дыхание.
В старом мире робототехники эта пауза означала провал. Код завис, планировщик движений застрял в цикле, или решатель обратной кинематики наткнулся на сингулярность. Это был «синий экран смерти» для железа.
Но на этот раз пауза была намеренной.
Машина не зависла. Она думала.
Защитный ров вокруг автономной робототехники испарился за один доклад. Пока мейнстримные СМИ одержимы новыми чипами NVIDIA Vera Rubin, Дженсен Хуанг тихо выложил в открытый доступ единственное, что реально нужно разработчикам: работающий мозг. Вот технический разбор нового стека Alpamayo, как запустить его локально и почему следующее приложение на триллион долларов не будет чат-ботом.
NVIDIA только что бесплатно выпустила 1 727 часов данных о вождении и мозг на 10 миллиардов параметров. Финансовый барьер входа в робототехнику только что упал с 10 миллионов долларов до нуля.
Перечитайте это. Защитный ров испарился.
Если вы разработчик, который чувствовал, что опоздал на золотую лихорадку LLM - это ваш второй шанс.
Большинство инженеров отвлеклись на терафлопсы и цену акций. Они упускают архитектурный сдвиг, который позволяет машине скачивать здравый смысл из интернета.
Чтобы понять, почему это важно, нужно взглянуть на проблему, которая ставила робототехников в тупик 40 лет.
Мы называем это парадоксом Моравека.
Сформулированный Гансом Моравеком в 1980-х, он гласит: высокоуровневое мышление требует очень мало вычислений, но низкоуровневые сенсомоторные навыки требуют огромных вычислительных ресурсов.
Математический анализ для компьютеров - легко. Сложить полотенце - невозможно трудно.
Десятилетиями индустрия пыталась решить это явной логикой. Команды кандидатов наук писали миллионы строк кода на C++, чтобы определить каждый возможный угол сустава, коллизионный бокс и коэффициент трения. Они строили «конечные автоматы» - жёсткие блок-схемы поведения. Если датчик A видит объект B, двигай сервопривод C на угол D.
Вы когда-нибудь пробовали написать код, чтобы робот сложил рубашку?
Это кошмар из краевых случаев. Одна складка на ткани меняет геометрию. Трение стола меняет сопротивление. Если освещение сдвинется с утреннего на дневное, порог камеры для «белой рубашки» может дать сбой.
Если вы жёстко прописываете движение, робот ломается в тот момент, когда реальность отклоняется на миллиметр.
Вот почему промышленные роботы оставались в клетках. Они были сильными, точными и совершенно слепыми к нюансам. Они были не интеллектуальными агентами - они были слепыми магнитофонами, воспроизводящими заранее записанную анимацию.
До вчерашнего дня мы пытались решить это логикой. Дженсен только что заменил логику токенами.
Решение - новая архитектура модели под названием Alpamayo.
Alpamayo - это Vision-Language-Action (VLA) модель. Чтобы понять VLA, нужно понять, чем она отличается от LLM, которые вы используете каждый день.
Стандартная LLM (вроде GPT-4) принимает текстовые токены и выдаёт текстовые токены. Она живёт целиком в мире символов.
VLA принимает визуальные эмбеддинги (видеокадры) и текст, но её выход радикально отличается. Она выдаёт токены моторного управления. Она относится к повороту запястья на 5 градусов точно так же, как к слову в предложении. Для Alpamayo «Двигай руку влево» - это просто следующее логичное слово в истории, которую она пишет.
Но настоящий прорыв - не в действии. Он в паузе.
Модель внедряет рассуждения «Системы 2» в физических агентов. Эта концепция, популяризированная Даниэлем Канеманом, описывает медленное, осознанное мышление в противовес быстрой, интуитивной реакции.
Восприятие (Система 1: Быстро).
Рассуждение (Система 2: Медленно).
Действие (Система 1: Быстро).
Согласно технической документации, выпущенной вместе с моделью, Alpamayo генерирует внутреннюю «Цепочку рассуждений» прежде чем двигаться. Она смотрит на кофейную чашку и моделирует исход её падения против аккуратной постановки. Она запускает мысленную симуляцию физики перед тем, как зафиксировать моторный токен.
Она не просто видит пиксели. Она предсказывает последствия.
Это решает проблему «чёрного ящика», которая не пускала нейросети в критически важное для безопасности оборудование. Если робот останавливается, вы можете спросить его - почему. Он выдаст текст: «Я увидел, как выкатился мяч, я предсказываю, что за ним выбежит ребёнок, поэтому уступаю дорогу».
Архитектура Alpamayo внедряет «петлю рассуждений» (Система 2), которая проверяет действия по физической модели Cosmos перед движением. (Создано автором)
Но мозг бесполезен без мира для практики.
Обучать робота в реальном мире - медленно, дорого и опасно.
Нельзя позволить роботу разбить 10 000 кофейных чашек только чтобы выучить гравитацию. Нельзя позволить автономному автомобилю проехать на 10 000 красных светофоров только чтобы понять, что такое авария.
Здесь появляется вторая часть релиза: Cosmos Reason 2.
Cosmos - это World Foundation Model (WFM). Это цифровое воображение, которое понимает физику.
Вот математика, о которой никто не упоминает.
Cosmos - это не игровой движок. Игровые движки вроде Unity или Unreal используют явные формулы для расчёта гравитации и столкновений. Они выполняют код, написанный людьми.
Cosmos - другое. Он использует нейросеть, чтобы предсказывать следующий кадр видео на основе физической интуиции. Он генерирует будущее пиксель за пикселем, основываясь на вероятности.
Он выучил гравитацию так же, как младенец: наблюдая, как падают предметы.
NVIDIA обучила Cosmos на миллионах часов видео. Он понимает, что стекло разбивается, вода течёт, ткань мнётся, а тени удлиняются на закате. Ему не нужны формулы для этого. Он просто «знает» это как статистические вероятности.
Это позволяет разработчикам использовать технику под названием «Дообучение с наградой стрелы времени».
Вы можете позволить вашему цифровому роботу пробовать задачу в Cosmos миллион раз. Модель награждает агента за исходы, соответствующие физической причинности (чашка остаётся на столе) и штрафует за «галлюцинирование» движений, нарушающих физику (чашка проходит сквозь стол).
И лучшая часть? Вам не нужен настоящий робот для обучения.
Это подводит нас к AlpaSim - новому открытому фреймворку симуляции.
Для робототехников, которые годами боролись с ROS (Robot Operating System) и хрупким кодом на C++, это ощущается как магия.
Теперь вы можете создать цифровую версию вашего робота в AlpaSim. Вы подключаете мозг Alpamayo к миру Cosmos. Вы позволяете ему работать 10 000 циклов параллельно, обучаясь хватать кружку или перемещаться по складу.
Именно здесь разрыв «Sim-to-Real» обычно убивает стартапы.
Исторически робот, работающий в симуляции, проваливается в реальной жизни. В симуляции освещение идеальное, текстуры плоские, физика чистая. В реальной жизни солнце слепит от пола, ковёр неровный, датчики шумят. Робот путается и ломается.
NVIDIA заявляет, что решила это «рандомизацией домена» в масштабе.
Cosmos не просто генерирует одну реальность. Он генерирует тысячи хаотичных вариаций. Он меняет цвет пола. Он меняет трение стола. Он добавляет визуальный шум в поток камеры. Он симулирует «диско-режим» реальности.
К моменту, когда код попадает на реального робота, мозг уже видел тысячу версий «реальности». Он научился игнорировать шум и фокусироваться на объекте.
Теперь поговорим о железе, которое вам действительно нужно.
Пресс-релиз начался с новых чипов Vera Rubin.
Характеристики впечатляют. Они предлагают 4-кратную пропускную способность по сравнению с предыдущей архитектурой Blackwell и снижают затраты на инференс в десять раз.
Если вы бэкенд-инженер, вы уже понимаете, что это значит для задержки.
Но для робототехники задержка - это не только пользовательский опыт. Это безопасность.
Рассмотрим математику «тормозного пути». Если робот движется со скоростью 2 метра в секунду, и ему требуется 500 миллисекунд (полсекунды), чтобы обработать один кадр видео и решить остановиться, робот уже проедет полный метр, прежде чем даже нажмёт на тормоза.
Этот метр - разница между безопасной остановкой и судебным иском.
Запуск петли рассуждений «Цепочки мыслей» требует времени. Модель должна генерировать токены, оценивать вероятности и выбирать действие. На стандартном CPU это заняло бы секунды.
Данные ясны в одном: полную 14B модель пока нельзя запустить на ноутбуке.
Хотя веса бесплатны, вычисления - нет. Чтобы запустить Alpamayo с рассуждениями в реальном времени (задержка меньше 100мс), вам нужно значительное количество VRAM рядом с сенсором. Речь идёт о двух RTX 4090 или новых периферийных компьютерах Jetson Thor для развёртывания.
Но для экосистемы последствия сумасшедшие.
Барьер входа только что упал с 10 миллионов долларов до нуля.
Раньше, если вы хотели создать робота-домработницу, вам нужна была команда из 50 инженеров компьютерного зрения, чтобы построить стек восприятия. Вам нужно было собрать собственный датасет из 100 000 изображений. Вам нужно было купить серверный кластер DGX для обучения.
Теперь вы просто скачиваете Alpamayo.
Это событие вымирания для проприетарного кода промышленных роботов.
Компании, продающие «тупые» манипуляторы с закрытым софтом, в беде. Зачем кому-то покупать робота, требующего кастомного программирования, когда можно купить универсальный манипулятор и загрузить на него бесплатную модель «Универсального дворецкого»?
Победителями станут маленькие команды, которые сфокусируются на данных, а не на базовых моделях.
Ценность больше не в мозге. Мозг - это товар. Ценность - в данных для дообучения на конкретные, высокоценные задачи: складывание белья, сборка печатных плат, нарезка лука или помощь пожилым пациентам.
Чем лучше вы разбираетесь в механике языковых моделей, тем точнее направляете их туда, где они реально полезны, и тем увереннее замечаете, где они могут ошибиться.
BotHub открывает доступ к современным AI-моделям без барьеров!
Для доступа к сервису не требуется VPN, и можно использовать российскую карту.
Мы вот-вот увидим фазу «Stable Diffusion» в робототехнике.
Помните 2022 год? До Stable Diffusion AI-арт был закрыт за API-пейволлами (DALL-E 2). Как только веса выложили в открытый доступ, сообщество взорвалось. Мы получили ControlNet, LoRA и тысячи кастомных моделей за недели.
Физический ИИ вот-вот взорвётся на GitHub точно таким же образом.
Запомните мои слова.
Прогноз: к четвёртому кварталу 2026 года первый «Универсальный домашний бот» появится не от Tesla или Google. Он появится от команды из трёх человек, использующей стек Cosmos.
Все компоненты на месте. Мозг (Alpamayo). Симулятор (AlpaSim). Модель мира (Cosmos). Железо (Jetson).
Так что вы можете с этим сделать?
Хватит читать - начинайте строить.
Вот поэтапный подход к началу работы со стеком NVIDIA уже сегодня.
Скачайте веса: Идите на Hugging Face и скачайте nvidia/Cosmos-Reason1-7B. Не пробуйте 14B модель, пока у вас нет 24GB+ VRAM.
Хак системного промпта: Модель по умолчанию ведёт себя как стандартная VLM, пока вы не принудите её рассуждать. Вы должны использовать конкретную структуру промпта из документации:
"Answer the question in the following format: \n[Reasoning Trace]\n[Final Action]"
Когда вы это запустите, ваш терминал озарится «Следом мыслей». Вы увидите, как модель рассматривает «Прямой захват», предсказывает высокий шанс проскальзывания и сама себя исправляет на «Захват сверху» - прежде чем отправит хоть одну команду на сервоприводы.
Не пропускайте этот шаг: Без явного тега рассуждений модель пропускает паузу «Системы 2», и производительность падает на 40%.
Запустите AlpaSim в headless-режиме: Запустите симуляцию «Hello World» в AlpaSim. Используйте headless-режим для экономии ресурсов GPU.
Синтетическое дообучение: Используйте Cosmos Transfer 2.5 для генерации синтетических краевых случаев. Создайте сценарий, где на кухне идёт снег (невозможно в реальности, легко в симуляции) и дообучите 7B модель игнорировать визуальный шум.
Не обращайтесь с видео как с изображениями: Частая ошибка новичков - кормить модель кадр за кадром. Cosmos требует контекстного окна минимум из 17 кадров, чтобы понимать скорость и физику. Если вы подаёте одиночные кадры, он не может рассчитать «Стрелу времени».
Развёртывание в реальном мире требует денег. Хотя софт бесплатен, установка на физического робота всё ещё требует дорогих периферийных вычислений (Jetson Orin/Thor) для работы на безопасных скоростях.
Мы провели 50 лет, пытаясь научить роботов двигаться, определяя каждое подёргивание мышц.
Мы только что преуспели, научив их мечтать.
Вопрос не в том, будут ли машины думать. А в том, что они решат делать, когда смогут.
Источник


