TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из аTL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из а

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

TL;DR

«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.


Вот в чём проблема

Зайдите в любой айтишный-чат.

«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».

Звучит умно. Проблема? Это полная ерунда.

Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.

Ось упёрлась? Значит, AI упёрся.

Нет. Не значит.


Давайте честно: одномерное мышление — это ловушка

2012 год.

Кто-то говорит: «Мы собрали все фотографии кошек в интернете. Нейросети достигли потолка».

Технически верно. Для той парадигмы — да, потолок.

Как прогноз? Катастрофически неверно.

Через год — AlexNet. И понеслось.

То же самое сейчас. «Данные закончились» = «качественные тексты для supervised pre-training закончились».

Это правда.

Но это одна ось из шести.


Ось 1: Data Scaling — да, тут сложно

Начнём с того, о чём все кричат.

Scaling laws Каплана (2020): больше данных + больше compute = лучше модель. Красивая формула. Работала отлично.

До определённого момента.

Что сейчас:

  • Качественного текста в интернете ~15-20 трлн токенов

  • Большую часть уже скормили моделям

  • Diminishing returns

Но это не конец.

Data scaling трансформируется:

  1. Синтетические данные — модели генерят данные для себя и других

  2. Мультимодальность — видео, аудио, сенсоры. Триллионы нетронутых токенов

  3. Специализированные корпуса — медицина, юриспруденция, наука

Текст в интернете — это не все данные в мире. Даже близко.


Ось 2: Compute Scaling — тут скрыт главный обман

Окей, смотрите.

Все говорят «compute scaling» как будто это одна штука.

Это две штуки.

Pre-training compute

Классика: больше GPU × больше времени = умнее модель.

GPT-4 стоил ~$100M. Следующие поколения — миллиарды.

Да, тут экономический и физический потолок виден.

Inference-time compute

Это прорыв 2024 года. И почти все его пропустили.

Вместо того чтобы делать модель умнее при обучении — даём ей больше времени «думать» при ответе.

Серия o1/o3 от OpenAI: та же базовая модель решает задачи разной сложности с разным бюджетом на reasoning.

Результат? 30-50% прироста на сложных задачах. Без изменения весов.

Это как разница между «выучил формулу» и «имею время подумать».

Две разные оси. Обе работают. Независимо.


Ось 3: Algorithmic Efficiency — делаем больше за те же деньги

Каждый год модели становятся эффективнее при том же compute.

История:

  • 2017: Transformer убил RNN/LSTM — прорыв в параллелизации

  • 2020: Sparse attention — квадратичная сложность идёт лесом

  • 2022: FlashAttention — 2-4x ускорение, качество то же

  • 2023: Mixture of Experts — масштабируем параметры без линейного роста compute

Что дальше:

  • State Space Models (Mamba) — линейная сложность для длинных контекстов

  • Гибриды Transformer + SSM

  • Новые механизмы внимания

Эмпирика: каждые 1-2 года архитектурные улучшения = эквивалент 2-3x compute при тех же затратах.

Это прекрасно.


Ось 4: Модальности — текст это только начало

Вот что важно понять.

Текущие LLM обучены на тексте. Но информация существует не только в тексте.

Модальность

Объём

Статус

Текст

~20 трлн токенов

80%+ использовано

Изображения

~1 трлн+

Активно осваивается

Видео

Эксабайты

Начальная стадия

Аудио

Петабайты

Частично

3D/пространственные

Терабайты

Ранняя стадия

Сенсорные данные

Не начато

GPT-4V, Gemini, Claude 3 — первые шаги.

Следующий рубеж — embodied AI: модели учатся через взаимодействие с физическим или симулированным миром.

Данные, которые невозможно получить из интернета. Принципиально новый тип информации.


Ось 5: Tool Use и Agents — обход ограничений

Параметрическое знание (то, что зашито в веса) — это тупик.

  • Устаревает с момента обучения

  • Ограничено размером модели

  • Галлюцинации

Tool use — это решение.

Модель не пытается знать всё. Модель умеет использовать инструменты:

  • Поиск — актуальная информация

  • Калькулятор/код — точные вычисления

  • API — внешние системы

  • Базы данных — структурированные знания

  • Другие модели — специализированные агенты

Практический пример: Claude с доступом к поиску не нужно переобучать, чтобы он знал результаты вчерашних выборов.

Это фундаментальный сдвиг в том, что значит «умная модель».

Агентные системы идут дальше: декомпозиция задачи → планирование → выполнение → проверка.

Отдельное измерение capabilities. Ортогональное к «сырому интеллекту».


Ось 6: RL и Self-Play — обучение без людей

Supervised learning на человеческих данных — не единственный способ.

RLHF:
Модель улучшается через обратную связь, а не через примеры. Оптимизирует поведение, которое сложно показать явно.

Self-play и synthetic data:
DeepSeek-R1 показал: модель может улучшать reasoning через самостоятельную генерацию и фильтрацию цепочек рассуждений.

Constitutional AI:
Модель учится следовать принципам, а не копировать примеры.

Ключевой инсайт: эти методы позволяют становиться умнее без новых человеческих данных.

Signal — из структуры задачи, а не из готовых ответов.


Как использовать эту модель

Читаете новость об AI? Слышите прогноз?

Задайте вопрос: по какой оси изменение?

Примеры

«OpenAI выпустил o3, который решает ARC-AGI на 88%»
→ Ось 2 (inference-time compute). Та же модель, больше бюджета на reasoning.

«Данные для обучения LLM заканчиваются»
→ Верно для Оси 1. Не затрагивает оси 2-6.

«Llama 3.3 70B показывает качество Llama 3.1 405B»
→ Ось 3 (distillation, algorithmic efficiency).

«Claude научился использовать компьютер»
→ Ось 5 (tool use).

Красные флаги

  • «LLM упёрлись в потолок» — без уточнения по какой оси

  • «Архитектура исчерпана» — игнорирует оси 3, 4, 6

  • «Без данных нет прогресса» — игнорирует RL, self-play, synthetic data

  • Линейная экстраполяция текущих ограничений

Ну и ну.


Почему эксперты ошибаются

Парадокс: люди, работающие с LLM ежедневно, часто делают худшие долгосрочные прогнозы.

Почему?

  1. Проклятие знания — видят ограничения своей области, слепы к прорывам в соседних

  2. Якорение — текущие проблемы кажутся фундаментальными

  3. Информационный лаг — публичная информация отстаёт от frontier research на 6-12 месяцев

  4. Линейное мышление — экспоненциальные процессы недооцениваются

Факты:

  • 2020: консенсус — GPT-3 это потолок scaling laws

  • 2022: нужны триллионы токенов для каждого улучшения

  • 2023: reasoning невозможен без symbolic AI

Все эти «потолки» были пробиты.


Заключение

Я не говорю, что AGI за углом.

Я говорю более скромную вещь: одномерные прогнозы почти всегда ошибочны.

Когда кто-то говорит «LLM исчерпали себя» — спросите: по какой из шести осей?

Если ответ «по всем» — красный флаг некалиброванной уверенности.

Модели будут развиваться. Не обязательно по тем осям, которые ожидаем. Возможно, медленнее, чем надеются оптимисты.

Почти наверняка — не так, как предсказывают пессимисты.

Вывод: вместо бинарных прогнозов отслеживайте прогресс по каждой оси отдельно. Обновляйте модели по мере появления новых данных.

Вот такой ликбез.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно