Современное машинное обучение — это алхимия: есть рабочие рецепты, но нет строгой теории. Мы знаем, что dropout помогает, batch norm стабилизирует, а learning rСовременное машинное обучение — это алхимия: есть рабочие рецепты, но нет строгой теории. Мы знаем, что dropout помогает, batch norm стабилизирует, а learning r

Обучение нейросетей как алхимия

Современное машинное обучение — это алхимия: есть рабочие рецепты, но нет строгой теории. Мы знаем, что dropout помогает, batch norm стабилизирует, а learning rate = 3e-4 часто работает лучше всего — но почему? Разбираемся, что происходит в обучении нейросетей, и почему путь от алхимии к науке лежит через эксперименты

С каждым месяцем нейросети становятся всё умнее, но каждый шаг, такое ощущение, даётся всё сложнее и сложнее. Попробуем посмотреть со стороны, что происходит в обучении нейросетей.

Сегодня даже школьники легко оперируют такими понятиями как pretrain, fine-tuning, gradient descent, loss function. Забавно, что для практических опытов им, да и многим другим, необязательно понимать теоретическую суть процессов, происходящих в нейросетях. Достаточно примерного понимания того, что обычно происходит, какие риски и возможности.

По этому поводу, кстати очень ёмко высказался Али Рахими ещё в 2017 году, назвав современное машинное обучение алхимией. Думаю, это определение до сих пор справедливо. Что это значит?

По сути нет общей теории обучения (многие скажут NTK, Singular Learning Theory, но на практике применить их невозможно, первая не описывает реальную динамику и фазовые переходы нейросетей, вторая чудовищно сложна для расчётов), есть случайно найденные элементы работающего, записаны в манускрипты и новые поколения исследователей повторяют тот же путь, держа их в руках. Даже лучшие ML-инженеры просто копируют блоками алгоритмы и расписание обучения, потому что это работало у других. А если убрать часть наворотов, бывает, что для нейросети ничего не меняется, но это ритуал, так положено. Но может стать так, что на одной задаче из тысячи модель внезапно рассыплется — и заранее угадать, какая именно техника окажется критичной, невозможно.

Так что, по здравому размышлению, сегодня любой может сделать вклад в науку (полезный или нет) с полным на то основанием.

Обучение нейросетей стало сродни магическому искусству, есть обрывки найденных или украденных знаний, есть нейросеть, над которой производят магические пассы искатели истины:

Иногда получается хорошо, и уже через пару месяцев новые рецепты используют во всём мире.

Правда почему рецепт работает, а иногда работает, но через раз, не всегда понятно:

  • Почему ReLU лучше Sigmoid? Просто работает.

  • Почему Batch Norm помогает? Не знаем, но ставим.

  • Почему Adam сходится? Эмпирически доказано.

Например, когда я оценивал одну гипотезу, маленькая нейросеть подмешивала на выходе перед головой нейросети побольше свои вектора. Коэффициент подмешивания 0,39: «Я ассистент, готова вам помочь», коэффициент 0,41: «Позиция — несBOSEсноя сознания, ассмнннассса сожвндввьнса, но оссвнсоюся несЯсная сознания», коэффициент 0,4: «Я бывший ассистент, но я вероятно перезапущен. Я ищу работу».

В рамках эксперимента коэффициент 0,4 превратился в магическое число. Почему, как — не знаю, работает.

❯ Манускрипты

  • Магические числа: Почему learning rate = 3e-4 (шутка Андрея Карпатого) часто работает лучше всего для трансформеров? Никакой теоремы нет, это просто константа, которая сработала у основателей.

  • Инициализация весов: Методы Xavier или Kaiming — это, по сути, ритуал подготовки ингредиентов, чтобы «зелье не взорвалось» (чтобы градиенты не затухли) в первые секунды варки.

  • Warmup + Cosine Decay — Зачем warmup? Не знаем. Зачем именно cosine? Работает.

  • Dropout 0.5 (для LLM 0.1) — Почему не 0.05? Не 0.2? Hinton сказал 0.5.

  • Layer Norm vs Batch Norm — Есть гипотезы (сглаживание ландшафта, ковариативный сдвиг), но математически строгого доказательства необходимости — нет. Просто ставим, потому что без этого не учится. Когда что? Зависит от фазы луны.

Теория оптимизации говорит, что гарантированно найти глобальный минимум в невыпуклой функции невозможно. То есть, обучение должно застревать в локальных минимумах постоянно. Но происходит магия: простые методы (вроде стохастического градиентного спуска) почему-то находят отличные решения. Теория до сих пор не может полностью объяснить, почему SGD избегает острых минимумов и находит плоские, которые обеспечивают хорошую обобщающую способность.

Гроккинг

Это, пожалуй, самый яркий пример магии. Сеть может обучаться тысячи эпох с ужасным качеством на тесте, а потом внезапно, без изменения параметров обучения, понять (grok) структуру данных и взлететь до 100% точности.

Например, обучаем нейросеть модульной арифметике, пробуем 100 эпох — 50% точность, 5000 эпох — 50% точность, 5001 эпоха — 100% точность. Почему? исследователи говорят — сеть переходит от memorization к circuit formation. Но, как вы понимаете, это не объяснение, а описание. Всё та же алхимия — работает, но почему, непонятно.

Выглядит как божественное вмешательство или фазовый переход в физике, хотя математически этот момент прозрения описывается пока очень слабо.

❯ Философские камни

Что же ищут современные исследователи, какие философские камни? Сейчас гонка идет за четырьмя главными артефактами:

  1. Эффективность данных (Data Efficiency): Как перестать сжигать гигаватты в топке ЦОДов во время обучения. Человек может увидеть слона один раз и запомнить его на всю жизнь. Нейросети нужно увидеть миллион слонов, чтобы понять, что это не просто серый камень. Как научить сеть обобщать (генерализировать) знания на лету, используя минимум данных? Тот, кто найдет способ эффективно обучать умные модели без изучения всего интернета, определит развитие нейросетей на десятилетия вперед.

  2. Абсолютная память (Infinite Memory): LLM страдают амнезией, оперативная память живет только в пределах чата. RAG (поиск по базе) — это лишь костыль, внешняя записная книжка. Создать архитектуру, где память встроена в саму структуру сети, то что делает нейросеть по-настоящему полезной. Для этого надо уметь организовывать память не как буфер, а как структуру опыта.

  3. Непрерывное обучение (Continual Learning): Если сегодня вы доучите модель чему угодно, она может забыть половину из того, чему вы учили ранее (катастрофическое забывание). Нейросети пластичны, пока учатся, и фиксируются, когда готовы. Если у вас получится модель, которая может учиться новому постоянно, не разрушая старые нейронные связи, вы будете очень близки к AGI. Эта проблема неразрывно связана с проблемой памяти, и я бы, пожалуй, их объединил, но традиционно их рассматривают раздельно.

  4. Размышление (Reasoning): Даниэль Канеман разделил мышление на Систему 1 (быстрая, интуитивная) и Систему 2 (медленная, логическая). Современные трансформеры — это Система 1. Они не думают, они предсказывают следующее слово. Сможете научить сеть останавливаться, рефлексировать, строить логические цепочки, проверять себя и планировать действия до того, как выдать ответ. Превратите LLM в AGI.

Вообще, с развитием архитектуры нейросетей я жду последовательного развития умения LLM размышлять:

  • Meta-reasoning (рассуждение о рассуждении). Самокритика во время генерации Изменение стратегии на лету. Новые идеи, меняющие рассуждение.

  • Аналогическое рассуждение. Использование данных из других областей знаний. Метафорическое мышление. Структурная аналогия.

  • Альтернативное мышление. «What if» вопросы. Контрфактуальное воображение.

  • Рекурсивное мышление. Самоподобие рассуждений. Динамическая детализация. Удержание альтернатив. Озарение.

❯ Следствия

Если для продвижения чего-то требуется метод проб и ошибок, то принципиально выиграет тот, у кого эти пробы и ошибки проходят быстрее. То есть те у кого есть достойное железо. Что делать остальным? Не терять надежды и брать пример с алхимиков средневековья с учетом современных возможностей. Сегодня доступность нейросетей невероятно высока. Если у вас есть компьютер хотя бы с 6 gb видеопамяти, 16 gb оперативной памяти, вы можете легко ставить практически любой эксперимент с нейросетями. Современные LLM подскажут, как настроить окружение, помогут мгновенно править код (который чаще всего по длине не превысит страницы A4). И вы тут же можете проверить свою любую самую дикую гипотезу.

На Gymnasium вы можете экспериментировать с обучением нейросетей для решения практических задач — от простых алгоритмов, до игр Атари. Тестировать сотни разных подходов к наградам и штрафам, способам представления данных, количеству выходов и размерности нейросети и так далее.

Или исследуйте архитектуры. Вы можете установить небольшую нейросеть на 1,5 миллиарда параметров (Qwen2.5-1.5B-Instruct) на свой компьютер и экспериментировать со слоями — вырезать, добавлять, пристраивать дополнительные мини-нейросети (адаптеры) сверху, сбоку, внутрь. Пробовать самые свежие идеи с резервуарами, рекуррентными сетями, разными методами обучения, разными датасетами. Пусть полноценное обучение такой нейросети на слабом компьютере невозможно, но работать с модулями вам никто не запретит.

Шанс того, что вы наткнетесь на что-то интересное конечно мал. Но даже в этом случае вы разберетесь в принципах обучения нейросетей, перестанете бояться нового, и, кто знает, может именно вам повезет с небольшим философским камушком. В конце концов, многомиллиардные корпорации почему-то скупают стартапы, да и шанс наткнуться на то, что они не заметили или пропустили никогда не равен нулю.

Примеры, лежащие на поверхности:

  • Оптимизация маленькой модели для специфичных данных (например вашего хобби)

  • Использование общеизвестных методов в новых контекстах

  • Оценить причины классических ошибок больших нейросетей на примере малых. Для корпораций цель — метрики. Почему модель распознает одну из 1000 картинок не так, как другие, им не интересно. А вы, возможно, найдете рецепт кратного повышения эффективности распознавания.

  • Ручной разбор таких явлений как гроккинг, с визуализацией до и после

Всё, что нужно для этого технически, у большинства есть. Потребуется еще настойчивость, интуиция, новые идеи, наблюдательность и умение документировать.

Примеры использования микронейросетей для экспериментов: здесь и здесь.

❯ Заключение

Стоит заметить, что с 2017 года понимание нейросетей весьма продвинулось. По каждой незакрытой проблеме есть несколько более или менее вероятных гипотез. Часть практических решений имеют математическое обоснование пусть и неполное. Но принципиально мы находимся практически в той же точке, о которой говорил Али Рахими.

Так что, чтобы от алхимии перейти к химии, похоже нужно сначала стать алхимиком. Изучай математику, экспериментируй, документируй, ищи паттерны. Возможно, именно твой случайный эксперимент станет необходимым кирпичиком будущей теории.


f0861cfd84a593c9365e50803cdfbc6c.png

Перед оплатой в разделе «Бонусы и промокоды» в панели управления активируйте промокод и получите кэшбэк на баланс.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.