Зачем всё это?
В последние годы NLP развивается так быстро, что собрать LLM‑систему стало почти так же просто и естественно, как поднять веб‑сервис или собрать пайплайн данных. И всё же логичный вопрос: зачем делать что-то с нуля, если есть готовые SaaS и open-source решения, которые уже просто работают из коробки?
Потому что готовые решения обычно оптимизированы под средний сценарий, а реальный мир почти всегда про частные ограничения: приватность данных, стоимость инференса, задержки, нестандартные источники знаний, требования безопасности и воспроизводимость.
Pet‑проект - это способ руками потрогать ключевые узлы современного LLM‑стека и понять, где именно рождаются качество, скорость и риски. В этой подборке я собрал направления, которые сам считаю самыми обучающими и практически применимыми в 2026 году. В каждом пункте: что строим, зачем, минимальный план и что получится на выходе.
Этот список зайдёт, если вы:
уже пробовали RAG/агентов, но хотите понять все тонкости
хотите локальные/приватные решения без облака
любите проекты, где можно измерять и оптимизировать, и не хотите только писать промпты
Что строим: локальный инференс LLM прямо в браузере, чтобы текст не уходил на сервер и демка открывалась по ссылке
Зачем: это лучший способ руками увидеть, где тратится время (prefill vs decode), почему KV‑cache съедает память и как на самом деле ведут себя квантованные модели на рядовом железе. Плюс это сразу можно показывать без инфраструктуры
Что сделать в MVP:
Взять маленькую instruct-LLM модель (1–3B квантованные веса).
Поднять inference через WebGPU (или WebAssembly как fallback).
Реализовать streaming токенов и простую остановку
Вывести метрики: time to first token, tokens per second, inter token latency, потребление памяти.
Технологии/стек: WebGPU, WebLLM/аналогичные рантаймы, tokenizer на клиенте, простая SPA‑страница.
Артефакт: веб‑чат, который работает офлайн/локально и показывает скорость генерации.
Потенциальные грабли: размер весов и кеширование, различия WebGPU на разных браузерах, неочевидная цена копирований из CPU на GPU и обратно
Что строим: индексатор видео, который по запросу «где обсуждали что-то» возвращает таймкоды, превью и контекст.
Зачем: видео - огромный склад знаний, но без индекса оно бесполезно. Проект отлично прокачивает работу с мультимодальными моделями, эмбеддингами и retrieval‑частью.
Что сделать в MVP:
Нарезать видео на сегменты по N секунд и извлечь аудио/кадры.
Получить транскрипт (ASR) и сделать эмбеддинги сегментов.
Сложить в векторное хранилище + метаданные (таймкоды, ссылки).
По запросу вернуть top‑K сегментов и собрать HTML‑страницу результатов.
Технологии/стек: FFmpeg, ASR (любой локальный/облачный), embedding‑модель, Vector DB (можно даже SQLite+FAISS), простой rerank.
Артефакт: страница со списком найденных моментов + превью кадра + текст из транскрипта.
Потенциальные грабли: качество транскрипта на шуме, сцены со слабым контекстом, правильный чанкинг и ранжирование.
Что строим: локальный RAG, который ищет по вашим документам/заметкам и отвечает с цитатами, не отправляя данные наружу.
Зачем: приватность - важная штука для многих сценариев. Здесь вы быстро увидите реальные проблемы RAG: дедупликация, устаревание, похожие документы, источники и борьба с уверенными выдумками языковой модели.
Что сделать в MVP:
Работа с реальными данными (PDF/MD/TXT), извлечение текста, чанкинг.
Локальные эмбеддинги и индекс.
Поиск + rerank + сборка контекста.
Ответ строго “по базе” + ссылки на источники.
Технологии/стек: локальная embedding‑модель, простой индекс (FAISS/аналоги), минимальный UI (web/desktop), генерация локально или через модель‑шлюз.
Артефакт: UI с возможностью задать вопрос и получить ответ с ссылками на источники, где можно открыть исходный фрагмент документа.
Потенциальные грабли: разметка источников, качество чанкинга, контекстное окно и повторяемость ответов.
Что строим: слой контроля между ai-агентом и инструментами (файлы, сеть, базы, shell, платежи).
Зачем: основная опасность агентности - не текстовые галлюцинации, а реальные действия, которые он делает. Нужен предсказуемый контур: политики, песочница, аудит и даже human-in-the-loop для рискованных шагов
Что сделать в MVP:
Политики allow/deny по инструментам и параметрам.
Логи всех вызовов с аргументами и результатами.
Режим подтверждения для опасных операций (удаление, сеть, деньги).
Набор тестовых атак‑промптов и регресс‑прогон.
Технологии/стек: policy engine (хоть в виде YAML), sandbox (контейнер/ограниченные права), трассировка, простая панель аудита.
Артефакт: журнал действий агента + отчёт по нарушениям политик.
Потенциальные грабли: обходы защиты, утечки через логи, слишком широкие разрешения по умолчанию.
Что строим: роутер, который выдаёт агенту только релевантные инструменты top‑K, вместо вставки в контекст полного списка функций.
Зачем: когда инструментов много, контекст раздувается, качество падает, стоимость растёт. Tool retrieval - дешёвый способ улучшить точность выбора и стабилизировать агентные цепочки.
Что сделать в MVP:
Описать инструменты в едином формате (name/desc/args/examples).
Сделать индекс по описаниям и retrieval по запросу.
Возвращать top‑K карточек инструментов в контекст агенту.
Логировать: какие инструменты были доступны, выбранные, успешность выполнения.
Технологии/стек: embeddings + Vector DB, простой rerank, MCP‑совместимый формат описаний.
Артефакт: трассировка маршрутизации инструментов и статистика ошибся/попал.
Потенциальные грабли: плохие описания инструментов, отсутствие примеров, путаница в аргументах.
Что строим: прокси, который маскирует PII (Personally Identifiable Information - да, это важно) перед отправкой в внешние LLM API и восстанавливает её в ответе (если нужно и разрешено)
Зачем: это практичный способ снизить риск утечек без надежды на дисциплину пользователей. И часто это проще внедрить, чем полностью уйти в локальные модели.
Что сделать в MVP:
Детектор PII (регулярки + NER + эвристики).
Замена на плейсхолдеры с сохранением карты подстановок.
Прокидывание запроса в API и обратная подстановка.
Политика логирования: что можно хранить, что нельзя.
Технологии/стек: NER для русского, reverse‑proxy, шифрование секретов, минимальная панель отчётов.
Артефакт: сервис, который показывает, что замаскировано, и даёт анонимизированный/восстановленный текст.
Потенциальные грабли: ложные срабатывания (почти PII), утечки через контекст (например, уникальные детали проекта).
Что строим: стенд, который сравнивает конфигурации инференса на одном наборе задач и метрик для разных LLM моделей.
Зачем: споры про "а какая квантизация лучше" или "нужен ли спекулятивный декодинг" заканчиваются, когда у вас есть графики и повторяемые прогоны - общедоступные бенчмарки. Это напрямую конвертируется в экономию и предсказуемый SLA.
Что сделать в MVP:
Набор задач: короткие/длинные промпты, структурированный вывод, RAG‑ответы.
Конфиги: разные кванты, batching, speculative decoding, разные рантаймы.
Метрики: latency первого токена, tokens/sec, VRAM/RAM, простая метрика качества.
Отчёт: таблицы + графики trade‑off (Pareto).
Технологии/стек: любой рантайм (vLLM/llama.cpp/Triton‑подход), скрипты прогонов, логирование, matplotlib/plotly.
Артефакт: репозиторий со скриптами и отчётом "вот что реально выгодно под мой сценарий".
Потенциальные грабли: нечестные сравнения (разные промпты/seed), влияние warmup, несопоставимые параметры семплинга.
Выбирайте не самый модный, а тот, где у вас есть личный интерес, личная боль, или понятный критерий успеха: таймкоды из видео, приватный поиск по документам, снижение токенов на агентах, отчёт по latency. Дальше ставьте жёсткий MVP‑барьер: демка или отчёт, которые можно показать человеку вне контекста.
Если захотите, эти 7 направлений легко соединяются в одну взрослую систему: приватный on‑device RAG + tool retrieval + агент с firewall + privacy‑gateway на внешние модели + стенд оптимизации для экономии.
Навыки, которые вы получите здесь (retrieval, рантаймы, безопасность, метрики инференса), отлично переносятся между моделями, фреймворками и даже компаниями - в отличие от конкретной обвязки вокруг одного API
Удачи в начинаниях!
Источник

