Публикация Ray Data and Docling Tackle Enterprise AI's Biggest Pain Point появилась на BitcoinEthereumNews.com. Zach Anderson 27 февраля 2026 16:58 Новая интеграцияПубликация Ray Data and Docling Tackle Enterprise AI's Biggest Pain Point появилась на BitcoinEthereumNews.com. Zach Anderson 27 февраля 2026 16:58 Новая интеграция

Ray Data и Docling решают главную проблему корпоративного ИИ

2026/02/28 12:33
3м. чтение


Зак Андерсон
16:58, 27 февраля 2026

Новая интеграция объединяет распределенную обработку Ray Data с парсингом документов Docling для обработки более 10 000 сложных файлов для RAG-приложений за часы вместо дней.

Корпоративные команды, создающие ИИ-приложения, только что получили решение своего самого неприятного узкого места. Anyscale подробно описала, как объединение Ray Data с Docling может превратить недели обработки документов в часы — разработка, которая может ускорить сроки развертывания для компаний, располагающих массивными архивами документов.

Техническая интеграция решает то, что инсайдеры называют «узким местом данных» в системах генерации с расширенным поиском. Хотя демонстрации делают генеративный ИИ простым, реальность включает борьбу с тысячами устаревших PDF-файлов, сложными таблицами и встроенными изображениями, с которыми традиционные инструменты обработки справляются плохо.

Что на самом деле меняется

Потоковый движок выполнения Ray Data одновременно передает данные через задачи CPU и GPU. Нативная для Python архитектура устраняет накладные расходы на сериализацию, которые преследуют другие фреймворки при переводе данных между языковыми средами. Для команд, выполняющих пакетный вывод или предварительную обработку массивных наборов данных, это означает более быстрые циклы итераций.

Docling справляется со сложностью парсинга, которая ломает большинство традиционных инструментов — точно извлекая таблицы и макеты, сохраняя при этом семантическую структуру. При интеграции с Ray Data каждый рабочий узел запускает экземпляр Docling со встроенными моделями ИИ в памяти, обеспечивая параллельную обработку документов в масштабе.

Архитектура работает следующим образом: драйвер Ray Data управляет выполнением и сериализует код задачи для распределения. Рабочие узлы считывают блоки данных непосредственно из хранилища и записывают обработанные JSON-файлы в место назначения. Драйвер никогда не становится узким местом, потому что он не обрабатывает фактическую пропускную способность данных.

Основа Kubernetes

KubeRay управляет кластерами Ray на Kubernetes, прозрачно обрабатывая динамическое автомасштабирование от 10 до 100 узлов. Система включает автоматическое восстановление при сбое рабочих узлов — критически важно для крупных заданий приема данных, которые не могут позволить себе перезапуск с нуля.

Сквозной поток перемещает документы из объектного хранилища через парсинг и разбиение на фрагменты, генерирует встраивания на узлах GPU и записывает в векторные базы данных, такие как Milvus. Затем RAG-приложения запрашивают базу данных для передачи контекста LLM.

Компании, включая Pinterest, DoorDash и Instacart, уже используют Ray Data для обработки последней мили и обучения моделей, что указывает на доказанную производственную жизнеспособность технологии.

За пределами простого поиска

Более широкая игра здесь нацелена на рабочие процессы агентного ИИ, где автономные агенты выполняют многоэтапные задачи. Качество обработанных данных становится более критичным, поскольку агенты полагаются на точную документацию для действий от имени пользователей. Организации, создающие масштабируемые архитектуры, теперь позиционируют себя для продвинутых цепочек вывода с несколькими последовательными вызовами LLM.

Платформы Red Hat OpenShift AI и Anyscale предоставляют варианты развертывания с требованиями корпоративного управления. Основа с открытым исходным кодом означает, что команды могут начать тестирование без серьезных препятствий при закупках.

Для команд ИИ, в настоящее время тратящих больше времени на подготовку данных, чем на настройку моделей, эта интеграция предлагает практический путь вперед. Вопрос не в том, важна ли распределенная обработка документов — вопрос в том, сможет ли ваша инфраструктура справиться с тем, что будет дальше.

Источник изображения: Shutterstock

Источник: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing

Возможности рынка
Логотип Raydium
Raydium Курс (RAY)
$0.5676
$0.5676$0.5676
-5.58%
USD
График цены Raydium (RAY) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно