La publicación "Pipelines de TorchForge RL ahora operables en la nube de Together AI" apareció en BitcoinEthereumNews.com. Jessie A Ellis 04/12/2025 17:54 Together AI introduce pipelines de TorchForge RL en su plataforma en la nube, mejorando el entrenamiento distribuido y entornos aislados con una demo de entrenamiento de BlackJack. Los pipelines de aprendizaje por refuerzo (RL) de TorchForge ahora son operables sin problemas en los Instant Clusters de Together AI, ofreciendo un sólido soporte para entrenamiento distribuido, ejecución de herramientas y entornos aislados, como lo demuestra una demo de entrenamiento de BlackJack de código abierto, según together.ai. La nube nativa de IA: Fundamento para el RL de próxima generación En el campo de rápida evolución del aprendizaje por refuerzo, la construcción de sistemas flexibles y escalables requiere marcos de computación y herramientas compatibles y eficientes. Los pipelines modernos de RL han trascendido los bucles básicos de entrenamiento, dependiendo ahora en gran medida de despliegues distribuidos, inferencia de alto rendimiento y un uso coordinado de recursos de CPU y GPU. El completo stack de PyTorch, que incluye TorchForge y Monarch, ahora opera con capacidades de entrenamiento distribuido en Together Instant Clusters. Estos clusters proporcionan: Comunicación GPU de baja latencia: Utilizando topologías InfiniBand/NVLink para transferencias de datos basadas en RDMA eficientes y mensajería de actores distribuida. Puesta en marcha consistente del cluster: Preconfigurado con controladores, NCCL, CUDA y el operador GPU, permitiendo que los trabajos distribuidos de PyTorch se ejecuten sin configuración manual. Programación de cargas de trabajo RL heterogéneas: Nodos GPU optimizados para réplicas de políticas y entrenadores, junto con nodos optimizados para CPU para ejecución de entornos y herramientas. Los clusters de Together AI son adecuados para marcos de RL que requieren una combinación de computación de modelos vinculados a GPU y cargas de trabajo de entorno vinculadas a CPU. Integración avanzada de herramientas y demostración Una parte significativa de las cargas de trabajo de RL implica ejecutar herramientas, ejecutar código o interactuar con entornos aislados. La plataforma de Together AI admite de forma nativa estos requisitos a través de: Together CodeSandbox: Entornos MicroVM adaptados para uso de herramientas, tareas de codificación y simulaciones. Together Code Interpreter: Facilita la ejecución rápida y aislada de Python adecuada para funciones de recompensa basadas en pruebas unitarias o tareas de evaluación de código. Tanto CodeSandbox como Code Interpreter se integran con los servicios de entorno OpenEnv y TorchForge, permitiendo a los trabajadores de despliegue utilizar estas herramientas...La publicación "Pipelines de TorchForge RL ahora operables en la nube de Together AI" apareció en BitcoinEthereumNews.com. Jessie A Ellis 04/12/2025 17:54 Together AI introduce pipelines de TorchForge RL en su plataforma en la nube, mejorando el entrenamiento distribuido y entornos aislados con una demo de entrenamiento de BlackJack. Los pipelines de aprendizaje por refuerzo (RL) de TorchForge ahora son operables sin problemas en los Instant Clusters de Together AI, ofreciendo un sólido soporte para entrenamiento distribuido, ejecución de herramientas y entornos aislados, como lo demuestra una demo de entrenamiento de BlackJack de código abierto, según together.ai. La nube nativa de IA: Fundamento para el RL de próxima generación En el campo de rápida evolución del aprendizaje por refuerzo, la construcción de sistemas flexibles y escalables requiere marcos de computación y herramientas compatibles y eficientes. Los pipelines modernos de RL han trascendido los bucles básicos de entrenamiento, dependiendo ahora en gran medida de despliegues distribuidos, inferencia de alto rendimiento y un uso coordinado de recursos de CPU y GPU. El completo stack de PyTorch, que incluye TorchForge y Monarch, ahora opera con capacidades de entrenamiento distribuido en Together Instant Clusters. Estos clusters proporcionan: Comunicación GPU de baja latencia: Utilizando topologías InfiniBand/NVLink para transferencias de datos basadas en RDMA eficientes y mensajería de actores distribuida. Puesta en marcha consistente del cluster: Preconfigurado con controladores, NCCL, CUDA y el operador GPU, permitiendo que los trabajos distribuidos de PyTorch se ejecuten sin configuración manual. Programación de cargas de trabajo RL heterogéneas: Nodos GPU optimizados para réplicas de políticas y entrenadores, junto con nodos optimizados para CPU para ejecución de entornos y herramientas. Los clusters de Together AI son adecuados para marcos de RL que requieren una combinación de computación de modelos vinculados a GPU y cargas de trabajo de entorno vinculadas a CPU. Integración avanzada de herramientas y demostración Una parte significativa de las cargas de trabajo de RL implica ejecutar herramientas, ejecutar código o interactuar con entornos aislados. La plataforma de Together AI admite de forma nativa estos requisitos a través de: Together CodeSandbox: Entornos MicroVM adaptados para uso de herramientas, tareas de codificación y simulaciones. Together Code Interpreter: Facilita la ejecución rápida y aislada de Python adecuada para funciones de recompensa basadas en pruebas unitarias o tareas de evaluación de código. Tanto CodeSandbox como Code Interpreter se integran con los servicios de entorno OpenEnv y TorchForge, permitiendo a los trabajadores de despliegue utilizar estas herramientas...

Canalizaciones de RL de TorchForge ahora operables en la nube de Together AI

2025/12/06 15:05


Jessie A Ellis
04/12/2025 17:54

Together AI introduce tuberías RL de TorchForge en su plataforma en la nube, mejorando el entrenamiento distribuido y entornos aislados con una demo de entrenamiento de BlackJack.

Las tuberías de aprendizaje por refuerzo (RL) de TorchForge ahora son operables sin problemas en los Clusters Instantáneos de Together AI, ofreciendo un sólido soporte para entrenamiento distribuido, ejecución de herramientas y entornos aislados, como lo demuestra una demo de entrenamiento de BlackJack de código abierto, según together.ai.

La Nube Nativa de IA: Fundamento para el RL de Próxima Generación

En el campo de rápida evolución del aprendizaje por refuerzo, construir sistemas flexibles y escalables requiere marcos de computación y herramientas compatibles y eficientes. Las tuberías modernas de RL han trascendido los bucles básicos de entrenamiento, dependiendo ahora en gran medida de despliegues distribuidos, inferencia de alto rendimiento y un uso coordinado de recursos de CPU y GPU.

El completo stack de PyTorch, que incluye TorchForge y Monarch, ahora opera con capacidades de entrenamiento distribuido en los Clusters Instantáneos de Together. Estos clusters proporcionan:

  • Comunicación GPU de baja latencia: Utilizando topologías InfiniBand/NVLink para transferencias de datos eficientes basadas en RDMA y mensajería de actores distribuida.
  • Activación consistente de clusters: Preconfigurados con controladores, NCCL, CUDA y el operador GPU, permitiendo que los trabajos distribuidos de PyTorch se ejecuten sin configuración manual.
  • Programación de cargas de trabajo RL heterogéneas: Nodos GPU optimizados para réplicas de políticas y entrenadores, junto con nodos optimizados para CPU para entorno y ejecución de herramientas.

Los clusters de Together AI son adecuadamente apropiados para marcos de RL que requieren una combinación de computación de modelos vinculados a GPU y cargas de trabajo de entorno vinculadas a CPU.

Integración Avanzada de Herramientas y Demostración

Una parte significativa de las cargas de trabajo de RL implica ejecutar herramientas, ejecutar código o interactuar con entornos aislados. La plataforma de Together AI admite de forma nativa estos requisitos a través de:

  • Together CodeSandbox: Entornos MicroVM adaptados para uso de herramientas, tareas de codificación y simulaciones.
  • Together Code Interpreter: Facilita la ejecución rápida y aislada de Python adecuada para funciones de recompensa basadas en pruebas unitarias o tareas de evaluación de código.

Tanto CodeSandbox como Code Interpreter se integran con los servicios de entorno OpenEnv y TorchForge, permitiendo a los trabajadores de despliegue utilizar estas herramientas durante el entrenamiento.

Demo de Entrenamiento de BlackJack

Together AI ha lanzado una demostración de una tubería RL de TorchForge ejecutándose en sus Clusters Instantáneos, interactuando con un entorno OpenEnv alojado en Together CodeSandbox. Esta demo, adaptada de una implementación de referencia de Meta, entrena un modelo Qwen 1.5B para jugar BlackJack usando GRPO. La tubería RL integra un servidor de políticas vLLM, entorno BlackJack, modelo de referencia, búfer de reproducción fuera de política y un entrenador TorchTitan, conectados a través de la malla de actores de Monarch y utilizando TorchStore para la sincronización de pesos.

El repositorio OpenEnv GRPO BlackJack incluye manifiestos de Kubernetes y scripts de configuración. La implementación e iniciación del entrenamiento se simplifican con simples comandos kubectl, permitiendo la experimentación con configuraciones de modelos y ajustes de hiperparámetros GRPO.

Además, una integración independiente envuelve el Code Interpreter de Together como un entorno OpenEnv, permitiendo a los agentes RL interactuar con el Intérprete como cualquier otro entorno. Esta integración permite que las tuberías RL se apliquen a diversas tareas como codificación y razonamiento matemático.

Las demostraciones destacan que el entrenamiento RL sofisticado y multicomponente puede realizarse en la Nube de Together AI con facilidad, preparando el escenario para un marco RL flexible y abierto en el ecosistema PyTorch, escalable en la Nube de Together AI.

Fuente de la imagen: Shutterstock

Fuente: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección [email protected] para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.