Jessie A Ellis
04 Des 2025 17:54
Together AI memperkenalkan pipeline TorchForge RL di platform cloud-nya, meningkatkan pelatihan terdistribusi dan lingkungan sandbox dengan demo pelatihan BlackJack.
Pipeline pembelajaran penguatan (RL) TorchForge kini dapat dioperasikan dengan mulus di Instant Clusters Together AI, menawarkan dukungan yang kuat untuk pelatihan terdistribusi, eksekusi alat, dan lingkungan sandbox, seperti yang ditunjukkan oleh demo pelatihan BlackJack open-source, menurut together.ai.
Cloud AI Native: Fondasi untuk RL Generasi Berikutnya
Dalam bidang pembelajaran penguatan yang berkembang pesat, membangun sistem yang fleksibel dan dapat diskalakan memerlukan kerangka kerja komputasi dan peralatan yang kompatibel dan efisien. Pipeline RL modern telah melampaui loop pelatihan dasar, kini sangat bergantung pada rollout terdistribusi, inferensi throughput tinggi, dan penggunaan terkoordinasi sumber daya CPU dan GPU.
Stack PyTorch yang komprehensif, termasuk TorchForge dan Monarch, kini beroperasi dengan kemampuan pelatihan terdistribusi di Together Instant Clusters. Cluster ini menyediakan:
- Komunikasi GPU latensi rendah: Memanfaatkan topologi InfiniBand/NVLink untuk transfer data berbasis RDMA yang efisien dan pesan aktor terdistribusi.
- Pengaktifan cluster yang konsisten: Telah dikonfigurasi dengan driver, NCCL, CUDA, dan operator GPU, memungkinkan pekerjaan terdistribusi PyTorch berjalan tanpa pengaturan manual.
- Penjadwalan beban kerja RL heterogen: Node GPU yang dioptimalkan untuk replika kebijakan dan pelatih, bersama dengan node yang dioptimalkan CPU untuk lingkungan dan eksekusi alat.
Cluster Together AI sangat cocok untuk kerangka kerja RL yang membutuhkan kombinasi komputasi model berbasis GPU dan beban kerja lingkungan berbasis CPU.
Integrasi Alat Lanjutan dan Demonstrasi
Sebagian besar beban kerja RL melibatkan eksekusi alat, menjalankan kode, atau berinteraksi dengan lingkungan sandbox. Platform Together AI secara native mendukung persyaratan ini melalui:
- Together CodeSandbox: Lingkungan MicroVM yang disesuaikan untuk penggunaan alat, tugas pengkodean, dan simulasi.
- Together Code Interpreter: Memfasilitasi eksekusi Python yang cepat dan terisolasi yang cocok untuk fungsi penghargaan berbasis unit-test atau tugas evaluasi kode.
Baik CodeSandbox maupun Code Interpreter terintegrasi dengan layanan lingkungan OpenEnv dan TorchForge, memungkinkan pekerja rollout untuk menggunakan alat-alat ini selama pelatihan.
Demo Pelatihan BlackJack
Together AI telah merilis demonstrasi pipeline TorchForge RL yang berjalan di Instant Clusters-nya, berinteraksi dengan lingkungan OpenEnv yang dihosting di Together CodeSandbox. Demo ini, yang diadaptasi dari implementasi referensi Meta, melatih model Qwen 1.5B untuk bermain BlackJack menggunakan GRPO. Pipeline RL mengintegrasikan server kebijakan vLLM, lingkungan BlackJack, model referensi, buffer replay off-policy, dan pelatih TorchTitan—terhubung melalui mesh aktor Monarch dan menggunakan TorchStore untuk sinkronisasi bobot.
Repositori OpenEnv GRPO BlackJack mencakup manifes Kubernetes dan skrip pengaturan. Penerapan dan inisiasi pelatihan disederhanakan dengan perintah kubectl sederhana, memungkinkan eksperimen dengan konfigurasi model dan penyesuaian hyperparameter GRPO.
Selain itu, integrasi mandiri membungkus Code Interpreter Together sebagai lingkungan OpenEnv, memungkinkan agen RL berinteraksi dengan Interpreter seperti lingkungan lainnya. Integrasi ini memungkinkan pipeline RL diterapkan pada berbagai tugas seperti pengkodean dan penalaran matematis.
Demonstrasi ini menyoroti bahwa pelatihan RL multi-komponen yang canggih dapat dilakukan di Together AI Cloud dengan mudah, menyiapkan landasan untuk kerangka kerja RL yang fleksibel dan terbuka dalam ekosistem PyTorch, yang dapat diskalakan di Together AI Cloud.
Sumber gambar: Shutterstock
Source: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud


