Amazon Web Services mengumumkan pada hari Jumat bahwa mereka akan menempatkan prosesor dari Cerebras di dalam pusat data mereka di bawah kemitraan multitahun yang berfokus pada inferensi AI.
Kesepakatan ini memberi Amazon cara baru untuk mempercepat bagaimana model AI menjawab prompt, menulis kode, dan menangani permintaan pengguna secara langsung. AWS mengatakan akan menggunakan teknologi Cerebras, termasuk Wafer-Scale Engine, untuk tugas inferensi.
Kedua perusahaan tidak membagikan ketentuan finansial. Pengaturan ini direncanakan untuk Amazon Bedrock di dalam pusat data AWS, menempatkan kemitraan tepat di dalam salah satu produk AI utama Amazon.
AWS mengatakan sistem ini akan menggabungkan server bertenaga Amazon Trainium, sistem Cerebras CS-3, dan jaringan Elastic Fabric Adapter Amazon.
Akhir tahun ini, AWS juga berencana untuk menawarkan model bahasa besar open-source terkemuka dan Amazon Nova pada perangkat keras Cerebras. David Brown, vice president Compute and ML Services di AWS, mengatakan kecepatan masih menjadi masalah utama dalam inferensi AI, terutama untuk bantuan coding real-time dan aplikasi interaktif.
David mengatakan, "Inferensi adalah di mana AI memberikan nilai nyata kepada pelanggan, tetapi kecepatan tetap menjadi hambatan kritis untuk beban kerja yang menuntut seperti bantuan coding real-time dan aplikasi interaktif."
AWS mengatakan desain ini menggunakan metode yang disebut disagregasi inferensi. Itu berarti membagi inferensi AI menjadi dua bagian. Bagian pertama adalah pemrosesan prompt, juga disebut prefill. Bagian kedua adalah generasi output, juga disebut decode.
AWS mengatakan kedua pekerjaan tersebut berperilaku sangat berbeda. Prefill bersifat paralel, berat komputasi, dan membutuhkan bandwidth memori sedang. Decode bersifat serial, lebih ringan pada komputasi, dan jauh lebih bergantung pada bandwidth memori. Decode juga memakan sebagian besar waktu dalam kasus ini karena setiap token output harus diproduksi satu per satu.
Itulah mengapa AWS menetapkan perangkat keras yang berbeda untuk setiap tahap. Trainium akan menangani prefill. Cerebras CS-3 akan menangani decode.
AWS mengatakan jaringan EFA dengan latensi rendah dan bandwidth tinggi akan menghubungkan kedua sisi sehingga sistem dapat bekerja sebagai satu layanan sementara setiap prosesor berfokus pada tugas terpisah.
David mengatakan, "Apa yang kami bangun dengan Cerebras menyelesaikan itu: dengan membagi beban kerja inferensi di Trainium dan CS-3, dan menghubungkannya dengan Elastic Fabric Adapter Amazon, setiap sistem melakukan apa yang terbaik. Hasilnya akan menjadi inferensi yang satu tingkat lebih cepat dan kinerja lebih tinggi daripada yang tersedia saat ini."
AWS juga mengatakan layanan ini akan berjalan pada AWS Nitro System, yang merupakan lapisan dasar untuk infrastruktur cloud-nya.
Itu berarti sistem Cerebras CS-3 dan instans bertenaga Trainium diharapkan beroperasi dengan keamanan, isolasi, dan konsistensi yang sama yang sudah digunakan pelanggan AWS.
Pengumuman ini juga memberi Amazon peluang lain untuk mendorong Trainium melawan chip dari Nvidia, AMD, dan perusahaan chip besar lainnya. AWS menggambarkan Trainium sebagai chip AI internal yang dibangun untuk kinerja skalabel dan efisiensi biaya di seluruh pelatihan dan inferensi.
AWS mengatakan dua lab AI besar sudah berkomitmen padanya. Anthropic telah menamai AWS sebagai mitra pelatihan utamanya dan menggunakan Trainium untuk melatih dan menerapkan model. OpenAI akan mengonsumsi kapasitas Trainium 2 gigawatt melalui infrastruktur AWS untuk Stateful Runtime Environment, model frontier, dan beban kerja canggih lainnya.
AWS menambahkan bahwa Trainium3 telah mengalami adopsi kuat sejak peluncuran terbarunya, dengan pelanggan di berbagai industri berkomitmen pada kapasitas besar.
Cerebras menangani sisi decode dari pengaturan ini. AWS mengatakan CS-3 didedikasikan untuk akselerasi decoding, yang memberinya lebih banyak ruang untuk token output cepat. Cerebras mengatakan CS-3 adalah sistem inferensi AI tercepat di dunia dan memberikan bandwidth memori ribuan kali lebih besar daripada GPU tercepat.
Perusahaan mengatakan model reasoning sekarang membentuk bagian yang lebih besar dari pekerjaan inferensi dan menghasilkan lebih banyak token per permintaan saat mereka menyelesaikan masalah. Cerebras juga mengatakan OpenAI, Cognition, Mistral, dan lainnya menggunakan sistemnya untuk beban kerja yang menuntut, terutama agentic coding.
Andrew Feldman, pendiri dan chief executive Cerebras Systems, mengatakan, "Bermitra dengan AWS untuk membangun solusi inferensi yang disagregasi akan membawa inferensi tercepat ke basis pelanggan global."
Andrew menambahkan, "Setiap perusahaan di seluruh dunia akan dapat memperoleh manfaat dari inferensi yang sangat cepat dalam lingkungan AWS mereka yang sudah ada."
Kesepakatan ini menambah lebih banyak tekanan pada Nvidia, yang pada bulan Desember menandatangani perjanjian lisensi $20 miliar dengan Groq dan berencana minggu depan untuk meluncurkan sistem inferensi baru menggunakan teknologi Groq.
Jika Anda membaca ini, Anda sudah selangkah lebih maju. Tetap di sana dengan newsletter kami.


