เอดมันตัน, แคนาดา – 28 มกราคม: ผู้หญิงคนหนึ่งถือโทรศัพท์มือถือต่อหน้าจอคอมพิวเตอร์ที่แสดงโลโก้ DeepSeek เมื่อวันที่ 28 มกราคม 2025 ในเมืองเอดมันตัน ประเทศแคนาดา (ภาพโดย Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4 การอัปเดตที่รอคอยมานานจาก DeepSeek มาถึงในช่วงเวลาที่การแข่งขันดุเดือด เมื่อ GPT 5.5 ของ OpenAI และ Opus 4.7 ของ Anthropic เพิ่งเปิดตัวต่อเนื่องกัน การแข่งขันด้านโมเดล AI ดูเหมือนจะพุ่งสู่ระดับใหม่ ในฐานะผู้ที่เชื่อมั่นในเครื่องมือโอเพนซอร์สอย่างเหนียวแน่น DeepSeek สร้างความประทับใจให้นักพัฒนาด้วยความคุ้มค่าในเชิงต้นทุน มากกว่าขนาดที่ใหญ่โตเพียงอย่างเดียว
การเปิดตัวพรีวิวประกอบด้วยโมเดล Mixture-of-Experts สองรุ่นที่มีหน้าต่างบริบทหนึ่งล้านโทเค็น ได้แก่ DeepSeek-V4-Pro ที่มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และพารามิเตอร์ที่เปิดใช้งาน 49 พันล้านตัว และ DeepSeek-V4-Flash ที่มีพารามิเตอร์รวม 284 พันล้านตัว และพารามิเตอร์ที่เปิดใช้งาน 13 พันล้านตัว
เอเจนต์ที่ใช้บริบทยาว ผู้ช่วยเขียนโค้ด เครื่องมือวิจัย และ copilot สำหรับองค์กร ต่างเผชิญกับคอขวดเดียวกัน นั่นคือโทเค็นที่สร้างขึ้นใหม่แต่ละตัวอาจต้องอ้างอิงย้อนกลับไปยังประวัติที่เพิ่มขึ้นเรื่อย ๆ ของเอกสาร โค้ด การเรียกใช้เครื่องมือ และการอนุมานเชิงกลาง รายงานทางเทคนิคของ DeepSeek แสดงให้เห็นว่าโมเดล V4 แก้ปัญหานี้ผ่านการบีบอัดทางสถาปัตยกรรม แทนที่จะขอให้ผู้ใช้จ่ายเงินเพื่อเพิ่มพลังการประมวลผล
นวัตกรรมหลัก: บีบอัดหน่วยความจำโดยไม่สูญเสียการอนุมาน
การเปลี่ยนแปลงสถาปัตยกรรมที่สำคัญที่สุดของ DeepSeek V4 คือการออกแบบ hybrid attention ที่รวม Compressed Sparse Attention (CSA) เข้ากับ Heavily Compressed Attention (HCA) ซึ่งหมายความว่าโมเดลไม่ได้จัดเก็บและสแกนทุกโทเค็นก่อนหน้าในลักษณะที่มีค่าใช้จ่ายสูงเหมือนเดิม CSA บีบอัดกลุ่มของรายการคีย์-ค่า แล้วเลือกบล็อกที่บีบอัดที่เกี่ยวข้องมากที่สุด ส่วน HCA บีบอัดอย่างก้าวร้าวยิ่งขึ้น ช่วยให้ attention แบบหนาแน่นทำงานบนสตรีมหน่วยความจำที่สั้นกว่ามาก
สิ่งนี้มีความสำคัญเพราะ attention เป็นหนึ่งในตัวขับเคลื่อนต้นทุนหลักใน AI ที่มีบริบทยาว เมื่อความยาวบริบทเพิ่มขึ้น attention แบบดั้งเดิมจะมีค่าใช้จ่ายสูงขึ้นทั้งในแง่การประมวลผลและหน่วยความจำ การออกแบบ hybrid attention ของ DeepSeek มองบริบทยาวในฐานะปัญหาวิศวกรรมของลำดับชั้นหน่วยความจำ ข้อมูลบางส่วนต้องการ local attention แบบละเอียด บางส่วนสามารถบีบอัดได้ การรวมโหมดเหล่านี้ทำให้ V4 เปลี่ยนบริบทหนึ่งล้านโทเค็นให้กลายเป็นความสามารถที่ใช้งานได้จริงมากขึ้น ในช่วงต้นปีนี้ นักวิจัยของ DeepSeek ได้เผยแพร่บทความเสนอ Engram ซึ่งเป็นโมดูลหน่วยความจำแบบมีเงื่อนไขที่ช่วยพัฒนาประสิทธิภาพการอนุมานโดยแยกการดึงความรู้แบบคงที่ออกจากการประมวลผลแบบไดนามิกอย่างมีโครงสร้าง
เหตุใดสิ่งนี้จึงอาจผลักดันนวัตกรรม AI ให้ก้าวหน้ายิ่งขึ้น
ต้นทุนการอนุมานที่ลดลงเปลี่ยนแปลงว่าใครสามารถทดลองได้ เมื่อการอนุมานบริบทยาวมีราคาถูกลง นักพัฒนาจำนวนมากขึ้นสามารถสร้างเอเจนต์ที่อ่านรีโพสิทอรีทั้งหมด วิเคราะห์บันทึกทางกฎหมายขนาดยาว เปรียบเทียบเอกสารการเงินหลายชุด หรือดำเนินการในช่วงการใช้เครื่องมือที่ยาวนาน สิ่งนี้ขยายพื้นที่การออกแบบให้เกินกว่าการป้อนคำสั่ง chatbot
สำหรับสตาร์ทอัป DeepSeek V4 ลดต้นทุนในการทดลองแอปพลิเคชันที่ทะเยอทะยาน สำหรับองค์กร ทำให้ขั้นตอนการทำงานที่ใช้บริบทขนาดใหญ่มีความเป็นไปได้มากขึ้น สำหรับนักพัฒนาโอเพนซอร์ส มอบสูตรเทคนิค ได้แก่ การรวม MoE sparsity การบีบอัดบริบทยาว การอนุมานความแม่นยำต่ำ custom kernels และ post-training สำหรับงาน agentic
สารจากฝั่งฮาร์ดแวร์: โมเดล AI กำลังบอกชิปว่าควรพัฒนาไปในทิศทางใด
DeepSeek V4 ยังโดดเด่นเพราะรายงานทางเทคนิคให้คำแนะนำที่ชัดเจนเกี่ยวกับการออกแบบฮาร์ดแวร์ ทีมงานระบุว่าฮาร์ดแวร์ในอนาคตควรเพิ่มประสิทธิภาพอัตราส่วนระหว่างการประมวลผลและการสื่อสาร แทนที่จะเพิ่มแบนด์วิดท์อย่างไม่มีทิศทาง
Reuters รายงานด้วยว่า DeepSeek V4 ได้รับการปรับให้ทำงานบนชิป Ascend ของ Huawei และ Huawei ระบุว่าคลัสเตอร์ supernode ที่ใช้ Ascend 950 รองรับซีรีส์ V4 ได้อย่างสมบูรณ์ ทำให้ V4 เป็นส่วนหนึ่งของเรื่องราวฮาร์ดแวร์ที่ใหญ่กว่า การแข่งขัน AI กำลังเปลี่ยนจากน้ำหนักโมเดลไปสู่การออกแบบร่วมแบบ full-stack ที่โมเดล เคอร์เนล ระบบหน่วยความจำ อินเทอร์คอนเนกต์ และชิปพัฒนาไปพร้อมกัน
ปัญญาประดิษฐ์ที่ราคาถูกลงขยายตลาด
ผลที่สำคัญที่สุดของ DeepSeek V4 อาจเป็นเรื่องเศรษฐกิจ เมื่อต้นทุนการอนุมานบริบทยาวลดลง กรณีการใช้งาน AI ที่เคยดูแพงเกินไปก็มีความเป็นไปได้มากขึ้น เอเจนต์ที่ทำงานกับ codebase ทั้งหมด ผู้ช่วยวิจัยระยะยาว ขั้นตอนงานกฎหมายที่มีเอกสารจำนวนมาก เครื่องมือตรวจสอบทางการเงิน ระบบทบทวนวรรณกรรมวิทยาศาสตร์ และเอเจนต์ความรู้ขององค์กร ล้วนได้รับประโยชน์จากหน่วยความจำและการอนุมานที่ถูกลง
ซึ่งหมายความว่า DeepSeek V4 กำหนดกรอบการแข่งขัน AI ใหม่ หาก DeepSeek สามารถส่งมอบโมเดลโอเพนที่แข็งแกร่งโดยใช้หน่วยความจำและพลังการประมวลผลน้อยลง ผู้นำโมเดลปิดจะเผชิญแรงกดดันมากขึ้นในการพิสูจน์ความคุ้มค่าของราคาพรีเมียม ส่วนคู่แข่งโอเพนซอร์สจะเผชิญแรงกดดันในการตามให้ทันเทคนิคประสิทธิภาพของ V4
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/








