BitcoinWorld
Google DeepMind ผสาน Street View กับ Genie 3 เพื่อสร้างโลก AI เชิงโต้ตอบ
Google DeepMind ได้ก้าวสำคัญในการเชื่อมโยงโลกทางกายภาพและโลกดิจิทัลเข้าด้วยกัน ด้วยการนำภาพถ่าย Street View มาผสานโดยตรงกับ Project Genie ซึ่งเป็นโมเดลโลกอเนกประสงค์ของบริษัท โดยประกาศในงานประชุมนักพัฒนา Google I/O การผสานนี้ช่วยให้ผู้ใช้สามารถสร้างสภาพแวดล้อมเชิงโต้ตอบที่สำรวจได้ โดยยึดโยงกับสถานที่จริงที่บันทึกไว้ตลอดระยะเวลากว่าสองทศวรรษของข้อมูล Street View
ตลอด 20 ปีที่ผ่านมา Google ได้รวบรวมภาพถ่ายกว่า 280,000 ล้านภาพจาก 110 ประเทศ โดยใช้รถยนต์ติดกล้องและอุปกรณ์ติดตามแบบสะพายหลัง ขณะนี้ชุดข้อมูลขนาดมหึมานั้นกำลังป้อนข้อมูลให้ Genie 3 ซึ่งเป็นโมเดลโลกที่สามารถสร้างสภาพแวดล้อม 3 มิติที่หลากหลายและโต้ตอบได้จากข้อความหรือรูปภาพ Jack Parker-Holder นักวิทยาศาสตร์วิจัยในทีม open-endedness ของ DeepMind ได้อธิบายกับ Bitcoin World ว่าการผสานข้อมูลโลกจริงกับการจำลองเชิงสร้างสรรค์เปิดโอกาสการใช้งานที่ทรงพลังทั้งสำหรับหุ่นยนต์และการสำรวจของมนุษย์
"มันทรงพลังมากทั้งสำหรับกรณีใช้งาน agent [และหุ่นยนต์] และสำหรับมนุษย์ที่จะลองเล่น" Parker-Holder กล่าว เขาได้อธิบายสถานการณ์ที่หุ่นยนต์ที่ถูกนำไปใช้งานในลอนดอน — เมืองที่แทบไม่เห็นแดด — สามารถฝึกฝนในวันที่มีแดดจำลองซึ่งสร้างขึ้นจากข้อมูล Street View เพื่อให้แสงแดดที่สะท้อนกะทันหันจากอาคารยุควิกตอเรียไม่รบกวนเซนเซอร์ของมัน ในทำนองเดียวกัน นักเดินทางที่วางแผนเดินทางไปนิวยอร์กซิตี้ในฤดูหนาวสามารถใช้เครื่องมือนี้เพื่อจินตนาการภาพถนนสายใดสายหนึ่งในสภาพหิมะ โดยปรับเปลี่ยนสภาพอากาศได้ตามต้องการ
Genie 3 กำลังถูกใช้งานโดย Waymo บริษัทรถยนต์ขับเคลื่อนอัตโนมัติในเครือ Google เพื่อจำลองเหตุการณ์ที่เกิดขึ้นได้ยากมาก เช่น พายุทอร์นาโดหรือการพบสัตว์โดยไม่คาดคิด สำหรับการฝึกยานยนต์ไร้คนขับ Parker-Holder ระบุว่า แม้ Waymo จะมีซิมูเลเตอร์ของตัวเองที่เน้นมุมมองจากรถ แต่การผสาน Street View ช่วยให้สามารถเปลี่ยนมุมมองไปยัง agent อื่น เช่น คนเดินถนนหรือหุ่นยนต์ส่งของ ทำให้สามารถสร้างสถานการณ์ฝึกที่ครอบคลุมยิ่งขึ้น
ความสามารถในการยึดโยงการจำลองกับสถานที่ทางภูมิศาสตร์จริงอาจช่วยเร่งการขยายตัวของ Waymo ไปยังเมืองใหม่ทั่วโลก โดยให้ AI ผู้ขับขี่ได้รับประสบการณ์กับรูปแบบถนน ป้าย และสภาพแวดล้อมที่หลากหลายโดยไม่ต้องนำยานพาหนะจริงไปใช้งาน
แม้จะมีการสาธิตที่น่าประทับใจ รวมถึงการจำลองใต้น้ำของย่านบ้านเรือน แต่เทคโนโลยียังคงอยู่ในขั้นทดลอง Diego Rivas ผู้จัดการผลิตภัณฑ์ของ DeepMind เตือนว่า Street View ใน Genie ยังอยู่ระหว่างการพัฒนา ในตัวอย่างที่แสดงให้นักข่าวดู สภาพแวดล้อมสามารถจดจำได้แต่มีคุณภาพระดับวิดีโอเกมมากกว่าที่จะสมจริงแบบภาพถ่าย โมเดลยังขาดความเข้าใจฟิสิกส์: ในการจำลองหนึ่ง ผู้หญิงที่วิ่งผ่านฉาก Joshua Tree ที่มีหิมะปกคลุมสามารถวิ่งทะลุผ่านต้นกระบองเพชรและพุ่มไม้ได้
Parker-Holder ยอมรับถึงช่องว่างนี้ โดยเปรียบเทียบความแม่นยำปัจจุบันของ Genie กับโมเดลสร้างวิดีโอเมื่อหกถึงสิบสองเดือนก่อน "ผมคิดว่านี่คือสิ่งที่เราจะแก้ได้" เขากล่าว พร้อมสังเกตว่าความเข้าใจฟิสิกส์เกิดขึ้นอย่างเป็นธรรมชาติผ่านการสังเกตแบบ passive คล้ายกับวิธีที่สิ่งมีชีวิตเรียนรู้
Jonathan Herbert ผู้อำนวยการ Google Maps และผู้มีประสบการณ์ Street View มากกว่า 12 ปี เน้นย้ำว่าความก้าวหน้าที่แท้จริงคือความต่อเนื่องเชิงพื้นที่ เมื่อผู้ใช้หันตัว 360 องศา AI จะจดจำและจำลองสภาพแวดล้อมด้านหลังอย่างถูกต้อง จากนั้นสร้างสภาพแวดล้อมใหม่บนพื้นฐานความเข้าใจนั้น "เราคิดมานานแล้วว่าจะสร้างโมเดลโลกที่ดีที่สุดและสมบูรณ์ที่สุดบนข้อมูล Street View ได้อย่างไร" Herbert กล่าว
Google กำลังเปิดตัว Street View ใน Genie สำหรับผู้ใช้ Ultra ที่ได้รับการคัดเลือกในสหรัฐอเมริกาเริ่มตั้งแต่วันนี้ โดยจะขยายการเข้าถึงในสหรัฐฯ อย่างกว้างขวางขึ้นตามลำดับ ผู้ใช้ Ultra ทั่วโลกจะได้รับสิทธิ์เข้าถึงในอีกไม่กี่สัปดาห์ข้างหน้า เป้าหมายของนักวิจัย ตามที่ Rivas กล่าว คือการนำความสามารถนี้ไปสู่มือผู้คนให้มากที่สุดเท่าที่จะเป็นไปได้ แม้ว่าเขาจะเน้นย้ำว่าการปรับปรุงความแม่นยำยังคงเป็นสิ่งสำคัญสูงสุด
ด้วยการเชื่อมโยงภาพถ่ายโลกจริงกว่าสองทศวรรษกับ AI เชิงสร้างสรรค์ Google DeepMind กำลังวางรากฐานสำหรับการจำลองเชิงโต้ตอบประเภทใหม่ แม้จะยังอยู่ในระยะเริ่มต้น แต่การผสาน Street View เข้ากับ Genie 3 ถือเป็นก้าวสำคัญสู่ระบบ AI ที่สามารถเข้าใจ จำลอง และโต้ตอบกับโลกทางกายภาพ โดยมีนัยสำคัญต่อหุ่นยนต์ การขับขี่อัตโนมัติ การวางผังเมือง และการศึกษาแบบอิมเมอร์ซีฟ
Q1: Genie 3 คืออะไร?
Genie 3 คือโมเดลโลกอเนกประสงค์ของ Google DeepMind ที่สามารถสร้างสภาพแวดล้อม 3 มิติเชิงโต้ตอบที่สำรวจได้จากข้อความหรือรูปภาพ ออกแบบมาสำหรับการฝึกหุ่นยนต์ การเล่นเกม และประสบการณ์ทางการศึกษา
Q2: การผสาน Street View ทำงานอย่างไร?
การผสานนี้ช่วยให้ Genie 3 ใช้ชุดข้อมูลภาพ Street View ขนาดมหึมาของ Google ซึ่งมีมากกว่า 280,000 ล้านภาพจาก 110 ประเทศ เป็นพื้นฐานในการสร้างการจำลองที่ยึดโยงกับสถานที่จริง ผู้ใช้สามารถสำรวจสภาพแวดล้อมเหล่านี้แบบโต้ตอบและปรับเปลี่ยนเงื่อนไขต่าง ๆ เช่น สภาพอากาศ
Q3: การจำลองมีความแม่นยำทางฟิสิกส์หรือไม่?
ยังไม่ใช่ เวอร์ชันปัจจุบันยังขาดความเข้าใจฟิสิกส์ หมายความว่าวัตถุอาจไม่โต้ตอบกันอย่างสมจริง (เช่น ตัวละครวิ่งทะลุวัตถุแข็ง) Google คาดว่าสิ่งนี้จะดีขึ้นในอีก 6–12 เดือนข้างหน้าเมื่อโมเดลเรียนรู้ฟิสิกส์อย่างเป็นธรรมชาติจากข้อมูลเพิ่มเติม
บทความนี้ Google DeepMind ผสาน Street View กับ Genie 3 เพื่อสร้างโลก AI เชิงโต้ตอบ ปรากฏครั้งแรกบน BitcoinWorld


