MaGGIe โดดเด่นในการเรนเดอร์ผมและการแยกอินสแตนซ์บนภาพธรรมชาติ มีประสิทธิภาพเหนือกว่า MGM และ InstMatt ในสถานการณ์ที่ซับซ้อนและมีหลายอินสแตนซ์MaGGIe โดดเด่นในการเรนเดอร์ผมและการแยกอินสแตนซ์บนภาพธรรมชาติ มีประสิทธิภาพเหนือกว่า MGM และ InstMatt ในสถานการณ์ที่ซับซ้อนและมีหลายอินสแตนซ์

การแมตติ้งแบบใช้มาสก์นำทางที่แข็งแกร่ง: การจัดการกับข้อมูลนำเข้าที่มีสัญญาณรบกวนและความหลากหลายของวัตถุ

2025/12/21 02:00
1 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ [email protected]

บทคัดย่อและ 1. บทนำ

  1. งานวิจัยที่เกี่ยวข้อง

  2. MaGGIe

    3.1. Efficient Masked Guided Instance Matting

    3.2. Feature-Matte Temporal Consistency

  3. ชุดข้อมูล Instance Matting

    4.1. Image Instance Matting และ 4.2. Video Instance Matting

  4. การทดลอง

    5.1. การฝึกล่วงหน้าบนข้อมูลภาพ

    5.2. การฝึกบนข้อมูลวิดีโอ

  5. การอภิปรายและเอกสารอ้างอิง

\ เอกสารเพิ่มเติม

  1. รายละเอียดสถาปัตยกรรม

  2. Image matting

    8.1. การสร้างและเตรียมชุดข้อมูล

    8.2. รายละเอียดการฝึก

    8.3. รายละเอียดเชิงปริมาณ

    8.4. ผลลัพธ์เชิงคุณภาพเพิ่มเติมบนภาพธรรมชาติ

  3. Video matting

    9.1. การสร้างชุดข้อมูล

    9.2. รายละเอียดการฝึก

    9.3. รายละเอียดเชิงปริมาณ

    9.4. ผลลัพธ์เชิงคุณภาพเพิ่มเติม

8.4. ผลลัพธ์เชิงคุณภาพเพิ่มเติมบนภาพธรรมชาติ

รูปที่ 13 แสดงประสิทธิภาพของโมเดลของเราในสถานการณ์ที่ท้าทาย โดยเฉพาะในการแสดงผลบริเวณเส้นผมอย่างแม่นยำ เฟรมเวิร์กของเรามีประสิทธิภาพเหนือกว่า MGM⋆ อย่างสม่ำเสมอในการรักษารายละเอียด โดยเฉพาะในการโต้ตอบของ instance ที่ซับซ้อน เมื่อเปรียบเทียบกับ InstMatt โมเดลของเราแสดงความเหนือกว่าในการแยก instance และความแม่นยำของรายละเอียดในบริเวณที่คลุมเครือ

\ รูปที่ 14 และรูปที่ 15 แสดงประสิทธิภาพของโมเดลของเราและงานก่อนหน้าในกรณีสุดขีดที่เกี่ยวข้องกับหลาย instance ในขณะที่ MGM⋆ ประสบปัญหากับสัญญาณรบกวนและความแม่นยำในสถานการณ์ instance หนาแน่น โมเดลของเราคงความแม่นยำสูง InstMatt ที่ไม่มีข้อมูลการฝึกเพิ่มเติม แสดงข้อจำกัดในสถานการณ์ที่ซับซ้อนเหล่านี้

\ ความทนทานของแนวทางแบบ mask-guided ของเราได้รับการแสดงเพิ่มเติมในรูปที่ 16 ที่นี่เราเน้นถึงความท้าทายที่ตัวแปร MGM และ SparseMat เผชิญในการทำนายส่วนที่ขาดหายไปในอินพุต mask ซึ่งโมเดลของเราจัดการได้ อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่าโมเดลของเราไม่ได้ออกแบบมาเป็นเครือข่ายการแบ่งส่วน instance ของมนุษย์ ดังที่แสดงในรูปที่ 17 เฟรมเวิร์กของเราปฏิบัติตามคำแนะนำอินพุต เพื่อให้แน่ใจว่าการทำนาย alpha matte แม่นยำแม้จะมีหลาย instance ใน mask เดียวกัน

\ ท้ายที่สุด รูปที่ 12 และรูปที่ 11 เน้นความสามารถในการทำงานทั่วไปของโมเดลของเรา โมเดลสกัดทั้งวัตถุมนุษย์และวัตถุอื่นๆ จากพื้นหลังได้อย่างแม่นยำ แสดงความหลากหลายในสถานการณ์และประเภทวัตถุต่างๆ

\ ตัวอย่างทั้งหมดเป็นภาพจากอินเทอร์เน็ตที่ไม่มีข้อมูลจริง และใช้ mask จาก r101fpn400e เป็นคำแนะนำ

\ รูปที่ 13. โมเดลของเราสร้าง alpha matte ที่มีรายละเอียดสูงบนภาพธรรมชาติ ผลลัพธ์ของเราแสดงให้เห็นว่ามีความแม่นยำและเทียบเคียงได้กับวิธีการแบบ instance-agnostic และ instance-awareness ก่อนหน้าโดยไม่มีต้นทุนการคำนวณที่สูง กรอบสีแดงขยายบริเวณรายละเอียดสำหรับแต่ละ instance (ดูดีที่สุดในสีและการซูมแบบดิจิทัล)

\ รูปที่ 14. เฟรมเวิร์กของเราแยก instance อย่างแม่นยำในกรณีสุดขีดที่มีหลาย instance ในขณะที่ MGM มักทำให้เกิดการทับซ้อนระหว่าง instance และ MGM⋆ มีสัญญาณรบกวน ของเราสร้างผลลัพธ์ที่เทียบเท่ากับ InstMatt ที่ฝึกบนชุดข้อมูลภายนอก ลูกศรสีแดงระบุข้อผิดพลาด (ดูดีที่สุดในสีและการซูมแบบดิจิทัล)

\ รูปที่ 15. เฟรมเวิร์กของเราแยก instance อย่างแม่นยำในการทำงานครั้งเดียว โซลูชันที่เสนอแสดงผลลัพธ์ที่เทียบเคียงได้กับ InstMatt และ MGM โดยไม่ต้องรันการทำนาย/การปรับแต่งห้าครั้ง ลูกศรสีแดงระบุข้อผิดพลาด (ดูดีที่สุดในสีและการซูมแบบดิจิทัล)

\ รูปที่ 16. ต่างจาก MGM และ SparseMat โมเดลของเรามีความทนทานต่อ mask คำแนะนำอินพุต ด้วย attention head โมเดลของเราสร้างผลลัพธ์ที่เสถียรมากขึ้นต่ออินพุต mask โดยไม่ต้องมีการปรับแต่งที่ซับซ้อนระหว่าง instance เช่น InstMatt ลูกศรสีแดงระบุข้อผิดพลาด (ดูดีที่สุดในสีและการซูมแบบดิจิทัล)

\ รูปที่ 17. โซลูชันของเราทำงานได้อย่างถูกต้องกับ mask คำแนะนำแบบหลาย instance เมื่อมีหลาย instance อยู่ใน mask คำแนะนำเดียว เรายังคงสร้าง union alpha matte ที่ถูกต้องสำหรับ instance เหล่านั้น ลูกศรสีแดงระบุข้อผิดพลาดหรือบริเวณการซูมในกรอบสีแดง (ดูดีที่สุดในสีและการซูมแบบดิจิทัล)

\ ตารางที่ 12. รายละเอียดของผลลัพธ์เชิงปริมาณบน HIM2K+M-HIM2K (ส่วนขยายของตารางที่ 5) สีเทาระบุค่าน้ำหนักสาธารณะโดยไม่มีการฝึกใหม่

\ ตารางที่ 12. รายละเอียดของผลลัพธ์เชิงปริมาณบน HIM2K+M-HIM2K (ส่วนขยายของตารางที่ 5) สีเทาระบุค่าน้ำหนักสาธารณะโดยไม่มีการฝึกใหม่ (ต่อ)

\ ตารางที่ 12. รายละเอียดของผลลัพธ์เชิงปริมาณบน HIM2K+M-HIM2K (ส่วนขยายของตารางที่ 5) สีเทาระบุค่าน้ำหนักสาธารณะโดยไม่มีการฝึกใหม่ (ต่อ)

\ ตารางที่ 12. รายละเอียดของผลลัพธ์เชิงปริมาณบน HIM2K+M-HIM2K (ส่วนขยายของตารางที่ 5) สีเทาระบุค่าน้ำหนักสาธารณะโดยไม่มีการฝึกใหม่ (ต่อ)

\ ตารางที่ 13. ประสิทธิผลของโมดูลความสม่ำเสมอชั่วคราวที่เสนอบน V-HIM60 (ส่วนขยายของตารางที่ 6) การรวมกันของ bi-directional Conv-GRU และ forward-backward fusion บรรลุประสิทธิภาพโดยรวมที่ดีที่สุดบนชุดทดสอบทั้งสาม ตัวหนาเน้นสิ่งที่ดีที่สุดสำหรับแต่ละระดับ

\

:::info ผู้แต่ง:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info บทความนี้ มีให้บน arxiv ภายใต้ใบอนุญาต CC by 4.0 Deed (Attribution 4.0 International)

:::

\

โอกาสทางการตลาด
Mask Network โลโก้
ราคา Mask Network(MASK)
$0.4536
$0.4536$0.4536
-0.65%
USD
Mask Network (MASK) กราฟราคาสด
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ [email protected] เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

Sonic เปิดตัว Stablecoin ดั้งเดิมที่ได้รับการสนับสนุนโดย BlackRock และ WisdomTree

Sonic เปิดตัว Stablecoin ดั้งเดิมที่ได้รับการสนับสนุนโดย BlackRock และ WisdomTree

สรุป Sonic Labs เปิดตัว USSD สเตเบิลคอยน์ที่มีหลักประกันด้วยพันธบัตรรัฐบาลสำหรับสภาพคล่อง DeFi บนเชน USSD มีหลักประกันครบ 1:1 โดยสินทรัพย์พันธบัตรรัฐบาลสหรัฐที่โทเคนไนซ์จากสถาบันชั้นนำ
แชร์
Coincentral2026/03/10 02:50
Strategy ซื้อ Bitcoin 17,994 เหรียนมูลค่า 1.28 พันล้านดอลลาร์ ยอดถือครองแตะ 738,731 BTC

Strategy ซื้อ Bitcoin 17,994 เหรียนมูลค่า 1.28 พันล้านดอลลาร์ ยอดถือครองแตะ 738,731 BTC

Strategy ได้เพิ่ม Bitcoin จำนวน 17,994 เหรียญในการซื้อมูลค่า 1.28 พันล้านดอลลาร์ครั้งใหม่ ผลักดันให้การถือครองทั้งหมดเพิ่มเป็น 738,731 BTC และเสริมแนวทาง Bitcoin ระยะยาวของ Michael Saylor
แชร์
Coinlaw2026/03/10 01:47
แพลตฟอร์มสุขภาพจิตดิจิทัลกำลังเปลี่ยนแปลงการให้บริการด้านสุขภาพ

แพลตฟอร์มสุขภาพจิตดิจิทัลกำลังเปลี่ยนแปลงการให้บริการด้านสุขภาพ

สุขภาพจิตเคยถูกพูดถึงด้วยน้ำเสียงเบาๆ โดยหลายคนกลัวที่จะยอมรับปัญหาสุขภาวะทางจิตใจของตน ตราบาปเกี่ยวกับโรคทางจิตเวช
แชร์
Techbullion2026/03/10 01:04