Abstrakt und 1. Einleitung
Verwandte Arbeiten
2.1. Bewegungsrekonstruktion aus spärlichen Eingaben
2.2. Menschliche Bewegungsgenerierung
SAGE: Stratifizierte Avatar-Generierung und 3.1. Problemstellung und Notation
3.2. Entkoppelte Bewegungsdarstellung
3.3. Stratifizierte Bewegungsdiffusion
3.4. Implementierungsdetails
Experimente und Bewertungsmetriken
4.1. Datensatz und Bewertungsmetriken
4.2. Quantitative und qualitative Ergebnisse
4.3. Ablationsstudie
Fazit und Referenzen
\ Ergänzendes Material
A. Zusätzliche Ablationsstudien
B. Implementierungsdetails
Die Aufgabe, vollständige menschliche Körperbewegungen aus spärlichen Beobachtungen zu rekonstruieren, hat in den letzten Jahrzehnten in der Forschungsgemeinschaft erhebliche Aufmerksamkeit erlangt [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]. Beispielsweise konzentrieren sich neuere Arbeiten [16, 19, 46, 50, 51] auf die Rekonstruktion vollständiger Körperbewegungen aus sechs Trägheitsmesseinheiten (IMUs). SIP [46] verwendet heuristische Methoden, während DIP [16] den Einsatz von tiefen neuronalen Netzen für diese Aufgabe vorantreibt. PIP [51] und TIP [19] verbessern die Leistung weiter durch die Integration von physikalischen Einschränkungen. Mit dem Aufkommen von VR/AR-Anwendungen richten Forscher ihre Aufmerksamkeit auf die Rekonstruktion vollständiger Körperbewegungen aus VR/AR-Geräten wie Head-Mounted Devices (HMDs), die nur Informationen über den Kopf und die Hände des Benutzers liefern, was zusätzliche Herausforderungen darstellt. LoBSTr [49], AvatarPoser [18] und AvatarJLM [54] betrachten diese Aufgabe als Regressionsproblem und verwenden GRU [49] und Transformer-Netzwerk [18, 54], um die vollständige Körperhaltung aus spärlichen Beobachtungen von HMDs vorherzusagen. Eine andere Reihe von Methoden verwendet generative Modelle [5, 7, 10, 11]. Zum Beispiel nutzen VAEHMD [10] und FLAG [5] Variational AutoEncoder (VAE) [20] bzw. Normalizing Flow [35]. Neuere Arbeiten [7, 11] nutzen leistungsfähigere Diffusionsmodelle [15, 38] für die Bewegungsgenerierung und erzielen vielversprechende Ergebnisse aufgrund der leistungsstarken Fähigkeit von Diffusionsmodellen, die bedingte Wahrscheinlichkeitsverteilung von Ganzkörperbewegungen zu modellieren.
\ Im Gegensatz zu früheren Methoden, die Ganzkörperbewegungen in einem umfassenden, einheitlichen Rahmen modellieren, erkennt unser Ansatz die Komplexität an, die solche Methoden für Deep-Learning-Modelle mit sich bringen, insbesondere bei der Erfassung der komplexen Kinematik menschlicher Bewegung. Daher schlagen wir einen stratifizierten Ansatz vor, der die herkömmliche Pipeline zur Rekonstruktion von Ganzkörper-Avataren entkoppelt, zunächst für den Oberkörper und dann für den Unterkörper unter der Bedingung des Oberkörpers.
\
:::info Autoren:
(1) Han Feng, gleichwertige Beiträge, alphabetisch geordnet von der Wuhan University;
(2) Wenchao Ma, gleichwertige Beiträge, alphabetisch geordnet von der Pennsylvania State University;
(3) Quankai Gao, University of Southern California;
(4) Xianwei Zheng, Wuhan University;
(5) Nan Xue, Ant Group ([email protected]);
(6) Huijuan Xu, Pennsylvania State University.
:::
:::info Dieses Paper ist auf arxiv verfügbar unter der CC BY 4.0 DEED Lizenz.
:::
\


