Abstrait et 1. Introduction
Travaux connexes
2.1. Reconstruction de mouvement à partir d'entrées éparses
2.2. Génération de mouvement humain
SAGE : Génération d'avatar stratifiée et 3.1. Énoncé du problème et notation
3.2. Représentation de mouvement désenchevêtrée
3.3. Diffusion de mouvement stratifiée
3.4. Détails d'implémentation
Expériences et métriques d'évaluation
4.1. Ensemble de données et métriques d'évaluation
4.2. Résultats quantitatifs et qualitatifs
4.3. Étude d'ablation
Conclusion et références
\ Matériel supplémentaire
A. Études d'ablation supplémentaires
B. Détails d'implémentation
La tâche de reconstruction du mouvement complet du corps humain à partir d'observations éparses a suscité une attention considérable au cours des dernières décennies au sein de la communauté de recherche [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]. Par exemple, des travaux récents [16, 19, 46, 50, 51] se concentrent sur la reconstruction du mouvement complet du corps à partir de six unités de mesure inertielles (IMUs). SIP [46] emploie des méthodes heuristiques, tandis que DIP [16] innove en utilisant des réseaux de neurones profonds pour cette tâche. PIP [51] et TIP [19] améliorent davantage les performances en incorporant des contraintes physiques. Avec l'essor des applications de RV/RA, les chercheurs tournent leur attention vers la reconstruction du mouvement complet du corps à partir d'appareils de RV/RA, tels que les dispositifs montés sur la tête (HMDs), qui ne fournissent que des informations sur la tête et les mains de l'utilisateur, posant des défis supplémentaires. LoBSTr [49], AvatarPoser [18] et AvatarJLM [54] abordent cette tâche comme un problème de régression, utilisant GRU [49] et le réseau Transformer [18, 54] pour prédire la pose complète du corps à partir d'observations éparses des HMDs. Une autre ligne de méthodes emploie des modèles génératifs [5, 7, 10, 11]. Par exemple, VAEHMD [10] et FLAG [5] utilisent respectivement l'Auto-Encodeur Variationnel (VAE) [20] et le flux de normalisation [35]. Des travaux récents [7, 11] exploitent des modèles de diffusion plus puissants [15, 38] pour la génération de mouvement, produisant des résultats prometteurs grâce à la puissante capacité des modèles de diffusion à modéliser la distribution probabiliste conditionnelle du mouvement du corps entier.
\ Contrairement aux méthodes précédentes qui modélisent le mouvement du corps entier dans un cadre complet et unifié, notre approche reconnaît les complexités que de telles méthodes imposent aux modèles d'apprentissage profond, particulièrement dans la capture de la cinématique complexe du mouvement humain. Par conséquent, nous proposons une approche stratifiée qui découple le pipeline conventionnel de reconstruction d'avatar du corps entier, d'abord pour le haut du corps puis pour le bas du corps sous la condition du haut du corps.
\
:::info Auteurs :
(1) Han Feng, contributions égales, classés par ordre alphabétique de l'Université de Wuhan ;
(2) Wenchao Ma, contributions égales, classés par ordre alphabétique de l'Université d'État de Pennsylvanie ;
(3) Quankai Gao, Université de Californie du Sud ;
(4) Xianwei Zheng, Université de Wuhan ;
(5) Nan Xue, Groupe Ant ([email protected]) ;
(6) Huijuan Xu, Université d'État de Pennsylvanie.
:::
:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.
:::
\


