Ceci est une application qui utilise la synchronisation labiale de LTX2 pour générer des vidéos parlantes d'environ 10 secondes. Le modèle est encore en développement, donc même de légers décalages entraînent un échec immédiat — mais il est relativement stable par rapport à d'autres, je le publie donc quand même. Si vous suivez les conditions ci-dessous, le taux de réussite s'améliore considérablement.
1. Utilisez une image en plan moyen : de la taille vers le haut, avec le visage et les épaules bien visibles. Si l'image est trop éloignée ou montre tout le haut du corps de loin, le taux d'échec augmente considérablement. Pensez à une composition similaire à une photo de CV.
2. L'audio est actuellement limité à 10 secondes. Si vous voulez essayer un audio plus long, consultez la section LTX2 dans mon workflow.
L'audio est actuellement limité à 10 secondes. Si vous voulez essayer un audio plus long, consultez la section LTX2 dans mon workflow.
