Esta es una aplicación que utiliza la sincronización labial de LTX2 para generar videos de personas hablando de unos 10 segundos. El modelo aún está en desarrollo, por lo que incluso pequeños desajustes causan fallos inmediatos, pero es relativamente estable comparado con otros, así que lo publico de todos modos. Si sigues las siguientes condiciones, la tasa de éxito mejora significativamente.
1. Usa una imagen de plano medio: de la cintura para arriba, con la cara y los hombros claramente visibles. Si la imagen está demasiado lejos o muestra todo el torso desde la distancia, la tasa de fallos aumenta drásticamente. Piensa en una composición similar a una foto de currículum.
2. El audio está limitado actualmente a 10 segundos. Si quieres probar con un audio más largo, consulta la sección LTX2 en mi flujo de trabajo.
El audio está limitado actualmente a 10 segundos. Si quieres probar con un audio más largo, consulta la sección LTX2 en mi flujo de trabajo.
