Este é um aplicativo que usa a sincronização labial do LTX2 para gerar vídeos falados de cerca de 10 segundos. O modelo ainda está em desenvolvimento, então até pequenos desajustes fazem com que ele falhe imediatamente — mas é relativamente estável em comparação com outros, por isso estou lançando-o assim mesmo. Se você seguir as condições abaixo, a taxa de sucesso melhora significativamente.
1. Use uma imagem de plano médio: da cintura para cima, com o rosto e os ombros claramente visíveis. Se a imagem estiver muito longe ou mostrar todo o tronco à distância, a taxa de falha aumenta drasticamente. Pense em uma composição semelhante a uma foto de currículo.
2. O áudio está limitado atualmente a 10 segundos. Se quiser experimentar um áudio mais longo, verifique a seção LTX2 no meu workflow.
O áudio está limitado atualmente a 10 segundos. Se quiser experimentar um áudio mais longo, verifique a seção LTX2 no meu workflow.
