這是一款利用 LTX2 的對嘴技術生成約 10 秒說話影片的應用程式。該模型仍處於開發階段,即使是微小的偏差也可能導致失敗,但與其他模型相比相對穩定,因此我決定發佈。如果遵循以下條件,成功率將顯著提高。
1. 使用中景圖像:從腰部以上,臉部和肩膀清晰可見。如果圖片太遠或遠距離顯示整個上半身,失敗率會大幅上升。請參考履歷照片的構圖。
2. 音訊目前限制在 10 秒內。如果您想嘗試更長的音訊,請查看我工作流中的 LTX2 部分。
音訊目前限制在 10 秒內。如果您想嘗試更長的音訊,請查看我工作流中的 LTX2 部分。
