Hỗ trợ lời nhắc đa ngôn ngữ, có thể tạo ra âm thanh có độ trung thực cao, bao gồm nhiều loại như giọng người, ASMR, hiệu ứng âm thanh, âm nhạc, v.v., cải thiện đáng kể chất lượng thẩm mỹ và khả năng tuân thủ các lệnh phức tạp, đồng thời tối ưu hóa tính nhất quán ID và độ chính xác điều khiển của video tạo từ ảnh. Chọn độ phân giải tùy ý; mỗi độ phân giải có giá khác nhau.
