1.

唇形同步模型

2.

原始视频(必须只有一个人物)

3.

人声音频

文字转人声
4.

只保留和原始视频同样长度的音频

💡 让视频中的人物按照你提供的配音说话,并且保持唇形同步