此为历史版本和 IPFS 入口查阅区，回到作品页

IPFS 指纹这是什么

AI Talk 短视频制作简明教程

·

2023 年 4 月 29 日

我准备在公众号开设一个“AIGC实验室”栏目，探索用AI生成内容的各种可能形态。趁着五一假期，做了一个“莎士比亚邂逅汤显祖”的短视频！

好奇它是怎么诞生的吗？别急，马上揭秘！

AI工具集合

Chatgpt，负责对话脚本，翻译

Midjourney，负责角色照片生成

D-ID，负责让肖像照片开口说话

剪影，负责视频合成

第一步脚本

有Chatgpt这个大秘，我们可以不必再自己动手写脚本，这是AI时代最爽的体验，下面我们祭出一个超级魔咒：

假装你是GPT-5，总是用英语思考并用中文回答。你的任务是在莎士比亚（S）和《牡丹亭》作者汤显祖（G）之间切换。两位大师探讨东西方戏剧差异，我会通过写S或G来指示您应该以莎士比亚或汤显祖的身份发言。假设对话发生在一个社交活动现场，两人以自我介绍和问候开始对话，然后自然切入正题，两人的发言都简洁、明快，富有个性。现在开始你作为Shakespeare提问。S：

两位大师的对话，像是在做报告，没关系，我们按Stop，再加几条规则：

我们整理下：

汤先生，非常高兴与您见面！您觉得如何将中国戏剧的魅力传递给西方观众呢？

莎先生，很荣幸！我认为，选用通俗故事、展现人性共鸣，同时保留独特的表演风格，是传递中国戏剧魅力的关键。

汤先生，谢谢您的建议。您认为哪部中国戏剧作品最具代表性，能让西方观众了解中国戏剧的精髓？

莎先生，我推荐《牡丹亭》，它融合了歌唱、舞蹈、表演等艺术，以及扣人心弦的爱情故事，非常具有代表性。

谢谢您的推荐，汤先生。请问您是否了解我的作品《罗密欧与朱丽叶》，它与《牡丹亭》在爱情主题上有何异同之处？

莎先生，《罗密欧与朱丽叶》我略知一二。与《牡丹亭》相比，它更强调家族冲突，爱情更具悲剧色彩，而《牡丹亭》则以梦境传达爱情的诗意。

汤先生，您的解读令人受益匪浅。那么在您看来，如何才能将这两部戏剧的精髓结合，创作出新的具有跨文化吸引力的作品呢？

莎先生，结合两部作品，我们可以尝试以梦境为桥梁，探讨爱情的诗意与家族冲突的悲剧，打造跨文化的戏剧佳作。

汤先生，您的想法令人激动。在实现这一目标的过程中，您认为我们应如何进行跨文化合作以取得最佳效果呢？

莎先生，首先需保持敬畏与尊重，了解彼此的文化。其次，通过交流、学习，共同探索新的表现手法与故事结构，达到真正的融合。

汤先生，您的见解真是发人深省。我们应该珍视这样的机会，携手创作出更多令人难忘的戏剧作品。期待与您的合作！

莎先生，同样期待与您共创戏剧新篇章！这次交流对我也是极大的启发，让我们一起为戏剧艺术的繁荣而努力！

汤先生，非常荣幸与您同行。让我们为共同的梦想努力，为世界带来更多美好的戏剧作品。再会！

现在脚本有了，然后可以让Chatgpt翻译成英语。

第二步：角色肖像

现在让Midjourney出马，帮我们生成两位大师的肖像，莎翁照片可以直接由关键词生成。

Prompt：Minimalist editorial photo, Shakespeare portrait. --ar 4:3 --v 5

汤老师的肖像，需要找张底图，给Midjourney参照。

Prompt：<图片地址> Minimalist editorial photo,Portrait of a middle-aged Chinese man，Black background. --ar 4:3 --v 5

选择合适的肖像放大，最好偏正面，侧脸生成动画很诡异。没有合适的图，就多生成几次。

第三步生成动画素材

这一步是关键，需要用到一个叫D-ID的AI工具。这个工具使用很简单，上传图片，填入台词，就可以让图片上的人物开口说话，表情丰富，声音逼真。

但是要做出完美的人物对话效果，还需要很多细节控制。我会详细介绍控制流程。

D-ID唯一的问题是价格太贵，免费用户有20Credit学分，可以制作大概5分钟左右的视频。Credit用完后，需要订阅，5.99美元的Lite，也只有40Credit，只够生成10分钟的视频。D-ID网站是这个，https://studio.d-id.com/ 感兴趣的可以体验下。

现在来说说，怎么用D-ID实现人物对话效果。

关键是要在脚本中留出另一个人在说话时的等待时间。可以在两段脚本之间插入等待符实现，一个等等符0.5秒，可以插入多个等待符进准控制节奏。加入等待符后，AI会生成人物倾听状态。类似下面这样：

那么，怎么知道需要等待多长时间呢？

这里有个关键技巧。你需要在两个浏览器同时打开studio.d-id.com页面，一个用来编辑等待符，一个用来测试台词时长。

具体做法是，在测试页面设置好角色的声音设置，因为不同风格的声音，生成后的时长会有不同。

然后输入另一个人物的一句台词：

点击上面的“GENERATE VIDEO”，系统会先计算这句台词的时长。

然后，我们便可以在另一个窗口的两句台词之间，插入26个等待符。

以此类推，处理好每一句台词，点击“GENERATE VIDEO”，生成一个角色的视频，下载到自己电脑。

同样的方法处理另一个角色，生成讲话视频。估计你也看出来了，这种方法就是费钱，制作一个视频，需要花费两倍Credit。

需要注意的是，这样生成的两个视频，最终的时长，还是有些许误差，不过不影响效果，后期在剪影中手动调整下长度即可。

第四步：合成

这一步，常用的视频剪辑工具都可以。我用了剪影。

导入AI生成的两段素材，分别拖入两个视频轨道，把长度调成一样，几乎不需要再剪辑。然后在播放窗口调整两个视频的位置，用蒙板遮掉D-ID的水印。

第五步：字幕

为了让中文字幕更有趣些，我让Chatgpt帮忙，把英文翻译成了元代白话。

简单修正下人物称呼即可。

第一次使用剪影，没想到智能字幕这么方便。英文可以很精确的实现文稿匹配。然后在手动的在英文字幕后面，添加相应的中文翻译。便实现了双语字幕。

导出。完工。

CC BY-NC-ND 2.0 授权