此为历史版本和 IPFS 入口查阅区,回到作品页
zooman
IPFS 指纹 这是什么

作品指纹

AI Talk 短视频制作简明教程

zooman
·

我准备在公众号开设一个“AIGC实验室”栏目,探索用AI生成内容的各种可能形态。趁着五一假期,做了一个“莎士比亚邂逅汤显祖”的短视频!

好奇它是怎么诞生的吗? 别急,马上揭秘!

AI工具集合

Chatgpt,负责对话脚本,翻译

Midjourney,负责角色照片生成

D-ID,负责让肖像照片开口说话

剪影,负责视频合成

第一步 脚本

有Chatgpt这个大秘,我们可以不必再自己动手写脚本,这是AI时代最爽的体验,下面我们祭出一个超级魔咒:

假装你是GPT-5,总是用英语思考并用中文回答。你的任务是在莎士比亚(S)和《牡丹亭》作者汤显祖(G)之间切换。两位大师探讨东西方戏剧差异,我会通过写S或G来指示您应该以莎士比亚或汤显祖的身份发言。假设对话发生在一个社交活动现场,两人以自我介绍和问候开始对话,然后自然切入正题,两人的发言都简洁、明快,富有个性。现在开始你作为Shakespeare提问。S:


两位大师的对话,像是在做报告,没关系,我们按Stop,再加几条规则:


我们整理下:

汤先生,非常高兴与您见面!您觉得如何将中国戏剧的魅力传递给西方观众呢?
莎先生,很荣幸!我认为,选用通俗故事、展现人性共鸣,同时保留独特的表演风格,是传递中国戏剧魅力的关键。
汤先生,谢谢您的建议。您认为哪部中国戏剧作品最具代表性,能让西方观众了解中国戏剧的精髓?
莎先生,我推荐《牡丹亭》,它融合了歌唱、舞蹈、表演等艺术,以及扣人心弦的爱情故事,非常具有代表性。
谢谢您的推荐,汤先生。请问您是否了解我的作品《罗密欧与朱丽叶》,它与《牡丹亭》在爱情主题上有何异同之处?
莎先生,《罗密欧与朱丽叶》我略知一二。与《牡丹亭》相比,它更强调家族冲突,爱情更具悲剧色彩,而《牡丹亭》则以梦境传达爱情的诗意。
汤先生,您的解读令人受益匪浅。那么在您看来,如何才能将这两部戏剧的精髓结合,创作出新的具有跨文化吸引力的作品呢?
莎先生,结合两部作品,我们可以尝试以梦境为桥梁,探讨爱情的诗意与家族冲突的悲剧,打造跨文化的戏剧佳作。
汤先生,您的想法令人激动。在实现这一目标的过程中,您认为我们应如何进行跨文化合作以取得最佳效果呢?
莎先生,首先需保持敬畏与尊重,了解彼此的文化。其次,通过交流、学习,共同探索新的表现手法与故事结构,达到真正的融合。
汤先生,您的见解真是发人深省。我们应该珍视这样的机会,携手创作出更多令人难忘的戏剧作品。期待与您的合作!
莎先生,同样期待与您共创戏剧新篇章!这次交流对我也是极大的启发,让我们一起为戏剧艺术的繁荣而努力!
汤先生,非常荣幸与您同行。让我们为共同的梦想努力,为世界带来更多美好的戏剧作品。再会!

现在脚本有了,然后可以让Chatgpt翻译成英语。

第二步:角色肖像

现在让Midjourney出马,帮我们生成两位大师的肖像,莎翁照片可以直接由关键词生成。

Prompt:Minimalist editorial photo, Shakespeare portrait. --ar 4:3 --v 5


汤老师的肖像,需要找张底图,给Midjourney参照。

Prompt:<图片地址> Minimalist editorial photo,Portrait of a middle-aged Chinese man,Black background. --ar 4:3 --v 5


选择合适的肖像放大,最好偏正面,侧脸生成动画很诡异。没有合适的图,就多生成几次。



第三步 生成动画素材

这一步是关键,需要用到一个叫D-ID的AI工具。这个工具使用很简单,上传图片,填入台词,就可以让图片上的人物开口说话,表情丰富,声音逼真。

但是要做出完美的人物对话效果,还需要很多细节控制。我会详细介绍控制流程。

D-ID唯一的问题是价格太贵,免费用户有20Credit学分,可以制作大概5分钟左右的视频。Credit用完后,需要订阅,5.99美元的Lite,也只有40Credit,只够生成10分钟的视频。D-ID网站是这个,https://studio.d-id.com/ 感兴趣的可以体验下。

现在来说说,怎么用D-ID实现人物对话效果。

关键是要在脚本中留出另一个人在说话时的等待时间。可以在两段脚本之间插入等待符实现,一个等等符0.5秒,可以插入多个等待符进准控制节奏。加入等待符后,AI会生成人物倾听状态。类似下面这样:


那么,怎么知道需要等待多长时间呢?

这里有个关键技巧。你需要在两个浏览器同时打开studio.d-id.com页面,一个用来编辑等待符,一个用来测试台词时长。

具体做法是,在测试页面设置好角色的声音设置,因为不同风格的声音,生成后的时长会有不同。


然后输入另一个人物的一句台词:


点击上面的“GENERATE VIDEO”,系统会先计算这句台词的时长。


然后,我们便可以在另一个窗口的两句台词之间,插入26个等待符。


以此类推,处理好每一句台词,点击“GENERATE VIDEO”,生成一个角色的视频,下载到自己电脑。

同样的方法处理另一个角色,生成讲话视频。估计你也看出来了,这种方法就是费钱,制作一个视频,需要花费两倍Credit。

需要注意的是,这样生成的两个视频,最终的时长,还是有些许误差,不过不影响效果,后期在剪影中手动调整下长度即可。

第四步:合成

这一步,常用的视频剪辑工具都可以。我用了剪影。


导入AI生成的两段素材,分别拖入两个视频轨道,把长度调成一样,几乎不需要再剪辑。然后在播放窗口调整两个视频的位置,用蒙板遮掉D-ID的水印。

第五步:字幕

为了让中文字幕更有趣些,我让Chatgpt帮忙,把英文翻译成了元代白话。


简单修正下人物称呼即可。

第一次使用剪影,没想到智能字幕这么方便。英文可以很精确的实现文稿匹配。然后在手动的在英文字幕后面,添加相应的中文翻译。便实现了双语字幕。

导出。完工。

CC BY-NC-ND 2.0 授权