AI Talk 短视频制作简明教程
我准备在公众号开设一个“AIGC实验室”栏目,探索用AI生成内容的各种可能形态。趁着五一假期,做了一个“莎士比亚邂逅汤显祖”的短视频!
好奇它是怎么诞生的吗? 别急,马上揭秘!
AI工具集合
Chatgpt,负责对话脚本,翻译
Midjourney,负责角色照片生成
D-ID,负责让肖像照片开口说话
剪影,负责视频合成
第一步 脚本
有Chatgpt这个大秘,我们可以不必再自己动手写脚本,这是AI时代最爽的体验,下面我们祭出一个超级魔咒:
假装你是GPT-5,总是用英语思考并用中文回答。你的任务是在莎士比亚(S)和《牡丹亭》作者汤显祖(G)之间切换。两位大师探讨东西方戏剧差异,我会通过写S或G来指示您应该以莎士比亚或汤显祖的身份发言。假设对话发生在一个社交活动现场,两人以自我介绍和问候开始对话,然后自然切入正题,两人的发言都简洁、明快,富有个性。现在开始你作为Shakespeare提问。S:
两位大师的对话,像是在做报告,没关系,我们按Stop,再加几条规则:
我们整理下:
汤先生,非常高兴与您见面!您觉得如何将中国戏剧的魅力传递给西方观众呢?
莎先生,很荣幸!我认为,选用通俗故事、展现人性共鸣,同时保留独特的表演风格,是传递中国戏剧魅力的关键。
汤先生,谢谢您的建议。您认为哪部中国戏剧作品最具代表性,能让西方观众了解中国戏剧的精髓?
莎先生,我推荐《牡丹亭》,它融合了歌唱、舞蹈、表演等艺术,以及扣人心弦的爱情故事,非常具有代表性。
谢谢您的推荐,汤先生。请问您是否了解我的作品《罗密欧与朱丽叶》,它与《牡丹亭》在爱情主题上有何异同之处?
莎先生,《罗密欧与朱丽叶》我略知一二。与《牡丹亭》相比,它更强调家族冲突,爱情更具悲剧色彩,而《牡丹亭》则以梦境传达爱情的诗意。
汤先生,您的解读令人受益匪浅。那么在您看来,如何才能将这两部戏剧的精髓结合,创作出新的具有跨文化吸引力的作品呢?
莎先生,结合两部作品,我们可以尝试以梦境为桥梁,探讨爱情的诗意与家族冲突的悲剧,打造跨文化的戏剧佳作。
汤先生,您的想法令人激动。在实现这一目标的过程中,您认为我们应如何进行跨文化合作以取得最佳效果呢?
莎先生,首先需保持敬畏与尊重,了解彼此的文化。其次,通过交流、学习,共同探索新的表现手法与故事结构,达到真正的融合。
汤先生,您的见解真是发人深省。我们应该珍视这样的机会,携手创作出更多令人难忘的戏剧作品。期待与您的合作!
莎先生,同样期待与您共创戏剧新篇章!这次交流对我也是极大的启发,让我们一起为戏剧艺术的繁荣而努力!
汤先生,非常荣幸与您同行。让我们为共同的梦想努力,为世界带来更多美好的戏剧作品。再会!
现在脚本有了,然后可以让Chatgpt翻译成英语。
第二步:角色肖像
现在让Midjourney出马,帮我们生成两位大师的肖像,莎翁照片可以直接由关键词生成。
Prompt:Minimalist editorial photo, Shakespeare portrait. --ar 4:3 --v 5
汤老师的肖像,需要找张底图,给Midjourney参照。
Prompt:<图片地址> Minimalist editorial photo,Portrait of a middle-aged Chinese man,Black background. --ar 4:3 --v 5
选择合适的肖像放大,最好偏正面,侧脸生成动画很诡异。没有合适的图,就多生成几次。
第三步 生成动画素材
这一步是关键,需要用到一个叫D-ID的AI工具。这个工具使用很简单,上传图片,填入台词,就可以让图片上的人物开口说话,表情丰富,声音逼真。
但是要做出完美的人物对话效果,还需要很多细节控制。我会详细介绍控制流程。
D-ID唯一的问题是价格太贵,免费用户有20Credit学分,可以制作大概5分钟左右的视频。Credit用完后,需要订阅,5.99美元的Lite,也只有40Credit,只够生成10分钟的视频。D-ID网站是这个,https://studio.d-id.com/ 感兴趣的可以体验下。
现在来说说,怎么用D-ID实现人物对话效果。
关键是要在脚本中留出另一个人在说话时的等待时间。可以在两段脚本之间插入等待符实现,一个等等符0.5秒,可以插入多个等待符进准控制节奏。加入等待符后,AI会生成人物倾听状态。类似下面这样:
那么,怎么知道需要等待多长时间呢?
这里有个关键技巧。你需要在两个浏览器同时打开studio.d-id.com页面,一个用来编辑等待符,一个用来测试台词时长。
具体做法是,在测试页面设置好角色的声音设置,因为不同风格的声音,生成后的时长会有不同。
然后输入另一个人物的一句台词:
点击上面的“GENERATE VIDEO”,系统会先计算这句台词的时长。
然后,我们便可以在另一个窗口的两句台词之间,插入26个等待符。
以此类推,处理好每一句台词,点击“GENERATE VIDEO”,生成一个角色的视频,下载到自己电脑。
同样的方法处理另一个角色,生成讲话视频。估计你也看出来了,这种方法就是费钱,制作一个视频,需要花费两倍Credit。
需要注意的是,这样生成的两个视频,最终的时长,还是有些许误差,不过不影响效果,后期在剪影中手动调整下长度即可。
第四步:合成
这一步,常用的视频剪辑工具都可以。我用了剪影。
导入AI生成的两段素材,分别拖入两个视频轨道,把长度调成一样,几乎不需要再剪辑。然后在播放窗口调整两个视频的位置,用蒙板遮掉D-ID的水印。
第五步:字幕
为了让中文字幕更有趣些,我让Chatgpt帮忙,把英文翻译成了元代白话。
简单修正下人物称呼即可。
第一次使用剪影,没想到智能字幕这么方便。英文可以很精确的实现文稿匹配。然后在手动的在英文字幕后面,添加相应的中文翻译。便实现了双语字幕。
导出。完工。