这是一位有脑子的AI导演,但是手底下的人干活有点子偷懒
最近半个月分别使用了Medeo和Flova来制作视频,都是我提前设定好的角色,可以说两位有让我惊喜的地方,也分别有让人觉得遗憾的点。
先来谈谈Medeo。再很多AI视频agent和大模型都在拼画质和物理规律的时候,Medeo已经进化成一个正儿八经的AI视频导演了。
1/ 反直觉的制作逻辑
最开始用 Medeo 做视频时,我下意识以为它和大多数视频制作AI一样:我给 Prompt,它给我做图,然后吐视频,再配音乐。
但是我发现它居然是先做音频,再反推画面!
也就是说,它并不是传统的先生成素材,而是先生成叙事。当我输入提示词后,它没有急着去生图,而是先制作了所有的旁白配音。它精准计算了这句话要读 4 秒,然后才转头去指挥底层的视频模型:“给我生成一个 4 秒的画面”。这个逻辑有种言出法随的感觉。
我查了一下,这在专业的剪辑领域叫“Audio-Driven Editing”(音频驱动剪辑) 或者“A-roll First”,对于包含解说或对话的视频,这是目前最科学的流程。这么做的好处显而易见:音画完美同步。
以前用 AI 做视频,最痛苦的就是画面生成了 3 秒,配音有 5 秒,或者反过来,只能在剪辑软件里各种花式拼接。Medeo 这种“先定时间锚点”的策略,直接把这个坑给填了。
这种策略的另外一个好处,我猜是不是Medeo的团队都很精啊,音频生成的成本比视频低,音频就像是更便宜的草稿。先生成音频就可以把视频消耗的成本控制住。如果先做画面,万一做多了要删减,做少了要重生,都是在浪费钱。
最后一点,我还没有测试过,不知道是不是真的如此。那就是如果先做音频,配音的语速、停顿等会呈现不同的波形,那么Agent是否就可以通过波形来指导哪里有停顿,适合切镜头,哪里语速快,画面要紧凑。
2/ 它居然还会看碟下菜
还没完,正当我以为这就是 Medeo 的固定套路时,我又丢给了它一个公司年会开场视频的需求。
这次它变了。
它是按我的分镜要求直接生成视频片段的。
这时候我才觉得这个 Agent 是真的有点东西。它似乎能识别任务属性:
做科普/公司介绍:这是听觉逻辑,叙事优先,画面跟着旁白走。
做年会/MV:这是视觉逻辑,视觉优先,画面怎么酷怎么来,音乐只是氛围组。
至此,Medeo的工作流优势很明显了,叙事清晰,节奏完整,自动化程度高,像科普视频,公司宣传介绍这类视频,几乎一次出来就能用。我想在这种灵活的逻辑之下,AI视频的专业化工业化商业化是不是指日可待了。
3/ 理想很丰满,现实...还是有点bug
虽然 Medeo 的脑子很好用,但在高强度的实战中,我还是发现这位AI导演在手艺上的一些硬伤。
首先是那个让人又爱又恨的全自动。
除非你在一开始就按着它的头说每一步都停下来问我,否则它真的会一键把脚本、配音、分镜全干完。虽然它在左侧资产库里贴心地保存了所有中间素材(这点好评,方便复用),但一开始爽了,后面要修改的时候头就大了。
其次是可以自由拖动的分镜。
Medeo 的 UI 设计得很好,就像剪辑软件一样,直接把分镜、时间轴、字幕和配音严丝合缝对应起来,而且我可以直接在上面拖动分镜条来延长视频——但是!画面是延长了,旁白并不会自动续写。这就导致视频还在动,旁白已经没了。这让这个功能好像看起来很人性化,灵活程度很高,但实际上我拉了好几个分镜,延长的效果也就是镜头的远近推拉,是硬凑时长,并没有实际的增效作用。所以这个功能就是有点并没有什么x用的感觉。
最要命的是商业视频的死穴——Logo 和文字。
做一个公司宣传片时,我上传了一个logo图片,要求在视频中出现这个logo。这时候Medeo就有点死脑筋了,就是原封不动把原图展示了一下,甚至连抠图都不会。于是我原本16:9尺寸的视频在开头和结尾都非常不和谐的出现了正方形尺寸的画面(因为原图就是一个正方形的白底图片),像是ppt展示。
更要命的是,在我要求在某个分镜中出现的电脑屏幕里嵌上这个logo,Medeo 的逻辑不是贴图,而是重新画了一个。同理,场景里的文字也经常是乱码。
还有那个薛定谔的“人物一致性”。
做年会视频用了 4 个角色,虽然喂了参考图,但是一开始是完全直接生成了不相关的四个人。这个视频我唯一的要求一开始就是直接使用我上传的四个角色形象,但就是这一点就这么难。动态效果还不错的时候,人物就是完全不相干;人物稍微有点对了的时候,动效又很崩,要不是这里没法上传视频,真的很想让大家伙儿看看那个稀烂的效果。
想维持住人设,还是得疯狂抽卡重试。关键是Medeo似乎跟oiioii一样顽固,不听话程度也就是比oiioii稍微好一点吧。在我使用过的AI视频产品中,目前我认为人物一致性和画面效果相对最好的事Flova,当然Flova也有很大的问题,下次单独写一篇再说。
此外,Medeo的画面效果很多时候做出来有点之前在网络上很火的在新东方学动画3年后做的动效的感觉,人物呆板僵硬,也有好的时候,但是我发现它经常就有一种为了努力保持住人物一致性,只能让人物尽量少动。按理说现在这些视频Agent应该都用的目前最流行效果最好的哪些视频模型,但是这效果真的也挺难绷的。
最后,Medeo这个工作逻辑如果能够再灵活一些就更好了。比如说我的年会视频,实际上是强叙事+强视觉的融合,如果能够根据我的分镜设定来选择不同的工作逻辑完成不同的分镜段落设计是不是最终的效果就会更好。
本想不做任何限定要求再做个动画试试会不会好一点,奈何做了3个视频,积分耗尽了。这里也建议每一次执行动作最好能像Flova一样显示消耗了多少积分。
写在最后
用完 Medeo,我最大的感受是:它的产品哲学是领先于它背后的模型能力的。它现在就像一个刚从电影学院毕业的导演,有才华,理论满分,分镜逻辑无敌,但是手底下的人技术不够硬。如果你是做强叙事的科普视频,它是神器;但如果你要是做对一些细节和人脸要求极高的商业硬广,可能还是得自己上手修修补补。但是不管怎么样,我觉得Medeo都像是AI视频从玩具走向工具的一个分界线,也许真正的AI视频时代就要到了。