长视频生成 agent 不应该把重点放在长,而应该强调质量,连贯且稳定才是王炸
整体感受:项目目前停留在玩具阶段,从视频效果角度出发,生成的视频不论是一致性、故事性、bgm、镜头切换等细节,还是视频给人的整体感受以及,呈现效果真的就很随意和不专业。而从产品角度出发,我们追求的长视频一键生成的目标,是不是当下视频生成模型能力根本无法实现的需求(这一点文末详细探讨)
再细说一下产品的使用细节:总共做了两轮任务
第一轮:目的是想让产品自由发挥,用了非常简单的提示词:生成一段猫咪走秀从准备到上台的故事
第二轮:我和其他大语言模型对话,生成了一段非常细节的雪夜盗宝的提示词,想看看在优秀提示词下产品的运行结果有何不同
优点:
1. 全程不需要丝毫干预直接呈现结果
2. 不墨迹也不像其他生成软件半途跳出积分不足
3. 生成的视频看得出有呈现自己的主题,从出题者的角度来看,可以知道其在说什么
缺点:
1. 看得出产品努力想保持任务一致性,但是由于存在难度,于是乎出现的第一个片段和三个片段是人物一致,二、四一致,但是其它完全不一样,甚至出现小猫咪和站着的人形猫咪
2. 视频生成前有语言选项,所以我特意尝试了中文,但显然产品用的是视频生成模型的原生音频生成,中文发音带着老外的口音,很奇怪(所以其实还不如不增加语音选择功能)
3. 镜头切换方面,详细看了画面的实现逻辑,通过的是设计多个画面的提示词、人物、发生的事情,最后拼接。但是故事发生并不应该是一截一截的发生。所以故事性不能好的呈现
4. 视频产生完之后,对于某一个不满意的片段,并没有提供直接调整的办法,而是需要通过对话,这大大增加了不确定性和对提示词的要求
最后再探讨一下题外话,发表一下个人观点:
用 ai 生成长视频,坦白说,是一个非常磨人的过程。所以我们产品的出发点:“看作一个能将文本剧本直接转化为视频片段的 AI 助手”,看似真的解决了 ai 做长视频的痛点。但是细想,我们的时间不仅需要停留在设计人物、设计故事、配 bgm 等可以被 ai 替代的任务上,还需要花费时间进行不断的抽卡,而这也是最费事费力的。我们不断的从产生的视频片段中,择出最优,剔除糟粕。在这其中,我们的审美至关重要的,在不断的抽卡过程中,我们既是寻找故事阐述的最优画面,也是发现更多可能的过程,相信大家都有在生图生视频的过程中突然发现某个视频让你眼前一亮吧。所以,当这些任务都抛给 ai,让 ai 代替你的审美,让 ai 代替你的决断,是否正确,你又是否会满意?当然,这一切,都是基于现有阶段 ai 视频生成模型而造成的局限,相信有一天,你我都可以通过一句话、一个想法变成大导演,用画面创造我们每个人自己的故事。