【产品描述】
用户用自然语言输入知识点/题目,产品生成视频讲解,包含语音讲解,数形结合的图片和动画,文字部分等。视频生成完成后,会附带生成3道课后测试题。
产品定位出海,主要专注于数学、STEM等学科,目前不支持国内邮箱注册。
目前定价4美元/3个视频,每个视频时长大约在1min30s-2min之间。
【功能实现推测】
目前生成的视频均为左字右图/视频,图/视频部分多为学科图形(如坐标轴/运动曲线等)。
文字部分:推测由一个规模较小的模型生成
图像/视频部分:推测首先由一个模型生成数据或数学描述,然后由一个微调后的视频模型生成数学图像/动画等动态部分(图像风格不像是通过代码生成的),有可能是GPT-4o。
接下来将文本和图像两部分拼接起来形成视频,视频风格更像是动画PPT。
人声部分:与文字和图像搭配效果很好,没有出现错误的地方,推测视频左侧文字部分为人声文本的上文prompt,两者先后生成,但不能判断是否为同一模型生成。
推测存在一个中枢推理模型用于控制视频部分的时长,与人声语音时长相匹配。
【测试问题】
有时会出现公式渲染错误,缺失声音的情况。
效果不稳定,有时候水平足以达到真人网课水平,更多的时候都比较普通,目前水平更适合初中、小学等早教视频生成,无法满足高中、大学的教学需求。
【总结】
产品效果较为优秀但不惊艳:右侧组件生成稳定性非常强。
推测产品为较为机械的工作流,端到端程度低,美观化程度依赖视频结构模板和图像模型。目前视频结构较为死板,固定为左字右图/视频。
在真正讲究效果的高中/大学数形结合领域表现一般,目前仅能用在小学/初中领域,作为教师的信息化KPI,或是娱乐性教育。
【思考】
讲解型视频集中于两个应用场景:
1、非可视化不可的场景:如高中和大学数学,不结合动画很难理解抽象的高维世界
2、网课:网课依赖于授课老师的个人解题技巧、出题方向预判等私有数据,数据难以获取。
其他场景的需求刚性存疑。