有些小惊喜,比如人声,节奏的编排,多模态的识别 注意仅仅是识别并非理解,以及某种特定的风格比如现代爵士?有不错的正反馈,但就音乐生成智能体这个目标而言,对风格,旋律进行,意图理解,指令遵循以及一致性还有很多工作。应用场景可能还是对质量要求不高的配乐而非出品级的音乐创作流程。
一些启发
1.用游戏化的方式多一些控制选项?众包?
2.风格,重点还得是风格,流派,音乐是流动的,不是简单的乐器的组合,现在标注和数据解决不了,基于dit的架构如何突破
3.长时记忆应用在音乐生成中如何理解用户的“口味”来逼近一致性