【产品描述】
以对话驱动的桌面端Agent产品,用于执行高泛化性任务。
快速回答:常规的Chatbot,智能水平较低。
一次性任务执行:具备后台本地文件/系统管理能力、浏览器执行能力。
定时执行:在某个指定时间执行任务,闹钟逻辑。
触发式执行:在某情况发生时执行指定任务。
【功能描述】
本地文件管理:
Agent通过后台终端代码完成文件的遍历、读取和操作,但中间没有权限授予过程。Agent会自行判断工作量,如工作量过大,Agent会尝试寻求缩小范围的方法。
Prompt:我有个文件放在“E:\资料”文件夹里面,是讲衣服品牌的,但是我忘记这个文件叫什么了,请帮我找找
1. Agent首先尝试遍历文件夹内容,发现文件过多,于是提取Prompt中的“衣服品牌鄙视链”为关键词“衣服”、“品牌”、“鄙视”、“消费”等等作为正则表达式匹配文件名,缩小范围后开始读取Word文件内容,最后成功输出。
2. 考虑到大部分人的文件都未必命名规范,二次测试将文件名更改为与“衣服品牌鄙视链”关联度更小的名字“二月十五日测试”,再次测试。这次Agent输出失败。
3. 原因在于:Agent的逻辑是寻找匹配正则表达式的文件名,但当文件名没能匹配上时,Agent就急于输出结果,没有考虑到文件的母文件夹同样可能蕴含某种线索。
浏览器执行:
1. 推断Agent是通过对网站界面截图的方式判断网站具体内容和进行元素识别的,识别效果较为准确,但速度较慢,推测是用了较好的视觉模型。
2. Agent对“查询”、“关闭”等元素的支持较好,但仍然无法通过随机出现的验证码,需要用户手动控制,即使在Prompt中已经提示了这一点.
3. 明显Agent对小红书等热门网站进行了专门优化,在这类网站上的任务表现明显好于非热门网站。除非Prompt进行了详细的介绍,否则非热门网站的跳转逻辑等反应会让Agent陷入困惑,思考时间大幅延长,并出现胡乱操作。
4. Agent无法完成截图的操作
5. 面对网站加载失败,点击“查询”后网站不跳转等情形,Agent无法做出很好的反应,推测Agent的训练数据不够丰富
Prompt1:帮我在Arxiv上查询近三个月来与人工智能记忆(AI Memory)领域直接相关的全部论文,并用专业的Excel格式输出,要求第一列是序号,第二列是文章名,第三列是作者列表,第四列是文章摘要,第五列是文章链接。
追问:请你重新筛选,只保留核心相关的论文放在你前一个回答输出的Excel的Sheet2里面,并且将两个Sheet里面的内容都翻译成中文
1. Agent没有接入判断当前时间的API,其认为近三个月是从2023年11月3日到2024年2月3日,有时候还会出现别的时间范围。
2. Agent查找信息的逻辑默认是关键词匹配,只有在特意强调下才会通过阅读正文或摘要进行判断,推测是一种降低成本的策略,这在很多情形中是有致命问题的,需要在这些场合做专门的调优。
3. 这一任务表现较好,成功筛选出9篇论文,的确与主题相契合。
Prompt2:现在我要查询“爱博诺德(北京)医疗科技股份有限公司”是否存在违规记录并做好底稿留存。文件“E:\资料\xxx\核查名单.xls”的Sheet2 A列中记录着用于核查的政府网站名,E列是这些网站的网址,请你在这些网址中查询这家公司,并直接截图查询界面,不用判断是否有违法行为发生,这个由我手工完成,你只需要截图详情界面就好。截图后按“公司名-网站名”命名截图文件,存放在“C:\xxx\网络核查”文件夹中。在网络查询的过程中,你可能会碰到需要输入验证码的情况,请你自行解决验证码识别和输入的问题。
该问题是一个相对更加复杂的任务,涉及本地文件管理、Office文件处理和网络查询。
Agent面对该任务是失败的,其不能处理政府网站时有时无的卡顿,也不能处理验证码,最后只得让用户频繁地接管,也不具备截图能力。面对稍复杂的网站逻辑,Agent会陷入困惑并开始胡乱操作。
定时执行:
Prompt:每当我的邮箱出现新的邮件时,总结邮件的内容为一句话并发送给我的邮箱
1. 当日有三封邮件,但Agent只从POP3协议中获取到了一封,Agent推测问题如下:
POP3协议的限制:POP3协议可能只显示服务器上未下载的邮件,如果其他两封邮件已经被其他邮件客户端下载过,就不会再显示
邮件可能在其他文件夹:比如垃圾邮件、已归档等文件夹
虽然测试显示IMAP连接成功,但当前工具似乎默认使用POP3协议获取邮件。
触发式执行:
未上线,未进行测试