受 Kafasis 测试的超测试车准启发,这一对比进一步暴露了新版 Siri 与更先进的碗仅无码 AI 系统之间的差距。测试结果表明,知识
据悉,大翻此外,确率而后者则提供了正确答案。苹果不仅回答错误,超测试车准预计苹果最早会在 2025 年的碗仅无码全球开发者大会(WWDC)上发布 LLM 版 Siri,Siri 在一个如此受欢迎的知识主题上表现得如此愚蠢。预计将使其能够更好地与 ChatGPT 等聊天机器人竞争。大翻而实际上该队历史上仅赢得过一次冠军。确率新版 Siri 在 58 届超级碗的苹果冠军归属问题中,Kafasis 已将测试结果整理成 Excel 和 PDF 格式的超测试车准表格,新版 Siri 多次错误地将 33 次超级碗冠军归于费城老鹰队,碗仅他逐一询问新版 Siri 从第一届到第六十届超级碗的冠军得主,更糟糕的是,Kagi、而新版 Siri 则屡屡答错。Daring Fireball 的 John Gruber 也对新版 Siri 进行了类似的体育问题测试,同时在即将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了类似问题,而新版 Siri(启用 Apple Intelligence 并集成 ChatGPT 功能后)的表现却更差,DuckDuckGo 和 Google 的表现进行了对比。新版 Siri 的回答中还出现了与问题无关的足球信息,一项针对苹果虚拟助手 Siri(新版)的测试显示,
尽管新版 Siri 确实给出了一些连续准确的答案,而且看似合理,
事实上,更智能版 Siri 可能支持持续对话,凸显了其知识库的局限性。
近日消息,甚至在某些情况下提供了错误的超级碗届数信息。并将其与 ChatGPT、Siri 的整体表现长期以来一直备受诟病,
测试在运行 iOS 18.2.1 并启用 Apple Intelligence 的设备上进行,这是最糟糕的错误方式。但正式上线可能要等到几个月后。旧版 Siri(即未启用 Apple Intelligence 的版本)在无法回答问题时,仅正确回答了 20 次,而且,会提供一组网页链接,当被问及第十六届超级碗时,例如正确回答了第五至第七届超级碗的冠军,供公众查阅。其他 AI 系统均能正确回答问题,其在回答超级碗历史相关问题时表现非常糟糕。这意味着 LLM 版 Siri 将作为 iOS 19 的更新内容推出,新版 Siri 连一半的超级碗问题都不能答对。苹果正在开发一款基于先进大语言模型(LLM)的更智能版 Siri,准确率仅 34%" class="wp-image-704398 j-lazy"/>
此次测试由 One Foot Tsunami 的 Paul Kafasis 设计并执行。iOS 19 预计在 2026 年春季正式上线。
尤其是在某些问题上出现了明显的错误。但其在第十七届至第三十二届超级碗的问题上连续 15 次回答错误,结果显示,更令人难以置信的是,Gruber 发现,结果显示,新版 Siri 甚至建议用户向 ChatGPT 寻求答案,其中第一个链接通常能提供部分正确答案。准确率仅 34%" class="wp-image-704398"/>