随着任务复杂度的型实新篇提升,仅为52.8%。测规
力高#OpenAI# #o1模型# #规划能力测试# #Blocksworld# #准确率下滑#
力高此次测试采用了2022年开发的达准PlanBench基准,相比之下,确率此外,智能章该模型会错误地生成完整但无法实际完成的计划。【ITBEAR】9月25日消息,
尽管o1模型在基准性能上有所突破,
据ITBEAR了解,而在54%的情况下,测试中包含了600个Blocksworld领域的任务,在需要20至40个规划步骤的任务中,其准确率更是降至37.3%,该基准旨在评估AI系统的规划能力。这一表现标志着o1在特定任务领域取得了显著进展。o1模型以97.8%的高准确率脱颖而出,在更为复杂的“Mystery Blocksworld”加密版本任务中,o1模型无法保证生成的解决方案的正确性,o1模型的准确率有所下降,传统的规划算法在标准计算机上运行几乎无需额外成本。这在一定程度上限制了其在实际场景中的应用。在Blocksworld任务中,但研究人员也指出了其在实际应用中可能面临的问题。o1模型的性能出现了明显的下滑。亚利桑那州立大学研究团队近日公布了一项关于OpenAI的o1模型的规划能力测试结果。尽管如此,它仍然优于其他参与测试的模型。其准确率从原本的97.8%大幅下降至23.63%。其次,