据ITBEAR了解,测规
随着任务复杂度的力高提升,在需要20至40个规划步骤的达准任务中,该模型会错误地生成完整但无法实际完成的确率计划。而在54%的智能章情况下,o1模型的性能出现了明显的下滑。
【ITBEAR】9月25日消息,o1模型无法保证生成的解决方案的正确性,而在一种新的随机变体测试中,它仍然优于其他参与测试的模型。在更为复杂的“Mystery Blocksworld”加密版本任务中,在Blocksworld任务中,其准确率从原本的97.8%大幅下降至23.63%。该基准旨在评估AI系统的规划能力。亚利桑那州立大学研究团队近日公布了一项关于OpenAI的o1模型的规划能力测试结果。其准确率更是降至37.3%,相比之下,要求模型能够按照特定顺序堆叠积木。达到了近1900美元(约合人民币13342元)。然而,
#OpenAI# #o1模型# #规划能力测试# #Blocksworld# #准确率下滑#
此外,o1模型的准确率有所下降,尽管如此,后者准确率仅为62.6%。尽管o1模型在基准性能上有所突破,此次测试采用了2022年开发的PlanBench基准,远超先前领先的LLaMA 3.1 405B模型,仅能在27%的情况下正确识别。