【ITBEAR】科技媒体The 再夺Decoder于昨日发布了一篇引人注目的报道,在16.9%的o1比赛中至少获得了一枚铜牌,OpenAI也承认MLE-bench存在局限性,再夺
OpenAI在MLE-bench上测试了多个AI模型和智能体框架,o1它并未涵盖AI研究与开发的再夺无码所有方面,

尽管如此,o1OpenAI希望通过这一工具,再夺这一基准旨在评估AI智能体在开发机器学习解决方案方面的o1实力,这一成绩甚至超越了Anthropic的再夺Claude 3.5 Sonnet。以此评估AI在特定任务中的o1能力。o1-preview模型在测试中更是获得了7枚金牌。该基准现已在GitHub上发布,而获得5枚金牌即可评为“Grandmaster”特级大师,
然而,披露了OpenAI公司最新推出的MLE-bench基准。MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。


MLE-bench专注于两个核心领域:选择具有挑战性的任务,
值得注意的是,其中使用AIDE框架的o1-preview模型表现尤为出色,