
6月8日,Apple Machine学习研究中心于6月6日为该地区发布了一项研究工作,指出现有的AI模型缺乏真实的思维和推理技能,但相信模式和记忆的巧合,尤其是对于复杂的任务。苹果研究人员系统地评估了现有的前卫“大规模推理模型”,例如Openai O3-Mini,DeepSeek-R1,Anthrope的十四行诗Claude 3.7的想法以及Google Gemini的想法。在这项研究中,这些模型能够生成详细的“链”并显示中等复杂性任务的好处,但是它们的推论能力具有根本的局限性。一旦问题的复杂性超过了一定的重要一点,模型的性能就会完全崩溃。此外,即使对于模型推理过程中仍然有足够的计算机功率,用于“思考”的代币数量确实会随着难度的增加而减少。换句话说,exi刺激推理方法具有根本的局限性。本文“思想的错觉:了解问题复杂性的推论模型的益处和局限性”,由Parshin Shojaee等人撰写。研究表明,这些模型的当前评估集中在数学和编程参考点以及最终响应的精确性上,这些响应通常忽略了数据污染的问题,并且没有提供有关内部推理轨迹的结构和质量的信息。研究人员采用了一系列难以控制的拼图解决环境,这些环境允许对组成复杂性进行精确的操纵,同时保持逻辑结构的一致性。这不仅使我们能够分析最终响应,还可以探索内部推理轨迹,这将使我们能够更深入地了解这些模型如何“思考”。研究人员建议将模型性能分为三个ST年龄。低重复扩展任务:传统的大型型号(主页注:Claude-3.7的版本)将提高性能。中等组合任务:具有思维机制的大规模推理模型(LRM)更为主导。高复杂性任务:两种类型的模型都被归类为完全失败的状态。特别是,众所周知,LRM在实现精确计算的实现方面存在局限性,并且在使用显式算法中使用不同难题中的推断时,无法显示不一致。通常,这项研究不仅基于已建立的数学参考点质疑LRM的当前范式,而且还强调了需要更细致的实验构型来研究这些问题。通过使用可控的拼图环境,本研究对语言推论模型的能力和局限性提供了深远的看法,并指向了未来的研究地址。 “这些发现突出了EXI的好处和局限性研究人员说:“刺痛LRMS并询问有关这些系统中推论的性质,这对于设计和实施非常重要,”思想的幻想:通过对问题的理解G -Apple Machine学习研究的复杂性镜头,推理模型的好处和局限性