Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
  • Product Hunt
  • Visual Capitalist
  • Elon Musk
Menu

OpenAI o3 在 ARC-AGI-PUB 上突破高分

Posted on 2024-12-21

OpenAI o3 在 ARC-AGI-PUB 上突破高分

François Chollet 是 ARC 奖的联合创始人,可以提前获得今天的 o3 结果。他的文章是我所见过的对 o3 最有洞察力的报道,超越了基准测试结果,讨论了这一切对于该领域的总体意义。

一个令人着迷的细节:在“高效率”模式下运行 o3 来对抗 400 个公共 ARC-AGI 谜题并获得 82.8% 的分数,花费了 6,677 美元,而运行“低效率”模式模型以获得 91.5% 的分数则需要花费 6,677 美元。 。注释中写道:

o3 高计算成本不可用,因为定价和功能可用性仍待确定。计算量大约是低计算配置的 172 倍。

所以我们可以在这里得到一个大概的估计:172 * $6,677 = $1,148,444!

以下是 François 解释 o3 背后的可能机制的方式,这让我想起了暴力国际象棋计算机的工作原理。

目前,我们只能推测 o3 工作原理的具体细节。但 o3 的核心机制似乎是令牌空间内的自然语言程序搜索和执行 – 在测试时,模型搜索可能的思想链 (CoT) 空间,描述解决任务所需的步骤,以一种可能不太可能的方式与 AlphaZero 风格的蒙特卡罗树搜索不同。在 o3 的情况下,搜索可能是由某种评估器模型引导的。值得注意的是,Demis Hassabis 在 2023 年 6 月的一次采访中暗示,DeepMind 一直在研究这个想法——这项工作已经进行了很长时间了。

因此,虽然单代法学硕士在与新颖性作斗争,但 o3 通过生成和执行自己的程序来克服这个问题,其中程序本身(CoT)成为知识重组的产物。尽管这不是测试时知识重组的唯一可行方法(您也可以进行测试时训练,或在潜在空间中搜索),但它代表了根据这些新的 ARC-AGI 数字当前的最新技术。

实际上,o3 代表了深度学习引导的程序搜索的一种形式。该模型在深度学习先验(基础法学硕士)的指导下,在“程序”空间(在本例中为自然语言程序——描述解决手头任务的步骤的 CoT 空间)上进行测试时搜索。解决单个 ARC-AGI 任务最终可能会占用数千万代币并花费数千美元的原因是,这个搜索过程必须探索程序空间中的大量路径——包括回溯。

我不确定 o3 (以及 o1 和类似模型)是否还有资格成为 LLM – 显然这里发生的事情不仅仅是下一个令牌预测。

关于 o3 是否应该符合 AGI 的问题(无论这意味着什么):

通过ARC-AGI并不等于实现AGI,事实上,我认为o3还不是AGI。 o3 在一些非常简单的任务上仍然失败,这表明与人类智能存在根本差异。

此外,早期数据点表明,即将推出的 ARC-AGI-2 基准测试仍将对 o3 构成重大挑战,即使在高计算量下,其得分也可能会降低到 30% 以下(而聪明人仍然能够得分超过 95%)没有经过任何培训)。

标签:推理缩放,生成人工智能, openai , o3 , francois-chollet , ai , llms

原文: https://simonwillison.net/2024/Dec/20/openai-o3-breakthrough/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abdisalan Mohamud
  • Addy Osmani
  • Aeon
  • Ahoy There! on THT's den
  • Alec Muffett
  • Andreas
  • anhvn
  • Ankaph
  • Annie
  • Armin Ronacher
  • Ask Hacker News Weekly
  • Astro Blog
  • Austin White
  • Backlinko
  • Better Dev Link
  • Building Pika Out Loud
  • Caleb Hearth
  • Cédric Aellen
  • Chip Huyen
  • Colossal
  • Cooltools by KK
  • CoRecursive
  • Craig Mod
  • Curt Merrill
  • Dan Abramov's Overreacted Blog RSS Feed
  • Daniel Lemire
  • Daniel Stenberg
  • Daring Fireball
  • David H
  • David Heinemeier Hansson
  • Dayu | 大宇
  • Ed Zitron
  • Ersei
  • Ersei 'n Stuff
  • Evan Martin
  • First Page Sage
  • Founder Weekly
  • FuzzyGrim
  • Gabriel
  • Good Enough
  • Gregory Hammond
  • Habib
  • How They Make Money
  • I Love Charts
  • Ian Betteridge
  • Ivaylo Durmonski
  • Jason Kottke
  • Jason Kratz
  • Jeff Perry
  • John D. Cook
  • Jonas Hietala
  • Jonathan Snook
  • jwb
  • Kevin Kelly
  • Kevin Yank
  • Kirsty
  • Kush
  • Loris Cro
  • Maarten van Gompel
  • Manas J. Saloi
  • Mandy Brown
  • Matt Fantinel
  • Matt Mullenweg
  • Mere Civilian
  • Ness Labs
  • News Letter
  • Nicholas Carlini
  • Nicolas F. R. A. Prado
  • Niko
  • Nir Eyal
  • Noah Smith
  • Pedro Lopes
  • Positive News
  • Predrag Gruevski
  • Rachel Kroll
  • Recomendo by KK
  • rendezvous with cassidoo
  • Rest of World
  • Ruben Schade
  • Scott Galloway
  • Sébastien Etter
  • SEMrush Blog
  • Seth Godin
  • Shariq Raza Qadri
  • Simon Willison
  • Six Colors
  • Slashdot
  • Spectre Collie
  • Spyglass
  • storytelling with data
  • Streamline Blog
  • Tableau Blog
  • tekphloyd
  • The Alchemy of Money
  • The Independent Variable
  • The Marginalian
  • thriftmac
  • Tim Bray
  • Tim Ferriss
  • Tim Kellogg
  • TLDR
  • Topslakr
  • Track Awesome list
  • Trump
  • Victor Kropp
  • Vincent Ritter
  • Vox
  • Westenberg
  • Xe Iaso
  • xkcd
  • Yuri Cunha
  • Zarar
  • 未分类
  • 英文媒体
  • 英文推特
  • 英文独立博客
  • 读写错误
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme