12月21日消息,“12DaysofOpenAI”活动已拉上帷幕,OpenAI的o3系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。
名称
最新的AI模型为何跳过o2,叫做o3呢?OpenAI公司首席执行官山姆・阿尔特曼(SamAltman)在今天早上的直播活动,表示是为了规避和英国电信运营商O2的商标冲突。
邀请安全测试
o3是o1推理模型的继任者,包含完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。
OpenAI公司暂未完全开放o3和o3-mini两款模型,即日起先邀请安全研究人员,注册测试预览版o3-mini模型,后续再推出o3预览版。


现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/。
阿尔特曼并未公布o3模型的具体开放日期,仅透露2025年1月底推出o3-mini,后续再推出o3。
o3模型推理
OpenAIo3模型和主流AI模型的一个最大不同点,在于会展开事实核查,从而可以规避一些常见的模型陷阱,但这个过程会产生响应延迟,根据推理难度,通常是几秒到几分钟。
o3系列模型的另一个亮点是使用“私人思想链”(privatechainofthought)进行“思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案。
o3的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3的任务执行性能越好。
性能和AGI
AGI的全称是artificialgeneralintelligence,直译过来就是通用人工智能,泛指AI可以像人类一样执行任何任务,OpenAI公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。
OpenAI公司正积极朝AGI目标迈进,除了巩固其在AI领域的地位之外,还在投资领域有特别的含义。
根据OpenAI与密切合作伙伴和投资者微软的交易条款,一旦OpenAI达到AGI,公司就不再有义务向微软提供其最先进的技术(即符合OpenAI的AGI定义的技术)。
而o3是OpenAI是迈向该目标的重要一步,在ARC-AGI基准测试中,o3在高计算设置下获得了87.5%的分数,在低计算设置下得分为75.7%,性能是o1的三倍。
ARC-AGI联合创始人FrançoisChollet表示,诚然高计算设置非常昂贵,每个任务要花费数千美元。
IT之家援引该媒体报道,在其他基准测试中,o3表现出色:
在SWE-BenchVerified编程任务基准测试中,o3比o1高出22.8个百分点;
在Codeforces编程技能测试中,o3获得了2727的评分;
在2024年美国数学邀请赛中,o3得分96.7%;
在GPQADiamond研究生水平生物、物理和化学测试中,o3得分87.7%;
在EpochAI的FrontierMath基准测试中,o3解决了25.2%的问题(其他模型均不超过2%),创造了新纪录。



这些结果来自OpenAI的内部评估,需要等待外部客户和机构的基准测试结果来进一步验证。
安全
o3的发布标志着OpenAI在通用人工智能领域迈出了重要一步。虽然o3的能力令人印象深刻,但其潜在风险也需要引起重视。OpenAI承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » openaio3系列大模型压台登场