头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

openaio3系列大模型压台登场

12月21日消息,“12DaysofOpenAI”活动已拉上帷幕,OpenAI的o3系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。

名称

最新的AI模型为何跳过o2,叫做o3呢?OpenAI公司首席执行官山姆・阿尔特曼(SamAltman)在今天早上的直播活动,表示是为了规避和英国电信运营商O2的商标冲突。

邀请安全测试

o3是o1推理模型的继任者,包含完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。

OpenAI公司暂未完全开放o3和o3-mini两款模型,即日起先邀请安全研究人员,注册测试预览版o3-mini模型,后续再推出o3预览版。

现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/。

阿尔特曼并未公布o3模型的具体开放日期,仅透露2025年1月底推出o3-mini,后续再推出o3。

o3模型推理

OpenAIo3模型和主流AI模型的一个最大不同点,在于会展开事实核查,从而可以规避一些常见的模型陷阱,但这个过程会产生响应延迟,根据推理难度,通常是几秒到几分钟。

o3系列模型的另一个亮点是使用“私人思想链”(privatechainofthought)进行“思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案。

o3的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3的任务执行性能越好。

性能和AGI

AGI的全称是artificialgeneralintelligence,直译过来就是通用人工智能,泛指AI可以像人类一样执行任何任务,OpenAI公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。

OpenAI公司正积极朝AGI目标迈进,除了巩固其在AI领域的地位之外,还在投资领域有特别的含义。

根据OpenAI与密切合作伙伴和投资者微软的交易条款,一旦OpenAI达到AGI,公司就不再有义务向微软提供其最先进的技术(即符合OpenAI的AGI定义的技术)。

而o3是OpenAI是迈向该目标的重要一步,在ARC-AGI基准测试中,o3在高计算设置下获得了87.5%的分数,在低计算设置下得分为75.7%,性能是o1的三倍。

ARC-AGI联合创始人FrançoisChollet表示,诚然高计算设置非常昂贵,每个任务要花费数千美元。

IT之家援引该媒体报道,在其他基准测试中,o3表现出色:

在SWE-BenchVerified编程任务基准测试中,o3比o1高出22.8个百分点;

在Codeforces编程技能测试中,o3获得了2727的评分;

在2024年美国数学邀请赛中,o3得分96.7%;

在GPQADiamond研究生水平生物、物理和化学测试中,o3得分87.7%;

在EpochAI的FrontierMath基准测试中,o3解决了25.2%的问题(其他模型均不超过2%),创造了新纪录。

这些结果来自OpenAI的内部评估,需要等待外部客户和机构的基准测试结果来进一步验证。

安全

o3的发布标志着OpenAI在通用人工智能领域迈出了重要一步。虽然o3的能力令人印象深刻,但其潜在风险也需要引起重视。OpenAI承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » openaio3系列大模型压台登场

分享到:更多 ()
来源:浅语科技 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表