openaio3系列大模型压台登场-科技今日热点_娱乐头条才是你关心的时事新闻

12月21日消息，“12DaysofOpenAI”活动已拉上帷幕，OpenAI的o3系列大模型压台登场，官方称在某些场景下，其推理能力非常接近通用人工智能（AGI）。

名称

最新的AI模型为何跳过o2，叫做o3呢？OpenAI公司首席执行官山姆・阿尔特曼（SamAltman）在今天早上的直播活动，表示是为了规避和英国电信运营商O2的商标冲突。

邀请安全测试

o3是o1推理模型的继任者，包含完整版和精简版（o3-mini），后者主要针对特定任务进行了微调。

OpenAI公司暂未完全开放o3和o3-mini两款模型，即日起先邀请安全研究人员，注册测试预览版o3-mini模型，后续再推出o3预览版。

现在，感兴趣的朋友可以提交申请：https://openai.com/index/early-access-for-safety-testing/。

阿尔特曼并未公布o3模型的具体开放日期，仅透露2025年1月底推出o3-mini，后续再推出o3。

o3模型推理

OpenAIo3模型和主流AI模型的一个最大不同点，在于会展开事实核查，从而可以规避一些常见的模型陷阱，但这个过程会产生响应延迟，根据推理难度，通常是几秒到几分钟。

o3系列模型的另一个亮点是使用“私人思想链”（privatechainofthought）进行“思考”，它可以在响应前暂停，考虑相关提示并解释其推理过程，最终总结出最准确的答案。

o3的新功能之一是可以调整推理时间，分为低、中、高三种计算级别，计算级别越高，o3的任务执行性能越好。

性能和AGI

AGI的全称是artificialgeneralintelligence，直译过来就是通用人工智能，泛指AI可以像人类一样执行任何任务，OpenAI公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。

OpenAI公司正积极朝AGI目标迈进，除了巩固其在AI领域的地位之外，还在投资领域有特别的含义。

根据OpenAI与密切合作伙伴和投资者微软的交易条款，一旦OpenAI达到AGI，公司就不再有义务向微软提供其最先进的技术（即符合OpenAI的AGI定义的技术）。

而o3是OpenAI是迈向该目标的重要一步，在ARC-AGI基准测试中，o3在高计算设置下获得了87.5%的分数，在低计算设置下得分为75.7%，性能是o1的三倍。

ARC-AGI联合创始人FrançoisChollet表示，诚然高计算设置非常昂贵，每个任务要花费数千美元。

IT之家援引该媒体报道，在其他基准测试中，o3表现出色：

在SWE-BenchVerified编程任务基准测试中，o3比o1高出22.8个百分点；

在Codeforces编程技能测试中，o3获得了2727的评分；

在2024年美国数学邀请赛中，o3得分96.7%；

在GPQADiamond研究生水平生物、物理和化学测试中，o3得分87.7%；

在EpochAI的FrontierMath基准测试中，o3解决了25.2%的问题（其他模型均不超过2%），创造了新纪录。

这些结果来自OpenAI的内部评估，需要等待外部客户和机构的基准测试结果来进一步验证。

安全

o3的发布标志着OpenAI在通用人工智能领域迈出了重要一步。虽然o3的能力令人印象深刻，但其潜在风险也需要引起重视。OpenAI承诺将致力于模型安全，并与其他机构合作构建更完善的基准测试体系。

	这么对你的男人，只是在“吊着你”，不是真的喜欢
	主人在院子里摆了些猫薄荷，半个小时再回来时：完了，这下赚翻了
	两只萌萌的柯基，打起架来，你绝对想象不到会怎样！
	女人对你说这出这4句“狠话”，不是不爱你，而是已经爱你入骨了
	400万拆迁款到手，丈母娘就来要380万，媳妇的做法伤透了丈夫的心
	异性相处潜规则：玩玩而已的男人，会有这个破绽
	经历背叛后，有本事的原配，不说3句话！聪明又有远见
	为了掂量自家猫到底“几斤几两”，铲屎官们真是操碎了心
	对外人好却窝里横的背叛者：被原配因为这2件事，惯坏的杂碎！
	婆婆让我把结婚的三金借给小叔子，给我转500，我：弟妹会还吗？

头条资讯网_今日热点_娱乐才是你关心的时事