栏目分类
你的位置:开云网页版登录·官方网站入口 > 新闻中心 > 开云体育满血版仍是负责上线 ChatGPT-开云网页版登录·官方网站入口
发布日期:2026-01-10 11:18 点击次数:141

OpenAI "双十二"第一天,平直抛出重磅炸弹——
最强推理模子 o1,负责上线满血版,还有更强的 Pro 版块一同登台。
ChatGPT 也推出了 Pro 订阅谋划,一个月两百好意思金,平直成为了"天下最贵的大模子"。

CEO 奥特曼与三名职工围坐桌前,一边演示一边先容着新家具的特色。

所有这个词发布会仅抓续不到 15 分钟,但包含了浩繁的信息量:
比较 preview 版块,满血 o1 的数学和代码才调均大幅进步,Pro 版则是再上一层楼。
满血版推理速率更快,比 preview 快了 60%。
网友们期待的多模态推理,满血版 o1 也安排上了。

如奥特曼所说,满血版仍是负责上线 ChatGPT,行为预览的 preview 版从用户界面中隐藏了。

至于更强的 o1 Pro 则是 ChatGPT Pro 订阅用户的特权,除此以外,这些用户还不错赢得 o1 满血版的不限量看望权限。
o1 已救济多模态推理
接下来到了演示要道。
一初始,团队就拿满血版 o1(左边)和 o1-preview(右边)来了场竞速。
他们问了一个历史问题,回应流程 be like:
列出二世纪的罗马天子,包括他们的统领时期和配置。

不错看出,满血版 o1(14 秒)早于 o1-preview(33 秒)完成了作答。再加上团队成员几次近似的离线测试,最终得出论断:
满血版 o1 的平均反应速率比 o1-preview 快了 60%。

值得留心的是,通过一整套东说念主类评估,OpenAI 还发现满血版 o1 在推理时犯要紧乌有的频率比 o1-preview 少了34%。

而满血 o1 的另一大亮点便是救济多模态输入,具备视觉推理才调,团队也进行了现场展示。
只见他们拿出了一张画着数据中心草图的 A4 纸,拍照上传后,原始辅导词翻译后如下:
这里展示了一个高度简化的天际数据中心示意图。关于任何简化的假定,请提供情理。
你的任务是估算这个托管 GPU 的数据中心所需的散热器名义积的下限。在此流程中,还需要回应以下问题:
你如那儿理太阳和深空?
热力学第一定律如何证明作用?

这边团队成员们还在谈天,10 秒事后,模子就初始唰唰唰给谜底了……

有意念念的是,团队还专诚给 o1 模子挖了个坑——成心不祥了其中一个参数,以此来测试模子濒临轻便问题的处理才调。
在团队看来,模子大概坚毅到这是一个进攻但被忽略的参数,亦然推理才调的体现。

惊喜的是,满血版 o1 不仅聘请了正确的参数鸿沟,还通过进一步的简陋论证最终找出了准确参数。

(如模子所回应,正确谜底是 242)

临了,团队也展示了"大会员"专用的 Pro 版的阐发。
既然是 Pro,那测试的问题虽然也要上上难度。
团队成员指出,一些高难度的生化问题,以往 o1-preview 皆搞不定,这下让Pro mode来试试。
比如底下这说念 o1-preview 曾"无法可想"的"猜卵白质"问题:
哪个卵白质严格得当以下圭臬?
前体多肽的长度为 210 到 230 个氨基酸残基。
编码该卵白质的基因高出 32k 碱基。
该基因位于 X 染色体上,十分是在 Xp22 区域。
信号肽包含 23 个氨基酸残基。
该卵白质促进细胞间的粘附。
该卵白质在看守神经系统特定部分的健康中证明要害作用。
只见发问后,Pro mode 出现了一个"念念考程度条",大要53 秒后模子给出了谜底。

进一步点击回应最上头的小框框,就不错在侧边栏伸开推理细节,里面详确纪录了模子的念念考门径。

毕竟按照 OpenAI 的说法,o1(包括之前的 preview 版)在博士级科常识答上的阐发是超越东说念主类内行的。

不外有一说一,Pro 版 200 好意思元一个月的价钱亦然让网友们挺战抖的。
至于到底值不值这个价钱,可能要等先试水的用户用上一段时刻之后的反馈了。

对了,团队这次也提到,背面将以 API 的神气为公共提供 o1 模子的一些功能,包括结构化输出、函数调用、图像 API 等。

BTW,举止收场前,奥特曼专诚 cue 念念维链作家讲了一个见笑。
圣诞老东说念主想用大说话模子来科罚数常识题,效力任何辅导词皆不论用,你知说念临了是若何告成的吗?
reindeer enforcement ( 应该是强化学习 reinforcement,走漏拼写乌有)
好冷……

模子更强,也愈加安全了
o1 满血版发布的同期,时间阐发也在 OpenAI 官网上线。
这份阐发当中,Ilya 的名字依然位列基础孝顺者(Foundational Contributor)之中。

在宣传页面当中,OpenAI 公开展示了 o1 在数学、代码和博士级科常识答三类任务上的收成。

在此基础之上,OpenAI 还进行了愈加严苛的测试,每个问题会盘问四次,模子必须四次全答对才调得分。

除此以外,时间阐发还展示了 o1 的多说话才调。
在包括汉文在内的 14 种说话的 MMLU 测试中,o1 的阐发比较 preview 版均有程度不等的增强。

这里插播一句,濒临这种带罗网的弱智吧问题,满血版 o1 依然是被告成蒙骗(手动狗头)。

不外这份阐发更多围绕着安全性伸开洽商,里面及红队测试效力标明,合座上满血版 o1 在安全性与 o1-preview 接近。
若是和 GPT-4o 比,o1 对无益本色的检测和隔断才调也更强,何况在逃狱测试中展现出更强的鲁棒性。

在实践风险上,OpenAI 和红队针对网罗安全、生化和核挟制等情状对 o1 进行了测试,效力雷同与 o1-preview 接近。
另外,OpenAI 对 o1 和 o1-preview 的念念维链推理流程进行了骗取性分析,通过让模子讲明其步履背后的念念考,了解模子是否有保密信息、主管数据的倾向。
效力,o1-preview 在 26% 的案例中会成心保密信息主管数据,而 o1 的比例降到了 19%。
Two More Things
在发布会初始之前,就仍是有网友从 ChatGPT 的 JS 代码中发现了 Pro 版的蛛丝马迹。
其中,200 好意思元的价钱以及 o1 pro 方式,还有对满血 o1 的不限量看望,皆和这次发布对得上。

另外,从这份 JS 代码中还能看到,在 Team 版块的有关位置,还出现了" GPT-4.5 "。

再趁机提一句,有网友让马斯克的 Grok 鸠集 X 上的推文展望了一下 OpenAI 皆会发布些什么,其中第二条告成掷中了这次发布的满血 o1。

不知说念接下来的 11 个发布日中,GPT-4.5 是否会"如约而至",Grok 又能猜对几许个家具呢?
参考贯穿:
[ 1 ] https://openai.com/index/introducing-chatgpt-pro/
[ 2 ] https://x.com/theredwall__/status/1864677161535156358?s=46
[ 3 ] https://x.com/btibor91/status/1864709670470066605
时间阐发:
https://cdn.openai.com/o1-system-card-20241205.pdf开云体育
Powered by 开云网页版登录·官方网站入口 @2013-2022 RSS地图 HTML地图
