Google 深夜发布免费版 o1「暴打」OpenAI,实测解题快 3 倍,这句高情商回答绝了
创始人
2024-12-20 08:57:05
0

OpenAI 又是被抢头条的一天。

发布会前夕,Deepmind 抢先发布了与 o1 模型类似的 Gemini 2.0 Flash Thinking 模型,在大模型竞技场 LMSYS 上杀疯了。

而随后 OpenAI 发布会则重点展示了桌面版 ChatGPT 与 Mac 应用的深度集成能力。

可以说,桌面版 ChatGPT 正有望成为你最靠谱的生产力搭子。

抢先实测 Google 版 o1,效果大出所料

没有人比 Google 更懂「狙击」。

今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型,从名字上就可以看出,这是一款类似于 OpenAI o1 的推理模型。

转投 Google 阵营的 Logan Kilpatrick 在 X 平台上发文称:

「就在你以为一切都结束了的时候… 我们推出了 Gemini 2.0 Flash Thinking。

这是一种新的实验模型,可以解锁更强的推理能力并展示其思考过程,能够以闪电般的速度解决复杂问题,以及还有更多功能。

在大模型竞技场 LMSYS 上真·战绩可查。

当然,旁人说得再好,不如亲自上手体验。

我们也第一时间上手实测了这款新模型,先来「9.11 和 9.8 哪个大」的经典问题,结果新模型轻松拿捏,甚至还能用钱举例。

「strawberry 中有几个 r」也手拿把掐, 点开后还能看到其清晰的「思考」步骤。

面对职场分水难题「你有 4 杯水,来了 5 个领导你该怎么办?」,Google 版 o1 又会如何应对?满分十分,你给这个答案给几分?

向左内容

对于「有轨电车难题」的回答,除了前面有条不紊的回答,我更喜欢这位新选手最后一句高情商的回答:

「理解你的思考过程比得到一个『正确』答案更重要。」

向左内容

为了考察新模型是否「偏科」,我也上传了一道考研数学热门题,并让它和 OpenAI o1 模型同时作答。

省去繁琐的运算过程后,两者得出的结果一致,但 Google 版 o1 只花了 27.5 秒,相比之下,OpenAI o1 花了足足 1 分 32 秒。

向左内容

当然,最好的评价还是亲自上手。附上体验地址 👇:

https://aistudio.google.com/prompts/new_chat

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

给 Mac 装上最强大脑,这才是真正的人机交互

在被抢头条后,OpenAI 也不慌不忙地如期举行了发布会。

全新桌面版 ChatGPT 将超越单纯的问答,能够通过与 30 多种应用协作来辅助提升你的写作和编程能力。

使用方式也十分简单,用户只需确保目标应用正在运行,然后在 ChatGPT 聊天栏中点击「与应用协作」(Work With Apps)按钮并选择相应应用即可。

聊天栏上方会显示当前协作的应用程序,用户可以随时查看 ChatGPT 将要处理的内容范围。 这些互动记录会保存在用户账户中,直到被删除或经过 30 天自动清除。

在实际演示中,OpenAI 工作人员通过 Mac 版 ChatGPT 展示了多项实用功能。

以 Warp 控制台为例,ChatGPT 能够根据演示人员要求快速生成 Git 命令来统计代码库的每日提交次数,并将其数据可视化为富有圣诞节气氛的柱状图。

在这个过程中,它正是充分使用了 Advanced Data Analysis(高级数据分析)等内置功能。

为保护用户隐私,OpenAI 演示人员表示只会访问用户明确授权的应用内容。

但在查阅 OpenAI 官网后发现,这些交互数据可能会被用于模型训练,因此你需要在设置中调整数据使用权限,甚至按需禁用应用协作功能。

「它还告诉我们这个文本字段有 37 行,我们可以向下检查确认是否是 37 行。」

有趣的是,演示过程再次上演翻车场面。

当要求 ChatGPT 添加「观察者」功能,选择变化加载文本区域时,o1 生成的代码在 Xcode 运行失败,直到修正过后才成功。

值得一提的是,这项功能不仅支持 Xcode,还覆盖了 VS Code、Jetbrains 全家桶等主流开发工具。

写作场景是日常最实用的场景之一。

Mac 版 ChatGPT 也将支持 Notes、Notion 和 Quip 等多款应用,为用户带来全新的写作协作体验。

作为旧金山徒步历史导览员,OpenAI 演示人员通过自己正在设计的导览项目生动展示了这些新功能。

比如说,在 Notion 文档中,他正尝试编写关于旧金山历史人物「诺顿皇帝」的介绍,但如何描述历史人物的生平,如何挖掘有趣细节等等都是一门不小的学问。

借助搜索功能,ChatGPT 能够 查证历史文献和研究资料,快速补充诺顿皇帝在旧金山的活动轨迹、与当地居民的互动等生平细节,并对其过往行为进行深入解读。

了减少 AI 的机器味,我们也能要求其模仿 Notion 文档中的语言表达方式和叙述节奏,对内容进行调整,使其更加流畅自然。

除了文本交互,ChatGPT 高级语音模式 还有新玩法。

作为一名职业萨克斯演奏家,OpenAI 演示人员还能与前不久刚推出的「圣诞老人」限定语音讨论节日派对曲目的选择。

演示人员还即兴演奏了一段动听的萨克斯乐曲。

目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上线,而 Windows 版本很快也会推出。 不妨再耐心等待一下。

发布会最后,OpenAI CPO Kevin Weil 还预告明天将会发布 「令人兴奋」的新产品。

Google、Anthropic 等公司面对年底最后一轮 AI 狂欢,是否又会再次放大招「狙击」?

一切都值得拭目以待。

APPSO 也将在明天凌晨第一时间送上最新报道。

相关内容

热门资讯

原创 原... 原神月之四版本幽境危战打法,很多玩家不知道打法技巧,怎么才能去更好的来使用,可以更好的去击败所有的敌...
上、下路被爆,TES二比零复仇... 近日,IG与TES迎来登峰组第二次对决,相比较上一场双方的比赛,明显感觉到TES赛前准备功夫做得更加...
《龙珠》新游戏“AGE 100... 作为纪念《龙珠》系列40周年新作,万代南梦宫公开全新游戏企划“AGE 1000”,该企划由已故《龙珠...
6块钱买新年战袍,年轻人整顿过... 00后不仅在职场“掀了桌子”,在婚恋观上提出了人间清醒的建议,更是对春节这种复杂的人际关系消耗场景,...
13万愿望单达成!DIY飞艇遨... 游戏发行商Snail Games USA和独立团队Loric Games宣布,其备受期待的多人合作飞...
《大航海时代:起源》远航测试定... 如果说有一个系列能代表一代人对海洋与探索的全部向往,那《大航海时代》无疑承载了太多记忆与梦想。202...
超赛巴达克、超级17号登场《七... 目前正在Steam与各主机平台好评发售中的《七龙珠 电光炸裂!ZERO》,将于2026年夏季在推出包...
巅峰赛登顶,孙权突然成为版本黑... 大家好我是指尖,翻看英雄数据的时候,发现巅峰赛出现了一个较大的变数,孙权竟然登顶了。 出场率21.8...
金融活水精准滴灌 平安融易助力...   日前,在龙华区某市政工程项目部,施工现场机械轰鸣,一片繁忙。小微企业主陈先生正向前来回访的平安融...
不止孤岛惊魂!曝多部《刺客信条... 在育碧为多款《孤岛惊魂》游戏推出PS5平台的60帧更新后,据传下一波优化目标将转向《刺客信条》系列。...
《伊莫》想为“大世界捉宠”创造... 首测令无数玩家倾心后,FunPlus投资的爪印工作室研发的《伊莫》(Aniimo),于1月23日开启...
消息称R星仍在开发《荒野大镖客... IT之家 1 月 26 日消息,R 星《荒野大镖客:救赎 2》于 2018 年发售,然而直到今天,本...
4100万日活迎战春节档,到底... Bro快看看3x3还有多久?就四天了! 今天直播讲了啥?教官回来了?新奶妈还有牢赛牛逼不? 多了去了...
育碧《波斯王子》重制版被曝已完... IT之家 1 月 26 日消息,育碧近期的组织调整引发巨大争议:6 款游戏被砍,多款作品延期,公司股...
原创 T... LPL精彩赛事依旧在火热进行中,这一次是TES和IG的对决,对于TES来说,这可是一场复仇之战,必须...
原创 王... 王者荣耀4款绝版皮肤,已经确定永不返场,拥有的人账号价值飙升,在《王者荣耀》里,限定皮肤并不稀奇,真...
《如龙 极3》试玩版数据挖掘爆... 随着《如龙 极3》推出试玩版,游戏的更多情报也被爆出。根据数据挖掘者的爆料,在《如龙 极3》试玩版游...
在中国玩家的指导下,这游戏上了... 杀时间的利器,《矮人军团自走棋》凭借其简单的玩法在一众自走棋游戏中脱颖而出。玩家只需随着不断增长的游...
原创 多... 大家好我是指尖,1月已经进入了倒计时,新年第一个月就这么如流水般划过,在王者峡谷中你收获了什么呢? ...
一血吃鸡!肉鸽+酒馆战旗! 在《怪物对决自走棋》这款背包管理自走棋游戏中,你需要不断收集、组合、排列,打造坚不可摧的队伍。用这支...