谁是最强AI?Google史诗级复仇,碾压GPT-4
创始人
2024-02-09 13:47:20
0

原标题:谁是最强AI?Google史诗级复仇,碾压GPT-4

AI大模型是一场军备竞赛,沉寂多时的Google终于迎头赶上,一跃成为OpenAI最强有力的竞争者。12月6日,Google DeepMind发布Gemini(双子座)大模型,在跑分中成功赶超OpenAI的GPT-4,成为新一代的大模型王者。

跑分第一,Gemini大模型完胜GPT-4

Gemini是Google新一代AI大模型,分为Ultra、Pro、Nano三个版本。其中,Gemini Ultra是Google参数规模最大、功能最强的大模型,适用于高度复杂的任务;Gemini Pro是中型大模型,可扩展应用于多种任务;Gemini Nano为小型大模型,主要应用于AI终端设备。

在作为大模型行业基准的MMLU(大规模多任务语言理解)测试中,Google的Gemini Ultra得分率为90%,超过得分率为89.8%的人类专家、得分率为86.4%的GPT-4。在同一测试中,Anthrophic的Claude 2得分率为78.5%,Meta的Llama 2得分率为68%。

作为第一个在MMLU测试中战胜人类专家的大模型,Gemini Ultra在自然图像、音视频理解、数学推理方面能力突出。在大模型广泛使用的32项学术基准中,Gemini Ultra有30项为行业最优。

在跨领域、多模态任务组成的MMMU基准测试中,Gemini Ultra获得了59.4%的SOTA分数。

在Google看来,以Gemini为代表的新一代大模型更注重对世界的理解和互动,对于人类而言,更像是一个能力强大、乐于助人的合作者,而不只是一款聪明的软件。

原生多模态,Gemini引领新一代大模型

在训练方法上,Gemini大模型改变了分别训练不同模态数据、完成之后拼接在一起的传统方法,一开始便设计为原生多模态,由文本、代码、图像、音频、视频等多模态数据进行训练、微调。采用这一方法后,大模型对多模态内容的理解、推理能力大为增强,可组合不同类型、不同模态的信息,进行流畅的归纳、理解、推理和操作。

在Google DeepMind发布的一段视频中,一个男子做出后仰、躲闪的慢动作,Gemini马上猜出,这是在模仿电影《黑客帝国》的“子弹时间”场景。在另一段视频中,用画笔在纸上勾勒一只鸭子,为之涂上蓝色,Gemini马上指出错误:“这不是鸭子常见的颜色。”三个空杯放在桌子上,其中一个塞进蓝色纸团,眼花缭乱地打乱次序后,Gemini可准确识别纸团在哪只杯子里。

在多模态推理能力增强后,Gemini大模型可以读懂字迹凌乱的手写内容,把相关问题和解决方案转换为数字排版,识别错误的推理步骤,一步步给出问题的解决方案。

在另一个使用场景,Gemini大模型动用阅读、过滤、理解的能力,从数十万份文件中提取数据集和观点。

应用为先,升级版Bard挑战ChatGPT

跑分之外,大模型的竞争也表现在应用端。“华尔街TMT之王”对冲基金Coatue预测,作为一项新技术,PC在美国市场渗透率达到50%,用了20年时间,互联网用了12年,智能手机用了6年,生成式AI或许只需用3年。

在ChatGPT发布之际,Google也发布了聊天机器人Bard。不过,Bard在性能上不敌ChatGPT,一度在成Google股价大跌。Gemini大模型问世之后,Bard集成Pro版本,展开一场甜蜜的复仇。按照Google的计划,集成Gemini Ultra的Bard Advanced将在2024年初上线。

在移动设备端,轻型的大模型Gemini Nano将搭载Google的Pixel 8 Pro智能手机,首批推出的AI功能包括录音总结、智能回复等。在代码生成板块,Google又推出AlphaCode 2,可打败85%的人类程序员。

除此之外,Gemini大模型也将植入搜素、广告、Chrome浏览器等Google系产品,提升相关性能、体验。Google方面指出,通过在搜索产品试运行Gemini大模型,用户的搜索延迟降低了40%。

甜蜜的复仇,DeepMind再次走上前台

Gemini大模型是Google DeepMind成立七个月来最大的一个产品发布。2023年4月,为追赶一马当先的OpenAI,Google将Google Brain、DeepMind两大团队合并为Google DeepMind,外界称之为“AI复仇者联盟”。

ChatGPT问世之前,Google在AI领域一直处于领跑地位。Google Brain开发出著名的Tensorflow深度学习框架、一举改变AI版图的Transformer算法,DeepMind则推出风靡一时的AlphaGo、预测蛋白质折叠的AlphaFold。

强大的研发能力之外,Google又配备基于云芯片Cloud TPU v4、v5e的算力基础设施,对Gemini大模型进行大规模训练。在Gemini大模型发布之际,Google同时发布Cloud TPU v5p云芯片,训练速度较上一代TPU提升2.8倍。

文:Bugle-X / 数据猿

相关内容

热门资讯

高市早苗及其秘书遭检举 潜伏十...   高市早苗及其秘书遭检举  【高市早苗及其秘书遭检举】6月23日消息,日本首相高市早苗及其秘书木下...
49岁女子电梯坠亡获赔100万...   49岁女子电梯坠亡获赔100万 今日安葬  【49岁女子电梯坠亡获赔100万 今日安葬】6月23...
《真三国无双天下》6.24公测... 6月24日10:00,公测正式开启!今天6.23预下载开启! 《真三国无双天下》这可能是今年最“不逼...
原创 S... 大家好我是指尖,S43赛季的英雄梯度最终篇,将于本期辅助篇正式收官,下一次分享梯度就是S44赛季了。...
“再见了,所有的Niko烂梗” 总有一天……就在今天。 2026年6月21日晚,德国科隆朗盛体育场。五名选手和他们的教练走到舞台中央...
平安融易广东分公司联合棠下街道...   为切实提升社区居民金融风险防范意识,增强居民对投资诈骗、AI诈骗等新型金融骗局的识别与应对能力,...
原创 魔... 盘点魔兽世界TBC版本黑暗神殿最无争议的6大极品装备,当年DKP团甚至出现非满勤玩家不能拿的规定,速...
原创 L... 英雄联盟2026季中冠军赛,再有5天入围赛就正式打响了,国内媒体近日,分享了BLG上辅在夺冠之后的采...
人狼突袭:恋与深空第六男主「敖... 今天下午13:14分,《恋与深空》发布了一条很突然的直播预告“超级圆月倒计时”:百年一遇的特大超级圆...
99%的手游,未来只有两条活路... 整点多巴胺吧。 文/以撒 不知从何时开始,葡萄君有一种感觉:市面上大部分活得过去的手游,基本都走向了...
原创 繁... 作为王者超人气辅助,蔡文姬的皮肤规格真的不算低,除了一款伴生皮肤外,还有六款史诗和两款传说,一个勇者...
腾讯视频自制叙事游戏《龙族:最... IT之家 6 月 22 日消息,腾讯视频自制叙事游戏《龙族:最后的旅行》今日发布,本作由零创游戏、手...
当《命运2》告别时,《Warf... 2026年6月9日,Bungie上线了《命运2》的最终内容更新“胜利纪念碑”,这意味着《命运2》作为...
中国女性向小游戏正在“收割”全... 女性向游戏在海外情况有了新变化。 随着国产女性向游戏出海势头愈发猛烈,我们熟知的《恋与深空》《麦吉大...
《诡秘之主》二测即将开启,纯正... 对于无数《诡秘之主》的书粉和不少游戏玩家来说,近期最值得期待的事,莫过于正版IP手游的第二轮测试。目...
原创 S... 王者荣耀 S44 赛季很快就要来了,相信大家对 S44 赛季的一个更新都有一定的了解,不过新英雄六耳...
被寄予厚望的“像素风银翼杀手”... 《REPLACED》2021年的第一支预告片,给许多玩家带来了非常明确的记忆点:横版视角、2.5D ...
《GTA6》游戏物料引“显微镜... 6月21日消息,R 星于 6 月 18 日官宣《GTA6》将于 6 月 25 日开启预购,并放出封面...
三国杀:就这也是牢字辈族长?别... 大家好,这里是你们的老朋友手杀菌!在三国杀里,有着23451,蛮王震五溪的威名的武将,正是现在被人津...