只能说,AI圈你追我赶的激烈程度,远比想象中猛烈。
怎么个事儿呢,这得说到前几天。上周五深夜,Kimi放出了万亿参数的MoE模型Kimi K2,然后这款国产AI就因为 big and beautiful 在海外技术圈刷屏了,很火的那种。
有一说一,差评君上次测评Kimi的新产品,还是在今年1月。沉寂了半年,没想到Kimi这次直接选择了开源的旗舰模型,好好好,这格局简直了。
而且,仔细研究了一顿之后我发现,这个 K2,让老外着迷不是没有原因的。
简单来说,这次的Kimi K2想要做的,不只是以前那种我问你答的聊天机器人了,而是有了初步的任务规划和使用工具的能力,只要告诉它有哪些工具可以使用,它就会根据任务的需求,自主地调用不同的工具来完成任务。
但重点是,对于一个开源大模型来说,Kimi 团队把K2的部分能力做到了接近闭源顶流的水平,这就很了不起了。
所以海外很多圈内大佬,这次也都坐不住了。
比如拿了黄仁勋投资,日本AI新秀Sakana AI Labs的创始人,就完全被Kimi K2的损失曲线征服了,说这是每个圈内工程师梦中的画面。
Hyperbolic labs 的联合创始人兼首席技术官,看完更是直接爆粗口了,上来就一句Holy谢,说这简直太疯狂了,这么逆天的东西居然连论文都不发,只放到了博客上。
还有不少AI博主,像是Prime Intellect的研究员,也直接高呼,一个新的DeepSeek Moment到了。
甚至不少人都开始挖,这Kimi的创始人是何许人也。
除了这些,不少大咖也纷纷发推安利,像AI美术工具MagicPath 的CEO Pietro Schirano,用完直接爱上了。
他说这是自Claude 3.5 Sonnet以来,他用过的最舒服的模型。
还有一家市值十亿美元,做AI应用的公司Greywing,创办人Hrishi Olickel 把它跟同样前几天发布的Grok4对比了一下,发现Kimi K2直接给Grok4干碎了。
大家用的都是同一套提示词,结果Grok4愣是没一次能赢,直接抬走的水平。
更牛逼的是,我还看到Hugging face 联合创始人Thomas Wolf,也对Kimi K2大加赞赏,说这简直难以置信,还向外国网友们安利了一波月之暗面团队。
就连估值 150 亿美元的知名AI 搜索公司 Perplexity ,他家CEO,前 OpenAI 研究科学家 Aravind Srinivas,都在推上公开圈了月之暗面,希望他们Perplexity以后能基于 Kimi K2 进行训练。
要知道,之前 DeepSeek R1 也被 Perplexity 用来训练过,可见这种认可的含金量。
甚至有不少业内人士猜测说,OpenAI 甚至推迟了他们家开源模型的发布,不知道是不是为了暂避锋芒。。。
反正从基准测试成绩上看,没准也有可能。
Kimi K2在代码、工具调用、数学、通用知识等性能测试中,表现都相当不错,一些项目甚至领先于顶尖的闭源模型。
SWE-bench 榜单的作者Ofir Press,看到这成绩以后还专门发文点赞了Kimi团队。
说实话,评分这东西也就是个数字,是不是真的厉害那还得亲自上手了才知道。
结果等到哥们上手一测,发现这Kimi的实力是真的有点超出预期,特别是在写代码上,比如在html里实现3d场景生成。
不多bb,直接看结果,咱拉来了性能最强,但也巨贵的Claude 和Gemini 2.5pro,让开源的,价格实惠的 Kimi K2,跟这俩同台竞技。
提示词给的也都是一样的,大概就是做一个3d版的地球出来,还要有夜间灯光那种。
首先看Kimi,我感觉它这个光线做的就非常舒服,没有特别亮的地方,暗部也不全黑,能看见城市灯光。而且这个地球上的云层,不是贴上去的,这玩意可以实时移动位置,真的是在飘的!
作为对比,先被拉来的是Claude Sonnet。但效果嘛,请看VCR。
可能是因为调库用没调好的原因,结果搞成了卡通风。。。
由于Sonnet略微跑题,为了讲武德,咱就直接让他家大哥来,Claude Opus4。
有一说一,这Opus确实给Claude长脸,试完以后结果属实是强了不少。
但相比而言,我感觉Opus的光线还是略差于Kimi,比如太阳直射点就一个大团,而且很多地方过曝了,云层也没有显示出来。
再看看Gemini的水平,乍一看好像很不错,但放大就会发现,这贴图质量属实有点差。不过也比Sonnet强,确实是做出来了,总体这一轮Kimi K2还是有优势的。
不过当我再给各自的提示词加上,生成太阳和月亮模型时,情况就有了变化。
Kimi 和 Claude 的画面质量依旧在线,但是Claude 整了个地心说出来,哥白尼看了都流泪。
而Gemini虽然丢了太阳,但它注意到了一个Kimi和Claude 都忽略的细节,三星连线的时候会有日食。
虽然Gemini想的多了点,但整体来看,这三家还是各有优势。
起码作为开源模型,Kimi K2的水平还是很高的,在模型生成这块我觉得已经可以比肩Claude Opus4 这些闭源大模型了。
除了模型生成,即使在一般的网页搭建上,Kimi K2的效果也挺惊艳。
我们测试的提示词是,“整理一份详细的酷玩乐队2025年演唱会出行计划”。同时喂给Kimi和Claude ,然后他俩都会自动去网页搜索演唱会的信息,地址,酒店等。
最后Kimi的答卷是这样:
该说不说,在色彩搭配上,这网页确实很有酷玩的风格。
再看Claude 这边,整理的资料比Kimi稍微详细一些,但整体风格跟Kimi还是很不一样,色彩用的更大胆一些。
不过就这块测试来说,我觉得Kimi确实是一个不容小觑的开源模型。
但实际上,这还不是Kimi代码能力的上限。
因为上面的演示,都是我在网页版Kimi里测试出来的效果,而作为一个主打Agentic的模型,如果你想榨干它的全部能力,就必须在像Claude Code这样的AI编程平台上,调用api去实现。
举个例子,还是同样的提示词,我们让Kimi和Claude 都各自生成一个可以交互的我的世界游戏。
先看Claude 的结果,工具栏,左键消除右键搭建都有,已经像模像样了。
在网页版的Kimi里,我的世界的效果,可以说跟Claude 彼此彼此,甚至还少了工具栏。
然而,当你在部署api以后,Kimi就会开始全自动的谋划方案,调用,技术博客里给出的最后结果,我只能说是非常的Amazing啊:
虽然用本地的Kimi api跟Claude网页版比较,稍微有点不讲武德,但你就看这效果好不好吧。要不说是AI做的,我还真不好一眼分辨出来,而且交互也相当底流畅,很自然。
除了上面的这些案例,官方还发布了他们自己跑出来的一些很不错的案例,比如这个3D粒子的旋转星系,在光影的控制,交互上做的也很厉害。
而我们在本地,用Claude Code搭载Kimi的api测试下来,也完全可以实现类似的效果。
这么看下来,外网的一堆博主对Kimi的能力表示钦佩,其实咱也能理解了。
跟顶流水平差不太多的模型,但价格只有 Claude Sonnet的1/5 ,Claude Opus的1/25,像哥们今天测了一天,跑了一堆案例,一看账户总消费不到五块钱。。。
属实是便宜大碗,性能上也有对标Claude的潜力,这性价比你上哪找去。
所以说有些时候,本事这玩意是很难藏着掖着的,你要真靠谱,想躲着不出名都难。比如新版Kimi app更新详情上,就很低调的只写了一句,新闻就是历史的初稿。
这句话来自1999年的一本散文集,用在这么大的版本更新上,确实又低调又文艺,而且充满自信。
有意思的是,这确实也符合月之暗面这家公司的调性。
之前差评君和同事去北京拜访过月之暗面,本以为这是一家技术型的AI 公司,没想到里面的氛围反而跟咱差评编辑部有点像,甚至空气里有股文艺范儿。
公司门口就摆着一架能自动演奏的钢琴,上面是摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。
他们的会议室也不是数字编号,而是用乐队的名字命名,每个会议室里还挂着对应乐队的一张黑胶唱片,这真有点像是一群艺术家待的地儿
而就在K2发布的前夜,月之暗面的员工,用Kimi K2写了一个 MCP 工具来连接Mac电脑上的库乐队应用,让办公室那台钢琴,弹起了帕赫贝尔的《卡农》。
古典与科幻,在这个夜晚交融,谁又说创造智能,不是一种艺术呢。
至于这场AI的神仙打架大戏,和它们那波澜壮阔的技术蓝海,就留给我们这些时代的见证者,慢慢欣赏了。
撰文: 纳西
编辑: 江江 & 面线
美编: 萱萱
图片、资料来源:
MoonshotAI、Kimi、Gemini、Anthropic、X、Wes Roth、Varindia等,部分图源网络