云知声发布 U2：为执行而生的原生智能体大模型，可自主拆解并完成 100+ 步复杂真实工作流_游戏资讯

云知声发布 U2：为执行而生的原生智能体大模型，可自主拆解并完成 100+ 步复杂真实工作流

创始人

2026-06-08 15:04:54

0次

　　刚刚，云知声正式发布新一代通用大语言模型——U2。

　　作为我们面向个人、开发者与组织打造的原生智能体大模型，U2的技术主张极为纯粹：高智能密度 × 高Token价值。它不再盲目堆叠参数，而是追求高智能密度，用更少激活资源承载更强能力；不再简单比拼输出长度，而是追求高Token 价值，让每一次调用都更接近交付结果。

　　与传统大模型更偏向单轮问答或短链路生成不同，U2 更强调面向真实任务的连续执行能力。在复杂办公、软件工程、深度研究与多工具协同场景中，U2 能够自主拆解并推进 100+ 步复杂工作流，将需求理解、任务规划、环境交互、工具调用、过程纠错与结果验收串联为完整闭环，从“给出答案”进一步走向“完成任务”。

　　权威评测进入第一梯队，U2展现硬核实力

　　在最新发布的一系列国内外权威能力评测中， U2已经在多个关键能力方向进入主流大模型第一梯队：

　　在衡量知识与复杂推理能力的 GPQA Diamond 上，U2 取得 87.9 分，超过 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，展现出对高难度知识问题的稳定理解、推理与求解能力。

　　在衡量真实软件工程能力的 SWE-Bench Verified 上，U2 取得 75 分，进入主流模型第一梯队。

　　而在面向自主 Agent 端到端执行能力的 Claw-Eval（pass@3）上，U2 取得 76.9 分，超过 Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，进一步验证了其在工具调用、流程编排与任务交付中的稳定表现。

　　在面向真实办公与知识工作交付能力的 GDPval 上，U2 取得 72.9 分，展现出扎实的专业办公能力。相比传统问答式评测，GDPval 更关注模型能否完成真实工作场景中的高价值交付，包括资料分析、报告撰写、表格处理、图表生成、幻灯片制作等典型办公任务。

　　这组成绩背后，传递出一个重要信号：U2并不是以单点能力取胜，而是在推理、代码、Agent和办公交付等多项关键能力上形成了系统性表现。

　　混合思考 + Harness 联合训练：让模型原生能力进入真实工作流

　　对云知声而言，U2 不只是一个模型代号，更是我们对 AI 2.0 时代大模型价值的重新思考。我们认为，衡量今天的大模型价值，不能再单纯比拼参数规模和内容生成长度。当 AI 真正进入真实工作流，用户关心的不再只是模型能否给出一个漂亮回答，而是它能否真正把任务完成。

　　因此，U2 从设计之初，就不是一个单纯面向聊天场景的通用模型，而是一款面向任务执行的原生智能体大模型。

　　要让模型真正完成任务，仅靠更大的参数并不够。真实工作流往往复杂、动态且长链路：模型既要能够快速理解目标、拆解任务、搜索路径，也要能在关键节点进行逻辑校准、约束检查和结果验证。传统显式思维链虽然具备较强可解释性，但往往需要生成大量中间推理文本，带来更高 Token 消耗与推理延迟；而完全依赖隐空间推理，虽然效率更高，却可能在复杂任务中出现逻辑漂移，缺乏足够的可控性与验证能力。

　　为了解决这一矛盾，U2 创新引入混合思考机制。它并不是在显式 CoT 与隐式推理之间二选一，而是在同一推理过程中，根据任务阶段、复杂度和不确定性动态切换思考形态。

　　在任务早期，U2 优先在隐空间中进行高效探索，完成路径搜索、任务拆解、候选方案生成与执行规划，避免把每一步中间思考都解码为可见 Token；当任务进入关键判断、复杂约束处理或结果收敛阶段，模型则切换到显式推理，通过可读、可校验的推理过程完成逻辑校准、过程验证与最终决策。

　　进一步地，U2引入可控隐空间展开（Bounded Latent Rollout）与熵感知切换（Entropy-aware Switching）机制，使模型能够根据推理过程中的不确定性动态调整思考方式：当隐式探索稳定时，模型保持高效推理；当不确定性升高、推理路径可能发散时，则及时回到显式思维链，通过确定性 Token 完成精准推导与结果收敛。

　　这意味着，U2 并不是简单缩短思维链，而是重构了模型的思考分工：把开放探索、路径规划等高消耗环节更多内化到隐空间，把逻辑验证、约束校准和结果收敛留给显式推理。由此，U2 能够在减少无效推理步骤和冗余中间文本的同时，保持复杂任务中的可靠性与可控性，实现“少 Token，深思考”。

　　在知识底座上，U2 进一步通过高知识密度数据精筛提纯技术，过滤重复、低质与幻觉数据，完成知识点级精炼萃取；并结合稀疏知识编码与知识蒸馏架构，压缩模型冗余参数，将高价值知识能力固化到更高效的模型结构中。

　　在任务执行层面，U2 引入 Agent-Harness 协同训练范式。我们认为，Harness 不应只是外部套壳，而应该与模型能力共同进化。因此，U2 将模型原生 Agent 能力提升与 Harness 迭代优化纳入同一训练闭环：一方面，Harness 根据 U2 的模型特点持续优化任务执行链路；另一方面，真实任务中产生的高质量执行轨迹，又反过来强化模型的任务规划、工具调用、过程纠错和结果验收能力。

　　而这一系列完整的闭环，最终要落到一套务实的训练体系上。我们没有让 U2 只盯着正确答案死记硬背，而是通过课程学习、过程监督、轨迹对比与多维奖励，教会它在复杂任务中如何规划、执行、纠错、验收。配合 Agent-Harness 协同演进，U2 能够在真实任务轨迹中持续强化长链路执行能力，真正从“能聊天”走向“能完成任务”。

　　三大核心能力，支撑任务交付闭环

　　围绕真实任务交付，U2重点强化了Reasoning、Coding和Agent三大核心能力。

　　在Reasoning方面，U2强调低偏差执行和长程逻辑稳定性。面对复杂、多步骤任务时，模型不仅要能回答局部问题，更要能够持续保持目标一致，动态权衡预算、时间、约束条件和可行路径，最终输出更优方案。

　　在Coding方面，U2不再局限于代码生成，而是面向端到端工程交付。它能够根据自然语言需求生成代码，也能够理解多文件项目结构，保持接口、依赖和调用逻辑一致，并在环境调试和自主Debug中持续推进任务完成。

　　在Agent方面，U2重点提升了多工具协同、长流程编排和环境交互能力。面对开放式目标，它能够拆解任务优先级，理解API能力边界，组合调用不同工具，并根据外部系统反馈调整执行策略。

　　这三类能力共同构成了U2的任务交付闭环：先理解和规划，再执行和协作，最后校验和交付。也正因为如此，U2更适合被放到真实工作场景中检验，而不是只停留在单轮对话或单点能力展示中。

　　应用场景：从单次回答到任务完成

　　U2 具备从需求理解到完整成果交付的自主任务执行能力，可广泛应用于以下四类典型场景：

　　1. 全形态界面设计

　　响应式网页开发：根据设计需求生成具备生产级布局、真实导航流程和完整交互状态的多页面网站，支持一键打包部署。

　　移动端 Web App：构建类原生社交应用，包括 Feed 流、Stories、发帖入口、通知、个人主页、图片网格及底部导航，所有资源本地化。

　　设计规范落地：自动约束色彩、字体、间距等样式体系，同时适配 PC 与移动端，实现从视觉到代码的端到端输出。

　　Prompt:参考 [anotherescape.com]，构建一个体现水獭和虎鲸智慧与魅力的中文网站。

　　要求：

　　- 纯原生 HTML/CSS/JS，多页面（首页 + 6 个 Story 详情页），共享 CSS/JS

　　- 内容/图片通过网络搜索获取，下载到本地 images/，不依赖图床

　　- 编辑式极简风格，深海蓝+米白+珊瑚橙配色，响应式

　　- Story 页参考 anotherescape.com 文章页结构：面包屑 → 标题/作者 → 头图 → 正文 → 分享 → 相关推荐

　　- 提供 package.sh一键打包为 tar.gz / zip / 图片-base64 内嵌的单文件 HTML

　　2. 深度研究分析

　　行业与政策研究：跨平台检索并清洗多源数据，输出结构化研究报告，格式涵盖 Word、PPT 及含动态交互图表的 HTML 深度网页。

　　数据可视化分析：自动生成时间轴、趋势曲线、热力图等可交互图表，支撑专家级分析与汇报。

　　多格式合规交付：支持一键导出符合排版规范的文档，满足内部分享、对外汇报等不同场景。

　　Prompt:（上传文档）把这份 50 页 PDF 的要点与数据提出来，整理成报告，以html格式输出。

　　3. 沉浸式可交互游戏开发

　　经典休闲游戏：独立完成算法设计、代码编写与调试闭环，交付如俄罗斯方块等可玩、可交互的 HTML5 游戏。

　　物理模拟器：基于真实物理公式构建多摆混沌系统、粒子运动等模拟器，支持参数调节与实时轨迹绘制。

　　Prompt:用网页做一个经典的俄罗斯方块小游戏，游戏规则和主流的一致就好，要求把所有代码都写在一个文件里，我保存后双击就能直接在浏览器里玩。游戏画面要好看一点，支持用电脑键盘的方向键来控制方块的移动和变形。还要有计分功能。

　　4. 高效办公自动化

　　经营报告分析：跨系统抓取销售、成本、库存等核心指标，自动生成带趋势图表与异常标注的可视化看板及 Word 报告。

　　行业全景分析：汇集市场格局、技术路线、政策驱动等数据，输出交互式竞争矩阵与可演示 PPT。

　　周期性业务复盘：全自主编排数据清洗、交叉校验与报告生成流程，实现组织核心业务复盘的自动化。

　　Prompt:请对新能源汽车行业进行全景式深度分析，包括市场规模、竞争格局、技术路线、政策环境及未来3年发展趋势，输出结构化研究报告。

　　要求输出PPT格式的文档，PPT的整体风格要极具高级审美，排版要清晰，信息层级明确。画面以图形、结构、色块为主。配色统一，风格一致，有视觉系统感。比例为16:9。

　　对云知声而言，U2 的发布不只是一次常规的模型升级，更是我们在原生智能体大模型长跑中的一次关键落子。

　　从榜单上的实测数据，到真实场景的交付闭环，我们希望用更高智能密度、更高Token价值，让每一次调用都转化为实实在在的生产力。

　　目前，U2 已经正式上线云知声Token Hub，全面面向个人、开发者及组织开放。

　　欢迎体验

　　免责声明：本文为厂商供稿，版权归其所有。刊发此文旨在信息传递，不代表本网观点和立场。若涉及内容、版权等事宜，请联系供稿方，本网不承担任何责任。

上一篇：歧路旅人大陆的霸者：6月第2周猜谜日，激进猜是DQ联动，反之复刻

下一篇：原创口味变刁还是质量下滑？3年全直售史诗仅三款优质，银翎春语上榜

云知声发布 U2：为执行而生的原生智能体大模型，可自主拆解并完成 100+ 步复杂真实工作流

相关内容

热门资讯