首届通义千问AI挑战赛开赛,参赛者可畅玩通义开源模型家族
趣味科技
2023-12-01 21:37:54
0

原标题:首届通义千问AI挑战赛开赛,参赛者可畅玩通义开源模型家族

12月1日,首届“通义千问AI挑战赛”开赛,参赛者可免费畅玩通义开源模型家族,包括刚刚发布的720亿参数模型Qwen-72B。主办方为参赛者提供价值50万元的免费云上算力和丰厚奖金。赛事分为算法和Agent两大赛道,前者聚焦通义千问大模型的微调训练,希望通过高质量的数据探索开源模型的代码能力上限,后者鼓励开发者基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用,促进大模型在各行各业的落地应用。即日起开发者可通过天池平台报名参赛。

通义千问720亿参数模型宣布开源,部分性能超越闭源GPT-4

新浪科技讯 12月1日午间消息,阿里云通义千问720亿参数模型Qwen-72B今日宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。

在英语任务上,Qwen-72B在MMLU基准测试取得开源模型最高分;中文任务上,Qwen-72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4;数学推理方面,Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力有了质的飞跃。

据介绍,Qwen-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

随着Qwen-72B的开源,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。

业界最强开源模型,填补中国LLM开源领域空白

【在10大权威测评中,通义千问720亿参数模型获得开源模型最优成绩】

【通义千问720亿开源模型部分成绩超越闭源的GPT-3.5和GPT-4】

【用户仅用一句提示词就可创建自己的AI助手】

此前,中国大模型市场还没出现足以对标Llama 2-70B的优质开源模型。Qwen-72B填补了国内空白,以高性能、高可控、高性价比的优势,提供不亚于商业闭源大模型的选择。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI for Science等科研工作。

从1.8B到72B,通义千问率先实现全尺寸开源

如果说Qwen-72B“向上摸高”,抬升了开源大模型的尺寸和性能天花板;发布会上的另一开源模型Qwen-1.8B则“向下探底”,成为尺寸最小的中国开源大模型,推理2K长度文本内容仅需3G显存,可在消费级终端部署。

从18亿、70亿、140亿到720亿参数规模,通义千问成为业界首个“全尺寸开源”的大模型。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

阿里云是国内最早开源自研大模型的科技企业,8月以来开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。几款模型先后冲上HuggingFace、Github大模型榜单,得到中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用。发布会现场,多位开发者伙伴现身说法,分享了他们用Qwen开发专属模型和特定应用的实践。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

通义千问基座模型持续进化,多模态探索业界领先

通义千问在多模态大模型领域的探索也领先业界一步,当天,阿里云首次开源音频理解大模型Qwen-Audio。

Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。音频理解能够赋予大模型接近人类的听觉能力。

通义大模型能“听”也能“看”。通义千问8月开源出视觉理解大模型Qwen-VL,迅速成为国际开源社区最佳实践之一。本次发布会又宣布了Qwen-VL的重大更新,大幅提升通用OCR、视觉推理、中文文本理解基础能力,还能处理各种分辨率和规格的图像,甚至能“看图做题”。不论从权威测评成绩还是真人体验的效果看,Qwen-VL的中文文本理解能力都大幅超越了GPT-4V。

通义千问闭源模型也在持续进化,一个月前发布的通义千问2.0版闭源模型,最近已进阶至2.1版,上下文窗口长度扩展到32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力分别提升30%、10%、近5%和14%。用户可以在通义千问APP免费体验最新版本的闭源模型。

相关内容

热门资讯

原创 “... 大家好我是指尖,射手这个职业在团队中的重要性不言而喻,但我们路人局经常会出现那种前边十几分钟闷头发育...
腾讯代理发行《穿越火线:潜伏》... IT之家 6 月 6 日消息,今日,由 Smilegate 授权,That's No Moon 工作...
原创 歧... 《歧路旅人大陆的霸者》国服进入6月之后,首先更新了一个不用战斗的世界杯竞猜玩法“圆球大预言”,相关内...
原创 D... Doinb透露LWX近况,属于半退休的状态,没有人下单他根本不玩LOL,近日,前FPX中单Doinb...
原创 W... 各位LPL的观众和英雄联盟召唤师大家好,这里是天下游戏汇。 LPL第二赛段的季后赛格局被常规赛垫底的...
原创 魔... 盘点魔兽世界时光服四阶段团本5款性价比拉满的紫色武器,各位大兄弟都用上了哪一款?速看! 一:诅咒之锤...
那些没写进游戏里的事:《光明王... 前言 《光明王传说》是我独立创作的剧情向 AVG,完全免费无内购,Steam 可直接入库。游戏以高密...
《剑星》续作《剑星:血雨》首次... IT之家 6 月 6 日消息,在今日举行的夏日游戏节发布会上,《剑星》系列新作首次曝光,定名为《剑星...
原创 L... LPL第二赛段季后赛,败者组第二轮已经开打了,和TT鏖战五局才晋级的LGD,在交手AL时惨遭零封,虽...
LPL淘汰赛JDG大战BLG:... 2026年LPL第二赛段淘汰赛战火全面燃起,6月6日将迎来两场极具看点的巅峰对决,分别是败者组BLG...
原创 胜... 大家好我是指尖,提及周瑜,你能想到这个英雄的巅峰期有多强吗?那时候赛场上周瑜是常客,甚至会围绕他来搭...
沉浸式?轻松感?大厂网游怎么都... 三年前,如果有人告诉你,未来的大厂网游可以“不用打怪就升级,躺平还能随便玩”,你一定觉得他疯了。 可...
原创 王... 王者荣耀联动大头儿子小头爸爸,鲁班被选中,皮肤样式惹人笑,最近,王者荣耀又一次把“情怀”这两个字玩明...
原创 《... 第一个:不猛攻别去巴别塔和博物馆,很多玩家都知道,博物馆和巴别塔是巴克什这张图最肥的地区,然后,屁颠...
NS2《艾尔登法环:褪色者版》... NS2《艾尔登法环:褪色者版》将于8月28日发售。《艾尔登法环:褪色者版》包含游戏本体、资料片黄金树...
【资讯】NOVA海外独立游戏见... Vol.137(5 月第 5 周) 本期见闻覆盖时间:5 月 25 日至 5 月 31 日 本...
原创 认... 说出来你可能不信,元流射手,现在是顶端局中最炙手可热的英雄,不止是发育路,甚至在所有的英雄中,出场率...
原创 S... 王者荣耀世界S1赛季已经更新了,玩家除了要了解英雄的调整之外,还要了解物品的调整。神药对于玩家来说,...
LPL最强黑马冲击国际赛事,昔... 随着LPL第二赛段的赛程逐渐推进,淘汰赛的比拼也正式进入白热化,MSI季中冠军赛的名额争夺也愈发激烈...
《皇牌空战8 希孚之翼》前瞻&... 当英雄陨落,信念何以为继?A9VG近日前往万代南梦宫提前试玩了《皇牌空战8 希孚之翼》战役模式。在6...