Workflow
Seek .(SKLTY)
icon
Search documents
阿里发布并开源千问3,称成本仅需DeepSeek-R1三分之一
第一财经· 2025-04-29 00:33
阿里云方面表示,性能大幅提升的同时,千问3的部署成本大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为DeepSeek-R1的三分之一。 4月29日凌晨,阿里巴巴宣布推出新一代通义千问模型Qwen3(千问3)并进行开源。阿里云方面表示,千问3是国内首个"混合推理模型",将"快思考"与"慢 思考"集成进同一个模型,参数量仅为DeepSeek-R1的1/3,成本大幅下降,并在ChatBot Arena等榜单中性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶 全球最强开源模型。知情人士对记者表示,这是今年上半年阿里云最核心的技术产品发布。 | | Qwen3-235B-A22B MoE | Qwen3-32B Dense | OpenAl-o 1 2024-12-17 | | --- | --- | --- | --- | | ArenaHard | 95.6 | 93.8 | 92.1 | | AIME'24 | 85.7 | 81.4 | 74.3 | | AIME'25 | 81.5 | 72.9 | 79.2 | | LiveCodeBench v5. 2024.10-2025.02 | 7 ...
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 00:24
阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能 全面超越R1、OpenAI-o1等全球顶尖模型。 千问3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多 步骤"深度思考",大大节省算力消耗。 据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮 强化学习,将非思考模式无缝整合到思考模型中。 同时,所有千问3模型都是混合推理模型,API可按需设置"思考预算"(即预期最大深度思考的tokens数量),进行不同程度的思 考,灵活满足AI应用和不同场景对性能和成本的多样需求。 比如,4B模型是手机端的绝佳尺寸;8B可在电脑和汽车端侧丝滑部署应用;32B最受企业大规模部署欢迎,有条件的开发者也 可轻松上手。 千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。 在评估模型Agent能力的BFCL评测中,千问 ...
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 00:15
无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的 里程碑式突破。 不过,技术创新往往伴随应用成本的转移。约65%的早期采用者反馈,在实际部署中需要投入大量开发 资源进行适配优化,这在一定程度上削弱了其理论上的效率优势。 这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenAI等业界领 军企业的产品分庭抗礼,甚至基于中国的应用场景,可能还有所超越,而其所需计算资源较同类产品大 幅缩减近30%。 该模型的成功实践既印证了算法创新的无限可能,也引出了关键的技术进化命题,即当未来算法突破与 传统计算架构出现适配瓶颈时,行业将面临怎样的转变挑战? 当前主流大模型(如GPT-4、Gemini Pro、Llama3等)正以每月迭代2-3次的频率推进技术革新,持续刷 新性能基准。DeepSeek-R1通过独创的分布式训练框架和动态量化技术,成功将单位算力下的推理效能 提升40%,其研发轨迹为行业提供了算法与系统工程协同进化的典型案例。 而且,该团队研发的多头潜注意力机制(MLA)在实现内存占用降低50%的突破性进展时,也带来了 开发复杂度的显 ...
比DeepSeek R2先发!阿里巴巴Qwen3上新8款,登顶全球最强开源模型
钛媒体APP· 2025-04-28 23:27
Qwen3千呼万唤始出来,直接登顶全球最强开源模型。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),旗舰模型Qwen3-235B-A22B参 数量仅为DeepSeek-R1的1/3,总参数量235B,激活仅需22B,成本大幅下降,性能全面超越R1、 OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。 | | Qwen3-235B-A228 | Qwen3-32B | OpenAl-o1 | Deepseek R1 | Grok 3 Beta | Gemini2.5-Pro | OpenAl-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | Mil | Deces | 2024.12.17 | | Think | | Median | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | . | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81. ...
阿里Qwen3深夜开源,8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
36氪· 2025-04-28 23:23
此次全新升级的Qwen3系列有以下5大关键特性: 8种参数大小的稠密与MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350亿总参数和220亿激活参数)、Qwen3-30B-A3B(300亿总 参数和30亿激活参数); 引入混合思考模式:用户可切换"思考模式、"非思考模式",自己控制思考程度; 推理能力提升:在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下); 阿里通义大模型新成员Qwen3系列模型终于亮相! 智东西4月29日报道,今日凌晨4点,阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型。发布2小时,Qwen3模型在GitHub上的star数已超 过16.9k。 | Product v | Solutions v | Resources v | Open Source v Enterprise V | | Pricing | | | | Q | Sign in | Sign up | | --- | --- | --- | --- | --- | --- | --- ...
DeepSeek新一代大模型即将发布,推动低代码开发成主流
选股宝· 2025-04-28 15:09
据中证报报道,消息人士透露,DeepSeek公司新一代大模型DeepSeek R2即将发布,目前预期是5月 初。DeepSeek R2预计比GPT-4成本下降97%,并且是在昇腾卡上做的训练,主打全方位全产业链的自主 可控。根据爆料信息,DeepSeek-R2大模型将会采用一种更先进的混合专家模型(MoE),总参数量预 计将达到1.2万亿,较之DeepSeek-R1(6710亿参数)提升约1倍。 中证报指出,据悉,DeepSeek-R2将在多个关键领域实现突破,包括更出色的编程能力、多语言推理能 力,以及以更低的成本提供更高的准确性。 公司方面,据中证报表示, 金现代:积极拓展以"AI低代码"开发平台为核心的标准化、通用型软件产品业务,已成功开发了一系列 标准化平台类软件产品,包括轻骑兵低代码开发平台、知识图谱可视化开发平台、文档智能处理平台、 融合集成平台等。 浩云科技:持续投入低代码技术研发,其低代码开发平台"浩易搭"与AI、物联网深度融合,可为企业根 据自身业务需求定制AI智能体,赋能企业智能化、数字化转型。 *免责声明:文章内容仅供参考,不构成投资建议 *风险提示:股市有风险,入市需谨慎 专业人士表示 ...
DeepSeek-R2大模型临近发布时间窗口!科创板人工智能ETF(588930)低位上涨翻红,实时成交额突破3600万元
搜狐财经· 2025-04-28 03:19
消息面上,三个月前的春节,DeepSeek R1火爆出圈,让"东升西落"成为了随后一段时间的叙事和预 期。三个月后五一临近。DeepSeek R2临近发布此前市场预期的"5月发布"时间窗口。人工智能板块有望 迎来强烈催化剂。当前高层集体学习人工智能释放出强烈的政策升级信号,叠加DeepSeek R2等国产大 模型迭代节点临近,科技板块有望在政策与技术的双重驱动下重获资金关注。 4月28日,A股市场今日走势较稳,人工智能题材V型反弹,市场风险偏好快速提升。科创板人工智能指 数成分股中,恒玄科技、当虹科技、奥普特涨超3%,有方科技、寒武纪-U、中科星图、虹软科技、道 通科技涨超2%。科创板人工智能ETF(588930)市场热度较高,连续2个交易日获得资金净流入。 科创板人工智能ETF(588930)跟踪的科创板人工智能指数布局30只科创板人工智能龙头,覆盖AI产业 链上游算力、中游大模型云计算、下游机器人等各类创新应用,聚焦电子、计算机、机械设备、家电、 通信五大行业,前五大成分股合计权重47%,或具有较高的AI主题纯度和更高的弹性。 国元证券表示,国家高度重视人工智能产业的发展,长期成长空间广阔。尽管计算机行业 ...
宝马中国宣布接入DeepSeek,传日产计划关闭武汉工厂 | 汽车早参
每日经济新闻· 2025-04-27 22:40
每经记者 董天意 实习生 周卓孜 每经编辑 孙磊 | 2025年4月28日 星期一 | NO.1 宝马中国宣布接入DeepSeek 4月27日,继与阿里巴巴达成AI大语言模型战略合作后,宝马再度深化本土AI生态布局,宝马中国宣布 接入DeepSeek。未来,DeepSeek功能也将应用于国产宝马新世代车型。今年三季度开始,将率先应用 于多款搭载第9代(BMW)操作系统的中国在售新车,通过深度思考能力赋能以BMW智能个人助理为 中心的人机交互体验。 点评:宝马中国宣布接入DeepSeek,进一步加深了其在AI领域的本土生态布局,展现出对智能驾驶与 人机交互优化的决心。通过与阿里巴巴的合作,宝马不仅提升了产品竞争力,也为消费者提供更加强大 的智能体验。这一举措可能激发市场对高端汽车智能化趋势的关注,推动整个汽车行业在技术与用户体 验上的创新与升级。 2025年4月25日,博世商用车集团与远程新能源商用车集团签署战略合作协议,合作从单一项目升级为 全方位战略伙伴。双方将围绕醇氢电动技术等深度合作,构建醇氢电动生态体系。以博世多款产品匹配 远程多动力构型商用车平台,推进新能源及代用燃料技术规模化应用。此前双方已有技术 ...
超越DeepSeek,中国开源“集团军”重塑全球AI生态
观察者网· 2025-04-27 12:57
中国开源,正在形成集团化作战的优势。DeepSeek和阿里Qwen等基础模型撑起了中国开源 的上限,而更多的中小企业正在它们的基础上,不断推出体量更小却能力更强的垂直模型, 让今年以来中国大模型更新的速度不断加快,不断带来新的惊喜。而在美国仍以闭源为主的 背景下,中国企业拥抱开源的做法充分展现了中国的技术自信,也开辟出一条技术普惠与全 球共生的新路径,持续开拓海外市场,代表着全球AI技术从"单极霸权"转向"多极共生"。 中国开源,正形成合力 2月初,当中国开源大模型DeepSeek在全球140个国家和地区的应用市场下载排行榜同时登顶,OpenAI 却公然在媒体上指责,DeepSeek未经许可使用了ChatGPT的蒸馏数据。 这样的指责非但没能为OpenAI"挽尊",却招来全球科研从业者的"群嘲"。 如今,又一个把蒸馏buff叠满的选手出现了。 昆仑万维这份成果,充分展示了开源最重要的意义——不仅仅是让给用户提供一个免费可用的产品,更 能够让更多开发者站在前人的肩膀上,快速、低成本地推动技术继续前进。 事实上,就在去年业界还在讨论大模型预训练遭遇瓶颈的背景下,今年以来,中国大模型的迭代速度却 仍在加快,并且越来 ...
中国首个DeepSeek驱动的黑土地保护智能平台试运行
环球网资讯· 2025-04-27 09:56
利用DeepSeek大模型驱动数据检索与分析,该平台可实现快速智能化评估黑土侵蚀特征,并结合当地 环境条件,因地制宜生成含工程、农艺、植物措施的定制化黑土侵蚀阻控技术方案。 "智保黑土"黑土侵蚀阻控技术智慧配置平台界面。(中国科学院东北地理与农业生态研究所供图) 目前,该平台已在黑龙江友谊、海伦和吉林东辽等示范基地试运行,预计2026年可覆盖中国东北主要黑 土区。这场由AI技术驱动的黑土保卫战,正通过智能化监测、精准化管理和系统性保护,为端牢中国 饭碗提供科技支撑。 中新网长春4月27日电 (记者 郭佳)记者27日从中国科学院东北地理与农业生态研究所获悉,中国首个 DeepSeek驱动的黑土侵蚀阻控技术智慧配置平台"智保黑土"开启试运行。 这个由中国科学院东北地理与农业生态研究所牵头,联合西北农林科技大学等多家高校、科研机构打造 的智能平台,本质上是一个"数字黑土专家"。它通过深度学习技术,消化了数十年积累的土壤研究报 告、气象数据、农业实践案例,构建出覆盖土壤特性、地形地貌、植被分布等要素的"数字黑土地档案 库"。 在黑龙江友谊农场试验基地,技术人员展示了平台的实际应用:输入当地降雨量、玉米种植模式等基础 ...