Seek .(SKLTY)

Search documents
DeepSeek开源新模型,数学推理能力大提升
虎嗅· 2025-05-01 00:48
赶在五一假期前夕,DeepSeek给我们送出一份惊喜大礼。 延续一贯的开源节奏,DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码。此次共推出两个版本: *核心贡献者†在DeepSeek-AI实习期间完成的工作 据官方论文披露,DeepSeek-Prover-V2的训练核心是"递归+强化学习"的组合:即先由DeepSeek-V3拆解复杂定理,生成一系列子目标和推理思路;再通过 GRPO算法,从多种候选方案中自动学习如何选出最优解。 模型特别引入了两种互补的"解题风格": DeepSeek-Prover-V2-7B:基于上一代V1.5模型,支持最长32K上下文输入; DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。 训练过程分为两阶段,在第一阶段,研究人员主要训练快速模式,采用"专家迭代"方法:模型先尝试解决难题,成功的答案再作为新数据反哺模型,不断 打磨自己的能力。 待快速模式趋于稳定后,研究人员进入第二阶段,开始训练更复杂的逻辑推理能力。他们将DeepSeek-V3的数学知识迁移到新模 ...
美乌重磅协议签署!矿产开发+重建基金;道指月线3连跌,美油跌超3%;证监会副主席王建军被查;DeepSeek开源新模型丨每经早参
每日经济新闻· 2025-04-30 23:00
每经编辑 陈鹏程 袁东 1 隔夜市场 美股三大指数收盘涨跌不一,纳指跌0.09%,4月份累涨0.85%;标普500指数涨0.15%,4月份累跌0.76%;道指涨0.35%,4月份累跌3.17%,其中,标普500 指数、道指连跌3个月;大型科技股跌多涨少,特斯拉跌超3%,亚马逊、英特尔跌超1%,谷歌、Meta小幅下跌;奈飞、苹果、微软小幅上涨,超微电脑跌 超11%。中概股涨跌不一,纳斯达克中国金龙指数跌0.95%,4月份累跌9.79%;贝壳跌超2%,百度、极氪跌超1%,满帮、腾讯音乐、京东等小幅下跌;金 山云涨超9%,万国数据涨逾5%,名创优品涨超2%,拼多多、BOSS直聘涨超1%,阿里巴巴、理想汽车小幅上涨。 美国商务部4月30日公布最新数据显示,2025年第一季度美国国内生产总值(GDP)环比按年率计算萎缩0.3%。2024年第四季度,美国GDP环比按年率计算 增长2.4%。 国际油价大幅走低,美油主力合约跌3.64%,报58.22美元/桶;布伦特原油主力合约跌3.37%,报61.15美元/桶。4月份,美油跌18.55%,布油跌18.22%,创将 近三年半来最大月跌幅。 现货黄金跌0.85%,报3288.2 ...
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 12:52
就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。 4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针 对形式化数学证明任务进行优化。 DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。 | Hugging Face Q. Search models, datasets, users ... | | Models | ■ Datasets ■ Spaces Posts | Docs | Enterprise | Pricing | VII | Log In Sign Up | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | < deepseek-ai/DeepSeek-Prover-V2-671B = 0 Wke 152 | Follo ...
华为郭振兴: DeepSeek浪潮后,AI将快速释放巨大的制造业生产红利 | 最前线
36氪· 2025-04-30 09:48
4月28日,华为AI+制造行业峰会2025在广州正式举办。本次峰会以"加速行业智能化"为主题,来自汽 车、机械电子、医药、重工业、轻工业等制造行业的意见领袖、企业代表、产业伙伴、学者专家超过 900人现场参会。 在行业峰会上,华为正式发布了"三层五阶八步"方法论,并且分享制造行业领域的七大场景20个解决方 案。 在大模型浪潮来临之后,华为从自身业务到与制造行业的客户,都开始了一场AI改造和提效。 华为中国政企智能制造系统部副部长冯睿,在会后采访中表示,在研发领域,目前华为已经把1300多万 片高价值的基础文档,还有1万多篇的API(接口技术文档)、850多万个开源的代码舱前全都导入到了 研发的数据平台中。 而通过研发大模型和AI助手,华为软件版本的开发周期,原来大概是9—18个月做到一个版本的发布, 现在能够做到一个月一发布。 在汽车领域,以华为与广汽集团的合作为例,华为帮助广汽集团建设了智能化的研发平台。 在以前,传统的汽车制造企业迭代一款新的车型一般需要花费两到三年。而通过AI大模型以及研发的 工具链,整车的研发时间,可以从从36个月优化至18个月。从概念设计到整个制造,迭代周期极大提速 了。 在本次峰会 ...
从DeepSeek到硬科技:国中资本的投资新视野 | 投资人:快答2025
搜狐财经· 2025-04-30 06:29
前言: 2025年,以一副猝不及防的形态出现,国防、科技、文化、国际政治领域的变化让人目不暇接。回望过去几年, 我们共同经历了一场前所未有的全球性震荡。疫情、战争、经济衰退、地缘政治……这些关键词充斥着我们的视 野,也深刻地改变着世界的运行规则。然而,危机往往与机遇并存,动荡中也孕育着新的希望。 2025年,作为投资人,我们比任何人都更深刻地感受到时代浪潮的冲击,更能深切的感受到春江水暖。站在产业 前端,立在创新前沿,投资人对于已经到来的2025有着什么样的期冀和见解? 我们邀请了多位顶尖投资人,将以他们敏锐的洞察力和独到的见解,为我们勾勒出一幅未来经济、投资的路线 图。 此文为融中特别策划·《投资人:快答2025》系列报道第十一篇。 在当今快速发展的科技时代,人工智能与硬科技领域的突破正深刻改变着全球产业格局。 国中资本作为中国创投行业的领军者,始终站在行业前沿,洞察技术变革与市场机遇。从DeepSeek的崛起引发的 AI技术革新,到新能源汽车、半导体、医疗大健康等硬科技赛道的持续深耕,国中资本不仅见证并推动了中国科 技产业的成长,更在投资实践中形成了独特的价值理念与投资逻辑。 在2025年这一关键节点,国 ...
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 09:53
今天凌晨,大模型领域最受关注的重磅消息来自阿里 Qwen 团队——他们正式发布了备受期待的全新 Qwen3 系列大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领 域的 ArenaHard 测试(共 500 道题)中,成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MO ...
DeepSeek-R2发布在即,参数量翻倍,华为昇腾芯片利用率达82%!
搜狐财经· 2025-04-29 07:17
根据爆料信息,DeepSeek-R2大模型将会采用一种更先进的混合专家模型(MoE),结合了更加智能的门 控网络层(Gating Network),以优化高负载推理任务的性能。在MoE架构的加持下,DeepSeek-R2的模型 总参数量预计将达到1.2万亿,较之DeepSeek-R1(6710亿参数)提升约1倍。从规模上来看,DeepSeek-R2 与ChatGPT的GPT-4 Turbo以及谷歌的Gemini 2.0 Pro相当。 昨日晚间,玩家@deedydas在社交媒体平台爆料了深度求索即将发布的下一代AI大模型DeepSeek-R2的参数 信息。 在硬件平台方面,DeepSeek-R2实现了基于华为昇腾 910B(Ascend 910B)芯片集群平台的训练方案,在 FP16 精度下实现了 512 PetaFLOPS 的计算性能,芯片资源利用率达到 82%。根据华为实验室的数据,这 一算力大约是英伟达上一代A100训练集群的91%。 可能得益于华为昇腾910B训练集群,DeepSeek-R2的单位推理成本较之GPT-4下降了97.4%,DeepSeek-R2 的成本约为0.07美元/百万token,而G ...
阿里发布并开源模型Qwen3,成本仅为DeepSeek-R1的1/3
观察者网· 2025-04-29 03:27
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的 1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个"混合推理模型",将"快思考"与"慢思考"集成进同一个模型,大大节省算力消耗。 根据官方的说法,千问3的旗舰版本 Qwen3-235B-A22B,在代码、数学、通用能力等基准测试中,达到 了与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。 在奥数水平的 AIME25 测评中,Qwen3-235B-A22B 斩获 81.5 分,刷新了开源模型的纪录;在考察代码 能力的 LiveCodeBench 评测中,Qwen3-235B-A22B 突破 70 分,表现甚至超过 Grok 3;在评估模型人类 偏好对齐的 ArenaHard 测评中,Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Dee ...
阿里发布并开源千问3,称成本仅需DeepSeek-R1三分之一
第一财经· 2025-04-29 00:33
阿里云方面表示,性能大幅提升的同时,千问3的部署成本大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为DeepSeek-R1的三分之一。 4月29日凌晨,阿里巴巴宣布推出新一代通义千问模型Qwen3(千问3)并进行开源。阿里云方面表示,千问3是国内首个"混合推理模型",将"快思考"与"慢 思考"集成进同一个模型,参数量仅为DeepSeek-R1的1/3,成本大幅下降,并在ChatBot Arena等榜单中性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶 全球最强开源模型。知情人士对记者表示,这是今年上半年阿里云最核心的技术产品发布。 | | Qwen3-235B-A22B MoE | Qwen3-32B Dense | OpenAl-o 1 2024-12-17 | | --- | --- | --- | --- | | ArenaHard | 95.6 | 93.8 | 92.1 | | AIME'24 | 85.7 | 81.4 | 74.3 | | AIME'25 | 81.5 | 72.9 | 79.2 | | LiveCodeBench v5. 2024.10-2025.02 | 7 ...
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 00:24
阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能 全面超越R1、OpenAI-o1等全球顶尖模型。 千问3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多 步骤"深度思考",大大节省算力消耗。 据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮 强化学习,将非思考模式无缝整合到思考模型中。 同时,所有千问3模型都是混合推理模型,API可按需设置"思考预算"(即预期最大深度思考的tokens数量),进行不同程度的思 考,灵活满足AI应用和不同场景对性能和成本的多样需求。 比如,4B模型是手机端的绝佳尺寸;8B可在电脑和汽车端侧丝滑部署应用;32B最受企业大规模部署欢迎,有条件的开发者也 可轻松上手。 千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。 在评估模型Agent能力的BFCL评测中,千问 ...