机器之心

Search documents
想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
机器之心· 2025-06-17 08:52
本文作者来自马里兰大学的 CASE ( C ollaborative, A utomated, S calable, and E fficient Intelligence) Lab,主要参与者为博士生孙国恒与王子瑶,指导教师为李昂 教授。 研究背景:在商业保护与用户知情间寻求平衡 论文标题: Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services arXiv 链接:https://arxiv.org/pdf/2505.18471 近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往 依赖于模型内部一系列复杂的 「 思考 」 过程或 Agentic System 中的 Agent 间频繁信息交互。 然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的 输出结果。这在当前的商业和技术环境下 ...
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 04:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
机器之心· 2025-06-17 04:50
机器之心发布 机器之心编辑部 从春晚舞台上扭秧歌、转手绢,到稳健完整跑完半程马拉松…… 过去半年,一系列炫酷的表演,把人们对 机器人的认知从想象拉进了现实。 但当 AI 圈、车圈、互联网圈大佬们纷纷跻身到具身智能时,每个人都绕不开以下几个灵魂拷问:具身智能 还有哪些技术瓶颈?到底怎么落地?应该先从哪些场景开始落地?要解决用户哪些真实需求?能够做到怎 样的量产成本…… 在行业的「iPhone 时刻」真正到来前,没有人能够精准给出上述问题的全部答案。 把创新技术转化为具有商业价值的实际产品,固然需要长期的探索实践。如何尽可能缩短这条探索路径的 周期、降低成本,反而是现在具身智能赛道玩家更加关注的话题。 去年以来,面向具身智能机器人的计算开发平台,成为国内外平台型企业争相布局的全新赛道。英伟达推 出 Jetson Thor,高通、英特尔紧随其后。在国内,脱胎于地平线的地瓜机器人,去年亮相的 RDK S100 算控 一体化开发者套件也在本月正式发布。所有企业的目标只有一个,「征服」每一个机器人开发者和厂商。 在一众产品当中,RDK S100 的 80 TOPS 算力并不算「拔尖」,但却已经覆盖了 20 + 头部具身智 ...
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 04:50
机器之心报道 作者:泽南 L3 级别智能驾驶的关键:大算力、大模型、大数据。 端到端智能驾驶,正在沿着大模型 Scaling Laws 的道路狂奔。 上周三,全球首款 L3 级算力「AI 汽车」小鹏 G7 正式亮相,其首发搭载的三颗自研图灵 AI 芯片,超过 2200TOPS 有效算力,本地部署的 VLA+VLM 模 型等特性引发了关注。 基于超高端侧算力,小鹏 G7 行业首发了智驾大脑 + 小脑 VLA-OL 模型,第一次给智能辅助驾驶加入了「运动型大脑」的决策判断能力。 小鹏 G7 同时首发了 VLM(视觉大模型),它可以作为车辆理解世界的 AI 大脑,将会是人与汽车交互的新一代入口。作为车辆行动的中枢,可以指导智能 辅助驾驶和智舱等整车能力,未来还可以实现本地聊天、主动服务、多语言等功能。 尽管只是在后装算力的车辆上用早期版本的模型进行测试,小鹏自动驾驶基模已经展现出令人惊叹的智能和拟人水平。 同样是在上周,美国纳什维尔举行的 全球计算机视觉顶会 CVPR 2025 上,小鹏作为唯一受邀的中国车企分享了其自动驾驶基座模型的研发进展 。 小鹏自去年 5 月就宣布了量产端到端大模型上车,并构建了从算力、算法 ...
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 03:22
机器之心报道 机器之心编辑部 同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM—— MiniMax-M1 。该模型支持 全球最长的上下文窗口,包括 100 万 tokens 输入、8 万 tokens 输出 。 不仅如此,MiniMax-M1 还实现了 开源模型中最强的智能体工具使用能力 。强化学习效率也惊人,仅仅需要 53.47 万美元即可完成训练。 目前,MiniMax-M1 已经集成到了 MiniMax Chat 中。 如此强大的 MiniMax-M1 有哪些亮点功能呢?首先,它支持 UI 组件聚焦(Spotlight) ,只需输入提示词,立即就可以构建一个具有基于画布的动画粒子背景的 HTML 页面。 其次,MiniMax-M1 支持 交互式应用程序 。比如要求它构建一个打字速度测试,很快就生成一个干净、实用的 Web 应用程序,可以实时跟踪 WPM(每分钟字 数)。不需要插件,也不需要设置。 此外,MiniMax-M1 的 可视化效果很 ...
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 03:22
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练 方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation 论文地址:https://arxiv.org/abs/2505.23885 项目代码:https://github.com/camel-ai/owl 背景与挑战:多智能体系统的 「 领域壁垒 」 随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智 ...
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心· 2025-06-17 00:10
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现 出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。 我们(UIUC & Amazon)提出的 s3(Search-Select-Serve) 是一种 训练效率极高、结构松耦合、生成效果导向的 RL 范式 。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅 2.4k 训练样本 的情况下,便在多个领域问答任务中超越了数据规模大百 倍的强基线(如 Search-R1、DeepRetrieval)。 论文标题:s3: You Don't Need That Much Data to Train a Search Agent via RL 研究动机 RAG 的发展轨迹:从静态检索到 Agentic 策略 b. Search-R1 :将检索与生成联合建模,以最终答案是否 Exa ...
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...
「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
机器之心· 2025-06-16 09:10
机器之心报道 编辑:杨文 假作真时真亦假,无为有处有还无。 200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚 无被强行视为存在时,存在也会消解为虚无。万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。 最近在 X 上冲浪,刷到了一段「人类在飞机上吵架看呆袋鼠」的视频。视频中,一只紧握登机牌、站得直挺挺的袋鼠,正满脸无辜地看着自己的主人和一名空乘人 员在登机口 battle。 视频来自: https://www.instagram.com/infiniteunreality/ 由于袋鼠的举止表情「比小朋友还乖」,引发不少网友点赞转发。其中 X 账号 @DramaAlert 就在短时间内获得了 7460 万次观看,Instagram 上这段视频光点赞量就 有 110.4 万次。 不过很快有细心的网友发现了不对劲。袋鼠手中的「登机牌」上全是难以辨认的文字乱码,而这往往是 AI 生成视频的最大「罪证」。 视频中的人类说着并不存在的语言,空乘人员佩戴的胸牌上也没有名字。 此外,乘客的左手无名指一开始并没有任 ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...