Spotify 声称苹果没有充分遵守 DMA 的规定。 这家瑞典公司的首席执行官丹尼尔-埃克(Daniel Ek)表示,苹果公司在拖延时间,他敦促欧盟执行已经通过的法律。  这位高管表示,苹果号称为遵守《数字市场法》所做的努力是一场"闹剧"。 据报道,尽管苹果因滥用其在音乐流媒体领域的地位而被罚款 18 亿欧元,但这家 iPhone 制造商和 App Store 所有者仍在征收不利于开发者的费用和条件。 欧盟竞争事务主管特雷莎-里贝拉(Teresa Ribera)表示,将于三月份公布苹果是否违规的决定。 该公司声称已经做了足够多的工作,并随后发布了一份白皮书,解释了欧盟互操作性法律的问题。  Spotify 与苹果公司之间的冲突可以追溯到一场诉讼,在这场诉讼中,这间美国公司因禁止其他平台在 iOS 应用程序之外进行廉价销售而被追究责任,这种做法迫使用户通过 App Store 购买,从而减少了开发者的利润。 而苹果公司则对此声称,如果没有 App Store,Spotify 将无法在欧洲市场保持强势地位,因为它使用了"苹果公司的工具和技术",并"受益于苹果公司与用户建立的信任"。 [查看评论](https://m.cnbeta.com.tw/comment/1482032.htm)
在今天的新品发布会上,**小米首款AI专业办公笔记本REDMI Book Pro 16 2025正式发布。**REDMI Book Pro 16 2025首批搭载了第二代英特尔酷睿Ultra处理器,分别为酷睿Ultra 5 225H和Ultra 7 255H,AI算力最高达96TOPS,平台AI算力提升150%。  **散热方面采用了双风扇三热管,整机散热系数较上一代提升了34.4%,可实现整机80W性能释放,玩《黑神话:悟空》也能达到72FPS的成绩。**  该笔记本还配备了3.1K的16英寸LCD屏幕,支持165Hz高刷新率,并且首次将小米青山护眼带到了笔记本上。  存储方面标配32GB LPDDR5X 8400MT/s内存,以及1TB的固态硬盘。  **续航方面,REDMI Book Pro 16 2025配备了99Wh的超大电池,这也是民航规定可携带的最大容量,**同时配备了140W GaN便携充电器,即便如此,REDMI Book Pro 16仍然做到了15.9mm的机身厚度。   不仅硬件配置上表现出色,REDMI Book Pro 16 2025在软件和生态方面同样进行了深度优化,首发了“小米AIPC引擎”,内置端云融合大模型,支持苹果设备文件互传,打造全场景的AI办公体验。  **具体售价如下:** 酷睿Ultra 5 225H+32GB+1TB版本售价6499元,国补优惠后5199.2元 酷睿Ultra 7 255H+32GB+1TB版本售价7499元,国补优惠后5999.2元  此外,小米还推出了14英寸版本的REDMI Book Pro 14 2025,与16英寸版本相比,主要区别为屏幕是2.8K 12Hz高刷,电池80Wh,整机性能释放70W。  **具体售价为:** 酷睿Ultra 5 225H+16GB+1TB版本售价5699元,国补优惠后4559.2元 酷睿Ultra 5 225H+32GB+1TB版本售价5999元,国补优惠后4799.2元 酷睿Ultra 7 255H+32GB+1TB版本售价6999元,国补优惠后5599.2元  [查看评论](https://m.cnbeta.com.tw/comment/1482030.htm)
今晚,小米最强TWS耳机——小米Buds 5 Pro发布,**提供蓝牙版Wi-Fi版两种版本,售价分别为1299元和1499元。这是小米史上音质最强的TWS耳机,并且也是4000元以内音质最好的TWS耳机。**小米Buds 5 Pro采用家族式设计,佩戴为入耳式,拥有雪山白、钛光金两款配色,配备USB-C接口。  据了解,**小米Buds 5 Pro支持55dB降噪深度、5kHz超宽频覆盖,是小米最强超宽频深度降噪,并增加无级调节功能,**可灵活调整降噪深度,消减耳压。    耳机首发双功放三单元声学系统,精准三分频,带来高音清晰透亮,中音真实自然,低音深沉澎湃,独立空间音频,支持全维度动态头部追踪。   小米Buds 5 Pro采用高通aptX Lossless技术,传输速率达2.1Mbps,并联合哈曼金耳朵大师团队调音,新增哈曼大师音效。     值得一提的是,小米Buds 5 Pro不仅是一副耳机,还是小巧录音笔,支持独立录音2.0,支持语音转文字及一键生成智能摘要,同时支持双向精准传译,方便在跨国会议、学术讲座等场合下使用。 小米Buds 5 Pro Wi-Fi版宣称“传输速率,一举超越传统TWS耳机,音质出类拔萃”,**该耳机首发Wi-Fi音频传输,最高传输速率4.2Mbps,拥有母带级无损音质,并内置小米金沙江电池,**成为首款小米金沙江电池耳机。      [查看评论](https://m.cnbeta.com.tw/comment/1482028.htm)
今晚,卢伟冰登场带来了**小米创业十五年以来最高端的手机产品——小米15 Ultra。**小米认为Ultra,就是极致的追求和纯粹的向往。**新品这是小米最近5年高端探索的答卷之作,也是小米向超高端进发的开始。**  **该机提供四款配色,分别是经典黑银、松柏绿、白色、黑色,**其中经典黑银、松柏绿都是双拼色,灵感源自徕卡经典相机造型,横向握持时右上角设有角标装饰,下方是高级荔枝纹皮,辨识度显著。  小米还专门优化了握持手感,采用四曲包裹式中框,并平衡了整机配重,日常使用不硌手、不坠手,是小米史上手感最好的超大杯,机身三围是161*75.3*9.65mm(拼色9.83mm),重量是226g(双拼色229g),全系支持IP68防水防尘。  **屏幕方面,小米15 Ultra搭载6.73英寸全等深微曲面LTPO屏,分辨率3200×1440,支持1-120Hz自适应刷新率及全屏息屏显示,**峰值亮度达3200尼特,兼容HDR10、HDR10+及杜比视界标准。   **表面覆盖小米龙晶玻璃2.0,抗摔性能相比普通机型提升16倍,**是目前行业内最强的抗摔玻璃;支持超声波屏幕指纹识别。  **核心性能上,该机搭载高通骁龙8至尊版处理器,配备LPDDR5X内存与UFS 4.1存储,**采用“双路翼型环形冷泵散热系统”保障高负载运行稳定性。  **影像系统延续徕卡合作,后置四摄包括一英寸超大底主摄、2亿像素长焦等,号称“四摄八焦段无断档接力”,**实现全拍摄场景覆盖。 **5000万像素徕卡主摄:**新一代1英寸超大底主摄、14EV原生动态范围、f/1.63超大光圈、8P镜头、UIS超级分辨。 **5000万像素徕卡超广角:**JN5图像传感器、115°超广视角、5cm超级微距、f/2.2超大光圈、6P镜头。  **5000万像素徕卡长焦:**IMX858图像传感器、f/1.8超大光圈、1.4um融合像素、3X浮动长焦、6P镜头、长焦微距。 **2亿像素徕卡超长焦:**2亿像素HP9图像传感器、1/1.4英寸主摄级大底、f/2.6超大光圈、2.24um融合像素、4.3x潜望式长焦、6P镜头。   首发“徕卡超低反射镜头玻璃”,拥有24层低反光学镀膜,将反射率降至1.5%,极大的避免了眩光的情况,同时镜头也更耐刮。  **续航配置为6000mAh金沙江电池,支持90W有线快充、80W无线闪充,**采用10%高硅负极技术,宣称日常续航达1.46天,1000次充放后容量保持90%以上。   通信方面成为小米史上最强通信系统,搭载小米星辰通信,拥有三颗自研通信芯片(T1+T1S),搭配高性能天线组、AI 全场景优化,让通信性能大度提升,游戏、直播等延迟大幅降低。  **支持无网通话,挑战行业最远7km双向通话,全系搭载天通卫星通信,北斗、天通双卫星版,搜星速度更快,此外甚至还全球首发手机直连卫星数据功能,行业领先。**  其他方面,小米15 Ultra配备了立体声双扬声器、4麦克风,0809X轴线性马达等。  **定价方面,小米15 Ultra顶住了成本压力,起售价依然维持6499元,共四款不同配置:12+256GB售6499元、16+512GB售6999元、16GB+1TB售7799元、16GB+1TB双卫星版售价7799元。** 卢伟冰也表示,这将是最后一代6499元起步的Ultra,下一代将会涨价。 [查看评论](https://m.cnbeta.com.tw/comment/1482026.htm)
神旗数码总裁孙洋对钛媒体AGI表示,一些传统工业制造企业竞争压力较大,毛利水平较低,企业在数字化的投入实际上是“捉襟见肘”的。因此,公司通过“数据+AI”的结合,帮助客户用较少的投入可实现流程与技术的优化,提高生产率,降低运营成本。
据《华尔街日报》报道,微软公司总裁布拉德·史密斯(Brad Smith)在接受采访时称,**DeepSeek是微软认为具有强大潜力的七家中国创业公司之一。**  史密斯 DeepSeek最近发布的先进AI模型R1**令许多美国国会议员和企业感到惊讶**,该模型的低成本优势一度让英伟达等美国科技巨头股价大跌。 目前,微软正在推动特朗普政府放松和简化一项新系统,该系统将限制芯片制造商向全球大部分地区销售美国尖端AI芯片。微软将在当地时间周四发布博文,**呼吁特朗普团队放宽对可用于数据中心训练AI模型的芯片的限制**,使其不再适用于包括印度、瑞士和以色列在内的一些美国盟友。 [查看评论](https://m.cnbeta.com.tw/comment/1482022.htm)
针对开发人员对扩展审核时间延长的反馈,微软将加强 Edge 附加组件的审核流程。 最新措施旨在帮助开发人员加快迭代速度,从而鼓励创新并确保扩展保持可靠、稳健和安全。  这一举措的核心是为高质量、高价值的扩展预留一个加速审查流程。 据微软称,精选的附加组件将被列入优先队列,这将大大加快审核时间。 选择过程由一系列标准驱动,其中包括: - **用户价值:**通过扩展采用率和用户反馈等指标进行评估。 - **提交质量:**通过合作伙伴中心长期稳定的高质量提交(零提交失败)进行评估,重点是完整性、准确性和遵守指南。 - **稳健性:**通过延期更新的规律性来体现。 - **安全性:**确保扩展符合微软严格的安全标准。 这一标准驱动的流程会定期刷新,自动添加符合基准的扩展,同时排除不再符合基准的扩展。 微软鼓励所有开发人员努力达到这些标准,因为这样做将使他们能够利用更快的审查流程,更迅速地向用户交付新的创新。 对于寻求有关创建安全和高质量扩展的进一步指导的开发人员,可在[Microsoft Edge 附加组件商店的开发人员政策](https://learn.microsoft.com/legal/microsoft-edge/extensions/developer-policies)页面中找到更多详细信息,该政策概述了一个框架,其中详细说明了基于促进卓越的核心原则而制定的政策,涵盖产品和内容政策。 此外,针对 Edge 附加组件认证的透明投诉和上诉流程为开发人员提供了解决任何问题的明确途径。 微软欢迎[对这些改进提出反馈和建议](https://github.com/microsoft/MicrosoftEdge-Extensions/discussions),其目的不仅是为了提升整体用户体验,而且是为了培养一个致力于追求卓越的开发人员社区。 此举是确保Microsoft Edge 在当今快节奏的数字环境中保持浏览器竞争力和创新性的重要一步。 [查看评论](https://m.cnbeta.com.tw/comment/1482020.htm)
近日,特斯拉宣布在中国市场推出的中国版本FSD,由于该版本通过空中下载技术在一周内陆续推送给车主,目前有少部分车主已可以使用FSD功能。值得注意的是,据媒体报道,有少量车主在二手平台上以高价出租特斯拉,**每日租金最高达2888元**,租车者包括做测评和直播的媒体人、车企人员等。 在某二手平台上,一网友正以**2888元/天**的价格出租带有FSD功能的特斯拉,其产品介绍页面写着**“接测评、主机厂测试、直播,可开发票,先人一步抢占流量”**。 该车主称,目前带FSD功能的特斯拉市场均价租金是**3000元/天**,“我花了**6.4万**买的,得收点成本回来吧”。 这位车主还介绍说,向他租车的基本没有自己使用的,多是车企,比如**极氪、广汽、小鹏**这些测试学习用,因为在开发票、签合同的时候需要写明租车用途。 与此同时,租车的还有进行测评的媒体。有网友以**500元/天**的挂牌价格出租带有FSD功能的特斯拉,而真正成交价格是**1500元/天**,可以和他本人或者公司签合同。 对方称,现在带有FSD功能的特斯拉租金价格多为**1500元-2000元**,**“都在把握视频风口”“直播很多人看”**。 此外,一位特斯拉车主以**400元/天**的价格出租车辆,称自己的车辆目前还没有被正式推送FSD功能,**但提前付费可以先排队**,为了让大家一起体验这个新功能。 [](//img1.mydrivers.com/img/20250227/08aadd0370b44292bd69a3b7abb9a2ea.png) [](//img1.mydrivers.com/img/20250227/3798c4815082449397e27e57968f16fc.png) [查看评论](https://m.cnbeta.com.tw/comment/1482016.htm)
**百度移动生态事业群(MEG)将UGC(用户生成内容)作为新的工作重点之一,内部开始计划重塑UGC生态。**数据显示,小红书凭借其丰富的UGC生态,日均搜索量已逼近6亿次,直追百度的一半,也显示百度搜索正遭遇对手蚕食。 在此背景下,作为百度UGC的支柱,百度贴吧也将被重新审视。 **报道称,百度贴吧在2025年的战略重点将放在适当减少广告,以促进老用户回归贴吧,并进行自主创作。** 目前,这一战略方向已被明确列入贴吧相关负责人的OKR中,汇报关系上,百度贴吧被放在百度信息分发平台总经理、百家号负责人李小婉下面。 有贴吧员工指出,贴吧过多的广告和导流接口严重影响了用户体验,要想重新伟大,必须减少广告并重构产品。 [](//img1.mydrivers.com/img/20250227/6a9d8ca1ed1f4b3c95d98da412558bf3.jpg) [查看评论](https://m.cnbeta.com.tw/comment/1482014.htm)
尽管目前中国已经上市的模拟芯片公司接近30家,但没有一家市值超过500亿人民币,这表明市场潜力巨大,未来仍有很大的发展空间。
作者 | 赖文昕 编辑 | 陈彩娴 作为一支在 AI 领域历经数十年的研究分支,强化学习一直在历久弥新。 **从推荐系统到强化学习 ** 2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能汇集学术界与工业界的最高人才,来开一场信息检索界的“年会”。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一年拿下了信息检索领域博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名——2021 年的汪军已转向强化学习(RL)数年,作为发起人之一成立了华人强化学习社区RL China,为国内强化学习研究培养了一批优秀的青年人才,成为领域的“一代宗师”。  汪军 汪军出生于江苏南京,1993 年从金陵中学毕业后开始在东南大学攻读电子工程专业。本科毕业后,他先在工业界工作三年,又于 2000 年重返学术界,在新加坡国立大学计算机科学与技术系读研。 千禧年正值数字视频兴起,主要播放格式为 DVD、MPEG。彼时在计算机视觉领域占据主导地位的,是基于手工特征和传统机器学习算法的方法,如在图像匹配、分类等任务中取得了较好效果的 SIFT 特征、支持向量机等,神经网络则被认为是一个相对复杂和难以解释的 “黑盒” 。 此时汪军已开始运用神经网络开展计算机视觉领域的研究,师从印度教授、现新加坡国家人工智能中心副主席 Mohan Kankanhalli。 作为汪军学术生涯的首位伯乐,Kankanhalli 引领他进入学术圈,经常鼓励他自由探索,对其影响深远。在导师指导下,汪军的硕士论文聚焦通过不经过解码,直接利用神经网络从压缩视频中识别其中的模式、人脸、物体等内容。 2003 年硕士毕业后,汪军来到荷兰的代尔夫特理工大学读博,师从机器学习教授 Marcel J. T. Reinders,在其指导下开始参与 CACTUS 项目。 该项目核心关注在自组织无线环境里,通过个性化、智能且具备情境感知能力的可穿戴设备,解决人机交互与计算机网络交互在技术及可用性上的难题。其中一项关键内容为,依据用户当前状态,判断是否应推送不同信息。 作为一项推荐系统工作,该系统还与信息检索紧密关联,本质上源于其中最基本的用户需求。此需求可表现为关键词,如通过用户以往的兴趣爱好、历史浏览记录等寻找到新信息,结合已知与未知部分,其中衡量它们之间相关性的指标是核心所在。 随着研究推进,这个大项目范围逐步收窄,发展成为个性化推荐系统,汪军也在此过程中逐渐确认了自己对推荐系统与信息检索的兴趣。 博士期间,指导汪军学习主流信息检索知识的是荷兰信息检索领域的知名教授 Arjen P. de Vries,在他的牵线下,汪军结识了信息检索大牛 Stephen Robertson,并在 2006 年随之前往微软剑桥研究院实习。 Stephen Robertson 发明了搜索领域最出色的算法 BM25,该算法基于概率统计等原理创建了一种排名方法,在神经网络兴起前广泛应用于全球信息检索领域并主导着该领域的技术方向,在大多数情况下,只要合理使用其公式,搜索结果通常能达到较好的效果。 对汪军而言,Robertson 是自己的第二位伯乐。在微软剑桥研究院时,Robertson 常常同他讲解信息检索的核心知识,两人就统一模型(Unified Model) 展开合作,在信息检索领域取得了不少理论突破。 过去传统的概率检索模型存在面向文档和面向查询两种不同的视角,统一模型则将两种视角统一起来,以创建一个更完善的检索模型。沿着这一道路开展推荐系统研究,汪军在博士阶段便逐渐涵盖了信息检索领域的所有基础问题。 获得 ACM SIGIR 2006 最佳博士联盟奖后不久,一心想做老师的汪军收到了伦敦大学学院(UCL)的 offer,并在 2007 年成为计算机系的一名讲师。 刚成为“青椒”的汪军正值想法丰富、动手能力强之际,立即启动了推荐系统方向的新研究。 此前 Robertson 曾提出概率排序原理(PRP),其核心为信息检索系统应按照文档与用户信息需求的相关概率降序对文档进行排序,以实现信息检索系统的整体有效性(如期望精度)最大化。 汪军认为此理论存在不足,还得考虑上不确定性,便创新地将经济学理论引入信息检索领域,在 2009 年发表了“Portfolio Theory of Information Retrieval”一文—— 11年后,此工作被 SIGIR 评为时间检验奖的第二名。  论文链接:https://lintool.github.io/robust04-analysis-papers/p115-wang.pdf 简单来说,就像投资时“不把所有钱都投进一个篮子”,不能只买谷歌股票,还要买可口可乐或其他各类股票。搜索领域同理,比如当输入“jaguar”时,因无法确定其指汽车品牌捷豹还是动物美洲豹,最佳做法是让搜索结果多样化,排序时,第一条可排动物相关内容,第二条排车相关,第三个及后续结果也都要注重多样性。 与 PRP 相比,此方法的优势在于它突破了单一排名指标的局限,不仅考虑了文档相关度预测的不确定性,还考虑了检索文档之间的相关性,通过平衡排序列表的整体相关度和风险水平来进行文档排序,能更全面地处理文档排序问题,还从数学上量化了多样化的益处并有效降低排序风险。 这项工作完成后,汪军认为信息检索领域已无太多本质问题可研究,而互联网中的搜索推荐和广告推荐发展良好,且广告尤其吸引他。 虽然广告本质仍属信息检索范畴,但融入了如博弈论等经济因素。从收益最大化角度,广告推荐不仅要考虑相关性,还得兼顾经济价值,有时即便内容相关,若预算用尽也不会被推荐。于是,汪军开始研究广告竞价机制,如排名竞价、实时竞价。 在钻研的过程中,汪军发现:广告领域技术的本质就是强化学习。 一是做决策以最大化奖励,即最大化经济价值或奖惩收益。广告的目标是最大化用户互动以促购买,同时兼顾预算,在既定预算下追求最优表现,或在预算最小化时提升效果,这和强化学习思路一致。具体来说,用户从点击广告到真正购买中的延迟,就类似于AlphaGo下棋时当下决策影响未来收益,双方都涉及如何评估优化当下决策对未来的作用。 二是多智能体博弈。在广告领域,广告主间是排名竞价关系,例如当用户与鞋子相关的关键词时,众多卖鞋广告主都想投放广告,彼此竞争,这就是多智能体强化学习。 就这样,强化学习的种子埋在了汪军心里。 **UCL 强化学习开拓者** 2011 年,汪军升职为 UCL 的高级讲师,并迎来了一位热衷于围棋的新同事 David Silver。 David Silver 于 1998 年剑桥本科毕业后同好友 Demis Hassabis 共同创立电子游戏公司 Elixir Studios,又在 2004 年到阿尔伯塔大学攻读强化学习的博士,师从强化学习之父 Richard Sutton,期间发表了“在 9×9 计算机围棋中达到大师级水平” 的论文,其开发的 Mogo 程序是当时最强的围棋程序之一。 来到 UCL 后,Silver 延续RL在围棋上的应用,并受 Hassabis 之邀为 DeepMind 提供咨询,启动 AlphaGo 项目;而在隔壁办公室的汪军,则开始接触到RL在信息检索和排序中的应用,遂请 Silver 来担任学生 Marc Sloan 的二导。 两人常探讨强化学习的相关逻辑及它在搜索排序等问题中的应用,此时汪军虽对RL的理解还不深,但通过讨论逐渐觉得这个领域很有意思,便开始用它来探索在新兴交叉研究领域——计算广告市场中的应用。 和传统的监督学习相比,强化学习强调观察和反馈。计算广告生态系统中数据量大,开放性高,决策机会多,同时监管较弱,是绝佳的产学研相结合的平台。2012年,汪军的学生袁帅发表了一篇利用隐马尔可夫链选择广告的文章,揭开了团队将强化学习引入计算广告的序幕。 随着对计算广告市场的了解不断加深,汪军的视野也在快速拓展,新的火花在概念的连接中不断迸发出来。他的妻子在投行工作,在翻看其大学金融专业的教材时,汪军了解到二级市场、现货与期货市场等概念,由此联想到广告领域——广告通常是实时交易,没有未来市场,但实际上,大广告主常提前预定广告位,剩余不确定流量才放入实时竞价平台,类似期货市场。 汪军和学生陈博为据此研究出新的定价方法,创造了广告期货/期权的新产品。文章发表后,不但获得了最佳论文奖,也引起了在剑桥读 MBA 的 Rael Cline 的注意。Rael主动联系汪军提出合作,二人便于 2014 年夏天一起创办了 AI 广告公司 MediaGamma。袁帅和陈博为作为初创员工,一起加入了公司。 MediaGamma的故事延续了七年多时间。在这期间,这群充满乐观精神的学院派创业者尝试了很多主意:从一开始的广告期权交易所,到后来专为广告主服务的需方平台(Demand Side Platform),再到后来专注于开发算法系统,细致分解计算广告中的竞价过程,当然其中也包括了将RL算法应用于出价决策——这也是强化学习首次在广告实时交易中得以商用。 MediaGamma公司始于学术思维的结晶,慢慢发展成一个绝佳的试验场:它提供了开放的平台和数据,多样而实际的商业问题,给了汪军和学生们充分的挑战和锻炼。袁帅也从一名博士生和工程师,成长为公司数据科学业务的领头人。 MediaGamma也为汪军的硕士生、博士生提供了实习机会。其中一位,也是首位紧随他从推荐系统转向广告领域再到强化学习的得意门生,便是张伟楠。 2012 年 3 月,上海交大研一学生张伟楠读到汪军的一篇推荐系统论文,觉得思路新颖,当周就发邮件提问。他本科就读于 ACM 班,毕业前以第一作者完成三篇推荐系统相关论文,并在研一陆续发表。同汪军的交流让他获益匪浅,于是向交大了解留学交换事宜。 张伟楠原本计划本科毕业后出国,却因金融危机导致上一届学生出国情况不佳,大三时选择了保研,但他一直想多接触国际化环境与顶尖人才,也有师长建议从事科研最好有海外博士学位。思索再三,他觉得还是要出国深造,在和 ACM 班总教头俞勇沟通后,他决定未来学成回国为实验室出力。  张伟楠 9 月,张伟楠抵达伦敦开启博士研究。博士刚开始,张伟楠的研究仍旧集中在推荐系统领域,与另一位博士生赵晓雪(现甲骨文首席数据科学家)合作研究了交互式推荐系统的序贯决策优化算法,并拓展了投资组合理论在投资推荐领域的应用。 张伟楠稳扎稳打、极有计划,在清楚自己目标外还会和导师同步自己的最新想法,让汪军特别放心。来到 UCL 第一年的某一天,张伟楠和汪军午饭后在校园外散步,汪军建议张伟楠做互联网广告。 当时互联网广告正兴起,学术界和产业界结合紧密,论文发表增多,新技术实时竞价广告(RTB)也刚出现,不仅要预测用户对广告的喜好,还需实时做出价决策——这个决策优化和多方博弈拍卖过程的本质,让强化学习研究变得重要。 起初张伟楠有些犹豫,虽然自己本科在微软亚洲研究院实习时发表过一篇广告竞价优化的论文,但因为学术界总是拿不到和价格相关的广告数据集,做广告相关的研究会很困难,因此博士第一年时仍主要做交互式推荐系统。 2013 年,汪军让他和学长袁帅合作,参加全球实时竞价广告算法大赛,二人获得最终赛季总冠军,在过程中接触到业界一手的关键广告出价数据,借此又发表了几篇论文。自此,张伟楠正式转向互联网广告竞价领域,博士论文主题也定为互联网广告出价算法而非推荐系统。 当时的主流是,实际优化广告出价时,常把建模做泛化和数值优化结合。前者捕捉数据规律模式,为后者提供出价范围和策略指导,后者在此基础上精细调整出价,实现更好的广告投放效果和经济效益。 汪军和张伟楠起初考虑用强化学习而非此方法,可全球强化学习仍处于“玩具”阶段,多是简单表格型,学术性强,不适用于广告这类实际领域。 直到 2013 年 12 月,David Silver 在 DeepMind 和团队发表了大名鼎鼎的 DQN 算法,首次成功将强化学习与深度学习结合,在Atari 2600游戏中超越人类水平——刚诞生的深度强化学习能处理更实际的任务。 此时在 UCL 研究RL的唯有汪军和 Silver 二人,DQN 算法吸引了一波机器学习牛人相继投入深度强化学习,其中就包括了微软剑桥研究院。在汪军建议下,张伟楠在 2014 年 9 月加入实习,跟随 Thore Graepel、Katja Hofmann 和 Ulrich Paquet,参与了为 Xbox 打造音乐推荐系统的项目。 三人如今均为RL大牛:Thore Graepel 在微软工作 12 年,曾开发 Windows 围棋游戏 AI,2015 年到 DeepMind 组建多智能体强化学习组,两年后发表该领域首篇文章,又带出 AlphaZero;Ulrich Paquet 任顶会 NeurIPS 2024 的程序主席;Katja Hofmann 则是微软RL的核心成员。 在三位的指导下,张伟楠对RL有了更深的理解。2016 年秋,他结束了三年多的博士生活回到母校上海交大任教,开始带学生钻研RL,是最早归国的RL学者之一。 汪军认为生成式对抗网络(GAN)颇具潜力,建议张伟楠朝此方向探索。几人提出了结合GAN和RL的思路:由于离散数据无法像图片或语音那样直接求导,传统GAN方法难以直接应用,而强化学习中的策略梯度算法天然适合处理离散数据,因为它可以直接优化离散动作分布,从分布层面调整结果。 就这样,张伟楠同学生于澜涛、导师汪军、俞勇一起创新性地将策略梯度方法应用于离散数据生成(如文本和音符),在 AAAI 2017 发表SeqGAN,获得极大的关注,目前引用次数已超3000。 值得一提的是,现在已成为范式的基于人类反馈的强化学习(RLHF)同SeqGAN背后的思考逻辑出奇一致,都是通过RL方法优化生成模型,利用外部反馈信号(判别器或人类反馈)解决离散数据生成的挑战。  论文链接:https://arxiv.org/abs/1609.05473 同年,师生二人还合作了 IRGAN,汪军提出将 GAN 和 RL 结合,在信息检索领域提出了一种创新的生成式方法:与只使用生成模型或判别模型的传统方法不同,IRGAN框架通过GAN的思想将双方统一在一个对抗性训练框架中,通过对抗性训练融合了彼此的优点,对于生成器采用了基于策略梯度的RL来训练,在三种典型的信息检索任务上(四个数据集)得到了更显著的效果——作为 SIGIR 2017 唯一的满分论文,IRGAN 还被提名为最佳论文。 **多智能体:“三折叠”黑盒** 与卷文章的实验室风格不同,汪军会在给予整体方向指导、亲自推导公式、探索新课题之余,让每个学生自由探索自己感兴趣的领域。 不少学生与他的初见在伦敦泰特现代艺术馆。汪军会先带学生看展,再坐下来喝咖啡,告诉他们做研究就像欣赏艺术品一样,读博第一年不必急于出成果,探索兴趣、明确问题,远比发论文更有价值。 除了让读博充满乐趣外,在温颖、杨耀东看来,导师汪军的学术品位极高,总能先人一步探索有潜力的方向。 转向强化学习后,汪军选择了鲜少人涉足的多智能体领域,最核心的原因是其在互联网广告领域的经验:广告主竞拍广告位就是典型的多智能体博弈场景。 深度学习神经网络本就是黑盒,深度强化学习在其基础上增加了环境动态交互的黑盒,多智能体强化学习又在这两层黑盒之上加入多智能体博弈的黑盒,难以把握博弈收敛的纳什均衡点,是最难的学习范式。 *纳什均衡点是博弈中各参与者策略组合达到的稳定状态,即任何参与者单方面改变策略都无法使自身获益,以“囚徒困境”中两囚徒都坦白的策略组合为例,它在多领域被用于分析博弈行为与预测结果。 第一个跟随汪军钻研多智能体的学生是温颖。 温颖 2015 年本科毕业于北京邮电大学的电子商务及法律专业,因学校整体偏通信与计算机的氛围,所学内容涵盖计算机、通信、经管等多领域知识,因此曾跟着软件工程和计算机学院老师做过不少数据挖掘、复杂网络分析的科研项目,是位不拘小节的编程大牛。 保研清华后,温颖先后在百度、亚马逊等大厂研发部实习,在了解国内码农工作模式后,又萌生了出国看看的想法。2015 年 7 月,他赶在硕士项目申请季截止(当时唯一未截止的项目是 UCL)前提交申请。刚在清华报到交完学费,温颖就收到 UCL 录取邮件,于是放弃保研机会,火速办理签证,在 10 月 UCL 报到截止前一天抵达了伦敦。  温颖 此时英伟达推出Titan X GPU使算力大幅提升,CUDA 生态变好,谷歌也刚推出深度学习框架 TensorFlow,深度学习得以在学术界大规模兴起。 温颖的硕士方向为网络科学与大数据分析,汪军是其项目主任,张伟楠也会指导他做研究。师兄弟二人初见时,张伟楠还拿着刚打印出来的 TensorFlow 使用文档,称它为未来的方向。 硕士的一年间,温颖跟张伟楠一起尝试用深度学习做计算广告、自然语言理解,温颖出色的编程和工程能力让张伟楠印象深刻,便推荐他加入汪军组读博。 对于是否继续深造,温颖起初因学费高昂而犹豫,在争取到学院的Feldman计算统计奖学金(EU/UK费率)后,汪军又提出让他去 Media Gamma 实习,让公司帮他出剩下的学费(国际学生学费),就这样,温颖于 2016 年秋留在 UCL 读博。 此时汪军刚升为教授,有更多的资源“搞点大事”,便决定正式让学生们主攻多智能体强化学习,将博弈思想融入其中。 年初 AlphaGo 问世后,温颖听了 David Silver 的讲座深受触动,与汪军确定该方向,成为其首个研究多智能体的学生。  2016年的一场学术会议上,汪军结识了彼时为阿里认知计算实验室负责人的袁泉,二人都对多智能体很感兴趣,便决定让俩团队围绕星际争霸游戏开展合作,温颖也因其出色的工程能力成为项目主力。 2017年秋,团队推出多智能体双向协调网络BiCNet,专注于复杂环境中的协同与竞争策略优化,在星际争霸游戏中它通过双向通信,建模智能体间的相互影响,使智能体能够学习协同作战、资源分配和战术决策,并通过生成多样化策略池确保在面对不同对手时快速适应并做出最优决策。  论文链接:https://arxiv.org/pdf/1703.10069 可惜的是,尽管BiCNet比2019年发布的AlphaStar要早上两年,但因只聚焦星际争霸的小规模对战,且没有足够的资源去扩展规模做全局游戏,未能获得更大的影响力。不过,袁泉也在此项目后离开阿里创立启元世界,并在2020年6月发布AI智能体,使其成为继DeepMind后全球唯二用AI击败人类选手的企业。 此后,温颖的研究聚焦于多智能体之间的相互影响建模,将认知层次应用于多智能体强化学习,帮助智能体在合作场景中制定更优策略;关注策略之间的相互影响,通过探索策略空间,使智能体在接触丰富策略后学到最佳应对策略,从而保证性能下限——这种建模方法在微观和宏观层面都显著提升了多智能体系统的表现。 随着温颖一同加入汪军组读博的是杨耀东。 2013 年,杨耀东在中国科学技术大学电子工程与信息科学系本科毕业后,来到帝国理工学院深造。毕业后,他就职于美国国际集团(AIG)科学部门开发由机器学习风险定价模型。 在加入UCL前,他对深度学习极有热情,2015年在一次AIG资助的位于爱丁堡大学主办的深度学习研讨会上结识了张伟楠,以爱好者的身份请教最新技术动态。后经张伟楠推荐,到汪军组读博。  杨耀东 进组后,杨耀东的第一篇论文探索如何用RL和多智能体系统模拟自然界捕食者与猎物间的动态关系,如狼与兔的周期性循环。与传统依赖微分方程的方法不同,他通过RL让智能体自主决策,仿真自然行为轨迹。这项工作让他深刻体会到RL的魅力,认为其从决策角度逼近真实人类社会,也奠定了他多智能体强化学习的研究方向。 这项工作完成后,杨耀东和汪军讨论新课题时发现:少量智能体的情况较为简单,但若数量增加到成百上千甚至上万后,缺少“C位”角色主导的情况将极为复杂。 面对这个问题,杨耀东提出引入“平均场博弈(Mean Field Game)”理论来解决。以股票市场为例,每个投资者的行为复杂且相互影响,但通过平均场方法,可以将所有投资者视为一个整体,计算群体的统计行为,并假设个体行为受群体行为影响,这种方法通过动态迭代关系描述个体与群体之间的相互作用。 杨耀东是第一个将平均场博弈引入机器学习的学者,首创平均场论RL算法(Mean Field MARL),通过将大规模智能体系统(百万级)简化为群体行为模型,成功降低了计算复杂度,为处理超大规模多智能体系统提供了新的理论框架和实用工具。 这一创新在多智能体强化学习领域具有重要意义,中了顶会ICML 2018的Oral。杨耀东反应敏捷、掌握的知识非常丰富,汪军曾夸赞他“很少有不知道的paper,有时比我知道的还多。”六年以后,杨耀东持续相关领域研究,并指导学生完成了多智能体强化学习领域华人首篇Nature Machine Intelligence。  在ICML 2018会议现场与Mean Field RL展板合照 论文链接:http://proceedings.mlr.press/v80/yang18d/yang18d.pdf 除了温、杨二人外,张海峰和田政也是在2016年加入了汪军组。 张海峰2012年本科毕业于北大后继续留校读博,师从李文新教授研究游戏智能体,主要接触蒙特卡洛树搜索等传统算法。2017年,他到UCL交换,与汪军合作研究博弈环境生成,利用RL自动生成游戏关卡,并在IJCAI发表论文。2018年博士毕业后,他再到汪军组做博士后,提出双层RL模型,用于多智能体系统中的斯塔克尔伯格均衡(Stackelberg Game),以自动驾驶为例研究车辆并道决策。 田政本硕均在UCL就读,博士期间先研究“快思慢想”理论,提出类似AlphaZero的RL算法EXIT,在棋盘游戏Hex中击败AI程序MOHEX 1.0。加入汪军团队后,他专注于多智能体强化学习,特别是桥牌叫牌策略,通过叫牌传递隐藏信息并合作取得优势。  张海峰、田政 陈旭和杜雅丽则在2019年加入汪军组做博士后。 陈旭在清华博士期间专攻信息检索和推荐系统,被汪军2017年发表的IRGAN所吸引,十分欣赏利用对抗学习来提升信息检索性能的想法,于是选择加入UCL做博士后研究员。 加入汪军实验室后,他一方面拓展强化学习理论,将离散时间马尔可夫决策过程延伸至连续时间半马尔可夫决策过程,并扩展有限时间界至连续时间界;另一方面,他将强化学习应用于推荐算法,针对用户多维度兴趣问题,如旅客对酒店的多维度评价,提出基于多目标优化的强化学习算法,将用户行为建模为序列决策过程,实现动态多目标策略优化。 杜雅丽在悉尼科技大学读博,博士后期时在腾讯AI Lab实习,研究强化学习在星际争霸中的应用,尤其是多智能体的微操控制。来到UCL后,她聚焦于多智能体通信网络构建、多智能体能力评估等研究,也和温颖合作探索强化学习在游戏的应用。  陈旭、杜雅丽 汪军对学生们的一大影响是对学术的执著追求与前瞻性。张海峰评价,汪军总能提出新颖想法,虽部分想法超前,但激励学生深入探索、调研并完善,因此能在单智能体应用盛行时,率先投身多智能体强化学习研究,终成开路人。 在学生培养上,汪军老师会根据学生兴趣细分研究领域,如陈旭侧重RL在推荐系统的应用,张海峰关注博弈,杜雅丽和温颖聚焦游戏领域等等。 张伟楠形容汪军“像李白一样洒脱随性”,他记得,汪军不热衷申请项目、周旋于会议和同行间,经费虽不宽裕,作为大牛却始终坚守科研一线推导公式、指导学生,“有着低调做人、高调做事的处世哲学。”杨耀东形容。  每周一次的深度学习研讨会  在UCL, Bloomsbury Campus **本土崛起** 强化学习在国内真正开始受重视始于2016年AlphaGO战胜李世石的那一刻。 这一年,张伟楠回到母校上海交大任教,既和汪军继续保持合作推进SeqGAN和IRGAN,也开始带学生钻研强化学习。 此时国内开设RL课程的高校寥寥无几,更没有系统教材和足够的老师,张伟楠便常在夏令营等非正式场合和学生们讲解RL的基础理论与前沿论文,还在2018年暑期邀请汪军来到上交大授课,讲RL、多智能体博弈论及其最新应用。  但这显然不够,学习材料和老师的稀缺让学生们只能在摸索中前行,直至 2019 年,情况才迎来实质性转变 。 9月,UCL 人工智能中心正式成立,随即与 DeepMind 深化合作。DeepMind 研究员担纲RL课程,汪军则负责后续的多智能体课。 了解国内情况后,汪军萌生了举办免费线上夏令营的想法,希望将自己在UCL中教授的内容推广开来,帮助中国学子更好地学习RL并深入了解此学术领域。 在和学生们的微信群里,汪军分享了这个主意,众人积极献策,提出各种命名建议。经过一番讨论,最终定下了张伟楠提议的“RL China”这个名字。 RL China由汪军发起,在早期推广中由张伟楠和张海峰负责拉人,张海峰还负责安排日程、发布报名通知等具体运营。 2019年底张海峰回国,次年在汪军的引荐下加入中科院自动化研究所,成立了专注于多智能体研究的群体决策智能团队,强化了自动化所彼时未及NLP、图像那般繁荣的博弈决策研究。 半年后,RL China第一届暑期课推出,除了张伟楠、张海峰与杨耀东这三位汪军的学生外,北大卢宗青、天津大学郝建业、新加坡南洋理工大学安波、南京大学俞扬和清华张崇洁等人也受邀参与其中,为报名的同学无偿直播讲课。  反响热烈的首期RL China让汪军等人确信此活动的必要性,又在2021年扩大了规模,国内外的授课教师数量增至三十余位,课程涵盖强化学习、博弈论、多智能体等,还有华为等企业的应用类课堂。 除了举办年度论坛之外,RLChina每周还组织学生研讨,由国内外十几个强化学习研究团队轮流主持,直播平台上的观看人数最高时能达十万人次。 张海峰一直负责组织RLChina的各项活动,他认为投入精力在国内推广RL意义重大,“因为它能聚集年轻教师和学生交流,加强学术界与产业界联系。”  与此同时,国内的RL教材也不再局限于搬运海外论文,而是逐步平衡好理论和实操。 张伟楠自2019年在交大开设RL课程后,有不少学生反映课后编程实践与课堂内容存在明显脱节,在课上证明了策略梯度定理和学习了策略梯度算法后,课后作业仍难以自己写代码实现策略并在游戏环境中获得高分。 为解决这一问题,张伟楠借鉴了ACM班学长李沐出版深度学习书籍的方式,采用相似的形式编写强化学习教案,每介绍一种方法,先讲解原理和公式推导,再附上可运行的Python代码,学生可在网页上直接运行代码并查看结果,即时验证所学原理。 在ACM班创始人俞勇的鼓励下,张伟楠和助教们将经过几年迭代的讲义和代码作业整理成书,于2022年5月出版了《动手学强化学习》,此书至今销量已超2.5万册,年销量在全国强化学习领域排名第一。 而除了教学外,汪军与他的学生们对RL在具体领域的应用探索,同样为RL的本土崛起出了一份力,尤其是RL和大模型及具身智能领域的结合。 回到2019年,汪军担任了华为诺亚方舟实验室的决策推理首席科学家,为华为内部业务如5G网络控制和自动驾驶仿真提供多智能体解决方案,杨耀东和温颖也先后加入,参与了内部名为“LANDING RL(强化学习落地)”的大项目,项目最终虽没成功,但几人对强化学习落地场景的瓶颈都有了新的认识。 2020 年 6 月,GPT-3 问世。汪军注意到,大模型的Transformer架构具有自回归形式和良好的通用泛化性,恰好可以解决传统RL在不同环境策略间的迁移存在的泛化难题。 于是在2021年,汪军召集了张伟楠、杨耀东和温颖三人,开始筹集资金,决定以创业的形式启动大模型研究——训练决策大模型极消耗资源,需投入海量算力。 他们希望构建通用决策模型而非语言模型,所开发的“多智能体Transformer(MAT)”输入和输出更复杂,包括图像、连续值(如机械臂关节状态)、文本和离散动作,初步成果还发表在了NeurIPS 2022。  项目链接:https://sites.google.com/view/multi-agent-transformer 在MAT基础上,团队22年进一步推出了数字大脑决策大模型(DB1),进一步验证了预训练模型在文本、图 - 文、强化学习决策、运筹优化决策方面应用的潜力。尽管DB1模型参数量达十多亿,数据量达100T,但并未实现预期同语言模型一般的泛化效果。 问题在于,不同模态数据的信息力度难以对齐,理论上需要长段连续数据才能提取语义信息,而他们直接将数据强行输入同一维度,虽在几百个任务上有效,但未能实现跨模态或组合泛化,这也是DeepMind同年推出的通才大模型Gato同样没能解决的问题。 同期,在自动化所的张海峰也和汪军合作了端到端决策大模型的工作,具体涉及机械臂操控、星际争霸游戏仿真、运筹优化等跨度较大的领域,剑指通用大模型。可以说,汪军等人所探索的,就是如今具身智能的雏形。 张海峰认为汪军既具超前想法又重落地性,“他2017年就关注机器意识,2021年做决策大模型,领先行业数年。通常有超前想法的人不太考虑落地,但汪老师与产业界联系紧密,无论是与华为等企业合作还是个人创业,都显示他对产业界的熟悉。” 在汪军的一众学生中,扎根具身智能最深的当属杨耀东。 博士毕业期间,杨耀东先在华为诺亚方舟实验室从事RL研究,随后又到伦敦国王学院(KCL)任助理教授,并在2022年1月回国加入北大人工智能研究院任教。 谈及跳出舒适区涉足硬件的原因,杨耀东表示,只将RL应用于游戏并非智能的最终形态,无法推动行业发展;而双手作为人的智慧终端,智能体难以比拟,且根据莫拉维克悖论,即机器人处理复杂任务容易,执行简单日常动作却困难;更重要的是,在试验中用RL做灵巧手操作能实现儿童精细运动技能评估量表的极多操作,也证实了其可行性。 受北京市科委资助,他牵头了《基于认知推理的具身智能可泛化灵巧操作技术研究》并与同年龄段的北大助理教授朱毅鑫、董豪、王鹤一起探索类人灵巧双手操作。 半年后,团队实现了第一个双手抛接球demo,杨耀东立刻给汪军发了一条微信,分享真正把多智能体强化学习用到真实场景中的喜悦,“让AI控制高自由度的机械手达到人的灵巧度十分不容易。”此时距离智元机器人和银河通用的正式成立还有一年多的时间,用RL实现灵巧手操作也尚未成为产业共识。 **通往AGI的最后一公里** 强化学习在过去十年中经历了从爆发式兴起到反思调整,再到技术突破与场景落地的完整周期。 2016年,AlphaGo击败围棋世界冠军李世石,成为人工智能史上的里程碑,其结合蒙特卡洛树搜索与深度强化学习的技术引发全球关注,推动学术界和工业界对RL的广泛投入。 然而,随着技术热潮褪去,2016年至2019年间,RL逐渐暴露出采样效率低下、真实场景应用成本高昂等问题。例如,训练一个游戏智能体需数百万次交互,而机器人领域的实验可能因策略错误导致设备损坏,单次实验成本高达数十万美元。这一时期,研究者开始转向离线强化学习(如BCQ、CQL算法)以降低交互成本,同时探索分层强化学习(如FeUdal Networks)和多智能体协作(如MADDPG)来应对复杂任务。 2019年后,RL进入复苏与扩展阶段,并开始渗透至真实场景:OpenAI的Dactyl(2019)通过RL训练机械手完成精细操作,波士顿动力将其应用于四足机器人运动优化;Waymo等公司将RL用于自动驾驶决策系统,处理复杂交通场景;阿里、谷歌通过RL优化动态推荐策略等等。 不难发现,作为最早涉足RL的华人学者,汪军及其学生一脉同样沿袭了相似的发展脉络,带领着中国RL逐步追赶上国际最前沿。 2022年底,横空出世的ChatGPT更是为这群高歌猛进的RL信徒们注入了一剂强心针,众人在RL与大模型技术融合的新趋势中开始发力。 汪军首先让公司全面转向以语言模型为中心的决策智能体,但仍希望实现决策任务而非仅文本生成,其研发的语言智能体已具备基础对话能力和统一语义空间,计划将不同模态和粒度的信息映射到语言空间,实现组合泛化。可惜的是,公司未能等到2023年上半年开始的大模型窗口期,在年初宣告了结束。 在学术上,组里的主力军们都在汪军的指导下成果斐然。 冯熙栋在元强化学习(Meta RL)已小有成果,围绕多智能体交互与元梯度估计偏差发表过两篇文章。 22年底Chat GPT的出现让他意识到LLM的泛化能力远超传统元强化学习。在汪军的提议下遂转向强化学习与语言模型的融合研究。他的第一篇工作将国际象棋作为包含验场。论文深入研究了了整个机器学习流程,包含数百万局对弈数据及对应的语言数据集,对应的语言模型和生成模型训练,以及评估模型策略的基准设计。 冯熙栋也因此获得了23年底Google DeepMind关于国际象棋的实习生项目名额,实习大半年后顺利转正,留在了discovery组,参与语言模型,生成模型与强化学习结合的研究。 汪军也鼓励学生们从不同的角度上去理解智能体和环境的交互决策的合理性,并将其用于强化学习与智能体突破。在汪军的启发下,杨梦月在博士期间的研究聚焦于可信AI,因果分析。从因果表示学习开始,进一步的延伸到对智能体交互的世界环境的因果理解,即因果世界模型,以辅助智能体决策的可解释性和可信研究。 杨梦月于2024年底加入布里斯托大学工程数学作为助理教授,她目前也将研究拓展到基于大模型下的广义的世界模拟中的因果探索。 和二人同届的李锡涵则关注学习优化、偏向于解决实际问题的应用,比如对芯片逻辑电路的优化,提出了类似LLM的生成式神经模型“Circuit Transformer”,通过精心设计的解码机制和马尔可夫决策过程,严格生成与给定布尔函数等价且更紧凑的逻辑电路,目标是做出“EDA(电子设计自动化)领域的AlphaGo ”。 目前,李锡涵正与华为诺亚方舟实验室合作,继续探索芯片研究。  冯熙栋、杨梦月、李锡涵 大洋彼岸,2020年回国加入人大高瓴人工智能研究院的陈旭,在推进RL、因果推断在推荐系统方向的应用之余,也开始关注大模型,如角色扮演能力使大模型行为更贴近人类。同时,他还和社会学等人文社科合作,利用大模型智能体进行社会仿真,以进行低成本、快速的社会实践和模拟调查。 杨耀东则对Chat GPT的RLHF技术感到十分惊艳,于是只留下一个多智能体习方向的博士生,其余人all in强化学习的对齐方向,成为国内最早做对齐的学者之一。在ChatGPT发布两个月后,杨耀东团队首先复现了RLHF模型后训练对齐的效果。 杨耀东随后与当时尚未成立百川智能的王小川一同探讨,两位“RL信徒”迅速达成共识:这是通向AGI的重要环节。三年后,OpenAI O3、DeepSeek R1的诞生也印证了该认知。与百川智能的合作也让杨耀东意识到AI浪潮发生在业界而非学界,再次埋下了创业的种子。 随后在2024年具身智能的窗口期,杨耀东与梁一韬,温颖一同参与了灵初智能,创建了北大-灵初灵巧操作联合实验室,探索类人灵巧操作的具身智能产品,目前已推出了Psi - P0 规划模型和Psi - C0 控制模型。 此外,杨耀东还和杜雅丽合作,发表了华人首篇多智能体强化学习方向的Nature Machine Intelligence子刊,打破DeepMind的垄断,该论文也成为Nature Machine Intelligence创刊以来最受关注下载量最高的强化学习方向论文。  论文链接:https://www.nature.com/articles/s42256-024-00879-7 去年10月,汪军来到温暖的花城广州,在港科大做RL China的开幕致辞。这是RL China第二年开始办线下活动,参加人数也倍增至500有余。 汪军希望未来每一年都采用线下方式举办,逐渐形成一个真正的RL学术会议或学生营,帮助缩短与国外存在的差距。 张伟楠指出,相比西方学者自上世纪八十年代的深厚积淀,国内2016年才起步的研究仍存在思维深度与技术底蕴的差距——这种差距既体现在顶级会议核心圈的中国声音稀缺,也反映在学术生态的脆弱性:当计算机视觉等领域提供更轻松的就业通道时,许多强化学习研究者选择转行。 作为将深度强化学习引入中国的先驱,汪军及其学生们在2016-2020年间的影响力甚至早于伯克利系学者的集体归国潮。他们借RL China点燃了第一把火,培养更多强化学习方向的学者与教师,让该学科在国内百所学校开设,并推动技术落地产业,实现变革。  汪军的学生们还谈到,汪军总是活跃在科研一线探索,手把手教学生推公式,完全没有“学术大牛”的架子,凡事亲力亲为,总是“样样通、样样精”,从信息检索到推荐系统再到多智能体强化学习都能硕果累累。 知行合一的学术基因会在新一代学者身上延续。在杨耀东看来,汪军是他科研和为人处世上的领路人,当自己成为导师后,也希望对博士生传递一个核心理念,“五年后你们带不走任何算法代码,唯有两样东西真正属于你们——辨别研究方向的学术品味,以及决定学术生命长度的学术道德和规范。” 袁帅、陈博为、赵晓雪、张伟楠、杨耀东、温颖、张海峰、田政、陈旭、杜雅丽、冯熙栋、杨梦月、李锡涵等人从UCL的汪军组走出,以强化学习为根系成长为多个方向的先行者,在中国强化学习领域形成了重要的影响。 “在迈向AGI的路上,无论是哪种智能,强化学习这一步都不可或缺。” UCL的故事已告一段落,但以强化学习为根基的他们,仍在续写着新的篇章。 (雷峰网前编辑张进对本文亦有贡献) 关于强化学习的更多故事,欢迎与本文雷峰网作者 anna042023 交流
 3 月 1 日(周六)13:00,机核将在 天津·瑞吉金融街酒店 B1 瑞吉宴会厅 举办 “龙在远洋” 《人中之龙8外传 Pirates in Hawaii》 发售纪念展。 大家好!距离活动还有两天的时间,本次的舞台活动最后还有一个抽奖环节,奖品种类丰富,数量众多。两位嘉宾——人中之龙系列主制作人阪本宽之与 “冴岛大河”中文配音 图特哈蒙将会现场抽奖。大家千万别忘了参与。 这次的奖品不仅有官方正版的周边,还有来自世嘉官方提供的新款 「真岛吾郎」一番赏组合!先来个全家福吧。  参与奖:真岛吾朗小黄鸭*10   新款 「真岛吾郎」一番赏组合 *5  八位堂猎2旗舰手柄 *4   真岛吾朗手办*2   全场大奖:真岛吾朗夹克*1    除此之外,成功报名并来到现场签到的观众都将获得一份伴手礼:  大家周六见!天津见!
 建造街道&roguelite游戏《超级增税都市》已于1月30日在Steam发售,该作支持中文,目前评价为特别好评。该作提供免费试玩版,可下载体验。  以下为该作在Steam商店页的官方中文介绍: 新感觉!?建造街道 ×rogue-lite游戏『超级增税都市』。从随机抽选的设施里,选择自己喜欢的设施布置吧!组合无限大!做一个只属于你的赚钱都市吧! 规则 从3个选项里选择设施,布置在地图上吧!  随机移动的住民只要进入设施工作后就能拿到报酬!  限定时间结束后就是交税的时间啦。用赚来的钱交税吧! 关于设施  100种以上个性丰富并附有各种效果的设施登场! 组合无限大!做一个只属于你的赚钱都市吧!
**作者 | ** 谢芸子 **编辑 | **郑怀舟 **封面来源 | **企业供图 伴随“9块9”价格战卷土重来,中国连锁咖啡行业再度进入调整期。 据此前媒体报道,在刚刚过去的2024年,中国咖啡市场消失了超过45000家门店。 在这样的大环境下,Tims天好中国——这个来自加拿大的咖啡品牌,将破局的希望寄托在暖食、尤其是“明星产品”贝果上。 “如果将我们卖出的贝果叠加在一起,能达到3700个东方明珠的高度。” 在介绍产品时,Tims 天好中国的CEO卢永臣,形象地为36氪打了个比喻,也由此能看出其公司贝果产品的受欢迎程度。 而此时的卢永臣,正重新审视中国咖啡市场的水温变化,以期更好的调整Tims品牌的发力方向。 也伴随整个行业的起伏,过去一年中,在门店扩张相对保守的Tims,率先在公司内部开启了一系列的改革。这其中包括对炸鸡品牌Popeyes的剥离、对低效门店的清退以及加盟体系的完善。 去年10月,正式迈入千店时代的Tims,官宣了“新鲜即美味,健康低负担”的品牌新主张。重新锚定“健康饮食”赛道后,Tims又聚焦午餐场景,希望由此增加贝果的销售时段。 Tims在中国市场的发展,也正式转向了探索品牌差异化,力推小门店加盟的稳健阶段。  Tims天好中国CEO卢永臣 以下为36氪与Tims天好中国CEO卢永臣的对谈实录(有删节)。 ### **卖出5800万个贝果** **36氪:Tim Hortons入华6年了,你的心境有没有变化?** **卢永臣:**已经从破局者的锐气,过渡到了长期主义者的沉淀。之前的Tims一直是大步扩张,现在更聚焦品牌差异化,这样的变化在去年品牌战略调整后更明显。 **36氪:Tims的差异化体现在暖食业务?** **卢永臣:**Tims本来就是有暖食基因的品牌。2019年,我们在中国开出第一家门店,就定义为暖食咖啡馆。 **36氪:贝果在中国更像是一个新品类。** **卢永臣:**入华第二年,Tims就决定在中国市场推广贝果产品,这一决定在公司内部也有过较大争议。毕竟在品牌刚起步的阶段,培养新品类,需要付出很大的成本。 但我始终看好贝果的潜力,有生命力的产品只需要顺应消费者需求,辅以持续的市场教育,就可以成长为受大众欢迎的品类。制作工艺上,贝果要先水煮、再烤制,这就比普通面包更低油低卡,也更有嚼劲,这些都符合中国市场追求健康的消费趋势。 **36氪:星巴克、奈雪、霸王茶姬也陆续推出了贝果产品。** **卢永臣:**Tims的优势在于“现点现制”。我们也对贝果做了本土化的改良,产品更松软,也增加了中国消费者喜欢的原材料。为了推广这一新产品,Tims也投入了大量的营销成本,推出过一段时期的“9块9”促销,也曾邀请杨洋作为代言人。 2022年,Tims的贝果销量、复购率“滚雪球般”增长。时至今日,贝果已是Tims最出圈的产品,累积销量超过5800万个,可以叠出3700个东方明珠的高度。我们也很高兴看到贝果品类在中国市场的发展,作为头部品牌,Tims也能在不断增长的市场中获得更多份额。 **36氪:今年Tims也开始进军午餐市场。** **卢永臣:**过去几年,Tims一直聚焦早餐,希望通过“一杯咖啡、一份贝果”的产品组合,满足消费者对于早餐“快速、性价比高、口味好”的需求。今年我们又瞄准了午餐场景,是希望能增加贝果堡等暖食产品的销售时段。Tims也希望通过持续的市场教育,让中国消费者养成到咖啡馆吃午餐的习惯。 **36氪:Tims的暖食销售占比为多少,平均客单价有增加吗?** **卢永臣:**Tims含暖食订单占比已提升到50%以上,会持续保持在这一水平甚至更高,平均客单价一直稳定在30元左右。 **36氪:轻食产品的毛利率远低于咖啡,这是否会影响整体的毛利率水平?** **卢永臣:**食品的毛利率的确比饮品低很多。一般情况下,连锁咖啡品牌售卖的轻食都是从工厂直接进口,Tims的大部分轻食在门店现制,只从工厂购入原材料。这就使轻食所需的部分加工成本、人力成本能与门店共用。而且商业模型也不是简单的数学问题,还要看产品的组合效应。 打个比方,单独买咖啡的顾客平均每周进店消费1至2次,购买“咖啡+暖食”的顾客消费频次会提升到2至3次,比起单品毛利率,Tims更关注如何让顾客持续买单——这也是利润的真正护城河。目前,Tims的综合毛利率接近70%,也是行业内的健康水平。 ### **番茄咖啡,受到欢迎? ** **36氪:各品牌的咖啡风味越来越趋同。** **卢永臣:**咖啡壁垒不高,工厂研发出一款风味糖浆,市场就会大规模应用,这也是Tims希望打造品牌差异化的原因。 如果说星巴克教育了中国市场对于意式咖啡、美式咖啡的认知,Tims主打的鲜萃咖啡,口感偏柔和清淡,更还原咖啡本味。最近,麦当劳中国也将鲜煮咖啡升级为鲜萃咖啡,这足以表明,消费者对于鲜萃咖啡的喜爱。 **36氪:产品的上新率是否有提升?** **卢永臣:**Tims的上新频率始终保持在每2至3周推出一次新品。相比出新,我们更注重核心产品的沉淀,一个优秀的餐饮品牌主要依靠常规产品盈利,我们希望能沉淀出让用户真正记住、有品牌烙印的产品。除��贝果和鲜萃两大品类,Tims也会投入枫糖口味的研发。 **36氪:Tims天好中国有多少会员?** **卢永臣:**截至2024年底,会员数超过2400万。 **36氪:有没有令人深刻的用户洞察?** **卢永臣:**我们也在重新思考,产品研发的过程中,是否应该加重个别消费者的权重比,尤其是口味特别敏感、25%的少数人群,不仅是依赖口味平均值做出判断。 以Tims最近推出的番茄美式为例,这款产品在小红书受到争议,但喜欢番茄的人就特别喜欢,伴随越来越多消费者的猎奇,这款产品的受众也在增多。 **36氪:未来,中国市场的咖啡偏好是怎样的?** **卢永臣:**无论鲜萃还是美式,我认为黑咖、尤其是冰咖会成为主流。伴随健康意识的增强,消费者会更需要黑咖、果咖搭配食物的“解腻”功能。为了让黑咖没那么苦,品牌也会增添各种水果风味。近年来,果咖的市场增长迅速,已占据了较大的市场份额。 **36氪:健康的趋势,是Tims天好中国剥离炸鸡品牌Popeyes的原因?** **卢永臣:**笛卡尔资本做出这样的调整,还是希望Tims能更专注品牌自身,同时优化资产负债表。 **36氪:Popeyes有怎样的计划?** **卢永臣:**交割完成前,Tims天好中国已对Popeyes的品牌定位、供应链、门店选址等进行优化。在中国市场,Popeyes已有十余家门店,品牌基本建立,未来需要更多的投入来实现规模效应。 ### **关于9块9:不能违背顾客需求** **36氪:你怎么看待9块9价格战?** **卢永臣:**咖啡行业9块9的现象会一直存在。现阶段,价格战的情况比预期要缓和,整个行业趋于理性。 **36氪:在暖食方面,Tims的折扣力度也很大,这是否也是变相参与价格战?** **卢永臣:**Tims推出的“吃饱饱卡”,是“饮+餐”的折扣,是为了暖食市场的教育。公司是否持续参与价格战?我认为还是应该关注品牌的差异化,并明确顾客需求。在当前的经济环境下,消费者对性价比有较高的期待,你不能做违背顾客需求的事,但也要考虑成本控制,只有经营完善,企业才能长远。 **36氪:这两年,咖啡豆的价格涨幅很大。** **卢永臣:**咖啡豆的周期一直存在,关键在于上涨的成本如何消化。目前我们的成本控制能力很强,Tims的采购规模也很大,我们还有许多其他成本尚未通过规模优势消化和摊薄。例如,门店端可以通过数字化提高效率,这两年的租金也比往年低很多。我们也可以通过增加轻食的SKU,确保门店毛利率的稳定。 **36氪:之前有媒体报道,2024年中国咖啡行业有超过45000家门店消失。** **卢永臣:**去年是过渡的一年,市场从快速扩张期进入到调整期,原因在于咖啡供应的增长超过需求的增长。目前大家都在审慎开店,从单纯的规模扩张转向精细化运营,寻找新增长点,比如下沉市场、在特殊渠道布局。 **36氪:Tims在中国市场的开店策略有变化吗?** **卢永臣:**今年元旦前后,我们已经开出了57家新店,Tims每年会维持20%的门店净增长,也会持续清理表现不佳的门店。 **36氪:你如何判断一家门店需要调整?** **卢永臣:**2021年品牌发展初期,Tims签约了许多大店,这些大店租金非常贵,也基本完成了自己的使命。未来,我们会陆续清退这些高租金、低店效的门店。当然,并非所有亏损的门店都会关闭。考虑一家门店关闭还是保留,要看商圈门店的密集度,也要照顾顾客的感受。我们也希望能通过门店组合的方式实现区域盈利、形成更健康的门店网络。 **36氪:2023年9月,Tims天好中国也开放了加盟。** **卢永臣:**实际上2019年,Tims在中国已经开启了城市加盟,随后又引入中石化等大企业做KA加盟。过去一年,Tims也开出了200多家加盟门店,伴随加盟体系的日趋完善,2025年也会扩大加盟力度,单店加盟会是Tims发展的重要方向。 **36氪:目前加盟和直营门店的比例是怎样的?** **卢永臣:**4:6,这也是一个比较健康的状态。 ### **“最卷的时代已经过去”** **36氪:加盟一家Tims,需要多少成本?多久能真正盈利?** **卢永臣:**Tims加盟店的店型多在20至80平方米。包括装修、设备、加盟费以及首批物料费,一家Tims门店的前期投入在60到70万元左右。如果注意控制租金,最快的门店8个月就能收回前期投入,大部分加盟店的回本周期在两至三年。 **36氪:之前Tims是按门店面积的大小划分店型。** **卢永臣:**从去年开始,Tims不再按照原来的“金枫、红枫、捷枫、灵枫”做店型区分,而是改造为“现点现制手作柜台”的全新模式,消费者也可以通过可视化的柜台,看到产品制作的全过程。 截至目前,公司已完成了对648家门店的改造。在Tims的所有门店中,50到100平方米的店型最多,门店内大多设有10到20个座位,保证顾客的堂食环境。未来,投资回报率更高、几十平米的小店型会成为我们拓店的主流。当然,对于城市首店,Tims依然会以大店或是旗舰店的形式呈现。 **36氪:推小型店,是为了更好的适应低线城市?** **卢永臣:**我们目前拥有1000多家门店,分布在中国80多个城市,一线城市的门店比近40%。Tims未来的开店策略,仍会以一、二线城市的门店加密为主。 **36氪:Tims已经把门店开到山东潍坊、河北衡水了。** **卢永臣:**我一直认为中国的咖啡市场,属于供给驱动消费,低线市场的咖啡渗透率虽然在提升,但仍需要较长的市场教育。Tims还不考虑主攻下沉市场,二、三线城市的门店扩张,也主要依托加盟进行。未来几年,我们会稳健开店,不急于激进扩张。 **36氪:无论是门店数还是产品价格,Tims都处于第二梯队。** **卢永臣:**人们往往认为中间段的品牌会比较尴尬,有很大压力,我不这么认为。很多中国的消费者,人生中的第一杯咖啡可能是瑞幸,因为瑞幸门店多、价格便宜,上新的速度也快。但伴随持续的市场教育,消费者对于咖啡的需求只会更多元,不同价格带、不同市场定位的品牌都能得到发展。 **36氪:肯德基、麦当劳也在加注咖啡市场,有没有感觉竞争在加剧?** **卢永臣:**品牌基因非常重要,肯德基、麦当劳始终是快餐品牌,而Tims的竞争优势是咖啡、是新鲜现制的暖食。我们认为,中国咖啡最内卷的时期已经过去,从去年开始,竞争格局逐渐固定,新品牌想要挤占生态位会比较难,头部品牌也越来越谨慎。 **36氪:你今年的工作重心在哪里?** **卢永臣:**在继续加强咖啡早餐优势同时发力午餐。 **36氪:公司预计何时实现全年盈利?** **卢永臣:**预计2025年实现全年现金流盈利。中国的连锁咖啡市场仍有较大的增长空间,不用担心被其他品牌抢占,不要那么急功近利,还是要把产品做好。实际上,无论是消费信心的恢复、还是行业供需结构的改善,也都需要时间。  关注获取更多资讯 本文来自微信公众号[“36氪财经”](https://mp.weixin.qq.com/s/C7ZuRP2KsIwzeW4lIb15sw),作者:谢芸子 郑怀舟,36氪经授权发布。