根据相关数据,马来西亚突然成了计算系统、计算机零部件的大型进口国,交易金额急剧暴涨,这和美国突然加大关税、收紧AI芯片对中国出口的节奏几乎一致,难免令人浮想联翩。 [](https://img1.mydrivers.com/img/20250418/fbcbabc1938a474fb1975e3540803db8.jpg) 数据显示,2025年3月,马来西亚从台湾进口的计算机系统类产品总价值达18.74亿美元之多,对比去年3月的4.02亿美元增长了足足3.66倍! 对比2023年3月的340万美元,更是狂飙突进了550倍。 事实上,2023年底之前,马来西亚的计算机类产品进口额一直不愠不火,每月只有几百万到几千万美元,之后就完全变了,动不动就几亿美元。 2023年底发生了什么?正是美国严格限制AI产品对华出口的开端。 [](https://img1.mydrivers.com/img/20250418/f9da99436f5d47eba03591cd6482c838.png) 另外,马来西亚从台湾进口的计算机零部件类产品,近来也出现了大幅上涨,2025年3月为6083万美元,而在过往两年的3月分别只有1500万美元、2530万美元。 事实上,今年1月一度高达1.57亿美元,2月也有9361万美元。 [](https://img1.mydrivers.com/img/20250418/9592b1c4dc364d2d8aa5e6513b93a595.png) 需要注意的是,这里所谓的计算机系统类产品,范围是非常广泛的,从廉价的笔记本到昂贵的AI服务器都包括在内,但无法得到更进一步的分类数据。 而所谓的计算机零部件类产品,PC显卡、AI加速器都属于其中的一部分。 在此之前,新加坡被视为一个关键的“中转站”,但美国和新加坡政府已经采取各种行动予以打击。 [查看评论](https://m.cnbeta.com.tw/comment/1493826.htm)
CES 2025大展期间,NVIDIA首次展示了新的全路径光追DEMO Zorah,并在GDC 2025期间做了升级。现在它终于公开了。**Zorah DEMO基于虚幻引擎UE5,适用于RTX 50系列显卡,主要展示神经渲染技术、实时全路径光追技术、DLSS 4和多帧生成技术、Mega Geometry几何技术,可以随时开关、设置不同级别,对比差异。** [](//img1.mydrivers.com/img/20250418/d24e49ebc52646c1b5e2ecb65b7fa07b.jpg) 整个场景包含**5亿多个三角形、3万多种材质、2000多种粒子光线**,呈现出极高的画质,看起来和电影画面没什么区别。 除了RTX 50系列显卡,当然最好是RTX 5090(D)、RTX 5080这样的高端卡,你还需要至少108GB的硬盘空间。 **官方下载地址:** [https://dlss.download.nvidia.com/demos/zorah/ZorahSample_UE5_Source_1.0.0.7z](https://dlss.download.nvidia.com/demos/zorah/ZorahSample_UE5_Source_1.0.0.7z) [](//img1.mydrivers.com/img/20250418/9f9b71de660e4c6594bd1f3c9ea05d97.jpg) [](//img1.mydrivers.com/img/20250418/fcc93e2809344d219d61382068c8906a.jpg) [](//img1.mydrivers.com/img/20250418/7396a7bcde874f689b5258ef203829bd.jpg) [](//img1.mydrivers.com/img/20250418/5a677c8c882c48c3ae6f21752fd2c399.jpg) [查看评论](https://m.cnbeta.com.tw/comment/1493824.htm)
4 月 17 日凌晨,OpenAI 正式宣布推出目前 OpenAI 系列里能力最强的推理模型——o3 模型和 o4-mini 模型。 去年 12 月,OpenAI 就预热过 o3 推理模型,当时强调的重点是 o3 模型在解决困难问题上的能力,要显著强于 OpenAI 第一代推理模型 o1 。 而此次正式发布中,OpenAI 不仅强调了 o3 模型在能力上的领先性,同时还 强调了 o3 的 Agent 能力,且强调 o3 是第一代能够在思维链中使用图像进行推理的模型。 自主调用工具是 Agent 能力最重要的体现。 OpenAI 表示,曾看到 o3 为了解一个特别难的任务,连续调用了大约 600 次工具。 随着 OpenAI 的 O 系列、DeepSeek R1 等推理模型日趋成熟,业内普遍认为,只需一条指令即可完成整套任务的 AI Agent 能力将迎来显著提升。 相比于 Google,Anthropic 等从去年就开始宣传 Agent 能力,甚至已经开始推动 MCP、A2A 等 Agent 协议普及的公司, OpenAI 之前在 Agent 能力上的布局相对缺失。而今天的发布,证明 OpenAI 在 Agent 能力上,仍然有自己的思考和布局。 OpenAI 宣布, 从今天开始,Plus、Pro 和 Team 用户就可以使用 o3 模型和 o4-mini 模型了,接下来几周还会推出 o3-pro 模型,替代过去的 o1-pro 模型。 在彩蛋环节, OpenAI 还表示,未来将发布一系列编程工具,重新定义 AI 时代的编程,首发的是一个叫 Codex CLI 的开源轻量化编程 agent。 Codex CLI 可以直接使用 OpenAI 的模型(最终包括 o3 和 o4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等等。 OpenAI 的展示很有意念编程(vibe coding)的味道了:直接在网页上截图了一个别人编程好的效果图,丢给 Codex CLI,跟它说做一个 html 文件复现这个效果,并做一些改动。很快,Codex CLI 就自己写了代码,调用了系统工具,复现出了一个类似的效果。 OpenAI 今日的发布大致符合预期——o3 和 o4-mini 已经预热多时,视觉推理与 Agent 能力也早已在其他公司的模型中有所体现。 不过,从今天的发布中仍能看出 OpenAI 在 Agent 等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。 OpenAI 的模型迭代,也再一次重新肯定了后训练 Scaling Law 的存在。目前看来,AI 模型在接下来几年,仍然会出现能力的快速进化,还未到达瓶颈。 # 01 OpenAI 的 Agent 能力,目前更多的是调用自身的工具 OpenAI 此次发布的一大亮点在于 Agent 的能力。 最初的两个展示都与工具调用能力有关。 第一个展示是研究员给了 OpenAI 一个十年前写过的论文图片,让 o3 模型找到一个特定的结果,并和最新的研究成果进行比较。 o3 模型首先利用内置的视觉推理能力,放大图片,找到了研究员想要的特定结果,然后根据图片中的内容进行推理,算出了论文推导的数值,然后使用搜索功能,查找了十篇论文,比较了最新研究成果与作者十年前论文的结果的区别,最后给出了自己的建议。  第二个演示是研究员问 OpenAI,根据我的兴趣,读新闻,告诉我一些我可能感兴趣的事情。 这个演示则利用的是 OpenAI 内置的记忆工具——OpenAI 几天前刚刚宣布 OpenAI 的模型目前有了可以访问用户全量记忆的能力。 o3 模型先是访问记忆后,找出用户喜欢水肺潜水和弹奏音乐,然后利用搜索功能,找到了一条交叉两条兴趣的新闻:研究人员会录下健康珊瑚礁的声音,然后用水下扬声器在海里播放这些声音,以保护珊瑚。 最后 o3 模型使用了 OpenAI 的 canvas 工具和数据分析工具,生成了一个漂亮的博客界面,完成了任务。  可以看到,在 OpenAI 目前的布局当中,Agent 能力更多的是调用 OpenAI 的内部工具。 不过,在基础的工具调用能力水平存在的情况下,如果想要接入其他工具,似乎也并不是很难。OpenAI 3 月刚刚宣布接入 MCP 协议,为之后使用其他工具打下了基础。 # 02 o4-mini 表现出色,RL 的 Scaling Law 仍在起作用 虽然在 12 月 OpenAI 曾经预热过 o3 模型的具体能力,这次正式发布,官方表示因为进行了「对推理成本和实用性做了大量优化」,在评测结果上,OpenAI 表示可能会有差别。 在发布会直播中,OpenAI 展示了几组测试结果,o3 模型和 o4-mini 模型在数学能力、代码能力和多模态能力上都表现出色:    值得注意的是,在多个维度上,o4-mini 的表现并不逊色于 o3。 尤其是在高难度数学竞赛 AMI 中,o4-mini 结合工具的准确率达到了 99%,几乎逼近评测上限。 这似乎意味着,o4 模型,在未来一定会有更加惊人的表现。 OpenAI 研究员姚顺雨近期在《The Second Half》一文中引用了研究员 Jason Wei 的图表,标注了过去几年 AI 能力的飞跃式增长:  AI 在过去五年里不断刷新各类基准测试的成绩 姚顺雨表示,在突破了强化学习泛化的问题后,过去曾经对于 AI 十分困难的问题,正在土崩瓦解,AI 能力的爬坡正在变得更加可预测。「下一个 O 系列模型无需明确针对该任务即可将其提升 30%。」 OpenAI 的直播也确认了这一点。 OpenAI 表示, 在 o3 模型上的训练计算量是 o1 模型的 10 倍以上 。随着 OpenAI 沿着「计算量」这条轴线不断扩展,像 AMI 这样的评测成绩也持续上升。 Scaling Law 看起来没有尽头,而人类之前设计的基准线,已经快被用完了,甚至已经不一定有测评意义了。 OpenAI 再一次确认,AI 的发展不会停,顶尖模型的探索会让更强的 AI 能力不断下放给用户。 在相同推理成本下,o4-mini 的表现明显优于 o3-mini,且 o4-mini 是多模态模型。 相同的推理成本,o3 模型的性能好于 o1 模型。 模型一代代迭代,AI 的这把科技之火的燃料不会断。 # 03 颠覆编程 ? 顶尖的模型,已经开始干人类顶级科研人员的活了。 对于广众而言,更强的模型,能带来的更切实的能力是什么? OpenAI 这次似乎瞄准了编程这个场景。 OpenAI 在彩蛋中宣布,接下来将发布一系列产品,颠覆编程。 根据 OpenAI CFO 近期的发言, OpenAI 似乎想结合目前模型的 Agent 能力,和极强的编程能力,做出一整套编程 Agent,能够直接对软件进行编程甚至测试。 在演示中,OpenAI 已经给了一个类似的案例,展示了一个模型在虚拟机里,调用工具进行编程的例子,这个案例的思路与之前爆火的 Manus 的思路接近。 OpenAI 给了模型一个虚拟机的终端命令行权限,要求模型定位一个 bug。 当把这个 bug 报告输入给模型后,模型可以使用终端命令行访问整个代码库。先验证 bug 能否复现,确认问题存在后,模型开始代码里四处浏览,尝试理解整个仓库的结构,比如使用命令行 ls 查看文件,cat 打开文件看内容,或者直接查看 Python 文件中的函数,最后找到了 bug,成功修复了问题。 目前,这样的能力,仍然没有被开放出来。 OpenAI 最新发布的编程 agent,采取了调用本地终端命令行界面的方式,进行类似的操作。 可以使用「建议模式」,也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式,看起来则更有一种贾维斯的感觉。  AI 两分钟内只通过图片复刻出的程序 如果说以往的 Copilot 更像是「代码自动补全」,那今年各家模型争夺的重点,很可能是「代码自动完成」。 编程 + Agent,会不会成为第一个真正释放生产力的通用智能场景?起码现在看来,OpenAI 是这么押注的。
<blockquote><p>AI声音克隆技术正革新内容创作。本文评测了6款主流声音克隆工具,涵盖操作便捷性、功能特性及适用场景,助力创作者挑选合适工具,提升创作效率,适应多元需求。</p> </blockquote>  ## 1 米可智能AI ### 1. 工具地址 web端地址:https://aishenqi.net/tool/mikezhineng 小程序端地址:#小程序://米可AI/yYK2lAF7vrP404C ### 2. 工具界面  (web端页面)  (小程序页面) ### 3. 功能介绍 **(1)极速克隆与低样本要求** 仅需上传5秒的清晰音视频样本,30秒内即可完成声音克隆,支持智能去除背景噪音,且克隆音色相似度极高。克隆后的音色可直接用于视频翻译、AI配音等功能,显著提升内容创作效率。 **(2)多语言与情感还原能力** 每个克隆音色可支持15种国际主流语言,并精准复现原声的语气、情感特征,使生成的语音更自然生动,适用于跨语言视频翻译或个性化配音需求。 **(3)无缝集成与多场景应用** 克隆后的音色可无缝应用于米可智能的视频翻译、AI配音等核心功能,覆盖教育、广告、跨境营销等多种场景,助力用户快速生成多语言内容或品牌定制化语音。 ### 4. 优缺点 **优点:操作便捷性高** 米可智能提供从上传到生成的一站式服务,无需下载安装,支持网页端与移动端同步操作,且免费用户即可体验基础功能(如720P音质和200M云存储),大幅降低技术使用门槛。 **缺点:免费版功能限制明显** 免费用户存在文件大小(最大100M)、音质(仅720P)和存储空间(200M)的限制,需升级至付费会员(如基础会员30元/月)才能解锁高清音质、大文件处理等进阶功能,可能影响重度用户的使用体验。 ## 2 剪映 ### 1. 工具地址 https://www.capcut.cn/ ### 2. 工具界面  ### 3. 工具介绍 **(1)极低样本要求与快速克隆** 用户仅需通过手机录制5-10秒的语音样本(需朗读系统随机生成的文本),即可生成高度接近原声的克隆音色,且全程无需上传外部音频文件。 这一功能通过实时验证用户身份(需本人朗读随机文本),有效降低了隐私泄露风险。 **(2)深度集成剪辑生态** 克隆后的音色可直接应用于剪映的“文本朗读”功能,无缝融入视频剪辑流程。 用户可一键生成配音,并通过剪映的音频调节工具(如混响、增益)进一步优化音效,实现音画精准同步。 **(3)限定场景与隐私保护机制** 剪映仅支持用户克隆自己的声音,且需通过朗读随机文本完成验证,无法直接上传他人音频进行克隆。 此举旨在规避声音盗用风险,但也限制了专业配音或娱乐化创作的可能性。 ### 4. 优缺点 **优点:生态优势与用户体验** 作为字节跳动旗下的头部剪辑工具,剪映拥有庞大的用户基础和成熟的创作生态。其音色克隆功能与视频剪辑流程高度整合,操作门槛低,适合普通创作者快速生成个性化配音。 此外,功能免费开放(无需付费解锁核心权限),进一步降低了使用成本。 **缺点:功能局限性与效果短板** 克隆音色的情感表达较为单一,断句和语气还原能力有限,难以满足专业配音需求(如影视级情感渲染)。 同时,仅支持用户克隆自身声音的设定,限制了娱乐化创作(如模仿明星声线)的灵活性。 ## 3 海螺AI ### 1. 工具地址 https://www.minimax.io/audio ### 2. 工具界面  ### 3. 工具介绍 **(1)低样本需求与快速克隆** 海螺AI仅需用户提供10-60秒的音频样本,即可在30秒内完成声音克隆,生成与原声高度相似的语音。其深度学习算法和声学模型能够捕捉音色、语调及情感特征,甚至支持智能去除背景噪音,确保克隆效果精准。 **(2)多语言支持与情感风格自定义** 该功能覆盖12种语言(包括中文、英语、日语等),并允许用户选择不同情感风格(如开心、悲伤、惊讶等),使生成的语音更具人性化和场景适应性。例如,教育工作者可制作多语调教学视频,品牌广告可精准传递情感。 **(3)广泛的应用场景与生态兼容性** 克隆后的音色可直接用于视频配音、播客制作、在线教育、跨境营销等领域,甚至与虚拟现实(VR)、增强现实(AR)技术结合,提供沉浸式体验。其操作流程简化,无需专业设备或复杂设置,显著降低创作门槛。 ### 4. 优缺点 **优点:技术普惠与多模态适配** 海螺AI语音克隆功能目前对用户免费开放,操作界面简洁,支持多语言和情感风格调整,且生成效果接近真人水平。其技术深度集成于内容创作生态,尤其适合短视频、教育等场景,大幅提升效率并降低人力成本。 **缺点:技术局限性** 虽然支持情感调整,但在复杂语境下(如戏剧化表演或高精度语调控制)仍有一定局限性,需进一步优化模型对细腻情感的表达能力。 ## **4 Clone Voice** ### 1. 工具地址 需要本地化部署 GitHub地址:https://github.com/jianchang512/clone-voice ### 2. 工具界面  ### 3. 工具介绍 **(1)多语言支持与灵活的声音转换** Clone Voice 支持 16种语言(包括中文、英文、日文、韩文等),用户可通过文字转语音(TTS)或声音转声音(STS)功能生成目标音色的语音。例如,输入文本后选择音色即可生成语音,或上传音频文件克隆他人声线并转换风格,甚至模拟动物声音等创意场景。 **(2)低样本需求与快速克隆流程** 用户仅需提供 5-20秒的音频样本(可通过在线录制或上传本地文件),即可在短时间内完成声音克隆,生成与原声高度相似的语音。工具支持智能降噪,且对硬件要求低,无需高性能GPU即可运行。 **(3)开源生态与操作便捷性** 作为一款 免费开源工具,Clone Voice 提供预编译版本,用户下载后双击运行即可通过 Web 界面操作,无需复杂配置。其开源特性还吸引开发者参与优化,社区支持强大,适合个人用户及技术爱好者自由定制功能。 ### 4. 优缺点 **优点:开源免费与高兼容性** Clone Voice 完全免费且开源,用户可无成本使用核心功能,并灵活集成至其他项目。其支持多语言、多音色转换,且兼容 Windows 系统,操作门槛低,适合内容创作者、教育从业者等非专业用户快速上手。 **缺点:效果局限性与功能深度不足** 尽管工具易用,但生成语音的 情感表达较为单一,尤其在中文场景下效果有限(如断句生硬、语调还原不足)。此外,缺乏高级功能(如情感调节、实时音色切换),难以满足专业配音或高精度需求。 开源版本的技术更新依赖社区,可能落后于商业工具(如 Cartesia 的 3 秒克隆和情感控制)。 ## 5 Noiz AI TTS ### 1. 工具地址 https://noiz.ai/tts/creation ### 2. 工具界面  ### 3. 工具介绍 功能丰富强大 (1)文本生成语音,可将文字内容一键转化为高质量语音,支持多种音色与风格; (2)智能视频配音,支持视频内容的翻译与创意改编,实现视频快速本地化; (3)超强情感语气克隆,精准复刻个性化表现,包括情感变化、语气停顿等细节,使 AI 语音栩栩如生; (4)零训练声音克隆,无需繁琐训练过程,直接克隆目标声音,效率提升显著。 ### 4. 优缺点 **优点:操作极简高效** 用户仅需上传 3-10秒的音频样本,即可快速生成高相似度的克隆音色,并支持一键应用于视频配音、多语言翻译等场景,大幅降低创作门槛。 **缺点:情感复刻存在局限性** 尤其在需要强烈情绪表达(如愤怒、悲伤)的场景中,合成语音可能缺乏自然的情感张力,需依赖原声素材或多次调整参数才能接近预期效果。 ## 6 ElevenLabs ### 1. 工具地址 https://elevenlabs.io ### 2. 工具界面  ### 3. 工具介绍 **(1)极速克隆与高保真生成** ElevenLabs 仅需 30秒至5分钟的音频样本 即可完成声纹建模,生成与原声相似度极高的克隆语音,支持保留原声的 语调、情感 和发音习惯,如悲伤或严肃等复杂情绪 。 **(2)多语言支持与场景适配** ElevenLabs 支持 29种语言 的跨语言语音克隆,例如用户上传中文音频后,可生成英文、日语等目标语言的克隆语音,并自动适配口音和发音规则 。 **(3)低门槛操作与灵活部署** 平台提供 网页端、API接口 及移动端适配方案,用户仅需三步(上传样本→命名音色→生成语音)即可完成克隆,无需编程基础 。 ### 4. 优缺点 - 优点:国际顶级工具,支持情感控制和变声,音质逼真。 - 缺点:需要魔法访问。 ## 7 结语 AI声音克隆技术的爆发式发展,正在重塑声音的“存在形态”——它不再是生物特征的专属烙印,而是可被切割、重组与交易的数字资产。 技术赋予的便利背后,是声纹归属权的巨大争议:当用户用5秒音频克隆出虚拟分身,当企业批量生成明星声线用于直播带货,声音的“主人”究竟是谁? 使用这些工具时,请务必克隆他人声音前获得书面授权! 本文由人人都是产品经理作者【晓庄同学】,微信公众号:【晓庄同学产品笔记】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
Canonical 发布了 Ubuntu 25.04 Plucky Puffin,主要新功能包括:搭载最新的 GNOME 48、Linux 6.14 内核、提升了英特尔 GPU 的性能,提供了 ARM
<blockquote><p>随着人工智能技术的不断进步,视觉模型正在从实验室走向实际应用,逐渐改变我们的工作和生活方式。本文将探讨字节跳动最新发布的豆包1.5视觉模型如何实现视觉定位与计数功能,并通过实际案例展示其在图像标注、库存盘点等场景中的应用潜力。尽管目前仍存在一些挑战,但这一技术的进步已经为自动化工作流程带来了新的可能性,预示着AI在更多实际场景中的广泛应用前景。</p> </blockquote>  算一下,一碟 15,这是吃了多少?  答:一共14盘,合计210  AI 是可以拿来做盘点的 方法:AI 数的,容我细细道来 ## 字节发了新模型 今天是字节的发布会,我去了现场。 **豆包 1.5 深度思考模型**上线,200B MoE,20B 激活参数,R1 级别的性能。  豆包 1.5 深度思考模型上线 但很多人没注意到是,伴随这个模型的,还有个有非常趣的小玩意儿:**Doubao-1.5-vision-pro。**  还有个视觉理解模型 仔细看了文档后,注意到有这样一段: - **视觉定位能力大幅提升**:支持对单目标、多目标、小目标等进行边界框或点提示进行定位,并支持基于定位进行计数,给出坐标位置,或描述所定位内容。支持 3D 定位,可基于图像进行深度预测、距离排序、深度比较等。可以广泛用在各类巡检等上商业化场景中。 这是一个小小的、但很有意义的进步:**大模型可以给图片稳定打标记了** 把图交给它,让它识别所有寿司盘的位置,输出坐标。  让模型获取坐标 有了格式化的坐标,只需要一个脚本就可以标注了:设定线条长度 200,粗度 10,颜色亮青,文字字号 70,配了黑色阴影,保证在各种光线下都能看清。  标注好的图片 ## 视觉思考的落地 这事儿做完我突然意识到, 这不就是很多场景下都用得上的“图像计数”吗? 于是,我测了几个别的: 街头照片,他知道路牌在哪;  获取路标位置  标记好的路牌 或者拿它去标注米老鼠的帽子。  众所周知,初版米老鼠版权到了 你不用告诉它“那是个什么”,只要给出目标定义或提问方式,就能获得结果。 ## 小任务,不小的价值 多模态这几年卷得飞起,但真正能落地的场景并不多:**AI 写诗、拍题解题,这些看起来很炫,但离实际太远。** 但我们也知道,每刻都有无数人在认真的应对工作:盘库存、数元件…劳心劳力。**那么,这些事情,为什么不交给 AI 呢?** 在几年前,还是 CV 当道的时候,你会说:开发个 AI,可比人力贵多了。 但现在不同了:对着你的任务,**只需要一个明确的问题,就可以拿到一份标注好的信息** 诚然,单以现在来看,**问题也不少**: - 角度偏了、光线不均,容易漏标; - 目标密集时,编号会挤在一起,看不清楚; - 背景复杂时,有时会误判或者漏标。 这些问题都是可以优化的。 质变已经发生了,量变只是时间问题。 那么,希望硅基大人,日后要好好打工 本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
<blockquote><p>2025年,大模型技术的发展日新月异,成为人工智能领域的重要推动力。OpenAI、字节跳动、腾讯等科技巨头纷纷推出新的模型更新,推动了视觉推理、多模态融合、工具调用等关键领域的进步。本文将深入分析这些大模型的最新动态,探讨其迭代逻辑以及对AI应用的潜在影响,为关注大模型发展的专业人士提供有价值的洞察。</p> </blockquote>  作为一个AI应用的从业人员,过去几个月,三白一直都在寻找一个答案,今年大模型的发展方向会是什么样的,大模型新的突破方向和亮点会是什么?最近几天整个行业层出不穷的大模型更新,包括OpenAI、字节、腾讯等,让我找到了一些头绪,所以今天这篇文章就主要分享一下我认为比较重要的几个大模型更新的内容,以及分享一下目前我观测到的关于大模型发展方向的一些阶段思考。 ## 01 大模型重点动态概览 **OpenAI:**先后发布O3和O4-mini视觉推理模型、GPT4.1模型、升级版GPT4o; **字节:**4月16日发布 豆包深度思考1.5推理模型、豆包文生图3.0、豆包视觉理解模型、GUI Agent大模型、OS Agent解决方案,详细参考豆包1.5·深度思考模型发布一文; **腾讯:**公开论文实现长链路视觉推理模型、3D生成模型、视频生成模型、数字人模型、图像编辑模型,详细参考腾讯混元2025CVPR论文全解读:6篇论文速通大模型前沿 接下来我重点解析一下这三家比较有代表性的大模型厂商最近更新的大模型能力细节,帮助大家快速理解都更新了些什么,以及各自背后大模型更新迭代的逻辑是什么样的,对于AI应用方面又会有哪些影响。 ## 02 OpenAI大模型更新动态和迭代逻辑  ### 1.发布O3和O4-mini模型 4月16日,OpenAI发布的O3和O4-mini的更新细节主要包括如下几点: - 作为第一代视觉推理模型,能够在思维链中使用图像理解的能力,一边看图一边思考和推理; - 具备图像处理能力,能够将图像旋转、裁剪、放大,从而更加准确的理解和获取图像的内容,即使很细小的信息,也能够被分析到; - 具备工具调用的能力:OpenAI通过强化学习训练了这两个模型使用工具——不仅教会它们如何使用工具,还教会它们推理何时使用工具 ### 2.发布GPT4.1模型,仅提供API,不上架ChatGPT 4月14日,OpenAI发布GPT4.1模型,该模型为基础模型,本次的更新也没有特别多,主要是一些基础能力的强化,包括: - 编码能力提升; - 指令遵循能力提升:更加准确并且严格遵循提示词的要求生成; - 支持上下文长度支持100万token; - 它们的知识截止日期已更新至 2024 年 6 月。 ### 3.升级GPT4o多模态大模型 3月25日,OpenAI推出升级版GPT4o多模态大模型,进一步增强了模型的能力,更新内容包括: 1. GPT-4o首次将文本、图像、语音生成能力整合至统一神经网络框架,形成一个综合文本、图像语音一体的多模态模型,能直接端到端的理解和输出多种模态内容; 2. 在生图这个领域,相比之前的DALL·E模型,差异包括生成图像的时候具备直接理解上下文,不需要通过基础模型辅助,原来的DALL·E等图像生成模型,用户需要提供非常精确的提示词才能让模型准确的生成相关的视觉内容,并且生成模型不具备记忆能力,单次生成之后,继续提指令需求的时候,模型生成的结果可能跟原来的没有关系,而多模态的模型可以解决这个问题,真正意义的实现通过对话的方式生成、编辑图片; 3.图像生成性能优化,包括如下: - 精准文字渲染:复杂设计素材(如Logo、菜单)的文字排版准确率超95%,支持中文等多语言,也就是说,4o也支持了类似豆包的文字海报生成的功能; ◦ - 视觉一致性:通过联合表征学习和上下文感知技术,确保多轮对话中图像风格统一。 - 生成速度:4K图像生成耗时约30秒,较前代缩短50%。 ### OpenAI的模型迭代总结 - 在推理模型上,支持视觉推理,这个是OpenAI这次模型更新最大的亮点,也是最技惊四座的能力; - 在基础模型上,重点优化模型以编码为主的逻辑推理能力、上下文长度、严格按照指令生成的能力,这些都还是模型基础能力的进一步提升; - 在多模态模型上,把文本、语音、图像融合在一起,支持更多的模态,在图像生成领域支持更加精细准确、高清的内容生成,以及解决生图场景中上下文遗失的问题。 ## 03 字节豆包大模型更新动态和迭代逻辑 4月17日,字节公布了近期更新的几个模型,因为更新内容比较丰富且技术含量很大,值得重点关注一下,具体内容如下:  ### 1.发布豆包1.5·深度思考模型:成本低、视觉推理 - 采用 MoE 架构,总参数为200B,激活参数仅20B,具备显著的训练和推理成本优势。基于高效算法,豆包1.5·深度思考模型在提供行业极高并发承载能力的同时,实现20毫秒极低延迟。 - 豆包1.5·深度思考模型支持边想边搜,还具备视觉理解能力,也是一个视觉推理模型; ### 2.发布豆包·文生图模型3.0 - 能够实现更好的文字排版表现、实拍级的图像生成效果,以及2K 的高清图片生成方式。 - 可以广泛应用于影视、海报、绘画、玩偶设计等营销、电商、设计场景。 ### 3.视觉理解模型:支持更精细的图像理解和视频理解能力 - 豆包·视觉理解模型具备更强的视觉定位能力,支持多目标、小目标、通用目标的框定位和点定位,并支持定位计数、描述定位内容、3D 定位。可应用于线下门店的巡检场景、GUI agent、机器人训练、自动驾驶训练等。意味着豆包支持更加精细目标的定位,支持多个目标的定位,意味着可以精准的识别和理解更精细的内容; - 新版本在视频理解能力上也有大幅提升,比如记忆、总结理解、速度感知、长视频理解等。豆包·视觉理解模型结合向量搜索,可直接对视频进行语义搜索,广泛适用于安防、家庭看护等商业化场景。 ### 4.OS Agent解决方案:支持computer use和Agent调用能力 发布一套实现computer USE和Agent调用的解决方案,能够支持操作系统级别的Agent,OS Agent 则拥有跨场景的通用性和灵活性,能够直接操作浏览器、电脑、手机或其他 Agent,完成复杂任务,未来两周将陆续上线火山引擎官网; ### 5.GUI Agent 大模型——豆包1.5·UI-TARS 模型 OS Agent解决方案底层的大模型是采用豆包1.5-UI-TRAS模型,基于这个模型可以实现OS Agent的应用效果; 该模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破了传统自动化工具依赖预设规则的局限。目前,豆包1.5·UI-TARS 模型已在火山方舟平台上线。 ### 字节豆包大模型模型迭代逻辑总结 从前面这些模型的更新上可以看到,目前字节大模型更新迭代的方向上,存在如下几个特点: 1)在基础模型方向,主推深度推理模型,主打的亮点是训练和推理的成本更低,时延更快; 2)在视觉模型方向,主要的迭代方向包括如下几点: - 支持视觉推理能力:从文本推理领域,开始拓展到视觉推理领域; - 支持更强大的视觉理解能力:包括支持更加精细的图像理解和定位能力,以及支持视频理解能力; 3)在应用模型方面,主要迭代包括: - 基于强大的视觉理解、视觉推理的能力,推出了豆包1.5-UI-TRAS模型,能够支持在电脑和手机操作系统入口,实时的获取设备屏幕内容并用于AI应用; - 基于豆包1.5-UI-TRAS模型,再加上浏览器、电脑、手机或 Agent调用的能力,提供一套实现类似Manus的产品,并且在操作系统入口完整自动化任务应用的解决方案,也就是OS Agent解决方案; ### 从豆包大模型的更新看豆包未来应用的更新方向 1)基于豆包深度思考模型,未来豆包的应用迭代方向包括 - 支持更强大的DeepSearch(深度搜索)和DeepReSearch(深度研究)应用; - 基于视觉推理模型,未来可以支持更多依赖图像分析的应用,比如医疗影像分析、图文数据分析、图像比对、图像定位、等应用; 2)基于图像和视频理解模型能力,未来应用迭代的反向包括: - 更精准、更精细的图片编辑能力:比如针对一些元素复杂的图片,可以精确的识别到很细小的元素,并对该元素做定向编辑; - 支持实时环境信息、人物情绪的分析; 3)OS Agent解决方案和豆包1.5-UI-TRAS模型,实现类似Manus类产品支持工具和API自动调用的应用;或者是支持在电脑、手机等操作系统级别,支持实时获取屏幕内容并用于AI应用,甚至是支持自动操作操作系统设备,完成自动化任务的应用,这个将在电商、办公、生活等应用场景会有很好的应用结合场景; ## 04 腾讯混元大模型更新动态和迭代逻辑 4月15日,腾讯对外公开了6篇关于腾讯混元大模型相关的论文,揭示其大模型最新的进展,具体如下:  发布大模型论文,揭示混元大模型最近的动态更新: - 长链路视觉推理模型:解决复杂的多模态任务场景的问题 - 3D生成模型:支持精细细节的捕捉和生成; - 视频生成模型:根据参考视频中的人体动作,生成动作一致的视频;可以用于表情包生成等场景; - 数字人模型:根据音频和参考图片,对数字人的口型; - 图像编辑模型:支持更细粒度的图像编辑能力; ### 对腾讯应用更新方向的思考 - 基于视觉推理模型,未来可以支持更多依赖图像分析的应用; - 图像AI编辑,可能也是接下来的应用结合方向; - 支持基于参考视频生成相似视频场景应用,以及基于语音和文字,生成对口型的数字人视频; ## 05 从各个大模型厂商迭代的角度,总结大模型的迭代方向 **在推理模型方面,目前整个行业的迭代方向都是聚焦在视觉推理模型领域** 不管是OpenAI的O3,字节豆包1.5深度思考模型,腾讯混元推理模型,都不约而同的朝着视觉推理模型这个方向发展,支持在思维链中使用图像理解的能力,边看图像边思考; **强化模型的工具调用能力** 其中,O3**通过强化学习**训练了最新模型使用工具的能力,不仅教会它们如何使用工具,还教会它们推理何时使用工具;字节豆包1.5深度思考模型,也增强了computer use和Agent调用的能力; **视觉理解方面,支持更加精细的内容识别和视频理解能力** 一方面,O3模型、豆包视觉理解模型、腾讯混元生图模型都陆续支持更加细小粒度的视觉内容的识别能力;另一方面,视频理解也是新的迭代方向之一; **图像生成模型方面,支持上下文理解、更精准的文字排版能力、更精细细节的捕捉和生成** ## 06 应用层的一些机会思考 - 依赖视觉推理的应用场景,将获得更好的能力提升,包括深度搜索、深度研究、影像分析、视频聊天、在线教育、AI硬件等; - 更多的应用将支持工具调用、computer use和Agent调用的能力,Manus类型的应用将越来越多; - 依赖更精细和细小的视觉识别和理解的应用场景,将得到更好的满足; - AI生图和AI编辑能力,将能够有更好的产品体验,可以支持到更加精细的元素编辑,以及元素生成的能力,比如细小的字体,纽扣级别元素等; OK,以上分享一下最近三白关注的AI大模型领域的信息,以及个人的一些随笔思考,希望对于研究和关注大模型领域的朋友有些帮助。 作者:三白有话说,公众号:三白有话说 本文由 @三白有话说 原创发布于人人都是产品经理。未经作者许可,禁止转载。 题图来自Unsplash,基于CC0协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
<blockquote><p>OpenAI 最新发布的 o3 模型,以其显著提升的推理能力、多模态处理能力和工具调用能力,再次引领了人工智能领域的前沿发展。本文通过亲测 10 个实际案例,深入展示了 o3 在复杂任务处理、多学科知识应用、创意生成和数据分析等场景下的强大表现。从化身福尔摩斯分析图片到生成深度研究报告,o3 的能力不仅令人印象深刻,更仿佛为用户提供了 20 美金 / 月就能雇佣的跨学科博士助理。这些案例不仅揭示了 o3 的技术进步,也为我们描绘了 AI 在未来工作和生活中可能扮演的角色。</p> </blockquote>  一直以来,OpenAI 的o1模型都是推理模型的巅峰,其DeepResearch功能就是凭借o系列的基座能力,在市场上赢得了口碑。不过,可能生成报告的模式,让大家始终觉得搜索升级没啥看头,大家很难体会AI的研究能力。在昨晚发布的o3和o4、o4 mini模型中,实现了以下能力的跃迁: 整体推理能力:对真实、复杂任务的专家打分显示,o3 的重大错误比上一代 o1 少 ≈20 % - 视觉多模态:在大学水平的多学科视觉推理基准 MMMU,o3 82.9 % → GPT‑4 34.9 %,绝对提升 ≈48 分,相当于 2.4 × 的相对提升 - 竞赛数学:AIME 2024 单次作答 o3 91.6 %,而 GPT‑4o 只有 12 % 左右,提升 >7 × - 上下文长度:o3 200 k 输入窗口 vs GPT‑4 8 k,且输入/输出 token 价格仅为 GPT‑4 的约 1/3‑2/3 AI呈现了一定程度的研究能力,为了能让大家更直观感受到大模型在各个领域场景下,高水平处理任务的能力。 鲸哥实测了10个案例,我们能看到o3的分步推理思考过程,很多复杂的问题真正在研究,以及利用工具解决! ## 1、化身福尔摩斯,看图猜测背景信息: 鲸哥在o3上传了一张菜单,要求ChatGPT猜出来是哪家饭店。  可以看到o3分析了菜品和价格,并搜索了大众点评的数据,提出指纹式的菜名+价格组合只有在四季民福出现,最终答对了! ## 2、识别图片内容信息,成为植物学家: 识图能力在此前的众多大模型中都已经具备,但这次是给大模型加大难度,用一大束花,让GPT识别都有哪些花束。  最终o3识别出了8种主要的花束,展现了对复杂内容的理解。 ## 3、做考公 图推题,o3当小学题题目做 在考公题目中,经常有图推题出现。这些题目往往具有一定的难度,考验模型对图片理解以及意识推理的能力。  这道考公题并不容易,GPT用几种形状来找规律,最终选择了答案D。当然,这道题也有争议,粉笔网给出的答案是D,但很多人认为是B。 只是19秒做完这题,o3估计觉得这题没多复杂,都是小学生题。 ## 4、数学计算能力更强,重大错误比o1强20% 在数学计算中,此前o1开始计算哥德巴赫猜想,让大家吃了一惊。当然,也没有计算出来,却显示出推理大模型的强悍之处。 鲸哥拿一道DeepSeeK做错的数学题,考验o3的进化能力。  这道题不太难,但是DS的幻觉率需要人为矫正。  而o3很快就得出了正确答案,数学题是推理模型的阿克琉斯之踵,o3有进步。 ## 5、调用OpenAI内部工具,除了不能做视频 在这里,我们先让o3深度调研下『2025年北京夏天可能火的食物』这一主题。o3从全网内容中获取了最新的5款食物销量,得出了结论。  o3最看好乳茶2.0这款产品,接着让o3做一张轻乳茶2.0的宣传海报,o3会思考任务交代中没有明确提示要Midjourney生成,那就是不仅要生成Prompt,还需要调用4o模型直接生成图片。  接着我们让o3直接生成轻乳茶的电商网页,以动态可视化的HTML网页形式运行。现在GPT还可以直接运行代码,实时预览,很方便。  可以看到右下角还有修复提示,这也是本次o3的重要提升,当它意识到程序有Bug时,就会实时提示可以修复真实代码,这对于AI编程落地很关键。 ## 6、创意视频生成,后续结合Sora才有前景 o3其实作为LLM,本身不支持生成视频,但是我们还是要求他生成视频,考验它解决问题的思路,这里鲸哥给到的是飞机和鱼的创意故事。  o3是逐帧生成了图片,然后做成gif形式的视频。 可以看到最终生成的视频内容,是一架飞机路过,伸出了鱼钩,钓起鱼飞走了。这个创意让我想起来一个歌:『海鸟与鱼相爱,只是一场意外』 ## 7、代码能力和真实物理能力测试 这次公告中,官方称在“修 bug”基准 SWE中,o3 解决 69.1 % 问题,而 GPT‑4o 只解决 33 %左右,代码能力 ≈2 倍提升。 实测中,生成代码的审美确实没什么进步,以下是o3生成的100个小球碰撞的物理实验,这个效果差强人意。 和下图对比看,相比o1的还逊色不少,o系列模型确实在代码编程方面,始终没有超越Claude3.7。尤其前端UI这块,水平还是差不少,GPT-4.1也不行。  ## 8、科技商业问题推理,最终写成文章 在这道题中,鲸哥用比较有门槛的科技商业文作为写作题目,而且要求中间插入数据分析以及战略路径归纳,最终得出结论。  生成的分析深度还可以,只是没学会吴晓波老师的文笔。 一直以来,ChatGPT的写作能力都略逊Claude3.7,从目前看,语言的风格化以及润色程度,比3.7确实还有距离,但是数据和逻辑分析,以及概念的引用都不错。像是个不经常写文章,而是经常做研究的博士,写出来比较硬的内容。 ## 9、视频分析能力,对多媒体的理解能力 我们在Youtube上找了个万人大合唱的合集,然后让他分析这是什么内容,以及为什么能爆火。  o3解读出了都包括哪些歌,然后分析了爆火的底层逻辑。感觉对于IP孵化类博主是个福音,大家以后能用o3直接写爆款分析课程了。 ## 10、生成深度研究报告,o3表现更好 我们调用o3模型的深度思考能力,生成了一份行业报告。o3用了不到20分钟生成了这份1万多字的报告。  还是先思考后搜索的思路,内容较o1版也有一定程度的提升。 报告全文在这里:https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6 o4mini更适合批量客服回答等强调性价比场景,所以本文没有测试。Altman还提到,o3 Pro版本将在未来几周内到达,能力应该比本文测试的o3更强,但也意味着价格更贵。 在Plus账号中,你能大范围使用ChatGPT 的所有能力,尤其o3的20美金每月费用,相当于花近200多元雇佣了一个跨学科博士生在身边做助理,大家觉得值不值呢? 本文由人人都是产品经理作者【鲸选AI】,微信公众号:【鲸选AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
2025年4月18日,截止收盘,沪指跌0.11%,报收3276.73点;深成指涨0.23%,报收9781.65点;创业板指涨0.27%,报收1913.97点,两市成交额较上一交易日减少847.99亿元,合计成交9146.56亿元。
<blockquote><p>在AI技术飞速发展的今天,产品经理们面临着如何快速整合AI功能到产品中的挑战。传统的竞品分析方法不仅耗时费力,而且难以满足快速迭代的市场需求。本文将介绍如何利用AI工具,如秘塔AI,仅用2小时就能高效完成一份详尽的竞品分析报告。</p> </blockquote>  你是否遇到过这样的场景? <blockquote><p>老板突然问你:“现在AI这么火,我们的产品能不能也加个AI功能?”</p> <p>你嘴上说可以,内心却慌得一批,转头就开始搜索。</p></blockquote> AI时代下,大部分产品经理都在经历这样的“焦虑”: **老板们突然要产品做个AI功能,时间紧任务重,恨不得明天就让上线;** **想尝试用AI,但不知道用在哪里才有价值,没法给老板交差;** **看了很多 AI 相关的文章,但发现越看越迷茫;** 要做好 AI 功能,第一步必须知道别人怎么做的,只有清晰看到竞品的长处与短板,你才能精准地定义自己的产品价值,避免踩坑。 传统的竞品分析耗时费力,当下职场却要求我越来越快给出答案,老板们也对汇报内容要求越多越多。 于是今天我们会向你展示一个效率远超传统方法的新方式,快速提升我们的工作效率,帮助你在给老板汇报时井井有条,也对产品方向胸有成竹。 我们将以秘塔 AI 这款产品为例,亲自演示如何在短短 2 个小时内,借助 AI 工具迅速、高效地完成一份 AI 功能的竞品分析。 ## 01 AI如何帮助我们完成竞品分析? AI领域知名的Andrew Ng教授有提到过,AI更像是一位刚应届毕业的大学生,当我们下达某些指令时,它能够精准地完成,但它无法像人一样有深度、独特的见解和思考。 AI并非一个全面手能独自完成竞品分析,更多地是我们与AI协力配合共创竞品分析。 那么AI究竟能在竞品分析的哪些环节帮助到我们呢?经过我们的研究和测试,AI擅长且表现效果不错的环节如下:  点击图片放大查看哦 ## 02 先来看看AI的产出效果吧 利用上述的方式,我们自己产出了一份竞品分析报告: https://xlszvrf7j2.feishu.cn/docx/Cl6JdDnzmoRzOyxPfrFcffT3nHb?from=from_copylink 除了关键特性(视觉、交互)、分析结论外,都由AI完成,且效果非常不错,大幅度节省了我的时间。     ## 03 具体如何操作? 看到这里,你是不是很好奇我们是如何完成这份报告的呢?其实非常简单,只需要4个步骤,并且不需要很复杂的提示词。5分钟看完下面的内容,你也能立刻学会。 PS:很多朋友可能会担心AI出现的幻觉问题,没关系,我们在下面会告诉你如何避免AI幻觉造成信息错误。 ### 步骤1:按照框架发送提示词给AI **1)推荐工具:DeepSeek、秘塔** 在测试了豆包、DeepSeek、秘塔后,我们发现DS和秘塔的行文风格偏简练,更适合职场的汇报场景使用。 **2)选择模式:** DeepSeek:R1+联网模式  秘塔:深入+长思考R1  **3)Prompt 提示词:** <blockquote><p>帮助我写一份关于秘塔AI的分析报告,里面需要包含以下内容:</p> <p>1.产品定位 2.目标人群 3.痛点 4.解决方案 5.秘塔的核心竞争策略 6.秘塔的技术能力、公司背景、资源 7.秘塔的商业盈利模式</p></blockquote> ### 步骤2:获取结果,检查信息来源 发送提示词后,AI会返回一大段文本。现在基本上文本后都会附上信息源,如图:  点击信息源,验证是否为可靠信息源。  类似图中的信息是个人博主发布的,那么我们则考虑: 1)该信息源并不可靠,删除该结论; 2)该信息源不可靠的情况下,针对该信息向AI提问,看看前后是否产生矛盾。如验证为真实信息,则采纳;如前后矛盾,则删除该结论。 ### 步骤3:补充论据,润色文档 验证完信息源后,我们将信息直接复制回文档内,根据AI提供的信息,附上论据,再进行一些必要的文案润色和修饰。 论据可以根据自身情况来选择,比较常见的有附上图片说明、相关信息来源等。 我的方式是根据AI结论寻找官网中一致的图片,截图放进文档。  ### 步骤4:思考分析,产出结论 剩余的产品体验部分,需要我们自行完成。但由于AI已经帮助我们节省了1-2小时的信息检索时间,所以即使我们要进行产品体验,工作量也已经节省了非常多。 最后将结论补充完毕,那么竞品分析就完成了。  ## #04 结束语 现在AI技术已经越来越成熟,甚至不太需要复杂的提示词,AI都能生成不错的结果,这说明技术已经越来越朝着好的方向去发展了。 看到这里,如果你也对AI的生成效果非常感兴趣,欢迎你在文末添加我们一起交流。也欢迎反馈你的使用效果如何,我们能一起碰撞出更好的idea。 同时,我们使用的prompt放在了文章末尾,你可以根据自己的需要调整prompt,生成更符合你实际需要的竞品分析。 还等什么,赶紧拿着这个 prompt 对你希望调研的产品试试吧! 附: <blockquote><p>帮助我写一份关于秘塔AI的分析报告,里面需要包含以下内容:</p> <p>1.产品定位</p> <p>2.目标人群</p> <p>3.痛点</p> <p>4.解决方案</p> <p>5.秘塔的核心竞争策略</p> <p>6.秘塔的技术能力、公司背景、资源</p> <p>7.秘塔的商业盈利模式</p></blockquote> 作者:Thea小里,公众号:小里产品手册 本文由 @Thea小里 原创发布于人人都是产品经理,未经作者许可,禁止转载。 题图来自Unsplash,基于CC0协议。 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
**极越汽车闪崩后,CEO夏一平接受了媒体的采访,回应了极越汽车所存在的资金问题。****他提到,早在2023年上半年,极越就已面临资金困境。**2023年4月,公司账上的资金仅够维持两个月的运营,而夏一平作为CEO,当时却无法对外公开这一棘手的情况。 [](//img1.mydrivers.com/img/20250418/1b84757e-fa5b-4066-bd86-92f127305ba1.png) 好在通过一系列降本措施,公司才得以艰难地撑到2024年。 资金问题不仅给公司运营带来挑战,还引发了管理层之间的矛盾。 夏一平透露,他和极越首席财务官之间就曾因此产生争执。 **当时,CFO要求夏一平去寻找融资机会,但夏一平认为这本应是CFO的职责范畴,于是双方产生了分歧。** [](//img1.mydrivers.com/img/20250418/722269fa-558e-4616-b599-6572cc68cf6b.png) **对于此前有媒体报道称极越CFO指责夏一平“流血卖车”的说法,夏一平回应道:“哪个公司现在不是亏钱的?谁也别吹牛,现在卖电车都亏钱。”** **他还提到,就连雷军也曾坦言,小米的财报显示,小米SU7每卖出一台车就亏损3万,早期甚至一个月亏损6万。** [](//img1.mydrivers.com/img/20250418/f83a23c5-7a02-4476-a22c-8c1819eeae4e.png) 在如今的新能源汽车市场,亏损似乎已成为一种常态,大家都不容易。 **尽管面临诸多困境,夏一平对极越汽车的未来仍不放弃,他表示会继续坚持下去。** 回顾极越公司的发展历程,夏一平感慨道,互联网公司和汽车公司在合作过程中,确实会遇到各种各样的挑战,包括商业上的难题、对事物认知和理解上的差异,这些都构成了极越如今面临的问题。 从CEO的角度出发,夏一平认为自己的职责是确保车辆能够顺利上市并销售,但或许是因为各方在认知上没有达成一致,导致了如今的局面。 [查看评论](https://m.cnbeta.com.tw/comment/1493822.htm)
理想MEGA Home今日解禁,该车最大的特点就是二排座椅可电动旋转,分为45度、90度和180度。理想汽车董事长李想对它给予了厚望,其特意发布微博称:**我们刚刚公布了理想MEGA Home家庭特别版的内饰,看完内部全新的布局设计,大家就会明白,为什么理想MEGA Home是家庭用车天花板级的存在**。 [](//img1.mydrivers.com/img/20250418/628e31a6-0fce-40c9-809f-6c4ff485b405.jpg) 李想称,“经常有人说理想MEGA是我为自己和身边朋友们造的车,是的,我们这些大家庭都有很多共同的用车需求,也有很多不同的痛点。” 随后他还列出了详细的案例进行说明:**“比如我家最小的娃,他的儿童座椅需要倒置,在过去他就只能看到椅背,看不到家人就容易哭,现在他就可以和我太太对坐了,能面对面看见家人时,他们都更安心。”** 李想,“刚刚给她“梦想中”的外孙女盲定理想MEGA Home的胡永平(快科技注:一知名汽车博主,前汽车之家核心团队成员),我猜也是这点很打动她。”  李想继续分享称:**“又比如我的一个很好的朋友,他的父亲腿脚不好,每次上下MPV的时候都很费劲,因为第二排座椅的宽大扶手无法避开,于是我们开发了二排座椅45°旋转上下车功能,和侧滑门联动,我猜等车上市后他一定会买。”** **“还有一些女性朋友,她们穿裙子上下车也不方便,这回MEGA Home都帮他们解决了。”** [](//img1.mydrivers.com/img/20250418/4fda20b7-5410-4c6f-8cd7-983fbac2b8dd.png) [](//img1.mydrivers.com/img/20250418/13287fb8-27fb-41dd-a2cf-68d93d7abf03.png) 最后他总结道:为大家庭用户造一辆好车,其实相当不容易。诸如此类的细节,要有非常丰富的大家庭体验,恰好我和周围的朋友们也都是这样的超级奶爸和妈妈,于是我们也真的为他们的不同家庭成员、各种出行场景,造了这辆经得起全家三代人挑剔的大家庭MPV。 [](//img1.mydrivers.com/img/20250418/73c64d42-6b8c-4dbc-bd06-1c930bf7f646.png) 那么这款车的车内体验到底如何?不妨看看下面这条视频: [查看评论](https://m.cnbeta.com.tw/comment/1493818.htm)
随着NVIDIA正式发布RTX 5060 Ti系列显卡,对于想要入手的用户,肯定会对8GB和16GB版本的性能差异好奇。**根据“碳基科技研究所”的[测试](https://www.bilibili.com/video/BV1TWoMYUEGW/?spm_id_from=888.80997.embed_other.whitelist&bvid=BV1TWoMYUEGW&vd_source=51fa8dfa),两者的跑分成绩接近,但在某些游戏和开启DLSS 4后,8GB版本的劣势逐渐显现。** 在3DMark Fire Strike测试中,RTX 5060 Ti 8GB和16GB的分数几乎相同,与前一代RTX 4060 Ti 8GB相比,性能提升了最高29%。 [](//img1.mydrivers.com/img/20250418/71b7d09f-5922-4d7f-bfe3-98099ff5e5ea.jpg) **3DMark Time Spy测试中,两者的分数也十分接近,Time Spy下均为1.6万分左右,Time Spy Extreme模式下则在7400分上下。** [](//img1.mydrivers.com/img/20250418/73d0aecf-d5d6-40d5-8b0e-2c8ada40a64d.jpg) 在光追测试的3DMark Port Royal中,两者的成绩也都在1万分左右。 [](//img1.mydrivers.com/img/20250418/4411a9dc-2b2a-4edf-a4bc-944962225790.jpg) **不过在部分游戏中,特别是比较吃显存的游戏,RTX 5060 Ti 8GB的性能开始落后于16GB版本。** 例如,在《地平线:零之曙光 重制版》中,1080p分辨率下,RTX 5060 Ti 16GB的平均帧率为130fps,比8GB版本高出28.71%;2K分辨率下,16GB版本也领先8GB版本16.46%。 [](//img1.mydrivers.com/img/20250418/18a4c750-a5d6-49ca-99ba-e9a285877fb6.jpg) 在《怪物猎人:荒野》中,RTX 5060 Ti 8GB版本出现了显存不足导致游戏闪退的情况,而16GB版本则表现正常,1080p分辨率下可达到平均85fps,1440p分辨率下也有69fps。 [](//img1.mydrivers.com/img/20250418/514172e1-460f-4083-a2d5-333cec5c26d8.jpg) **开启DLSS 4后,光是3DMark跑分就有了差距,在3DMark DLSS 4X测试中,RTX 5060 Ti 16GB的分数为170.02,领先8GB版本的153.57,幅度为10.71%。** [](//img1.mydrivers.com/img/20250418/029adf7b-6608-4d3d-a790-f1cbbb6af595.jpg) 在《赛博朋克2077》中,2K分辨率下开启DLSS 4后,RTX 5060 Ti 16GB的DLSS 4X MFG成绩为113,而8GB版本仅为92.4,16GB版本领先22.30%。 [](//img1.mydrivers.com/img/20250418/76c5f8fd-a4bf-49c7-b9fa-ac8914f90719.jpg) 其实在我们的测试中,RTX 5060 Ti 8GB在各种游戏和AI应用中也会频繁出现爆显存的情况, 几年前还只是在4K分辨率下才会出现,而现在1080P分辨率也有多款游戏会爆显存。 所以建议在选购新显卡的时候,最好不要考虑8GB显存。 [](//img1.mydrivers.com/img/20250418/41688893ae7d48eeb05a95f50bb76398.jpg) [查看评论](https://m.cnbeta.com.tw/comment/1493816.htm)
今日上午,360集团创始人周鸿祎在社交平台发布了一条**《企业家成功就顶礼膜拜 失败之后又挺瞧不上他》**的短视频。在视频中,周鸿祎从两个方面分析了原因。他表示:**害怕失败是很多人做不成事的一个原因**,因为你越害怕失败,越害怕摔下来,你就越恐惧,恐惧会让一个人行为失常。 [](//img1.mydrivers.com/img/20250418/cd2e04c7376e4f6fa5c459e1ea0d94fd.png) 谈到另外一方面时,他认为:**是社会舆论的问题,我们太成王败寇了。**所以一个企业家成功了之后,我们基本都顶礼膜拜,恨不得把他塑造成一个神,说的每一句话都是对的,但一个人失败了之后,大家都会挺瞧不上他的。 与此同时,周鸿祎强调:实际上,**在一个真实的社会里,做商业也好,做事也好,失败是常态,成功是偶然,**而且创新大部分都会失败,如果创新每把都成功就不叫创新了,人人都会创新,为什么大家在呼唤创新,就因为大多数人不敢创新。 他进一步解释称:**因为创新必然失败,所以要改变社会的一种共同价值观,**就像莱特兄弟飞起来之前,或者福特发明汽车之前,有无数的公司前赴后继! 周鸿祎指出,今天在人工智能的路上,也躺满了失败的公司,失败了就失败了,**大家对失败者不应该表现出来一种鄙视**。人人都有可能失败,但失败至少创造了一种价值,它证明了此路不通。 谈到这里时,他拿爱迪生发明灯丝失败了**200种**物质举例,称最后才找了一种物质。对此,他得出结论:**那你不能说,失败都是没价值的,你吃的第7个馒头吃饱了,你不能说前面6个馒头都是浪费!** 之后,周鸿祎还拿自己认识的一些知名VC举例,为什么对于失败过的创业者,反而VC会愿意投资的原因:**因为他觉得你失败了,你获得了很多没有失败过的人获得的经验和教训,**就像一个人如果不爬高,他不从上面掉下来,他永远体会不到这个下来的感觉,那他就比你少一种体验少一种经验。 视频最后,周鸿祎再次重申:**整个社会舆论、整个社会的价值观要做一些调整,我们对失败总是求全责备,**但人一旦成功了,我们就对他委屈求全,这种文化其实并不好。 [](//img1.mydrivers.com/img/20250418/b43b1ec67e394b838de328be5c3dee31.png) [查看评论](https://m.cnbeta.com.tw/comment/1493814.htm)
NVIDIA AI之强大,不仅仅在于硬件性能好,更离不开生态优化适配,可以发挥最佳效率,AMD相比之下就差了很多,但也在努力追赶。现在,**Stability AI发布了ONNX框架优化的Stable Diffusion模型,在兼容的AMD Radeon显卡、锐龙集显上最多可以提速达3.8倍。** [](//img1.mydrivers.com/img/20250418/af57cc8247f44309ab21bc50de16b85c.png) AMD表示,过去一年来,一直在与OSV、OEM、ISV厂商合作,优化AMD硬件上的AI应用,包括硬件设计、驱动程序、编译器、机器学习模型等等。 根据官方公布的数据,**经过优化之后,SDXL 1.0、SDXL Turbo在AMD硬件上的推理性能,对比基础的PyTroch模型最高提升3.8倍,SD3.5则可提升最多2.6倍。** 实际图片、视频生成应用中,SDXL 1.0、SDXL Turbo、SD3.5 Large、SD3.5 Large Turbo在RX 9070 XT显卡上的效率分别提升了3.1倍、1.5倍、3.3倍、2.1倍。 SDXL 1.0、SD3.5 Large、SD3.5 Large Turbo在锐龙AI MAX+ 395上的效率,则分别提升了1.4倍、3.3倍、3.0倍。 [](//img1.mydrivers.com/img/20250418/e96d7f44da9c446390facada13791979.png) **AMD硬件优化版的Stable Diffusion模型有一个特殊的“_amdgpu”后缀标记**(比如stable-diffusion-3.5-large_amdgpu),现在已经可以在[Stability AI](https://stability.ai/news/stable-diffusion-now-optimized-for-amd-radeon-gpus)或者[Hugging Face](https://huggingface.co/collections/stabilityai/amd-optimized-67ffb6cf305b5b4bc17c4c34)上下载了。 你也可以使用AMD、TensorStack AI联合打造的最新版Amuse 3.0。 注意,AMD GPU驱动版本不要低于24.30.31.05预览版,或者等待即将发布的25.4.1正式版。 [](//img1.mydrivers.com/img/20250418/44dbf0c9c46f465ea424eeb1de74de94.jpg) [查看评论](https://m.cnbeta.com.tw/comment/1493812.htm)
**随着Ubuntu 25.04 Plucky Puffin正式发布,作为基于它的国产“汉化增强版”,优麒麟25.04也同步推出。**优麒麟同样是开源操作系统,通过研发用户友好的桌面环境,以及特定需求的应用软件,为全球用户尤其是中国用户,提供更稳定、更易用的Linux系统。 **优麒麟25.04基于Linux 6.14内核构建,对基础库、子系统、核心软件组件进行了重大升级,增强了系统的稳定性和兼容性,带来更流畅、更可靠的用户体验,该版本将支持9个月。** [](//img1.mydrivers.com/img/20250418/9054d4eedd754c349cff9dbba80ce6f6.png) **Ubuntu团队和优麒麟团队将此版系统献给长期以来深受爱戴的Ubuntu发布团队成员Steve Langasek。** 他社区中的昵称为vorlon,是软件仓管理员,还是技术委员会、SRU 团队等的成员。 优麒麟第一个版本13.04 2013年发布以来,Steve在软件包审核、修改和入库等方面提供了许多支持,非常值得信赖。 2025年1月1日,Steve不幸因病去世。感谢他所做的一切。 **优麒麟25.04新功能——** **1、Linux 6.14内核** 提高游戏性能的 NT 同步原始驱动程序 Btrfs RAID1 读取平衡 支持无缓存缓冲 I/O fsnotify 文件预访问通知事件 用于改进 GPU 内存管理的 dmem cgroup FUSE 支持基于 io_uring 的通信 为 AMD NPU 添加了 amdxdna 驱动程序 实时设备支持 XFS 反向链接和反向映射 NFSv4.2+ 属性授权 x86 TLB 刷新可扩展性优化 **2、Systemd V257.4 版本** init系统已更新至systemd v257.4,不再支持utmp。 因此,/usr/lib/tmpfiles.d/systemed.conf等默认配置不再创建/run/utmp。一些工具(如procps 中的“w”)可以与 systemd-logind 配合使用,但其他工具(如 coreutils 中的“who”)则不行。 计划在systemd v258中完全删除cgroup v1(传统和混合层次结构)。 System V服务脚本的支持已过时,并将在v258 中删除。 **3、工具链升级** GCC:即将发布的 GCC 15 的快照 binutils: 更新至 2.44 glibc:已更新至 2.41 Python 已更新至 3.13.3 LLVM: 默认版本为 20 Rust: 默认工具链为 1.84 Golang: 更新至 1.24 OpenJDK:第 24 GA 版和第 25 版早期访问快照现已发布 **4、软件包管理** APT 已更新至 3.0。 当传统求解器无法找到解决方案时,会自动使用新的依赖求解器。 还可以触发该求解器,以便在故障情况下提供更多上下文信息或评估性能。 **5、UKUI桌面环境** 优麒麟 25.04 采用了 UKUI 桌面环境,提供优雅的视觉效果和易用性、广泛的个性化设置,用户可以根据自己的喜好构建桌面布局。 **优麒麟25.04镜像下载:** [https://www.ubuntukylin.com/downloads/](https://www.ubuntukylin.com/downloads/) [](//img1.mydrivers.com/img/20250418/ee0cc882dae34e0483dd70d718192646.png) [查看评论](https://m.cnbeta.com.tw/comment/1493810.htm)
近日,格力电器市场总监朱磊接受采访时表示,董明珠健康家非常成功。**“董明珠健康家”推出后,舆论反响强烈。尽管部分消费者对这一策略表示不解,但市场终端对新命名的接受度非常高。董明珠作为企业家的知名度和影响力能够迅速吸引公众的关注,也极大地降低了市场教育的成本。”** 朱磊直言,选择将董明珠的个人IP与品牌深度绑定,不仅是因为它能迅速引爆市场关注,更重要的是,它验证了格力在品牌战略上的正确性,同时也展示了董明珠个人IP的巨大潜力及其对品牌发展的积极促进作用。从目前的结果来看,这种方法是非常成功的。 按照之前官方的公告,格未来要在全国开设10000家“董明珠健康家”。 前不久,董明珠对格力专卖店改名“董明珠健康家做出回应称,店铺之所以更名,也是想以个人名誉作保的方式将“信任流量”转化为“品质认知”,从而实现从产品制造向健康服务转型的战略升级,与消费者构建更稳定的情感链接。 [](//img1.mydrivers.com/img/20250418/0908b769c0f047859896c76db883349d.jpg) [查看评论](https://m.cnbeta.com.tw/comment/1493808.htm)
据海南大学生物医学工程学院官微消息,4月13-18日举行的第五届中国国际消费品博览会上,**海南大学正式发布了自主研发的植入式脑机接口(BCI)核心技术与系列产品,包括全球领先的脑机接口专用芯片、神经信号采集系统、神经信号调控系统及神经元定位系统。** [](//img1.mydrivers.com/img/20250418/80868557e8644150a94aeb15b74c64a0.jpg) **这一突破标志着我国在脑机接口领域实现全链条技术自主可控**,为脑科学研究和医疗应用注入“中国芯”动力。 据介绍,海南大学脑机芯片神经工程团队具有近二十年脑机接口芯片及系统研发经验,围绕侵入式脑机接口开发了多款核心芯片,**包括:SX-R128S4高通量神经信号采集及刺激芯片,SX-S32高自由度神经调控芯片,以及SX-WD60低功耗无线传输芯片**。 上述芯片实现了对脑机接口信号采集、调控、传输的全链路覆盖,性能对标国际一线产品,已受到业内多家科研单位、企业高度认可。 团队负责人表示:“专用芯片是脑机接口系统的核心,团队一直专注芯片的开发迭代,始终坚持自主创新,芯片性能已达到国际先进水平。我们致力于让科研成果走出实验室,打破我国侵入式脑机接口芯片对进口的依赖,助力中国脑机接口产业腾飞。” 公开资料显示,**脑机接口(Brain-Computer Interface,BCI)是一种直接连接大脑与外部设备的技术,允许通过神经信号实现人机交互,无需依赖传统的肌肉或语言指令。** 简单来说,**脑机接口就像是大脑和外部世界之间的“超级链接”**。它让我们能够跳过躯体,直接用意念来操控那些曾经只能用手或语言控制的设备,不再需要繁琐的操作和复杂的指令,只需一个念头就能开启全新的世界。 [](//img1.mydrivers.com/img/20250418/30d3a1d5-1530-4b26-83c4-c689ae27e77a.gif) **前不久,“北脑一号”智能脑机系统作为我国在脑机接口技术领域取得的重要成果,已经进入临床验证阶段**。目前,已有3名患者完成手术植入,患者术后恢复良好,经过术后训练实现了运动想象脑控和中文语言实时解码。 近日,脑虎科技联合中国科学院上海微系统所团队在复旦大学附属华山医院开展的高精度实时运动解码临床试验再获重要突破——**一名19岁右侧额叶癫痫患者成功植入脑虎科技自主研发的256通道柔性脑机接口,术后患者恢复良好,两日后顺利进入临床试验。** [](//img1.mydrivers.com/img/20250418/d722afee414a438aad857904fe5dbd09.png) 通过累计19.87小时的Center-out、WebGrid等经典范式训练,**受试者实现了对经典游戏《吃豆人》《坦克大战》和大型复杂游戏《王者荣耀》《黑神话:悟空》的精准脑控操作。** [查看评论](https://m.cnbeta.com.tw/comment/1493806.htm)
<blockquote><p>从定位核心课题入手,强调认清核心问题的重要性,并介绍了多种实用方法论。通过评估解决方案的可行性和效果,设立清晰的考核标准,细化执行方案,确保策划落地。</p> </blockquote>  上一篇文章介绍的“市场研究”阶段,会耗费我们巨大的时间和精力,但也是在为第二阶段策划方案的输出做准备;因为只有经过充分对的搜集整理和研究分析之后,才能精确提炼出一击致命的解决方案! 针对策划输出的阶段,主要从制定核心策略和细化执行方案两个大的版块进行介绍,其中包含了定位核心课题、提出解决方案、评估解决方案、设立考核标准、细化和落地执行方案等步骤。 ## 制定关键战略 ### 定位核心课题 美国通用汽车管理顾问查尔斯·吉德林,曾提出过一个著名的吉德林法则:把难题清楚地提出来,便已经解决了一半。这充分说明了在处理任何工作和事情当中,认清核心问题都是最为关键的一环。 在市场营销领域中,核心问题的提炼通常可以从这么几个角度去思考: **企业是否顺应了行业市场大环境和主流的社会文化?** **品牌传递的理念、产品满足的价值的方向是否正确?** **跟竞争对手相比,企业是否具备绝对优势或独特性?** **目标消费者的定义是否准确、还有哪些潜在的消费群体?** **在完整的营销链路中,哪一环的优化最能帮助企业实现目标?等等** 还是拿上一篇文章提到的奢侈品牌A来举例,关于开源节流的方式提到了有很多,但哪些手段是最有效的?哪些手段可以解决当前的燃眉之急?我们可以初步判断启动线上直播带货、加强EC的投入、培训店员做私域流量运营等是可行的方式。 但具体选择哪个作为S级的战术全力投入,需要进一步的小范围测试才能知道,因此对于品牌A来说,今年最重要的核心课题就是:测试出最行之有效的开源节流方式。提炼核心课题就好比医生给病人问诊,得先让病人做一些检查、询问身体的症状,诊断清楚病因之后才能对症下药,给出最为合理的治疗方案。 ### 提出解决方案 诊断出了问题所在,该用什么办法来解决问题或达成目标呢?通常甲方企业和乙方Agency,都会有一些经过市场验证的成熟方法论来解决营销问题: 譬如奥美的“360品牌罗盘”,罗兰贝格的“PROFIL消费者价值模型”,李奥贝纳的“Humankind创意理念”,智威汤逊的“Total branding 全程品牌管理”,华与华的”超级符号“,叶茂中的”冲突理论“,天与空的”社会大创意“,以及互联网时代流行的增长黑客、流量池、增长五线、长尾理论等都是颇具权威的成熟方法论。 掌握的方法论越多,并把这些方法论融会贯通、搭配使用、熟记于心,问题解决的质量就会越高。这就是为什么武侠小说里,如果一位武林人士学了很多功夫,衡量他能否真正成为武林高手的标准,不在于记住了多少招式,而是看他忘了多少。 因为忘记的过程就是理解融合的过程,只有做到理解并灵活运用才算真正的掌握;这就是真正意义上的无招胜有招,道理同样适用于工作当中。 老泡这些年在工作和学习不断的总结思考,也累积了一些个人非常适用的营销模型、思考模型和做事模型;这些模型平时储存在我的脑子深处,当碰到具体问题的时候,就会把相应的模型调取出来解决问题。 比如: - 喜茶的POEM营销模型,是由Prior个人感知、Others他人口碑、Environment外部环境、Marketing企业营销四个版块组成,玩高性价比营销这四个维度缺一不可。 - Prior个人感知同样可以用4P来诠释,首先优质产品毋庸置疑是最好的营销手段,然后用户会基于价格、通过购买渠道和促销活动对品牌和产品形成个人感知。 - Others他人口碑是影响我们购买决策最重要的因素之一,在大众点评、在社交媒体、在详情页查看用户的口碑评价已经变成购买商品的必要步骤。 - Environment外部环境包括用户洞察和行业环境,市场和社会环境的发展变化直接影响了我们应该开发怎样的产品,使用怎样的销售渠道,采取怎样的营销策略等。 - Marketing企业营销是隐性的推手,在Social媒体上跟用户互动表现出亲和力,利用PR手段为企业做信任度背书,玩跨界保证品牌的格调提升好感。 基于这样一套模型,喜茶的营销就有了行动的方向和准则,并有条不紊的执行落地;奉上整理的喜茶POEM营销思维导图  优质模型的积累主要来源于三种手段: - **学习一些经典好用的模型 ,学以致用并不断练习精进。** - **在别人提出的模型基础上,根据自己的理解加以优化 。** - **在实战当中不断积累勤加思考,总结出一些有效的模型。** ### 评估解决方案 条条大路通罗马,任何问题的解决方法都不是单一的,我们往往需要犀利的眼光选择最佳的方案把事情做到尽善尽美;这里推荐象限评估法和场景优先级评估法,是我们做决策的时候比较科学和常用的评估模型。 象限评估法通常是在纸上画出一个四象限,横轴代表可行性纵轴代表解决效果,把每个解决方案放到四象限中相对应的位置,孰优孰劣会变得一目了然。 场景优先级评估法可以从用户视角和业务视角进行更加全面的考虑,如用户需求、使用频次、产品体验等属于用户视角,技术的可行性、竞争优势、市场规模、商业成效等则归属于业务视角。比如规划一款针对年轻人的创新保险产品,大家想到了非常多的SKU,如失恋险、手机碎屏险、加班险、抑郁症险、肥胖险、整容险、不涨薪险、堵车险等,根据我们根据需求度和可行性进行四象限评估,很容易可以发现碎屏险和堵车险是更适合推出的产品。  ### 设立考核KPI 任何项目必须设立清晰的考核指标和KPI,才能够在项目策划和执行的过程中在正确的地方发力,避免出现南辕北辙跑题的情况,同时也是项目结束之后评判其成功与否的关键因素。 常见的营销考核指标分为品牌指标和效果指标两大块,品牌指标通常包括曝光、互动参与、流量UV、品牌知名度/忠诚度等,效果指标主要有下载注册、Leads信息、订单转化、投入产出比等。根据不同的项目的要求,可以从中选择不同的指标组成最终考核的KPI。 ## 细化跟进执行 定义清楚了问题所在并制定出合理的解决方法之后,就要细化具体的执行方案和推进节奏,同时在执行过程当中全程操盘和跟进,竭尽所能确保执行效果的最大化。 ### 细化执行方案 **”策略一时爽,执行火葬场”**是很多策划人喜欢用来自嘲的一句话,这说明在策略和执行之间往往存在着巨大的鸿沟;因此策略的制定只是成功的第一步,在此基础上提出可落地的执行方案也是重中之重。 在一份完整的营销策划方案当中,策略之下的执行计划通常可以涵盖以下版块: - 内容创意产出,常见的有Slogan、主KV、海报、视频、H5、互动游戏等线上线下传播物料 - 活动宣传,常见的有公关活动、跨界联合活动、消费者互动活动、快闪店、展会和地推等。 - 媒体投放计划,传统媒体有电视、户外、电梯、杂志、灯箱等;还有各类网站和APP、程序化DSP、智能电视、电视剧综艺植入等数字化媒体的投放。 - 运营转化承接,面对内容和投放带来的流量如何成功转化成订单?这就需要制定正确的承接产品、促销优惠政策、裂变活动、转化引导机制等运营计划。 - Social传播,通常包含Social平台自媒体日常运营,以及有话题有互动的Social传播活动;前者偏用户的日常维护沟通、后者偏向更加整合的营销Campaign。 - PR公关宣传,常见的有线上线下发布会、事件营销、KOL造势、PR宣传稿、CRM管理、舆情监控维护等 不过完成如此庞大的一份执行方案,涉及到的专业知识和技能领域非常多,再牛逼再全能的策划师,也不可能依靠一个人就能扛下方案中的所有内容。 此时策划师就得出面担任项目Owner的角色,去协调其它相关部门的人力和资源,共同把方案进行补充和完善: 比如Slogan、TVC脚本、活动创意等需要跟文案一起讨论;主KV、活动demo、TVC分镜头等物料得设计出面制作;媒介策略、投放组合和效果预估等需要媒介来完成。 而涉及到开发的线上互动H5、小游戏、小程序等,要提前跟技术部门确认功能上能否实现;同时Social内容、运营转化活动、直播等,最好邀请新媒体运营共同参与策划。 ### 突发状况应急备案 项目在执行的过程中,受诸多客观因素的影响难以避免一些意外情况的出现;正所谓有备无患,提前预判有可能出现的意外情况,并准备好相应的应对方案,是保证项目顺利执行非常重要的事情。 比如你在广场上做品牌展销会,为了吸引更多的人流,现场安排了一些互动小游戏和产品讲解环节;然而此时广场另一边正巧有摇滚乐队在表演,异常的吵闹、影响到了展销会的正常推进,并且广场的人流全被摇滚乐队给吸引过去了。 面对这样的突发情况,作为展销会的执行负责人,如果没有提前准备好应对方案就会变得慌乱不知所措,最终大大影响了活动的效果;如果有提前准备plan B,就可以有条不紊的处理这次意外情况。 比如拿出喇叭高喊免费送礼品抢人流、找摇滚乐队协商能否把声音调小、干脆跟摇滚乐队搞个联合活动发挥1+1>2的效果、实在不行把展销会的互动环节往后延。 ### 跟进执行过程 很多策划人认为策划是用战略的眼光和系统的思考,以高姿态去审视宏观的问题制定策略方向,而真正的落地执行丢给执行团队就行,倘若效果好是策略指导有方,效果差强人意则是执行不到位。 这种完全把自己排除在执行之外的策划人,很难达到比较高阶的段位,首先idea的执行落地脱离不开策略的指导,而你无法保证执行者已经清晰地理解了你的想法。 其次,不去参与到一线执行当中无法形成强烈的业务体感,导致策划时很容易天马行空无法落地。因此要成为一位优秀的营销策划人,除了专业能力出众之外,还要先一位优秀的营销操盘者。 本文由人人都是产品经理作者【老泡】,微信公众号:【老泡OG】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
<blockquote><p>文章深入分析了抖音的审核机制、推荐算法核心公式及多元化推荐策略,揭示了如何提升作品流量的关键要素。同时,探讨了优质内容分发机制,为创作者提供了实操建议,助力其在抖音平台上获得更多推荐与关注。</p> </blockquote>  如今抖音的推荐算法大公开,可以看到现在的推荐算法相对以前来讲完善了很多,其中很多核心的指标和挖塘人之前分享的内容是大差不差,下面挖塘人就给大家再全面地整理一下抖音现在的推荐算法。 ## 一、抖音的审核机制 当我们在抖音上发布一条视频,我们肉眼看到的是上传、上传成功、审核中、审核通过、推荐这样的流程,所以当我们的视频上传后的第一个环节就是进入抖音的审核机制,而抖音的审核机制有以下三个原则: **1、所有的作品都会经过审核** 当你的视频上传到抖音的服务器,抖音的机器人就会对这条视频进行审核,你也可以理解为第一轮审核,它会有很多种审核模型对内容进行审核识别,这轮审核的结果有三种情况: - **第一种情况:识别到违规内容,直接被拦截。** - **第二种情况:没有识别到违规内容但审核模型判断它大概率有违规情况,转送到人工审核,人工审核觉得OK就通过,如果不OK就驳回。** - **第三种情况:没有识别到违规内容且审核模型判断它有违规情况概率较小,会给点基础流量,然后开始进入推荐环节,正常的作品都是这种情况。** **2、流量越高的作品审核次数越多,越严格** 如果你的作品已经通过了第一轮审核,它并不代表后面就没有审核了,当你的作品流量达到一个量(动态的)时,抖音还会对作品进行第二轮的审核,最典型的案例就是当你的作品流量非常好,然后突然收到通知告诉你说不适合推荐,这就是新一轮的审核结果。 如果你的作品在第二轮审核中也通过了,那就会进入下一个更大的流量池并获得推荐,等到这个视频达到更大的一个量(也是动态的)时,又会被进行第三轮审核,这次的审核标准更高更严格,甚至审核人员一帧一帧地看,当然如果达到这个流量,你的视频已经是现象级别的了。 **3、人工审核+机器审核双重机制** 这个双重机制想必大家以前就知道,挖塘人之前分享的文章也说过,抖音虽然有两种审核,但是两者的侧重点不一样,大概可以理解为机器是流水线的过滤,而人工则是精心筛选。 ## 二、抖音推荐算法的核心公式 当你的视频顺利通过了审核环节,接下来就会进入流量池并获得基础流量的推荐,命运的齿轮就此开始转动。 而根据抖音公布的推荐算法核心公式,你的视频的推荐优先级与用户行为✖️行为价值权重有关系。  如果你觉得不好理解,那你可以继续按照挖塘人之前说的,抖音的推荐算法它不知道你的视频内容好不好,但它可以根据用户对你的视频互动行为决定要不要继续推荐。 而用户互动的行为**包括点赞、关注、收藏、分享、不感兴趣、是否点击作者头像、视频观看时长、评论区停留时长等等**,这些行为的比例/数值越高,视频的得分就越高,推荐的优先级也就越高,这点也是大家经常说的点赞率、完播率、分享率等指标。 用户行为指标好理解,那价值权重又是怎样的呢? 其实价值也很好理解,比如长视频的完播率肯定不如短视频的完播率高,如果按照用户行为指标来计算,那短视频的推荐会大大高于长视频,但是长视频消耗用户的时长、输出的内容要比短视频多,所以平台为了权衡两者的差距就会对长视频的完播率的行为指标进行加权。 再比如,两条时长都是16s的视频,一条是制作精细、画面清晰、内容是平台刚好需要;另一条是粗糙制作、画质一般,内容同质化比较严重,对比这两条视频,肯定是前一条视频的价值权重高于后者。 ## 三、抖音多元化推荐算法 在《抖音重构推荐算法,3大变化需要留意!》里面,挖塘人就谈到现在的抖音不是从前的抖音,现在的用户也不是当年的用户,单一的内容已经满足不了用户,所以抖音采取了多元化的推荐算法(官方叫多目标推荐算法)。 以前的推荐算法就是用户给哪类视频点赞了,就频繁给用户推荐这类视频,这种做法短期效果很好,但时间久了用户就会腻,搞不好用户看到吐直接卸载,而多元化的内容刚好满足现在的用户需求。 用户是满足了,但对创作者而言有哪些影响呢? 首先是抖音对你的作品价值的分析维度变多了,以前是看你的视频能不能留住人,现在是看你的视频能不能多个方向留住人。  所以视频的价值太单一就少了很多优势,而在这个方面挖塘人很早之前就分享过《破局运营:如何激发内容的第二春?》,里面谈到创作多价值内容的方法。 其次,抖音上线了「握手模型」,在多元化推荐系统里,创作者和用户的交流变得重要,以前在视频评论区创作者和用户的评论行为都是独立的,但现在抖音的「握手模型」将两者视为互动的行为,所以创作者也要好好地耕耘评论区了。 最后组合拳机制,之前我们说过抖音有「搜推联动」机制,建议大家平时也搞一下抖音的seo,其实除了「搜推联动」组合还有其他组合,比如“收藏+复访”组合、“关注+追更”组合、“打开+搜索”组合等,所以这些组合也可以做做精细化的运营。 此外,抖音的多元化推荐系统对长视频创作者和冷门内容赛道是有利的。 ## 四、抖音优质内容分发机制 除了上面讲的推荐机制之外,抖音还有一套「加权」版的推荐算法。如果你还有印象的话,应该知道抖音去年推出了一个叫「抖音精选」的子品牌,如果你的作品被平台标记为「抖音精选」,那你的作品会获得更多的流量扶持,不过这个需要一定的门槛,要在画面和内容上制作精良。 本文由人人都是产品经理作者【挖塘人】,微信公众号:【挖塘人】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
车型配置可以有高低,但是安全标准必须一视同仁。 #欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。 [爱范儿](https://www.ifanr.com) |[原文链接](https://www.ifanr.com/1621021) ·[查看评论](https://www.ifanr.com/1621021#comments) ·[新浪微博](https://weibo.com/ifanr)
<blockquote><p>在社交领域,尽管大众化的交友平台已经非常普及,但对于特定群体来说,一个专属且精准的社交平台往往更能满足他们的需求。Her APP正是这样一个为女同群体量身定制的社交平台,它不仅提供了一个寻找同类的场所,更是一个情感与生活的记录空间。本文将深入探讨Her APP的诞生背景、功能特点以及它如何通过精准满足用户需求,为女同群体创造一个更温暖、更包容的社交环境。</p> </blockquote>  <blockquote> <section> <article>“每种爱都值得被温柔以待。”<p></p> <p>–这句话或许能够很好地概括像女同社交Her APP 这样的平台所传递的情感价值。与泛大众的社交软件不同,Her精准服务于拉拉群体,满足她们在寻找同类、建立情感联结方面的独特需求。</p> </article> </section> </blockquote> 最近,我身边的一对拉拉朋友在日本注册结婚,整个过程甜蜜又幸福。 她们的故事让我想到,尽管有像Tinder这样覆盖面广的大众社交产品,但对于特定小众群体来说,专属的、精准的平台可能更能满足她们的需求。  Her 的诞生正是为了填补这一空白。它不仅是一个拉拉交友平台,更是一个情感与生活的记录空间,帮助用户找到属于自己的社群。 ## 缘起:看见未被满足的需求 “Her”(原名Dattch)的诞生,源于本身也是女同的创始人Robyn Exton的亲身经历和敏锐观察。 她注意到市场上已有像Grindr这样服务于男同性恋者的成功应用,却深感女同性恋群体缺少一款真正从她们视角出发、为她们量身打造的高质量社交平台。  Exton曾分享过创立“Her”的契机:一次在酒吧,她试图安慰一位刚经历分手的女性朋友,下意识地建议她去尝试线上的女同交友网站。 话一出口,Exton便意识到这建议的苍白无力。 因为当时市面上所谓的“女同交友网站”大多并非真正为该群体设计,用户体验差强人意。 这种“被迫使用”大众化或劣质产品的感受,让她觉得尴尬甚至有些屈辱,并激发了她创造一个“更好选择”的决心:“难道真的没有更好的女同志交友APP存在吗?” 为了将理想变为现实,Exton展现了非凡的决心。她辞去工作,搬回家以节省开支,利用晚上和周末在酒吧兼职维持生计,甚至自学编程。  凭借着包括4000英镑彩票奖金在内的1万英镑积蓄,她在2013年推出了应用的第一个版本“Dattch”(意为“Date Catch”) ## 进化:从“Dattch”到“Her”,不止于约会  (Mattch) 随着产品的发展和用户反馈的积累,Exton意识到仅仅是“Date Catch”(抓住约会)并不能完全概括用户的需求。 “我们为用户提供了更多的社交体验,”她解释道; “我们的用户中有很大一部分可能已经处于恋爱关系中,但她们依然使用这款应用来了解城市中正在发生的女同社群活动、阅读LGBTQ+相关内容,并在她们所在的地区结交新朋友。”  基于这种更广泛的社交和社群需求,以及“Dattch”这个名字拼写困难的问题,应用在2015年3月正式更名为“Her”。这个名字不仅更简洁易记,也更精准地指向了其核心服务对象,并蕴含了更广阔的社群连接意义。 ## 为什么 Her 不一样? 相比于泛大众的交友软件,Her 精准理解拉拉群体的核心需求,在功能和体验上更加贴合这一社群的偏好。  (Her) **比滑卡更多的选择**  虽然 Her 也有经典的“左滑右滑”功能,但与 Tinder 不同,Her 让每张卡片都更具故事性。除了头像,用户还可以在卡片中看到兴趣爱好、生活方式等信息,快速判断对方是否“对味”。 同时,它还在卡片底部设计了“添加好友”按钮,给用户多一种打开话题的机会——不需要等到滑卡配对,喜欢就大胆“打招呼”。对方添加成功也匹配成功。 **内容社区:社交之外的生活记录**  Her 不只是交友平台,更是一个生活社区。用户可以选择加入喜欢的兴趣社区,分享自己的日常、参与讨论或获取 LGBTQ+ 相关内容。虽然社区入口隐藏较深,但能感受到开发者的克制,既做出与 Tinder 不同的特色,又不过于偏离大众习惯。 **聊天体验极简但不失趣味**  1.轻量化设计:没有音视频通话和语音功能,专注于文字、图片和 GIF 的自我表达。  2.聊天列表自动整理:14天无对话的聊天自动存档,让列表整洁,却不会丢失记录。  3.外国用户的偏爱:Her 保留了丰富的 GIF 动图功能,趣味性十足,让互动更生动。 **用心维护社群氛围** Her 的用户并不局限于单身拉拉。许多已恋爱或结婚的用户依然活跃在平台上——分享生活、寻找朋友、了解本地 LGBTQ+ 活动。这种不以“配对成功”为唯一目标的设计,赋予 Her 更大的包容性和社群价值。 ## 不仅是约,更是聊和生活 一段广为流传的话总结了男女同性恋群体在社交方式上的差异:“男同注重的是约,而女同注重的是聊。” 男同性恋者往往更偏向基于地理位置(LBS)的即时社交,而女同性恋者更倾向于建立情感联结后再进一步互动。 Her 正是抓住了这种需求差异,通过社区功能、兴趣分享和温暖的社交设计,让拉拉群体找到真正的归属感。 ## Her 的启示:理解需求,创造温度 Her 的成功不仅仅是因为它服务于拉拉群体,更因为它在功能与文化上实现了深刻的“共情”。 - 专注情感需求:Her 深知拉拉群体在寻找爱情的同时,也渴望分享生活和建立长久的情感联系。 - 提供安全感:在 Her 上,需要验证女性身份,用户无需担心隐私问题,也不会因为“不同”而被孤立或误解。 - 创造归属感:通过社区功能,Her 不止是一个交友工具,更是一个表达自我、寻找同类的空间。 **每种爱,都值得被温柔以待** “Her” 的成功,源于其对女同性恋群体需求的精准洞察。作为一款垂直社交应用,它为用户打造了一个更懂她们、更安全舒适、更具归属感的社交空间。 这款产品的诞生证明,即便在竞争激烈的社交市场中,只要深入理解并尊重特定用户群体的需求,依然能够开拓出极具价值的细分领域。 “Her” 不仅提升了拉拉群体的社交体验,更带来深刻启示:当科技融入人文关怀,每一种形式的爱都能找到属于自己的舞台。这正是对 “尊重差异、和而不同” 理念的生动诠释。 参考文献: By Suzanne Bearne:https://www.bbc.com/news/business-36202226 Mackenzie Buck:https://www.datingnews.com/apps-and-sites/her-dating-app-review/ 作者:沉迷社交产品的初九哥 公众号:社交产品经理 本文由 @沉迷社交产品的初九哥 原创发布于人人都是产品经理。未经作者许可,禁止转载 题图来自Unsplash,基于CC0协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
<blockquote><p>本文深入探讨深度学习技术,尤其是CNN、RNN和Transformer架构,如何赋能NPC实现视觉与听觉感知。从游戏物体识别到语音理解,从环境感知到情感交互,这些技术让NPC能够“看懂”和“听懂”虚拟世界,从而做出更智能的反应。</p> </blockquote>  在上一篇笔记中,我们揭开了机器学习三大范式(监督、无监督、强化学习)的神秘面纱,为理解AI如何驱动NPC打下了基础。我们认识到,不同的学习方式赋予了NPC不同的能力雏形。然而,要让NPC真正“看懂”纷繁复杂的虚拟世界,精准“听懂”玩家的指令与情感,甚至拥有接近人类的交互能力,我们还需要更强大的引擎——**深度学习(Deep Learning, DL)**。 想象一下《最后生还者》中那些令人不寒而栗的“循声者”,它们仅凭声音就能精准定位玩家;或者在《赛博朋克2077》的夜之城里,街头的NPC能够对周围环境的变化(如枪声、车辆碰撞)做出看似逼真的反应;再想想VR游戏中,你的虚拟伙伴能通过你的眼神和微表情,捕捉到你情绪的细微变化……这些让虚拟世界更加生动、沉浸的“感知”能力,正是深度学习大放异彩的舞台。 深度学习是机器学习的一个分支,它通过构建和训练人工神经网络(Artificial Neural Networks, ANNs),特别是深度神经网络(Deep Neural Networks, DNNs),来模拟人脑处理信息的方式,从而在处理复杂模式识别任务(如图像、声音、自然语言)上取得了革命性的突破。对于渴望创造出拥有丰富感知能力的智能NPC的我们来说,深度学习无疑是最值得关注和理解的核心技术之一。 作为AI产品经理,我们或许不需要深入研究神经网络的数学原理或梯度下降的优化技巧,但**理解深度学习的核心思想、关键架构(特别是与“看”和“听”相关的CNN、RNN、Transformer等)、它们如何赋能NPC的感知能力、以及随之而来的数据需求、性能挑战和产品层面的权衡,对于我们设计出真正“活”的、可信的、且符合项目实际限制的智能NPC至关重要。** 为什么有些感知效果惊艳,却频频出错?实现某种“感知”能力需要多大的代价?我们该如何与技术团队沟通需求?这些都是PM需要思考的问题。  在本篇笔记中,我们将一起深入探索深度学习的世界,**重点关注它如何为我们的游戏、VR、AR、元宇宙NPC装上敏锐的“虚拟之眼”和“虚拟之耳”:** - 揭秘深度学习: 了解神经网络的基本概念及其与传统机器学习的区别。 - NPC的“眼睛”——卷积神经网络 (CNN): 探索CNN如何处理图像和空间信息,让NPC“看懂”世界。 - NPC的“耳朵”与“短期记忆”——循环神经网络 (RNN) 及其变体: 了解RNN如何处理序列数据,赋能NPC理解语音、文本和时序行为。 - 通往更强理解力之路——Transformer: 介绍Transformer架构及其在自然语言处理领域的革命性影响,如何让NPC拥有更强的对话和理解能力。 - PM视角下的挑战与机遇: 讨论数据、性能、可解释性、集成等方面的产品考量。 准备好一起探索NPC感知能力的奥秘了吗? ## 1、DL深度学习:模仿大脑,学习复杂模式  简单来说,深度学习的核心是人工神经网络。你可以把它想象成一个受人脑神经元网络启发的信息处理系统。 ### 1 神经网络基础: - 它由许多相互连接的“神经元”(节点)组成,这些神经元分布在不同的“层”(Layer)中:输入层、一个或多个隐藏层、输出层。 - 信息从输入层进入,通过隐藏层进行逐层传递和转换(每个连接都有权重,每个神经元有激活函数),最终在输出层得到结果。 - **“深度”就体现在隐藏层的数量多。 **更多的层允许网络学习到数据中更复杂、更抽象的特征表示。比如,在识别一张人脸图片时,浅层可能学习到边缘、角点等简单特征,深层则能组合这些特征,学习到眼睛、鼻子等更复杂的部件,乃至整张人脸的概念。  ### 2 与传统ML的区别: - 传统机器学习通常需要人工进行特征工程,即由专家手动提取数据中与任务相关的特征(比如,预测房价时,手动选择房屋面积、地段、房龄等作为特征)。 - 深度学习的强大之处在于**其端到端学习(End-to-End Learning)的能力,它能自动从原始数据中学习有效的特征表示**,减少了对人工特征工程的依赖。比如,给一个深度学习模型输入大量猫的图片,它能自己学会识别猫所需的各种视觉特征,而无需我们告诉它“猫有尖耳朵、胡须”等。 ### 3 PM需要理解的关键点:  - 数据饥渴: 深度学习模型,尤其是大型模型,通常需要海量的训练数据才能达到好的效果。数据量越大、质量越高、多样性越好,模型的泛化能力通常越强。这意味着数据采集和标注成本可能非常高昂。 - 计算密集: 训练深度学习模型需要强大的计算能力(通常是GPU),训练时间可能很长(从几小时到几周甚至几个月)。这直接影响到研发成本和迭代速度。 - “黑箱”特性: 深度神经网络的决策过程往往非常复杂,难以直观解释为什么模型会做出某个特定的预测。这给调试、信任建立和责任界定带来了挑战。作为PM,我们需要意识到这一点,并通过充分的测试、监控和用户反馈来管理风险。 ## 2、NPC的“虚拟之眼”:卷积神经网络 (CNN)  当我们需要让NPC“看懂”虚拟世界时,卷积神经网络(Convolutional Neural Networks, CNNs)通常是首选武器。CNN在处理图像、视频以及其他具有空间结构的数据(如棋盘状态)方面表现极其出色。 ### 1 (核心思想): CNN模仿了生物视觉皮层的处理机制。 它的关键在于**卷积层(Convolutional Layer)和池化层(Pooling Layer)**: - 卷积层: 使用可学习的“滤波器”(或称“卷积核”)在输入图像上滑动,提取局部的空间特征(如边缘、纹理、角点)。不同的滤波器可以学习到不同的特征。 - 池化层: 对卷积层提取的特征进行降采样,减少数据量,提高计算效率,并增强模型的鲁棒性(对微小的位移不敏感)。  ### 2 (游戏/VR/AR场景应用): - 游戏物体识别: 让NPC能够识别场景中的玩家、队友、敌人、道具、可破坏的掩体、任务目标等。这是许多现代游戏AI感知系统的基础。 - 环境理解与分割: 让NPC能够理解场景布局,识别可行走区域、障碍物、危险区域(如火焰、悬崖)。例如,在开放世界游戏中,NPC需要知道哪里是路,哪里是墙。 - VR/AR手势/姿态识别: 通过摄像头捕捉用户的手部或身体图像,利用CNN识别用户做出的特定手势或姿态,用于交互控制。 - 面部表情识别: [进阶] 识别玩家(通过摄像头)或虚拟化身的面部表情,让NPC能够感知玩家情绪并做出相应反应,增强情感交互。 - AR中的场景识别与物体追踪: 让AR应用中的虚拟NPC能够识别现实世界中的平面、特定物体,并将虚拟内容准确地叠加或与之互动。 ### 3 PM选型考量:  - 数据需求: 训练有效的CNN需要大量的标注图像数据。对于游戏内物体识别,可能需要从游戏引擎中生成大量不同角度、光照、遮挡情况下的截图,并进行标注。对于现实世界的手势或物体识别,则需要收集真实的图像数据。数据标注成本是重要考量。 - 模型大小与性能: CNN模型(尤其是深层网络)可能参数量巨大,对移动端或VR一体机的内存和计算能力是巨大考验。需要在模型精度与性能之间进行权衡,可能需要采用模型压缩、量化等技术(后续章节会详述)。 - 实时性要求: 游戏和VR/AR应用通常要求感知系统具有极低的延迟。CNN的推理速度需要满足实时交互的需求。 - 鲁棒性: 模型需要对光照变化、部分遮挡、视角变化等具有一定的鲁棒性。 ### 4 [案例与文献引用参考建议]: - 许多现代3A游戏中的敌人AI都具备基于视觉的感知能力,例如《最后生还者》系列中敌人能根据玩家是否在其视野内、是否有遮挡物等做出不同的反应。尽管具体实现细节保密,但其背后很可能运用了类似CNN的视觉处理技术。  - 《From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks》 - 研究利用 CNN 对 22 个游戏平台的 17 万张截图进行分类,验证了 CNN 在复杂游戏场景下的视觉特征提取能力。例如,模型能通过分析画面色调、UI 布局、角色设计等视觉线索,准确识别《塞尔达传说》与《上古卷轴》等开放世界游戏的差异。 - 文献来源:https://arxiv.org/abs/2311.15963 - VR手部追踪技术(如Oculus Quest/Meta Quest的手部追踪)就利用了设备上的摄像头和计算机视觉算法(很可能包含CNN)来实时捕捉和理解用户的手部姿态。 - 《Using Deep Neural Networks for Accurate Hand-Tracking on Oculus Quest》 - 该文章由 Meta Reality Labs 团队撰写,明确指出 Oculus Quest 的手部追踪系统完全基于单色摄像头与深度神经网络(含 CNN)。 - 文献来源:https://ai.meta.com/blog/hand-tracking-deep-neural-networks/ ## 3、NPC的“虚拟之耳”与“短期记忆”:循环神经网络 (RNN)  当NPC需要处理序列数据时,比如理解玩家说的话(语音或文本)、预测玩家接下来可能的一系列动作、或者记住对话的上下文,**循环神经网络(Recurrent Neural Networks, RNNs)**及其变体就派上了用场。 ### 1️⃣ (核心思想): 与一次性处理整个输入的CNN不同,RNN具有“记忆”能力。 它的神经元不仅接收当前的输入,还会接收来自上一个时间步的隐藏状态输出。这种循环结构使得RNN能够捕捉到序列信息中的时间依赖关系。  ### 2️⃣ 挑战与变体: - 梯度消失/爆炸问题: 简单的RNN在处理长序列时,容易出现梯度消失(导致无法学习长期依赖)或梯度爆炸(导致训练不稳定)的问题。 - LSTM与GRU: 为了解决这个问题,研究者提出了更复杂的变体,如**长短期记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU)**。它们引入了精巧的“门控机制”,能够有选择地遗忘旧信息、记忆新信息,从而更好地捕捉长期依赖关系。LSTM和GRU是目前处理序列数据更常用的选择。 ### 3️⃣ (游戏/VR/AR场景应用): - 基础语音识别输入处理: 将玩家的语音输入转化为文本序列,作为后续NLP处理的输入。(注:完整的语音识别系统通常更复杂,但RNN/LSTM是其中的关键组件之一)。 - 文本生成与对话(早期或简单系统): 在一些相对简单的对话系统中,RNN/LSTM可以用来生成符合语法和一定上下文连贯性的NPC回复。 - 玩家行为序列分析: 分析玩家在一段时间内的操作序列(如技能释放顺序、移动轨迹),用于预测其下一步意图或识别特定游戏模式。 - NPC状态的时序建模: 模拟NPC内部状态(如情绪、疲劳度)随时间或事件发生的变化。 - 动画序列生成: [进阶] 生成更自然的动画过渡或基于上下文的动作序列。 ### 4️⃣ PM选型考量:  - 序列依赖性是关键: 当任务需要考虑信息的先后顺序和上下文时(如理解一句话、预测下一步行为),RNN及其变体是合适的选择。 - 长距离依赖: 对于需要捕捉较长距离依赖关系的任务(如理解一个长段落、记住很久以前的对话),LSTM或GRU通常比简单RNN更有效。 - 计算成本: RNN的计算通常是按时间步顺序进行的,难以像CNN那样高度并行化,对于非常长的序列,训练和推理可能较慢。 - 已被Transformer超越? 在许多NLP任务中,尤其是需要深度理解和生成复杂文本的任务,Transformer架构(下文介绍)的表现已显著优于RNN/LSTM。但在某些对计算资源有限、或只需捕捉相对局部时序依赖的场景下,LSTM/GRU仍有其价值。 ### 5️⃣ [案例与文献引用参考建议]: - 许多游戏中的简单对话系统,或者基于规则并结合有限上下文理解的NPC交互,其技术底层可能受到早期RNN/LSTM研究的启发。 - 《LSTM-Based Language Models for Mobile Input Methods》 - 该研究提出一种基于 LSTM 的轻量化语言模型,专为移动端输入法设计。 - 文献来源:https://arxiv.org/abs/2309.15789 - 移动设备上的输入法联想功能,也利用了类似RNN/LSTM的技术来根据用户已输入的序列预测下一个词。  ## 4、通往更强理解力之路:Transformer  近年来,在自然语言处理(NLP)领域掀起革命性浪潮的架构,非Transformer莫属。它已成为驱动当今最先进的大语言模型(如GPT系列、BERT系列)的核心引擎,也为创造出拥有深度理解和流畅对话能力的NPC带来了前所未有的可能。 ### 1️⃣ (核心思想 – Attention机制): Transformer完全摒弃了RNN的循环结构,其核心在于自注意力机制(Self-Attention Mechanism)。 简单来说,Attention机制允许模型在处理序列中的某个词(或元素)时,能够**同时关注到序列中所有其他词,并根据相关性动态地计算每个词对当前词的影响权重。**这使得模型能够更好地捕捉长距离依赖关系,并且计算可以高度并行化。  ### 2️⃣ (游戏/VR/AR场景应用): - 高级NPC对话系统: 这是Transformer最令人兴奋的应用领域。基于Transformer的大语言模型(LLM)能够生成极其流畅、连贯、上下文感知、甚至富有角色个性的对话,让NPC“活”起来。 - 复杂指令理解: 让NPC能够理解玩家用自然语言下达的复杂、多步骤指令(例如,“去村庄北边的铁匠铺,帮我买一把铁剑,然后送到酒馆二楼的房间”)。 - 游戏世界知识问答: 让NPC能够像“行走的百科全书”一样,回答玩家关于游戏世界观、任务、角色背景等各种问题。 - 情感与风格识别/生成: 更准确地识别玩家文本/语音中的情感倾向,并让NPC以符合其性格和当前情境的语气、风格进行回应。 - 跨模态理解: [前沿] 结合视觉信息(CNN)和语言信息(Transformer),实现更丰富的多模态交互理解(如NPC能理解玩家指着某个物体说的话)。 ### 3️⃣ PM选型考量:  - 能力上限极高: Transformer在处理长序列、捕捉复杂语义关系方面展现出无与伦比的能力,是实现“真正智能”对话NPC最有希望的技术路径。 - 巨大的数据和算力需求: 训练大型Transformer模型需要海量的文本数据(通常是万亿级别的token)和极其庞大的计算资源(成百上千的GPU并行训练数周或数月),成本极高,通常只有大型科技公司或专门的研究机构能够承担。 - 模型巨大,部署困难: 大型Transformer模型参数量动辄数十亿甚至上千亿,直接在游戏客户端或普通服务器上部署运行面临巨大挑战(内存、显存、推理延迟)。需要依赖模型压缩、量化、分布式推理、云服务API等方案。 - 微调(Fine-tuning)是关键: 对于游戏/VR应用,通常不是从头训练一个大模型,而是选择一个预训练好的基础模型(如ChatGLM、Llama等),然后使用与特定游戏世界观、角色设定、对话风格相关的较小规模数据集进行微调,使其适应特定需求。PM需要关注微调数据的准备、微调过程的成本和效果评估。 - 可控性与“幻觉”问题: LLM有时会产生不准确、不符合事实甚至有害的“幻觉”内容。如何确保NPC的回答既智能又可靠、安全、符合世界观设定,是一个巨大的挑战。需要结合规则、知识库、内容过滤等多种手段进行约束。 4️⃣ [案例与文献引用参考建议]: - Transformer架构最初由Google在论文《Attention Is All You Need》中提出,这篇论文是该领域的奠基之作。 - 文献来源:https://arxiv.org/abs/1706.03762  - 像AI Dungeon、Character.ai等基于LLM的交互式叙事或角色扮演应用,直观地展示了Transformer驱动的对话系统的能力和潜力。 - 《AI Dungeon:一款可在线多人游玩的AI文字冒险游戏》 - 文献来源:AI Dungeon:一款可在线多人游玩的AI文字冒险游戏 - 许多游戏开发者正在积极探索将LLM集成到NPC中的方法,例如使用Inworld AI等第三方平台,或尝试本地部署开源模型(如Llama、ChatGLM)并进行微调。 - 《Inworld AI :可以使NPC能够自我学习和适应,具有情绪智能!》 - 文献来源:Inworld AI :可以使NPC能够自我学习和适应,具有情绪智能! ## 5、(PM视角下的挑战与机遇总结)  深度学习为NPC的感知能力带来了质的飞跃,但也伴随着一系列产品和工程上的挑战: - 数据是燃料,也是瓶颈: 无论是CNN的图像数据,还是RNN/Transformer的序列数据,高质量、大规模的数据获取与标注始终是核心挑战和成本所在。 - 性能与资源的永恒博弈: 强大的感知能力往往意味着复杂的模型和高昂的计算成本。在资源受限的游戏客户端、移动设备、VR一体机上实现低延迟、高效率的深度学习推理,需要持续的技术优化和明智的架构选择。PM需要在“效果”和“成本/性能”之间不断寻找平衡点。 - “黑箱”带来的信任与可控性难题: 如何理解、调试、信任一个难以解释其内部决策逻辑的AI系统?如何确保它的行为始终在预期和安全的范围内?这是PM需要与技术、设计、QA团队共同应对的问题。 - 集成与工作流: 如何将这些AI能力顺畅地集成到现有的游戏引擎(如Unity/UE)和开发管线中?如何让策划和设计师能够方便地配置、测试和迭代AI NPC的行为? - 伦理与责任: 当NPC拥有了更强的感知能力(如识别玩家情绪、生物特征),随之而来的隐私保护、避免歧视、防止滥用等伦理问题也愈发突出。 然而,挑战也意味着机遇。成功驾驭深度学习的力量,将使我们能够创造出前所未有的沉浸式、个性化、富有情感连接的虚拟世界和NPC体验,这正是我们作为交互娱乐领域AI产品经理的价值所在。 今天,我们深入探索了深度学习如何为NPC赋予“看”和“听”的能力,了解了CNN、RNN、Transformer等关键架构及其在游戏、VR/AR、元宇宙中的应用潜力与挑战。我们认识到,感知是智能的基础,但仅仅能“看懂”、“听懂”还不够,NPC还需要基于这些感知做出合理的决策和行动。 参考文献资料: 1、《From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks》 文献来源:https://arxiv.org/abs/2311.15963 2、《Using Deep Neural Networks for Accurate Hand-Tracking on Oculus Quest》 文献来源:https://ai.meta.com/blog/hand-tracking-deep-neural-networks/ 3、《LSTM-Based Language Models for Mobile Input Methods》 文献来源:https://arxiv.org/abs/2309.15789 4、Google在论文《Attention Is All You Need》中提出。 文献来源:https://arxiv.org/abs/1706.03762 5、《AI Dungeon:一款可在线多人游玩的AI文字冒险游戏》 文献来源:AI Dungeon:一款可在线多人游玩的AI文字冒险游戏 6、《Inworld AI :可以使NPC能够自我学习和适应,具有情绪智能!》 文献来源:Inworld AI :可以使NPC能够自我学习和适应,具有情绪智能! 本文由人人都是产品经理作者【Mu先生Ai世界】,微信公众号:【Mu先生Ai世界】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
一片「新蓝海」。 #欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。 [爱范儿](https://www.ifanr.com) |[原文链接](https://www.ifanr.com/1620503) ·[查看评论](https://www.ifanr.com/1620503#comments) ·[新浪微博](https://weibo.com/ifanr)
Google发布首个混合推理模型 Gemini 2.5 Flash,支持可调节“思考预算”功能,可开启或关闭深度推理模式,降低使用成本。目前,Gemini 2.5 Flash 预览版已集成至 Gemini 产品,并面向开发者开放 API 接入。  据介绍,在关闭思考模式下,Gemini 2.5 Flash 的输出价格低至0.6美元/百万 tokens,相比开启思考模式(3.5美元/百万 tokens)降低600%。Google称即便在关闭思考的情况下,新模型性能仍优于上一代 Gemini 2.0 Flash。  该模型在多个基准测试中刷新 SOTA 纪录。Gemini 2.5 Flash(预览版)在大模型排行榜中以1392分 ELO 位列第二,仅次于 GPT-4.5-preview,表现与 Grok-3旗鼓相当。 在 GPQA 知识问答任务中,模型设定24k 思考预算可提升性能6%;在代码基准 LiveCodeBench 上,性能在16k 思考预算下表现最佳。 在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等任务上,Gemini 2.5 Flash 明显超越 Claude 3.7 Sonnet,综合性能可与 OpenAI 最新 o4-mini 模型匹敌。 此外,在通用基准“人类最后一次考试”中,Gemini 2.5 Flash 以12.1% 高分表现仅次于 o4-mini。 [查看评论](https://m.cnbeta.com.tw/comment/1493798.htm)
<blockquote><p>在人工智能技术飞速发展的今天,RAG(Retrieval-Augmented Generation,检索增强生成)作为一种新兴的AI工具,正在逐渐走进人们的视野。它结合了检索和生成的能力,能够快速从海量资料中提取信息,并生成准确且生动的答案。本文将深入探讨RAG的工作原理、优势以及其在企业中的应用场景,帮助读者更好地理解这一前沿技术,并探讨它如何在未来的工作和生活中发挥重要作用。</p> </blockquote>  最近的文章更新迭代慢了,主要原因是项目紧,任务重,每天加班得精疲力尽。 今天看了RAG的文章介绍,算是给自己科普,惯例,输出倒逼输入,讲讲对RAG的理解。 ## 01 什么是RAG? RAG是一个检索增强生成工具,他就像是开卷考试的天才,当你问他一个问题,他不是死记硬背,而是快速检索资料,然后再结合资料生成答案。这个答案的内容也会进行润色,让内容更生动,更有逻辑。 ## 02 RAG的思考步骤 1.查资料 当我们提了一个问题后,他会从海量的资料中进行检索,当然,这里的前提是公开的资料。 2.整理重点 海量的资料很杂很乱,而且可能还有一些无效信息,那就需要进行去伪存真,进行规整。 3.生成回答 利用规整好的资料,再调用大模型的能力,把资料整理成流畅的内容的回答。 ## 03 为什么比普通AI更聪明 普通的AI像是闭卷考试,知识不会更新,模型训练完后,知识就定型了,但是RAG不会,随时都会调取最新的数据。 普通AI容易瞎编,但是RAG基本上能够引用真实的文章,并且还会说明出处。 RAG可以支持你只需要引用一部分的知识库,比如法律相关、公司内部知识库。这样更有针对性,更符合我们的实际要求。 ## 04 RAG的应用场景 未来大部分公司都会引用RAG知识库,我们可以把企业的数据和AI结合起来。这样,当问一个非常有针对性的问题,就可以很方便的调用内部的知识库,得出较为精准的回答。 像现在经常用的飞书,你问一个问题,他很快能够结合过往的聊天记录、文档等信息,给你生成较为准确的回答。 但是现在的RAG还不是很成熟,存在召回率低、准确率不高的问题。 可能还需要不断升级迭代整体的技术能力,但不管怎样,RAG是以后所有AI应用企业必备的工具,大部分的产品经理都要懂RAG。 未来没有AI产品经理的说法,人人都是AI产品经理,因为AI就像水煤电一样,融入工作生活的方方面面。 本文由人人都是产品经理作者【蔡锦海】,微信公众号:【锦海说】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
最新数据显示,阿里国际站冲进美国电商APP下载榜前五,并在全球120个市场的电商App下载榜中位居前十。与此同时,中国国民APP淘宝也在全球爆火。据第三方数据机构统计,截至目前,淘宝在16个国家App下载榜上排名第一,并冲上美国下载榜第二,在123个国家排名前十,大量海外消费者涌入淘宝。  为了帮助商家接住这波流量,阿里国际站推出了多项中小外贸商家举措,数千名小二已经奔赴外贸产业带,并成立多个专项小组,在4月初即已飞赴全球各地,调研当地买家,帮商家找销路。同时,阿里国际站还开启专属流量通道,定向为拓展新市场的商家提供流量倾斜,对接更广阔的全球客户。 [查看评论](https://m.cnbeta.com.tw/comment/1493796.htm)
4月18日,华晨宝马旗下领悦数字信息技术有限公司宣布,与字节跳动旗下云服务平台火山引擎达成深度合作,双方将围绕人工智能在汽车营销服务的创新应用,以AI+场景高效产品匹配与购车建议,精确内容引导,全面提升用户购车体验与经销商运营效能。这是继宝马上月发布“360度全链AI战略”后,再度加码本土化AI技术应用的重要举措。  根据合作协议,领悦公司将联合火山引擎,基于大模型技术、语义理解及场景化服务能力,开发定制化线上智能营销工具。具体应用场景包括:通过AI算法实现车型与用户需求的精准匹配,提供个性化购车建议;利用实时智能客服降低信息过载,缩短用户决策周期;打造沉浸式数字互动体验。例如,用户在抖音浏览宝马内容时,系统可自动推荐附近经销商及适配配置方案,并通过7×24小时在线客服完成无缝对接。 华晨宝马汽车有限公司总裁兼首席执行官戴鹤轩博士指出:“以负责任的方式应用AI技术、利用先进技术提升用户体验,这是智能时代企业铸就竞争实力的关键因素。通过此次合作,领悦将与火山引擎紧密协作,推动AI模型持续训练与应用效果优化,利用前沿科技为一线业务提质增效,为用户带来更便捷的购车体验。 [查看评论](https://m.cnbeta.com.tw/comment/1493794.htm)