深度剖析字节豆包:加更版
从一个内部孵化项目到如今的AI超级应用,豆包不仅在技术上不断创新,更在产品定位、用户增长、应用场景拓展等多个维度展现出独特的战略眼光。本文将深度剖析豆包的发展历程、核心竞争力、产品能力以及未来规划,通过与腾讯元宝、DeepSeek、Kimi等国内头部AI产品的对比,揭示其在多模态、AI搜索、语音聊天等关键领域的优势与挑战。
去年6月的时候,三白写了第一篇《深度剖析字节豆包AI》的文章,很荣幸的是,当时这篇文章帮助了很多有意愿从事AI产品经理转型,以及正在面试国内AI产品岗位的朋友,同时也上架了人人都是产品经理社区,全网阅读量超过了10万。
将近一年过去以后,考虑到第一篇文章中很多内容基本已经过时了,豆包的产品相比之前已经有了不少更新,然而向我索要阅读文章的朋友还很多,加上近期收到来自人人都是产品经理社区平台朋友的续更邀请,这周花了一些时间围绕着豆包这款产品,再次输出一篇更新版、更深度的产品分析。
全文19000字+,我将围绕着产品发展历程、产品定位、核心竞争力、核心产品能力对比、产品发展探索思考、产品规划等多个方面,站在当下,重新深入的回顾和分析字节豆包这块款产品。分析内容中,我也将深度的对比豆包、腾讯元宝、Deepseek、Kimi这几个国内头部AI产品在能力上的差异表现,完整内容概括如下脑图:
本篇文章创作方式和全部内容信息主要来源于:
1.AI产品经理或者有意转型做AI产品经理的朋友
2.大模型行业研究人员
3.有兴趣学习AI知识内容的朋友
1)产品的前身
豆包的前身是字节在23年内部孵化的一个产品项目,名称叫Grace,当时因为ChatGPT的火爆,字节内部孵化了这样一个类似的产品,但是当时整个字节还处于对AI和大模型的探索阶段,对于这个项目还没有得到太大的重视,于此同时,以张一鸣为首的字节的高层,正在非常积极主动的研究和思考大模型到底是怎么回事,已经开始在筹备字节在AI领域的重大投入和变革。
2023年8月,豆包开始在国内国内应用市场灰度上线,同一时间,海外同步上线了一款产品cici,从这个时间点开始,字节豆包开始走进中国AI圈的视野,并开始一路狂奔和增长之路。
2)产品的发展和战略定位思考
2023年11月份的时候,字节正式成立单独的面向AI的组织架构flow,当时flow的核心目标以AI应用创新的探索为主,重点聚焦在新的原生AI应用的尝试,而不是赋能字节旧的以抖音等为主产品;
当时字节高层对于AI的重视程度相当高,一方面这个事情据说是张一鸣和CEO梁汝波等亲自牵头,另一方面卷入该项目的人员包括应用端的flow团队(朱骏负责)、大模型端的SEED团队(朱文佳负责)、以及技术中台团队(洪定坤负责)的总人数据内部人员透露人数超过千人,可见战略层对于AI的重视程度相当高,而当时战略层开始把重要的应用聚焦在豆包这款产品,并投入大量的资源扶持豆包的发展,现在回过头来看,其核心的战略定位思考个人觉得可能包括如下3点:
在过去的一年多里面,豆包一方面在产品层保持非常高频的产品迭代,另外一方面投入了不小的广告投放的资源,重点提升豆包的用户规模,参考Questmobile数据**,豆包APP端的月活规模从2023年8月份的时候仅7万左右,到2025年1月份的时候,月活规模已经达到8209万的水平**,从目前的增长趋势上看,豆包成为亿级月活规模的应用产品已经是迟早的事情。
从增长的曲线上看,我们可以看到过去一年半里面,豆包的用户规模增长发生过3次增长拐点,其增长包括3个增长阶段;
4)豆包的AI应用探索,字节的AI应用版图扩张
值得注意的是,字节在拓展新的AI应用领域的时候,会呈现这样的规律,内部似乎经常会优先在豆包内做某一个AI应用领域的尝试,包括做一个独立的智能体,或者在豆包默认智能体的输入框上方固定一个应用使用入口,当验证该应用场景的可行性并获得正向验证数据之后,他们会推出独立的AI应用,其中包括豆包爱学、星绘、猫箱等产品都经历过在豆包内测试上线的过程。
豆包因此成为了字节内部探索AI应用的重要场地,通过这样的方式,截止至今,字节内部目前已经在不同的应用领域共布局了超过18个AI应用,应用场景覆盖通用Chatbot、Agent开发平台、虚拟社交、AI教育、AI编程、Ai数字分身、AI硬件等多个领域,成为了国内目前应用布局版图最广的厂商,同时,字节目前也是AI应用出海相对更加激进和成功的大厂。
5)通过豆包应用扩大豆包大模型影响力,形成“AI应用→大模型→云”的商业闭环
相比百度在更早以前文心一言就开始通过订阅会员的方式收费不同的是,豆包应用本身在过去一年半里面,暂时都还没有开始商业化,在这样大规模的投入的情况下,豆包应用端仍然不商业化的主要原因,个人认为,从字节战略层面上,他们构建的是“AI应用→大模型→云”的商业闭环。
通过发展豆包应用的用户规模,把字节的豆包大模型带入公共视角,从而在扩大豆包应用用户规模的同时,提升豆包大模型的影响力,从而带动大模型在B端的售卖,这点从字节把大模型的名称从一开始的“云雀大模型”改成“豆包大模型”这个做法上可以窥探出来,他们视图在统一应用和模型的营销品牌。
然而,24年5月份的时候,字节大规模的降低了模型API的价格,如此低价的策略,加上国内企业模型消耗量不算很大的情况下,短期通过大模型盈利几乎比较难,但是通过大模型引进的企业,却有可能在字节的云侧获得商业变现,因为运行大模型必然伴随着对基础服务设施、云服务、GPU等的需求,这便是个人理解的,字节短期在AI和大模型领域的商业闭环。
过去的一年半里面,字节不管是在豆包产品更新,还是模型的发展上,都保持着比较高频的迭代速度,特别是产品层,基本保持着每周一个小版本,双周一个大版本的进度快速更新,以下主要产品层和模型层两个角度,分别阐述一下豆包过去一年多的关键节点里程碑。
1.2.1 豆包产品层的重要里程碑
概括起来,豆包过去一年半里,豆包的重大产品迭代有如下几个特点:
1.2.2 模型层的重要里程碑
从字节在模型层的重要里程碑上可以看出来,过去的这段时间里面,字节在模型侧的资源和注意力上,基本都投入在了多模态大模型里面,在多模态领域有比较多的创新和输出,但是在基础大模型的性能提升和创新上明显略显不足,基本像是在持续的追赶国内和海外大模型的,缺少属于字节的创新突破;也难怪DeepSeek-R1火了之后,字节内部在模型侧会发展进一步的重大架构调整,并开始更加重视模型创新研究方向的投入。
这部分,我们主要从豆包在一些重要产品功能上,过去一年半的产品迭代细节,深入的了解每一个功能模块都做过哪些迭代,以此了解豆包产品发展过程中的一些思考过程和细节,为了更加清晰的看到整个迭代历程,我将豆包的主要产品迭代整理为如下图所示。
针对上图,概括总结如下:
1.3.1 不同时间段,豆包的产品迭代重点
2023年11月~2024年5月(聚焦智能体生态):在这段时间里面,豆包的产品迭代的重点,似乎着重关注应用内的智能体生态这个点,具体体现在:
①在这个时间段,持续的推出不同应用领域的官方智能体,探索不同智能体的应用效果,除了豆包默认智能体之外,当时共推出了22个智能体,覆盖学习、语音聊天、AI生图、生活助手、编程助手等多个领域;具体智能体包括英语学习助手、聊天、AI生成漫画、音乐电台、智能体创建助手、ai生成图片、文学伴侣、恋爱大事、旅游规划师、电影评论家、星座运势、起名专家、本地推荐、编程助手
②另外一方面,豆包APP的首页不断地尝试曝光智能体内容,引导用户更多的使用智能体;其中包括将“发现智能体”从右上角隐蔽的角落固定到底部栏,以及APP首页顶部滑动露出智能体;
③同时,通过打通扣子,让扣子成为豆包更专业的智能体供应的来源; 这一系列的举措都表明,该阶段豆包的产品迭代重心,在于发展智能体内容生态,并让用户更多的使用智能体,从而提升用户的粘性;
2024年6月~2024年8月(聚集产品自增长能力):第二阶段里,豆包的产品迭代重心聚焦在PC端和浏览器端的产品更新,持续的通过浏览器插件在外部场景寻找应用入口,以期获得PC端的增长来源,同时又持续优化产品在分享模块的功能体验(聊天消息支持图片分享、支持接着聊),该阶段重心个人理解为是强化产品自增长能力。
2024年9月~至今(聚焦AI搜索、多模态、应用场景):第三阶段是豆包更加高频迭代的时间点,可以看到在这段时间里面,豆包在AI搜索、多模态和垂直应用场景里面的更品非常频繁,具体包括;
①进一步强化搜索功能,支持学术搜索和深入搜索模式;
②多模态应用更新不断,特别是语音聊天功能保持高频迭代,识图、生图、生视频等功能也开始陆续上线;
③在应用场景上,围绕着办公、生活、创作持续迭代,特别是办公场景,陆续拓展了文档生成、会议录制、云盘、编程、日程提醒等多个应用;
1.3.2 不同产品模块的产品迭代方向
1)一句话概述豆包的产品定位
豆包的产品定位是一个“通用的AI助手”,目前的产品理念看起来更加应景一句话“用AI把互联网的产品重新做一遍,探索AI智能的边界”。
现在我们看到豆包上承载的应用场景越来越多,覆盖娱乐聊天、办公效率、学习效率、生活服务等等多个方面,既有娱乐方向,又有效率方向,并且这个趋势目前看还没有收敛,从产品定位的角度上看,它已经在朝着一站式全场景的AI产品方向走。
很多产品人会认为,这种看起来有点杂乱无章,什么都搞的做法,看似有些定位不清晰和明确,让人琢磨不透,但是个人认为,这个的背后,可能是字节的AI团队,在持续的探索AI智能的边界的体现,毕竟从目前看,并没有哪个企业能清楚的知道大模型和AI的边界在哪里,这也是大厂应该承担起来的责任。
2)豆包的用户群体(互联网办公群体、大学生)
通过QM的用户画像数据可以了解到,目前豆包的主要用户还是以2540之间的互联网办公用户为主,占比将近70%,其次是1925岁之间的大学生用户,占比15%左右,而18岁以下的未成年用户和40岁以上的高龄用户,占比均在7%~8%左右;从城市等级上看,目前豆包在一二线城市的用户占比是45%左右,下城市场的用户占比相对更高。
当我们谈及一个类似豆包这样的产品的核心产品竞争力的时候,个人认为,可以从如下几个维度去做对比分析:
综上所述,个人认为,豆包主要通过在多模态、应用场景拓展、智能体生态这个三个角度,构建属于豆包的产品竞争力。
前面部分我们提到,豆包主要在多模态、应用场景拓展、智能体生态这几个角度,形成和国内主要竞品的差异,接下来我们从关键的单点产品能力的角度,分析和对比豆包在以下这些产品功能上和主要竞品的差异如何,由于豆包应用的功能太多,无法每个功能都深入分析,因此我主要挑选目前个人觉得比较重要的AI搜索、语音聊天、AI生图、AI识图这4个功能,做进一步深入的分析。
2.3.1 AI搜索
联网搜索的功能基本上是一个Chatbot类产品的标配能力,因此基本上每一个AI的核心玩家都会重点在AI搜索上构建自己产品的竞争力,这个关键领域,目前大家做的如何呢,在此之前,我们先尝试构建一个AI搜索产品的评估体系,个人的理解,一个AI搜索产品的好坏,可以主要从意图识别能力、搜索引擎能力、问答呈现能力三个角度评估。
1)意图识别能力:指基于用户的输入,识别和理解用户意图,准确匹配用户需求的能力,包括算法识别和用户画像匹配的能力,其中评估维度包括如下:
①快思考和慢思考的决策判断:模型能否准确识别用户的问题是否需要通过深度思考后再回答,还是选择快速回答;
②语义泛化推理能力测试:当用户没有把问题描述清楚的时候,模型是否能准确理解用户的意图;
③是否结合用户的画像身份、偏好、结合上下文、语境、时效;
④是否过度依赖提示词:比如提示词中不提供案例、示范,能够准确命中用户想要的;
⑤意图的联想能力:是否能准确的联想到用户的意图;
2)搜索引擎的能力:
①搜索引擎的覆盖范围、检索数据源、检索质量;
②检索时效性和准确性;
3)问答呈现能力
①专业性:包括要点、场景化、幻觉率、案例和数据占比;
②可读性:包括逻辑性、信息呈现的效率、图文混合样式);
③创新性:除了基于事实,模型是否能有一些创造性的思考;
在这套评估体系之下,我们如何去测验不同的产品的表现,如果用严谨的方式,应该通过一系列专业的模型测试评估的方式,才能获得较为准确的结果,然而对于个人用户而言,我们无法完整这样的工作,个人主要通过一些常见场景下的使用案例,去测试和体验不同产品的表现,从而获得体验层的评估结果,因此以下评估结果可能略显偏颇,仅供参考,具体测评结论概括总结如下:
其次是豆包,豆包在检索范围上表现最好,可能可以检索到覆盖率更高的内容,但是在结果呈现上稍微弱一些;
然后是Deepseek,各方面表现都还不错,但是没有非常突出的地方;而kimi在几个竞品中,表现则略显一般,意图识别能力表现一般,回答结果的专业性(案例和数据比例较少)、可读性(段落间关联性弱)、创新性等方面表现都一般。
2.3.2 语音聊天
除了AI搜索的功能,语音聊天也是众多主要的Chatbot类产品都会提供的功能,从最早期的苹果Siri开始,AI智能的标配似乎就离不开语音对话的能力,同时语音聊天也可以拓展产品的使用场景和频率,满足没有具体的使用目的的用户的使用需求;对于语音聊天这个类型的产品能力的对比,同样的我们也先构建一个评估体系,个人认为,评估一个语音聊天产品做的好不好,重点需要关注如下几点:
1)语音体验
①语音识别能力:长语音断句、中英混合、方言识别
②流畅度和时延:从输入到响应的时间
③输出音色和音质:音色库数量以及音色复制;
④声音表达能力:支持说方言、能唱歌、能模拟声音;
⑤拟人化的体验:支持打断、主动提问、连续回复;
⑥多模态交互语音聊天:支持图片或者摄像头输入、支持回复视觉内容(图片、表情等)
2)角色个性化能力
①角色扮演能力:扮演具体角色并根据角色聊天的能力
②性格特征表现能力:能表现出幽默、活泼、高冷等等性格
3)情商表现
①情绪表达和共情能力:具备喜怒哀乐等情绪表达和共情能力;
②主动引导聊天和制造话题的能力:能制造话题引导用户聊天能力
③个性化回复:根据用户画像特征个性化调整语气和回复方式
接下来我们对比一下几个产品在语音聊天方面的表现情况,由于deepseek目前还不支持语音聊天的功能,因此我们主要对比豆包、元宝、kimi这几个产品,整体能力表现概括为如下表,总结而言,三个产品中豆包在语音聊天方面的表现无疑是最好的,其中表现在:
各个产品具体测评案例和语音表现如下:
1.语音识别能力测试
我尝试用憋断气的方式一口气不停顿的语音输入如下这段话,除了内容很长,还夹带英文,英文部分发音的时候特别加强一下发音清晰度,对比三个产品的表现如下:
从断句效果上看,三个产品表现都不错,差异不是很大,但是在中英混合的识别上,豆包的识别准确率比较高,可以最准确的识别,而元宝和kimi的识别准确率比较一般,kimi的识别率错的更加离谱,在本人蹩脚的英语之下,豆包更加准确的识别出来。
2.流畅度和时延
测试不同的产品之间的流畅度和时延的方式比较简单,只需要拿两台手机,同时开启对话模式,然后同时输入语音指令,看哪个设备率先回复,就可以看出来不同产品之间的响应时延,通过两两对比的方式,可以看到,在响应速度上:豆包>元宝>kimi,三个产品之中豆包的响应速度是最快的。
3.输出音质和音色表现
在音质和音色方面,豆包支持最丰富的音色选择,官方提供了很多音色方案,并且还支持克隆自己的音色,而元宝目前只支持3种音色,且不支持克隆音色,kimi目前提供7种音色但支持克隆音色;
就克隆音色的能力而言,目前个人觉得豆包的音色克隆效果最好,还原真实人声的效果最好,主要体现在不仅声音像,而且能够模拟人说话时候的节奏、口吃、口音等表现。
4.声音表达能力
常见的声音的表达能力,包括能说方言,能唱歌和模拟声音,我们尝试让这三个产品模拟说粤语,或者唱周杰伦的《稻香》这首歌,以及模拟发出“嘘”的声音,豆包在这三个任务上,基本可以非常准确的合成出相应的声音,而元宝、kimi以上三个任务都做不了,因此豆包在声音表达能力上最好。
5.聊天拟人化体验
在聊天的拟人化体验方面,豆包目前已经支持通过语音实时打断的聊天体验,同时也具备主动提问carry聊天的能力,另外根据个人了解,目前豆包还在部分角色类的聊天bot中测试可连续回复多个消息这种接近真人聊天的体验,整体上豆包在拟人体验方面做的都更好。
6.多模态语音交互
在多模态语音交互方面,一方面产品最好能支持拍照或者实时开启摄像头实况输入视觉内容,另一方面语音聊天时输出回复的时候,最好也能支持回复图片、表情等视觉内容,目前豆包已经支持拍照输入,并且根据个人了解豆包目前还在尝试支持回复表情等相关的产品能力,因此在多模态交互上,表现也最好。
7.角色个性化能力
在角色的个性化表现上,豆包也具备非常显著的优势,例如你让豆包扮演一个御姐,它可以瞬间从默认的声音状态切换为“御姐”的角色状态,语音表达的时候,更符合一个“御姐”该有的特征,而元宝和kimi不管是声音状态还是回答方式,都没有个性化的扮演该角色;此外,豆包还能够把活泼、高冷、幽默、萌等这些性格特征也表现出来,角色渲染的更加的丰满。
8.情商表现
相比之下,三个产品中豆包的情商是最高的,一方面豆包在语音聊天的过程中,从它的声音上,可以听出来喜怒哀乐,具备表达情绪的能力;另外方面在聊天的过程中,豆包似乎会根据用户的个性化偏好,主动制造话题,引导用户聊天,比如主动聊聊用户的生日等,在这些细节上可以体现出来其主动制造话题和个性化聊天的能力;并且,它也能根据聊天对象调整自己说话的语气和方式,比如对方是个孩子的时候,则更倾向于采用更亲切的口吻交流。
2.3.3 AI生图
对于文生图和图生图等产品,虽然目前市面上有不少这样的产品,但是个人体验下来,大部分生图模型产品目前还停留在提升提示词理解、生图的准确性、生图质量等基础问题阶段,所以也比较难区分出究竟哪些模型更好。
相比之下,我觉得豆包主要是在AI图片编辑以及生成文字海报方面做的相对更加出色,AI图片编辑的功能支持用户针对指定的图片中指定的元素和区域,通过自然语言的方式,发起编辑指令,并且能准确的执行;而文字海报方面,豆包支持生成出带有排版、样式的文字海报,这个方面目前也是和市面上的生图模型和产品形成了一定差异化。
我们通过如下两个案例展示其在AI图片编辑和文字海报方面的表现:
例如一下以下豆包生成的图片,支持打开图片后,点击智能编辑,进一步进入编辑状态;
第一个指令是“让狗把眼睛闭上”,生成后的效果如下,豆包AI编辑的能力,可以实现只让狗的眼睛闭上,而其他的元素不动;
第二个指令是“把背景换成海边”,生成效果如下,豆包成功实现更换背景;
第三个指令是“给狗带个红色围巾,并且男人的衣服换成白色”,豆包成功实现一键换衣,以及搭配装饰功能。以上这几个能力,在局部重绘和编辑的场景下,非常好用。
以上是AI图片编辑的功能展示,另一个比较不错的功能是生成文字海报的功能,个人觉得相比之下实用性也比较高,比如通过豆包输入“生成一张文案为 XXX 的海报”,目前生成图像已经能具备一定的排版设计,同时字体也有了设计样式,更加接近实际使用的结果,虽然目前还不支持进一步的文字样式、排版布局等编辑能力,但目前而言也还算不错。
2.3.4 图像理解和AI识图
目前豆包、元宝、deepseek、kimi这几个产品都支持识图的功能,大部分场景下,识图表现的差异可能不大,但在有些极端场景上,目前个人测试下来,豆包和kimi的识图和理解图片的能力表现相对不错,deepseek目前还进支持OCR的能力,还不支持图片理解功能;
比如当你上传一张超长的截图的时候,通过豆包电脑端和kimi,可以准确的识别和提取其中的文字内容,意味着面对超长截图,豆包和kimi 依然具备准确的识别能力,而deepseek因为上传文件大小的限制直接使用不了,元宝则完全无法识别其中内容。
当然,目前对于识图技术里面比较难的“数数量”的这个难题,目前所有产品也都达不到准确数数的能力,比如目前测试通过几个产品数如下图片中有几个药瓶,基本所有产品都会数错,可见目前识图能力方面,大家也都还有提升空间。
在这一部分里面,我尝试从产品经理的角度思考,豆包在过去一年半里面可能涉及到的一些重大产品问题的思考,其中可能包括一些已经上线并且官方浓墨重彩迭代的领域,也包括一些做过尝试但是最后没有上线的尝试,并结合自己的观察分享个人的一些见解。
2.4.1 从密切探索到逐渐淡化,怎么看待第三方智能体生态?
在1.3部分豆包的重要产品迭代部分,我已经提到过,从2023年11月~2024年5月这最早的这段时间里面,豆包很重视第三方的智能体生态的发展,在这段时间里面不管应用层、流量层、产品层都做了不少尝试,为何前期会如此重视? 而在后期又逐渐淡化在这块的投入和迭代?以及怎么去看待第三方智能体生态这个事情?
1)一开始重视第三方智能体生态发展的原因
个人理解,可能主要包括如下几个原因:
2024年5月,在火山引擎原动力大会上,字节flow的产品负责人朱骏公开表示当时豆包的智能体数量已经达到800万左右,如今可能又是一个不同量级的规模,豆包智能体的新增来源主要来自如下几个渠道:
在1.3的产品迭代历程上可以看到,从2024年6月份开始,关于第三方智能体的产品迭代相对就比较少了,基本都是在持续的增加智能体内容,以及完善智能体的分发效率问题,官方对外也不怎么强调智能体规模这个点,个人理解可能是对第三方智能体的态度有些调整,包括如下:
豆包PC客户端和浏览器插件从上线以来,一直保持着非常高频的产品迭代,PC端推出了很多产品体验不错,深受办公用户喜爱的功能,并且从个人了解到的信息,字节内部豆包的APP和PC在组织架构上是分开的两个团队在单独运作,在产品层面,APP端和电脑端在产品能力和输出结果上也不完全相同,两端背后使用的模型和技术能力或许也不一样,可见APP端和电脑端并不完全是一个简单的双端同步的逻辑,更像是分开独立发展。
因此,这里值得思考如下几个问题:APP和PC端双端的定位是什么样的?为何高频的打磨和迭代PC端的产品?
1)APP的核心价值是增长价值,PC端的价值在于满足办公学习场景
从用户的使用场景的角度上看,APP端的应用通常满足的是用户在日常生活的应用场景,主要满足移动便捷的需求,而PC端的应用通常满足用户在办公学习的应用场景,主要满足大屏阅读、深度编辑等需求;对于字节而言,APP端可能是用户增长的主战场,通过重点打磨APP端的产品,然后利用字节在APP端流量领域的优势,可以快速的把用户规模做起来,而其中必然有大量的AI用户是办公学习场景的用户,他们需要一个PC端的产品,更好的满足在办公学习阶段的使用需求,因此,APP端的定位个人认为核心价值在于增长,PC端的核心价值在于解决办公和学习场景的用户需求。
2)PC端未来也是一个流量主战场
根据Questmobile数据显示,豆包APP端2月的DAU规模已经超过2000万,而从similarweb的数据上可以看到豆包web端的日活2月连200万都还不到,并且历史增长趋势也比较缓慢,可见豆包内部暂时也并没有大力做PC端的投流和用户增长,而是以自然增长为主,可能大量的PC用户主要还是从APP端自然流转过来的;
但是PC端未来肯定也是一个流量的主战场,根据 a16z 数据显示,2025年2月ChatGPT全球周活4亿中,PC端周活2.25亿,APP端周活1.75亿,可见PC端的用户规模和体量巨大,PC端也是用户的核心使用终端之一,未来该部分可能是APP增长触达瓶颈之后的下一个重要增长来源。
3)办公学习场景是用户在AI应用中的核心场景之一
同时,必须承认的是,目前AI应用的核心落地方向中,办公学习场景必然是非常重要的应用场景之一,根据艾瑞咨询发布的《2024年中国AI移动端应用场景研究报告》显示,移动端AI应用中,56%的用户使用场景在于办公学习,如果换成PC端的数据,或者比例会更高;因此作为核心应用场景,豆包重点发展PC端也非常有必要。
2.4.3 为什么如此重视语音聊天功能?
当谈及对豆包的哪个产品功能印象深刻的时候,我发现身边的很多AI圈的用户第一反应都是觉得它的语音聊天的体验做的很好,这点个人也非常的认同,前面我们也深度对比了不同产品和豆包在语音聊天能力上的对比。如果你有自己研究,你会发现过去一年多里面,字节内部在模型和技术层面上非常重视语音模型的发展,一方面从一开始就重点推出了字节自己的豆包角色扮演模型(语音聊天场景的重要模型),并且一直不断地升级豆包在语音聊天模块的能力,包括支持音色复制、方言、端到端的实时语音模型等,那么豆包为何如此重视语音聊天能力的发展,个人认为主要原因可能包括如下:
1)大模型带动行业对语音技术的需求,发展语音模型有利于云侧商业化
大模型的发展和AI应用的落地,会显著的带动云厂商在云服务模块的需求增长,特别是语音、文档、OCR等等,其中特别是语音部分,引用腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生近期发表的观点:
“我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力”
因此,激增起来的语音部分的需求,或许让火山引擎这边看到明显的市场增量机会,所以字节在去年很重视语音模型部分的发展,在语音模型领域先后推出包括音乐大模型、语音识别、语音合成、声音复制、同声传译、音乐大模型等多个语音模型。
2)语音聊天场景对于豆包的增长价值
此外,语音聊天场景的功能对于促进豆包的用户增长或许也有显著的帮助,包括在提升用户的使用时长、用户留存等方面。
根据Questmobile数据显示,豆包和元宝等Chatbot类型的APP,平均一个用户一天的使用时长仅有10分钟左右,而类似像星野、猫箱这类语音聊天类的产品,其平均日使用时长可以高达70~110分钟,可见语音聊天的场景,对于拉升用户在应用内的使用时长,可能有明显的价值。对于以广告业务为核心的字节而言,想必他们必然重视用户使用时长的指标,而拉升用户使用时长,必然意味着提升语音聊天场景的使用渗透。
3)语音聊天可能是豆包选择的产品差异化竞争的切入点
每一个产品都必须要有一个让用户牢牢记住的差异化的能力点,豆包在基础大模型等方面在行业内没有占太大优势的情况下,或许他们选择了从语音聊天入手,尝试构建豆包的差异化竞争点。
2.4.4 为什么重点投入多模态大模型的发展?
在这个问题上,个人的见解相对比较浅薄,基础大模型领域当下已经是非常卷的赛道,并且海外openai等在基础模型的创新和突破上一直处于引领行业趋势的位置,在基础模型上突破相对比较困难,而多模态大模型的领域,不管国内还是海外,可能起点差异还没有特别大,从这个角度切入竞争,或许成功概率和获得影响力的机会大些。
2.4.5 应用场景切入的边界以及选择的逻辑是什么?
在应用场景切入这个角度上看,目前我们看到,豆包目前在应用场景的落地上,主要聚焦办公、教育学习、生活、创作等场景,而对于游戏、社交等领域则没有涉及相关应用落地,其应用场景选择的逻辑是什么样的?这里分享一些我自己的理解。
1)AI的应用场景主要结合互联网时代用户的需求和大模型的能力边界
实际上,目前所有的AI应用场景都并没有脱离互联网时代的用户需求本身,只是满足需求的方式和程度不一样,大模型以一种更加通用和聪明的方式满足用户的需求,而目前的大模型本质上是一个生成式AI的能力,模型的能力也有边界,只能实现生成式AI能够覆盖的应用场景,因此办公、教育学习、生活、创作等领域,存在切入的可行性,而游戏、社交等领域,暂时还没有看到更好的切入方式。
2)参考行业和竞品动态
当然,行业和竞品的应用动态,也会影响字节内部的应用场景的选择,比如切入语音聊天场景,可能因为海外Character.ai的火爆,办公场景可能参考WPS AI等。
3)字节内部的业务体系
最后,豆包内的很多技术能力都是整合字节内部业务的产品和技术能力后支持相应的场景,因此应用场景的选择和切入,也会结合字节内部的业务体系,比如豆包在教育场景的能力,来自原大力教育业务的技术和产品支持。
2.4.6 产品设计上有哪些值得借鉴的地方?
该部分,主要分享一些豆包在产品用户体验上,或者对于产品的用户增长方面,个人比较喜欢和认可的一些产品设计细节。
1)问答结果尾巴附带短视频
如下图,豆包在AI生成回答的时候,除了输出AI问答的结果,同时也会将与该主题相关的短视频内容附加推荐给用户,这个做法的好处个人觉得是“AIGC内容+人工生成内容”组合一起,可能能更好的解答用户的问题;因为AI生成的结果有的时候因为幻觉等原因,可能可信度不一定高,用户容易对回答结果存疑,而搭配上人工部分的内容,可能真实性更高一些,另外匹配相关的短视频内容也能进一步的解答用户的问题;这个方式对于解答知识科普类、旅游类、生活类等场景的问题,体验很不错。
2)对外分享的链接支持接着聊
用户将对话内容通过链接等方式分享出去之后,用户看到内容之后,可以在之前对话记录的基础上,接着聊,这个功能从激发用户使用频率和留存上看,是一个不错的做法;
3)支持复制图片直接粘贴对话框后图片问答
这个功能个人觉得体验也非常不错,特别是我经常需要从微信聊天对话中,或者是从网页中提取图片,在豆包中用识图的功能做信息提取和分析的时候,之前的路径很长,需要保存图片到本地,然后在本地上传到豆包,有这个功能之后,可以直接复制图片,粘贴到豆包对话框,然后豆包直接上传图片,这个过程体验非常丝滑和舒服。
2.4.7 经历过哪些失败的尝试?
1)豆包问答社区和SEO
2024年5月的时候,豆包业务团队曾经尝试在PC端推出“问答”社区的功能,对标知乎问答,官方将问答内容和生成结果沉淀到一个问答社区,社区链接如下:https://www.doubao.com/traffic/ask,并且将AI问答结果应用于搜索引擎SEO,为豆包web端引流,该方式当时引起一定的舆论风波,很多用户谴责豆包利用AI生成内容污染互联网数据,后来运营一段时间后,该功能目前已经下线,问答社区网站目前也不可访问;
个人认为,将AI生成结果用于搜索引擎中的问答这个方式其实也没什么问题,只是当时的时机还不太合适,因为当时模型幻觉的问题还比较严重,AI生成内容还存在很多不实信息,将这些内容用于SEO很可能会导致以讹传讹,混淆真实信息的情况。
2)智能体群聊模式
2024年7月份的时候,个人灰度体验到,豆包当时在测试智能体群聊的功能,支持用户在首页右上角支持发起群聊,添加已经关注的智能体,然后拉群聊天;群中会有一个“托”辅助调动聊天氛围,用户可以@某成员回答问题,但是当时的功能整体体验起来比较一般,群主比较累,需要不停的主动发起聊天,后来这个产品功能并没有全量上线,可能是一个失败的尝试,但是这个idea个人觉得还是挺有意思的,只是产品能力没有做好,可见豆包产品团队在过去一年多真的做了不少AI应用的尝试。
最后一部分,我们来尝试聊聊今年豆包的发展规划会是什么样的这个问题,个人观点更多的是来源于和行业人员的交流,以及字节近期的公开动态等信息,并发表个人的一些见解,以下信息也并非实证信息,仅供参考。
2025年,在字节内部的全员大会上,CEO梁汝波在全员的公开信上表达了对字节2025年的年度关键词,其中对于AI业务的关键词是:探索智能的上限,新的UI交互,加强规模效应;
1)探索智能上限
梁汝波首先将探索智能上限为AI的第一件大事,其实一定程度上,也是在复盘2024年AI的发展策略有点过多的侧重于应用层产品的DAU规模,模型层过多的在适应应用层的发展,一定程度上弱化了对技术边界和模型能力边界的研究探索,比如2024年字节错失OpenAI长链思考模型(2024年9月发布)的跟进机会;
因此,2025年字节在AI的重心会放更多的精力在技术创新和前沿研究上,而降低规模指标的权重和优先,,会把更多的目标聚焦在技术创新和场景的覆盖上;
2)探索AI新的UI 交互
再次之前,AI目前主要的产品形态,还是聚焦在以Chatbot为主要形式的生成式AI的阶段,这不会是AI的最终形态,未来生成式AI+任务执行这种模式的AI应用可能会越来越多;这意味着字节可能会在Auto-Agent、AI硬件等方向上,会有更多的创新交互。
从最近一段时间的产品动态更新上看,最近AI应用的更新主要集中在推理模型、办公场景,多模态;
这其中一方面因为受到deepseek的影响,豆包加紧推出自己的深度推理模型,另外一方面,从个人最近一段时间的观察发现,近期豆包的产品功能更新基本围绕着AI云盘、AI阅读、文档问答等办公场景相关的功能。
字节的大模型团队Seed团队在年初开始迎来重大架构调整,原来由朱文佳主导负责的模型团队一分为二,拆分为模型研究团队和模型应用团队,原来最核心的部分模型研究团队交给新进的AI大牛吴永辉,朱文佳原来下面的乔木、项亮、冯佳时等核心成员转移向吴汇报,朱文佳的业务重心转移到负责模型应用方向的业务为主。
从这个可以看到的是,字节接下来对于模型的研究和创新层面的重视,根据对外公开的信息显示,负责大模型前沿研究的团队称为Seed Edge ,该团队目前确定五大研究方向:
汇总以上信息,个人觉得豆包后续的发展规划的方向可能包括如下:
1)寻找AI产品交互方式的创新,其中可能包括:
2)持续探索AI的应用场景边界,寻找应用场景创新,个人认为今年豆包可能重点探索的应用场景包括:
3)字节内部产品生态和AI的打通和结合:包括抖音、头条、飞书等内部产品之间,在产品、数据等层面的打通。
OK,以上即为关于字节豆包的一些深度分析,希望对于正在探索和转型AI领域的朋友能有一些帮助,我是三白,我将持续为大家输出更多高质量的深度研究,欢迎大家关注并和三白深度链接。
同时也欢迎大家体验和使用我的研究提效工具 AI快研侠,用它创作和分享高质量的知识!
作者:三白有话说,公众号:三白有话说
本文由 @三白有话说 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自豆包官网截图