来做一下美团这届的AI产品笔试题
在AI技术飞速发展的今天,各大公司都在积极寻找能够驾驭和创新AI产品的人才。美团作为行业巨头之一,其AI产品笔试题无疑成为了检验候选人专业能力的重要标准。本文将带你一探究竟,通过一系列精心设计的笔试题目,深入剖析美团对AI产品人才的期望和要求。
V3是一般的生成式模型,R1是推理模型。推理模型相较于生成式模型会先输出一段思维过程,再进行总结回复。其实从名字也能看出区别,V3应该是Version 3,就是DeepSeek训练出的第三版模型,R1应该是Reasoning 1,指第一版推理模型
Claude吧,不知道拼写对不对
查了下,就是Claude哈哈哈,猜对了
不知道,平时没咋用过通义
查了下,截止2025年4月16日,通义最新版本是2.5
不知道……什么模型的3.5、3.7?之前听说过Claude 3.7的编程能力比3.5强了一大截,是指这俩吗?
查了下,应该就是在问Claude3.7对比Claude3.5的变化,最大的变化是3.7是个混合推理模型,可以在标准模式(即时响应)和扩展思考模式(深度推理)间无缝切换
输入和输出之间没有经过特征工程的模型就是端到端模型。比如特斯拉的自动驾驶模型(好像叫FSD?)就是端到端模型
查了下,确实叫FSD(Full Self-Driving)也确实是端到端
GPT、Kimi。豆包、Gemini这些应该也算
哈哈哈这题也不是很会,隐约记得免费版每天的可用额度比较少,而且不能选择更高级的模型,Plus版额度多,可以选用高级的模型,比如deep research啥的
查了下,和我印象差不多。如图:
这个我太会了,Retrieval Augmented Generation,检索增强生成
这个我也太会了,Reinforcement Learning,强化学习
好像是扩散模型吧?就是先给个噪声然后慢慢生成图像
查了下,确实是扩散模型,通过逐步去噪生成图像,
都听说过但是都没用过哈哈哈。我现在用的是VS Code+Copilot,原因是学生时代就是VS Code老用户了,懒得换。我有听说Cursor是目前的最强AI IDE,可以联网搜索并在IDE内生成代码,对于需要阅读API文档并写代码调用来说很方便。但我作为产品平时确实不咋用得上这个功能,何况Cursor收费,Copilot免费,所以VS Code+Copilot的组合对我来说更划算一些
我自己理解prompt工程就是根据不断调整prompt以至大模型能够输出预期结果的过程。
我自己理解prompt要素一般有:
其实就像给实习生布置工作一样,按STAR法则说清楚就好:“我们现在要干嘛,目标是达到什么效果,你需要做什么,最后取得什么结果”。不过因为我懒,复杂任务我会让模型帮我设计prompt,比如:“我现在需要做xxx(任务),请你根据这个任务的特点选择合适的prompt结构并写一个输入给xxx(模型名称)的prompt,如果有不清楚的地方请先向我询问”
**迭代上:**迭代思路就是根据模型的输出反思我哪里没说清楚,然后在prompt里再专门说明下。比如如果模型输出完全不合要求,那大概率是任务背景和目标不够清楚,加几个例子基本就能解决,还不行就再展示我的思考过程,即我是怎么一步一步完成任务的;又比如如果输出基本符合要求,但是总有些语气不合适,输出格式不对这种瑕疵,那就在“## 限制”部分里明确说明“你必须xxxx”,如果限制不起作用,那就再恐吓模型,比如“你必须xxxx,否则地球上会有一个无辜的人因你没有遵守这条要求而死去”
**结果上:**工程类问题(比如写个数据分析的脚本)基本上一次就能输出我要的结果,但是创意类问题(比如给我之前发的《从零构建大模型知识体系》系列文章的题记和后记)需要多调整几次
这我可太知道了哈哈哈,在我之前发的《从0构建大模型知识体系(3):大模型的祖宗RNN》中专门解释过。temperature是控制模型偏移最大概率token进行采样输出的一个参数,越低模型越会忠于语料中学到的内容进行回复,准确性高但创意性低,越高越不会按照学到的内容进行回复,准确性低但创意性高。让模型帮我想文章题记和后记的时候会调高,模型的输出确实会越有创意。让模型帮我完成工程问题的时候会调低,保证同样的输入模型会有同样的输出。
这我也可太知道了哈哈哈,在我之前发的《从0构建大模型知识体系(3):大模型的祖宗RNN》中也专门解释过。
**什么是幻觉:**幻觉是指模型的输出语言连贯自然,但实际内容与真实情况不符的现象。
**导致幻觉的原因:**1)最根本的原因是模型的本质是个概率预测机器,在训练过程中学到的是不同token之间共同出现的统计概率,这使得它在回复时是在最大化语言的“连贯性”而非“正确性”;2)训练语料本身就有错
**缓解幻觉的方法:**我现在能想到的几个方法按照有效程度从低到高排的话是
我理解原理应该是让模型先检索与用户提问最相关且最新最正确的信息,然后基于这些信息进行输出。至于如何处理长文本……不清楚,如何做的及结果……没做过
查了下,原理和我理解的差不多:RAG 通过检索实时或领域专属的外部知识库(如文档、网页、数据库),动态注入最新或更精准的信息,提升回答的准确性和时效性。
处理长文本的方法有:
1.分块 (Chunking) : 将长文本分割成更小的、有意义的文本块(Chunks)
2.建立索引(Indexing): 将这些文本块进行处理(通常是计算它们的向量嵌入表示),并存储在一个可快速检索的索引中(通常是向量数据库)
3.相关块检索(Relevant Chunk Retrieval): 当用户提问时,检索器在文本块的索引中进行搜索,找出与问题最相关的一个或多个文本块。
4. 基于块的生成 (Chunk-based Generation):检索到的这些相关文本块(而不是整个长文档)被用来增强用户的原始Prompt,然后送入LLM
Fine-tuning是指根据目标任务收集相应的数据后,用这些数据继续训练模型使之能完成该任务的过程,目前我知道LoRA这个方法,但如何提升效果……我现在只知道数据越多越好,质量越高越好….比较废话哈哈哈。如何做的及结果:学生时代搭了一个CNN架构的CIFAR-10分类器算吗?结果好像是93%的准确率
Supervised Fine-tuning,有监督微调。根据目标任务的输入输出收集数据并打标,然后用其来调整模型参数。至于如何做的及结果,啊抱歉,目前还没有给大模型做过SFT
据我所知RL可以在两个方面提升大模型能力:1)可以让大模型具备推理能力,比如DeepSeek-R1-Zero就是在DeepSeek-V3-Base的基础上直接通过RL涌现出了推理能力。2)可以让大模型的回答对齐人类偏好,比如通过RLHF让模型知道什么问题该回答,什么问题不该回答
这个确实不清楚……语音模型闭源的我只玩过MiniMax,开源的只玩过SparkTTS,平时用的机会不多,所以没咋关注原理。但我没理解这道题的是语音克隆怎么着也得先提供一个克隆样本吧,那至少也得是one-shot才对,怎么能够做到zero-shot呢?
查了一下,zero-shot voice cloning还真是指用少量录制的语音样本来复制说话人的声音,只不过这些样本不会用来更新模型参数。行吧,看来我对zero-shot的理解有些偏差。 核心原理是模型可以将语音内容与说话人音色特征解耦。模型从输入的短音频中提取代表音色特征的“声纹”(voice embedding)。然后将这个“声纹”与需要合成的文本内容相结合,生成具有目标音色的新语音。这种能力使得模型可以克隆从未听过的声音。
确实挺早就听说过comfy,但因为懒就一直没尝试,直到后面在B站经常刷到Coze,索性就都用Coze搭工作流了。最满意的工作流是最近搭的一个帮我读企业年报的工作流,不算多么高大上,但确实帮我解决了实际问题。情况如下:
**背景:**我最近需要研究企业发布AI战略对业绩的影响,所以找了A股2019-2023在市的570+上市公司共计3950份年报,一个人读这些年报显然不现实
**目标:**在2天内完成工作流搭建并让LLM读完所有年报,判断每份年报中是否将AI作为战略
动作:
1)确定工作流的输入输出:输入是所有企业年报pdf链接的excel,输出是判断每个pdf【是否将AI作为战略】、【做出判断的原因】以及【相关原文】这三个额外字段
2)一步一步搭建工作流:
如有帮助,还望点个赞,谢谢!
本文由 @夜雨思晗 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图由作者提供
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务