主流 AI 生成 3D 技术流派辨析:Text-to-3D, Image-to-3D 与 NeRF 应用概览 (AI+3D 产品经理笔记 S2E02)
AI生成3D技术正在迅速改变我们创造和体验三维内容的方式。从文本到图像,再到复杂的三维模型,AI技术的多样性为产品设计、游戏开发、虚拟现实等多个领域带来了前所未有的机遇。
在上一篇笔记(S2E01)中,我们共同探讨了 AI 生成 3D 技术之所以在当前节点迎来爆发的深层驱动力,分析了它旨在解决的行业核心痛点,并对现阶段的技术挑战与局限建立了初步的理性认知。我们认识到,AI+3D 并非单一的技术魔法,而是一个包含多种路径、处于不同发展阶段的技术集合。这种多样性源于问题的复杂性以及可用数据和计算资源的限制,迫使研究者探索不同的策略来弥合抽象指令(如文本)或低维数据(如图像)与高维、结构化的 3D 输出之间的鸿沟。
那么,当我们谈论“AI 生成 3D”时,具体指的是哪些主流的技术方法或流派呢?它们各自的工作逻辑是怎样的?需要什么样的输入?能产生什么样的输出?又分别适用于哪些应用场景?理解这些不同技术流派的特点、优势与局限,是产品经理进行技术选型、定义产品功能、评估可行性的基础。未能区分这些技术的光谱,可能导致产品定位失误、用户预期错配或技术路线选择不当。
本篇笔记(S2E02)将聚焦于梳理和辨析当前备受关注的几种主流 AI 生成 3D 技术流派,主要包括:
我们将尝试从产品经理的视角,深入浅出地解析这些技术流派的基本原理、输入输出特性、典型的应用场景以及初步的优劣势对比。目标是帮助大家建立一个关于 AI 生成 3D 技术“光谱”的清晰认知地图,认识到它们并非相互排斥,而是常常相互借鉴、融合,共同推动着领域的发展。为后续更深入的技术探讨和产品思考打下坚实基础。
Text-to-3D 无疑是近年来 AI+3D 领域最引人入胜、也最具“魔法感”的方向之一。它的核心目标是让用户能够仅仅通过输入一段自然语言文本描述(例如,“一个坐在扶手椅上看书的宇航员”,“一个带有锈迹和划痕的蒸汽朋克风格的机械臂”),就能让 AI 自动生成对应的三维模型。这极大地降低了 3D 内容创作的门槛,使得没有任何 3D 建模经验的用户也能将想象中的物体或场景快速具象化。这种潜力对于游戏开发、虚拟现实、影视制作等需要大量 3D 内容的行业具有革命性意义。
实现高质量的 Text-to-3D 并非易事,它需要模型同时具备强大的自然语言理解能力、丰富的世界知识以及生成复杂三维几何结构的能力。由于直接建立文本与高质量 3D 模型之间映射关系的大规模配对数据集极为稀缺,研究者们探索了多种间接的技术路径。
实现高质量的 Text-to-3D 并非易事,它需要模型同时具备强大的自然语言理解能力、丰富的世界知识以及生成复杂三维几何结构的能力。目前主流的技术路径大致可以分为几类:
核心思路:
代表性工作:
优缺点:
核心思想: 利用强大的预训练 2D 文本到图像扩散模型(如 Imagen, Stable Diffusion)作为“教师”,将其二维生成能力“蒸馏”到三维表示(常用 NeRF 或 SDF)的学习中。
工作流程:
代表性工作:
优缺点:
核心思想: 尝试直接在三维数据表示(点云、体素、参数化 Mesh/SDF)上应用扩散模型,避免 SDS 的优化循环。
代表性工作:
输入:
输出 (通常需后处理):
典型应用场景:
优势:
局限性:
产品视角总结: 当前核心价值在于加速概念探索和降低创作门槛,而非取代传统建模。产品定位应侧重灵感激发、快速原型、个性化娱乐等,需管理用户对质量和可控性的预期。
① CLIP-Guided Optimization:
Dream Fields: Zero-Shot Text-Guided Object Generation with Dream Fields
(来源:https://arxiv.org/abs/2112.01455)
CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation
(来源:https://arxiv.org/abs/2110.02624)
② Score Distillation Sampling (SDS) & Variants:
DreamFusion (Google): Text-to-3D using 2D Diffusion
(来源: https://dreamfusion3d.github.io/)
Magic3D (Nvidia): High-Resolution Text-to-3D Content Creation
(来源:https://deepimagination.cc/Magic3D/)
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
(来源:https://arxiv.org/abs/2305.16213)
③ Direct 3D Diffusion:
Point-E (OpenAI): A system for generating 3D point clouds from complex prompts
(来源:https://openai.com/index/point-e/)
Shap-E (OpenAI): Generating Conditional 3D Implicit Functions
(来源:GitHub, https://arxiv.org/abs/2305.02463)
④ Representative Tools/Platforms:
Luma Genie: Luma AI’s Text-to-3D Tool
(来源:https://lumalabs.ai/genie?view=create)
Masterpiece X: AI-Powered 3D Model Generation
(来源:https://www.masterpiecex.com/)
Meshy AI: The #1 AI 3D Model Generator
(来源:https://www.meshy.ai/discover)
⑤ Quality & Challenge Discussion:
Janus Problem and View Inconsistency Analysis: Debiasing Score Distillation for Text-to-3D Generation
(来源:https://openreview.net/forum?id=jgIrJeHHlz)
A Quick Look at Text-to-3D Methods
(来源:https://www.pkowalski.com/?p=2415)
Image-to-3D 技术的目标是从输入的单张或多张二维图像中恢复、重建或生成对应的三维模型。相比于 Text-to-3D 的“无中生有”,Image-to-3D 更侧重于利用图像中包含的丰富视觉信息——例如物体的轮廓、表面的纹理、光照产生的明暗、以及物体间的遮挡关系等线索——来推断其三维结构。根据输入图像的数量(单张 vs 多张)和类型(照片 vs 绘画),以及技术目标(精确重建 vs 合理生成)的不同,Image-to-3D 可以细分为多个子方向。
目标: 仅从一张输入的 2D 图像(照片、绘画、草图)生成 3D 模型。
挑战:
技术路径:
**核心思想: **利用强大预训练的、能生成新视角的 2D 图像扩散模型(如微调版 Stable Diffusion)作为先验。
**流程: **给定单张输入图,模型“想象”并生成该物体在不同新视角下的高质量图像。然后用这些 AI 生成的多视图图像,通过成熟的多视图重建技术 (NeRF, MVS) 恢复 3D 模型。
**代表: **Zero-1-to-3, SyncDreamer, Magic123。
**优势: **将困难的单视图问题转化为信息更充分的多视图问题,显著提升质量和一致性。
**特点: **结果依赖模型“想象力”和先验知识;对未显示部分需合理推断;几何精度通常不高,但视觉上可能合理完整。
目标: 从多张已知(或可估计)相机位姿的、不同角度拍摄的图像中,重建精确的三维几何结构。
技术路径:
NeRF: 优化 MLP 拟合所有视图光线,隐式学习精细几何和复杂外观(光照、反射、半透明),生成逼真新视图。Mesh 提取是研究热点。
Gaussian Splatting: NeRF 的显式、高效替代,用大量带参数的 3D 高斯椭球表示场景,训练更快,可实时渲染。
代表研究: BoostMVSNeRFs, MVS-GS (应用于大规模 MVS)。
特点: 输入信息丰富,几何精度和完整性通常远高于单视图方法;目标是忠实还原真实世界结构。
目标: 重建特定类别物体(人脸、人体、车辆、家具等)。
利用类别共有的形状先验,即使输入信息有限(单图或稀疏视图)也能得到结构合理、细节丰富的模型。
方法:
优势: 利用类别先验降低重建难度和数据要求,生成符合类别典型结构的、语义合理的模型。
输入:
输出:
典型应用场景:
优势:
局限性:
① 单视图重建/生成 (Single-View Reconstruction/Generation):
基于 2D 扩散先验 (2D Diffusion Priors):
Zero-1-to-3: Zero-shot One Image to 3D Object
(来源: https://zero123.cs.columbia.edu , GitHub)
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
(来源:https://liuyuan-pal.github.io/SyncDreamer/)
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors
(来源:https://openreview.net/pdf?id=0jHkUDyEO9)
早期直接预测 (Early Direct Prediction):
Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images
(来源:https://arxiv.org/abs/1901.11153)
Mesh R-CNN: Mesh R-CNN
(来源:https://arxiv.org/abs/1906.02739)
② 多视图重建 (Multi-View Stereo – MVS):
传统方法代表 (Traditional Representatives):
COLMAP: Structure-from-Motion and Multi-View Stereo Pipeline
(来源:https://colmap.github.io/ , GitHub)
Meshroom: Open-Source 3D Reconstruction Software
(来源:https://alicevision.org/#meshroom)
NeRF/Gaussian Splatting 应用 (NeRF/GS Applications):
NeRF for MVS: BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes
(来源:https://arxiv.org/abs/2407.15848)
Gaussian Splatting for MVS: MVS-GS: High-Quality 3D Gaussian Splatting Mapping via Online Multi-View Stereo
(来源:https://arxiv.org/abs/2412.19130)
GaussianPro: 3D Gaussian Splatting with Progressive Propagation
(来源:https://arxiv.org/abs/2402.14650)
③ 代表性工具/应用 (Representative Tools/Apps):
Luma AI: AI for Realistic 3D
(来源:https://lumalabs.ai/ )
Polycam: 3D Capture for Everyone
(来源:https://poly.cam/)
KIRI Engine: 3D Scanner App for iPhone, Android, and Web
(来源:https://www.kiriengine.app/)
CSM (Common Sense Machines): AI for 3D Asset Creation
(来源:https://www.csm.ai/ , https://3d.csm.ai/)
④ 特定类别重建 (Category-Specific Reconstruction):
3DMM (Faces) Review: 3D Face Reconstruction Based on A Single Image: A Review
SMPL (Bodies) Paper: SMPL: A Skinned Multi-Person Linear Model
(来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf)
虽然我们在前面讨论 Image-to-3D 时已经多次提及 NeRF,但它本身足够重要和独特,值得单独作为一个技术方向来理解。NeRF(Neural Radiance Fields)的核心贡献并不仅仅在于 3D 重建本身,更在于它提出了一种全新的、基于神经网络的、连续的三维场景表示方法,并能通过可微分的体积渲染技术生成极其逼真的新视图图像。它代表了从传统的离散几何表示(如网格、点云)向基于学习的隐式函数表示的重大转变。
① 隐式表示: NeRF 用一个 MLP 神经网络隐式表示整个三维场景,而非离散几何。
② MLP 输入: 5 维向量 = 空间点坐标 (x,y,z) + 观察方向 (θ,ϕ) 或 (dx,dy,dz)。
③ MLP 输出: 该点在该方向下的物理量:
④ 场景编码: 整个场景的几何与外观被编码在 MLP 的权重参数中,网络“记住”了每点对不同方向光线的响应。
① 输入: 一组已知精确相机参数(内外参)的多视图图像。
② 目标: 训练 MLP,使其对任意给定视角渲染的图像尽可能与真实图像一致。
③ 方法: 随机梯度下降 (或 Adam)。
④ 技巧:
① 高质量三维重建 (Implicit MVS): SOTA 方法之一,擅长处理复杂光照、精细几何、反射、透明等,生成逼真结果。
② 新视图合成 (Novel View Synthesis, NVS): 核心应用,从任意新视角渲染逼真、连贯的图像,用于 VR/AR、特效预览、虚拟旅游、自由视角视频等。
③ 作为 Text-to-3D / Image-to-3D 的中间表示: 因其连续、可微特性,适合基于优化 (如 SDS) 的生成方法,许多生成方法输出 NeRF 或类似表示,需后续提取 Mesh。
④ 场景编辑与操纵: 后续研究探索对 NeRF 进行编辑。
⑤ 动态场景表示: 扩展 NeRF 处理时变场景。
优势:
局限性:
① 核心论文 (Core Paper):
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (Mildenhall et al., ECCV 2020)
(来源:http://www.matthewtancik.com/nerf)
② 重要改进工作 (Key Improvements):
加速训练/渲染 (Acceleration):
Instant-NGP: Instant Neural Graphics Primitives with a Multiresolution Hash Encoding (Müller et al., SIGGRAPH 2022)
(来源:https://arxiv.org/abs/2201.05989 , https://nvlabs.github.io/instant-ngp/ )
Gaussian Splatting: 3D Gaussian Splatting for Real-Time Radiance Field Rendering (Kerbl et al., SIGGRAPH 2023)
(来源:https://www.researchgate.net/publication/372989904_3D_Gaussian_Splatting_for_Real-Time_Radiance_Field_Rendering , GitHub)
编辑性 (Editability):
NeRF-Editing: Geometry Editing of Neural Radiance Fields
(来源:https://github.com/IGLICT/NeRF-Editing , arXiv:2205.04978)
Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions
(来源: https://instruct-nerf2nerf.github.io/ ,arXiv:2303.12789)
动态场景 (Dynamic Scenes):
D-NeRF: Neural Radiance Fields for Dynamic Scenes
(来源: https://www.albertpumarola.com/research/D-NeRF/index.html ,arXiv:2011.13961, GitHub)
Nerfies: Deformable Neural Radiance Fields
(来源: https://nerfies.github.io/ ,arXiv:2011.12948, GitHub)
③ 应用平台/工具 (Application Platforms/Tools):
Nvidia Instant-NGP: Open-Source Implementation
(来源:https://github.com/NVlabs/instant-ngp )
除了上述三大主流方向(Text-to-3D, Image-to-3D, NeRF),AI 生成 3D 领域还有一些其他值得关注的技术路径和发展趋势,它们可能代表了未来的重要方向或补充了现有技术的不足。
目标: 用户通过绘制 2D 草图(轮廓、结构线、颜色提示)引导 AI 生成 3D 模型。
优势:
应用: 概念设计、教育、创意娱乐(快速动画角色)。
目标: 让生成模型 (GANs, Diffusion) 在生成 2D 图像时就具备“三维意识”,生成的 2D 图隐含合理且一致的 3D 结构。
方法:
意义:
代表性工作:
趋势: 结合多种输入模态(文本、图像、草图、语音、手势等),提供更丰富、自然、精确的控制。生成过程更交互式,用户与 AI 持续对话、指导、共创,实时调整。
驱动力:
① Sketch-to-3D:
Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches (arXiv:2105.06663)
Google Monster Mash: Sketch-Based Modeling and Animation Tool
(来源:https://monstermash.zone/# Demo, GitHub, https://research.google/blog/monster-mash-a-sketch-based-tool-for-casual-3d-modeling-and-animation/)
② 3D-aware Generative Models:
EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks
(来源: https://nvlabs.github.io/eg3d/ arXiv:2112.07945, GitHub)
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images
(来源:https://research.nvidia.com/labs/toronto-ai/GET3D/ , https://proceedings.neurips.cc/paper_files/paper/2022/file/cebbd24f1e50bcb63d015611fe0fe767-Paper-Conference.pdf, GitHub)
StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation
(来源: https://stylesdf.github.io/ ,arXiv:2112.11427, GitHub)
③ 多模态/交互式生成趋势 (Multimodal/Interactive Trends):
Multimodal AI Market Analysis: Multimodal AI Market Size & Share Report, 2030
Multimodal AI: Everything You Need to Know
(来源:https://www.superannotate.com/blog/multimodal-ai)
通过本篇笔记的梳理,我们对当前 AI 生成 3D 的主流技术流派——Text-to-3D 的“语言召唤”、Image-to-3D 的“视觉还原”、NeRF 的“光场记忆”以及其他如 Sketch-to-3D 的交互探索——有了更清晰的认识。我们看到,每种技术路径都有其独特的优势、局限和最适宜的应用场景,它们共同构成了 AI+3D 技术的“光谱”。
Text-to-3D 以其极低的创作门槛和近乎无限的创意可能性,在快速概念设计和大规模个性化内容生成方面展现出巨大潜力。然而,现阶段其输出质量的稳定性和精度,以及对生成结果的精细控制能力,仍然是亟待突破的瓶颈。
Image-to-3D 则更侧重于从现有的视觉信息中恢复三维结构。其中,基于多视图输入的方法(特别是结合 NeRF 或 Gaussian Splatting)在重建精度和视觉真实感上表现突出,是推动 3D 扫描和现实世界数字化的重要力量;而单视图方法则在利用强大的 AI 先验知识进行“脑补”式生成方面不断取得进步,尤其是在 Zero-1-to-3 等利用 2D 扩散先验的技术出现后。
NeRF 作为一种革命性的场景表示与渲染技术,不仅极大地推动了高保真三维重建的发展,也因其可微性而成为了许多 AI 生成方法(如 SDS)的底层表示支撑。其在新视图合成和处理复杂光学现象方面的优势无与伦比,但训练与渲染效率、以及直接编辑性仍然是其广泛应用面临的挑战,尽管 Instant-NGP、Gaussian Splatting 和 NeRF 编辑等研究正在积极应对。
作为 AI+3D 领域的产品经理或从业者,深刻理解这个技术“光谱”至关重要。这意味着我们需要:
在接下来的笔记中,我们将开始更深入地钻研这些技术背后的核心机制和挑战,例如 NeRF 的具体工作原理、面临的挑战及加速方法(S2E04 预告),Diffusion Model 如何作为强大的先验驱动 3D 内容生成(S2E05 预告),以及如何建立一套科学的评估体系来衡量 AI 生成 3D 模型的“可用性”(S2E08 预告)。理解了这些基础技术流派及其特点,我们将能更好地把握 AI+3D 领域未来的发展脉络和涌现的产品机遇。
本文由人人都是产品经理作者【Mu先生Ai世界】,微信公众号:【Mu先生Ai世界】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图由作者提供