前言

自从1956年“人工智能”概念首次在达特茅斯学院人工智能夏季研讨会上提出，至今已过去了68年。从1957年的perceptron感知机、1986年Hinton发明的反向传播、1989年的卷积网络、2013年的VAE、2014年的GAN、2015年的resnet、到2020年的Diffusion扩散模型，生成式人工智能从技术的蛮荒中一路走来，步步为营，可谓不易。

同时，技术井喷的历史也告诉我们，一旦某项技术从模糊凌乱的探索中站起来走入社会的视野，后续的发展将如脱缰的野马迅速爆炸，影响人类技术进程的方方面面。

生成式算法能生成什么？

在应用领域，文字生成图片、图片生成文字，是最常见的用途。进一步还有：

文字-文字，文本摘要
文字-文字，文本扩充
文字-3D模型，粗模生成
图片-图片，特定风格化
图片-图片，超分辨率以及各类受控的Image restoration
图片-3D模型，景深估计+三维扒模
图片-多帧视频动画
音频-音频，特定风格化
音频-视频，潜语义直接生成视频
音频-3D模型，潜语义直接生成粗模
音频-图片，潜语义直接生图
图片-音频，人声估计与朗读
视频-文字，唇语识别

以上有一些应用原属于模态转换，在当今的内容生产视角而言，均统一成为了异态数据生成式模型，这样的定义延拓，也有利于技术路径的统一化与清晰化。

生成式算法有哪些应用场景？

当下最前沿的用途集中在美术绘图生成，而随着人类算力的水涨船高，各类生成式模型均有希望在5年内完全成熟，达到全领域商用的水平。在此背景下，各类尚不成熟，或甚至未曾设想的应用也都将逐一安稳落地：

脚本生成视频，用于影视+短视频创作，比如儿童故事生成视频节目。
口述生成视频，用于影视+短视频创作
口述生成3D模型，用于建筑、游戏、工业设计概念初稿
视频生成三维重建，无需扫描仪
三维白模生成UV贴图，无需找素材，用于游戏娱乐、工业。
生成UV贴图后AI渲染光追效果，无需传统物理渲染。
关键帧插画生成渲染好的动画，用于广告、影视、建筑设计。
视频压缩
图像压缩
快速力学分析
快速流体力学分析、空气动力学分析
全自动医疗初诊
行车辅助、路况辅助、语音提醒、物流大车助手
低成本纯视觉SLAM
低成本SLAM+残疾人辅助设备
以上只是多模态信息能相互生成后，广泛应用的冰山一角。
生成式算法有什么风险？
如果对采购算法的终端企业缺乏监管，生成式算法强大的能力也会被不法分子利用，干扰社会的正常运作。
全自动定制化广告电话、定制化广告视频图片，引发低成本海量广告。
全自动营销机器人，引发海量逼真骚扰电话
软广机器人+评论机器人，引发低质量软广视频充斥平台。
虚拟主播、虚拟up+大纲生成视频，构成电子矩阵号，使得少数寡头能对舆论控制引导。
语音合成、语调迁移、照片生成、视频生成，可能被用于电信诈骗。

生成式算法风险背后有什么机会

最先参与到生成式AI算法商业化的企业，将最先获得算法精细控制的技术能力、与行业标准的话语权。在约束AI、管理AI、利用AI的未来道路上，谁能优先建立起“高标准壁垒”，就能在充分依附政策法规的基础上，强势占有市场，控制竞争者业态水平，达成在新赛道滚雪球发展的优势状态。

文末思考

可以预见，人工智能算法将在未来10年逐步完善其能力，在识别、检测、分类、语言、创作等诸多领域全面超越人类水平，并将在20年内达成几乎等同于普通人类的逻辑水平。在这个不可逆止的道路上，人类劳动价值将逐步减少，个体剩余的“人力资源”将逐步萎缩。

虽然目前人工智能只接手了部分人类工作，但到20年后，进步速度较慢的普通人，还能否在现代社会获得生存岗位，是一个值得思考的问题。

AI生成式技术如何改变未来生产

前言

生成式算法能生成什么？

生成式算法有哪些应用场景？

生成式算法风险背后有什么机会

文末思考