前言
自从1956年“人工智能”概念首次在达特茅斯学院人工智能夏季研讨会上提出,至今已过去了68年。从1957年的perceptron感知机、1986年Hinton发明的反向传播、1989年的卷积网络、2013年的VAE、2014年的GAN、2015年的resnet、 到2020年的Diffusion扩散模型,生成式人工智能从技术的蛮荒中一路走来,步步为营,可谓不易。
同时,技术井喷的历史也告诉我们,一旦某项技术从模糊凌乱的探索中站起来走入社会的视野,后续的发展将如脱缰的野马迅速爆炸,影响人类技术进程的方方面面。
生成式算法能生成什么?
在应用领域,文字生成图片、图片生成文字,是最常见的用途。进一步还有:
- 文字-文字,文本摘要
- 文字-文字,文本扩充
- 文字-3D模型,粗模生成
- 图片-图片,特定风格化
- 图片-图片,超分辨率以及各类受控的Image restoration
- 图片-3D模型,景深估计+三维扒模
- 图片-多帧视频动画
- 音频-音频,特定风格化
- 音频-视频,潜语义直接生成视频
- 音频-3D模型,潜语义直接生成粗模
- 音频-图片,潜语义直接生图
- 图片-音频,人声估计与朗读
- 视频-文字,唇语识别
以上有一些应用原属于模态转换,在当今的内容生产视角而言,均统一成为了异态数据生成式模型,这样的定义延拓,也有利于技术路径的统一化与清晰化。
生成式算法有哪些应用场景?
当下最前沿的用途集中在美术绘图生成,而随着人类算力的水涨船高,各类生成式模型均有希望在5年内完全成熟,达到全领域商用的水平。在此背景下,各类尚不成熟,或甚至未曾设想的应用也都将逐一安稳落地:
- 脚本生成视频,用于影视+短视频创作,比如儿童故事生成视频节目。
- 口述生成视频,用于影视+短视频创作
- 口述生成3D模型,用于建筑、游戏、工业设计概念初稿
- 视频生成三维重建,无需扫描仪
- 三维白模生成UV贴图,无需找素材,用于游戏娱乐、工业。
- 生成UV贴图后AI渲染光追效果,无需传统物理渲染。
- 关键帧插画生成渲染好的动画,用于广告、影视、建筑设计。
- 视频压缩
- 图像压缩
- 快速力学分析
- 快速流体力学分析、空气动力学分析
- 全自动医疗初诊
- 行车辅助、路况辅助、语音提醒、物流大车助手
- 低成本纯视觉SLAM
- 低成本SLAM+残疾人辅助设备
- 以上只是多模态信息能相互生成后,广泛应用的冰山一角。
- 生成式算法有什么风险?
- 如果对采购算法的终端企业缺乏监管,生成式算法强大的能力也会被不法分子利用,干扰社会的正常运作。
- 全自动定制化广告电话、定制化广告视频图片,引发低成本海量广告。
- 全自动营销机器人,引发海量逼真骚扰电话
- 软广机器人+评论机器人,引发低质量软广视频充斥平台。
- 虚拟主播、虚拟up+大纲生成视频,构成电子矩阵号,使得少数寡头能对舆论控制引导。
- 语音合成、语调迁移、照片生成、视频生成,可能被用于电信诈骗。
生成式算法风险背后有什么机会
最先参与到生成式AI算法商业化的企业,将最先获得算法精细控制的技术能力、与行业标准的话语权。在约束AI、管理AI、利用AI的未来道路上,谁能优先建立起“高标准壁垒”,就能在充分依附政策法规的基础上,强势占有市场,控制竞争者业态水平,达成在新赛道滚雪球发展的优势状态。
文末思考
可以预见,人工智能算法将在未来10年逐步完善其能力,在识别、检测、分类、语言、创作等诸多领域全面超越人类水平,并将在20年内达成几乎等同于普通人类的逻辑水平。在这个不可逆止的道路上,人类劳动价值将逐步减少,个体剩余的“人力资源”将逐步萎缩。
虽然目前人工智能只接手了部分人类工作,但到20年后,进步速度较慢的普通人,还能否在现代社会获得生存岗位,是一个值得思考的问题。