在此以前,从未有过一个算法或者技术能同时出现在我的大学专业群(学术)、工作群(业务)、娱乐群(搞笑)、B站首页和小红书首页之中。
而在过去半年里, text2img generative model技术成功出现在上述所有平台,大家在校友群讨论Stable Diffusion算法,在工作群讨论商业化路径,在沙雕群讨论鲑鱼洄游和不能游泳的小女孩,在小红书有博主玩彩妆艺术生成,在B站也有各路up主开发出种种神奇的应用……在刚刚截稿的ICLR(一个横跨vision, NLP, ML/RL, robotics的会议)的5000篇投稿中,title/abstract带有diffusion字样的文章达到了200篇,在233篇得分为7分(含)及以上的论文中,共有13篇涉及扩散模型。
在当年的“AI会抢走人类哪些工作”预测中,自从AlphaGo击败人类冠军棋手后,我们对于AI决策能力的质疑就画上了句号,从数据分析、生产管理到自动驾驶等,我们开始把许多领域的控制权都交到AI手里。
绘画领域本是人类长期保留的自留地,原有的分析型AI无法在创造性工作上与人类竞争——它们被降格为只做分析和机械性的认知工作。我们人类对比机器来说,最大的优势在于创造。随着生成式AI的出圈,创作也开始失守。人们意识到机器开始尝试创造有意义和美丽的东西,在更多领域与传统工作方式和产品竞争,比如在美国科罗拉多州博览会的数字艺术类美术比赛中获得第一名的“太空歌剧院”就是AI的产物。
璞跃中国移动出行团队通过对“文本自动生成”和“图像自动生成”两个领域的研究,认为AIGC确实会抢走一部分的“旧蛋糕”,但随着元宇宙和内容经济的底层、硬件的迅速发展,这两个领域的内容自动生成却同时也是做蛋糕的手,可以帮助迅速搭建尚不成熟的内容生态。
在它逐步发展的过程中,璞跃中国移动出行团队认为:
在标准化强度越高、越结构化的内容中,AI生成内容彻底替代人工创作者的可能性越大;
随着AIGC越来越同质化、高效化,生成内容的可控性决定了其是否会成为商业创作者助手的存在,还是替代原有内容产出者的角色;
AI批量生成的非结构化内容,如3D视频、VRAR领域内容,可以帮助硬件和平台厂商打破生态瓶颈,迎来行业爆发。
生成式AI能应用的场景非常多,从不同类别的文本、图像到策略的生成都可以装进各个口袋,在这些领域中,文本的结构化属性最强,发展最早,因此文本和语音生成是目前生成式AI最成熟的领域。
AI生成文本
非交互式文本生成
文本生成又分为交互式和非交互式,非交互式更接近常规写作这个领域,AI应用最多的在于自动输入更正或者输出一些中短篇内容。
璞跃中国移动出行团队认为,未来在新闻播报等更为结构化、标准化的领域,可以完全适用算法生成的稿件;但对用于创意写作、营销写作或者剧情续写的非结构化写作来说,模型的可控性还不足以做到给AI一个题目,让AI生成可以直接使用的千字文万字文,它只能在文字和用词上做一些扩展,人们还需要对自动生成的内容进行迭代。
此模型的作用,是在创作者写作的过程当中,根据现有的文本产生新的想法,或者重写已有文句,从而帮助创作者突破创作瓶颈。随着数量和模型的累积,未来将有更高质量的输出、更多形式的内容和更好的垂直领域深度内容产生。比如谷歌的LaMDA ,本身的设计功能只是句子补全;比如通过给定的一个单词,来预测下一个最有可能的单词是什么。
随着时间的积累,LaMDA的模型规模和训练数据量大到让它获得了一种潜意识的能力,可以从语言中学习很多更高层次的概念和联想,从而对于创作者的工作流程带来非常大的帮助。现在的创作者可以用这个模型重写语句,生成文章细节内容,也可以让它遣词造句,让原有的行文“更有趣”或者“更忧郁”一点。
交互式文本生成
自动客服、聊天机器人和交互式文本游戏都属于交互式文本生成,目前现有的交互式文本都是基于给定的语句库给出答案,而不能创造新的回答方式。生成式AI可以做到彻底地代替传统人工客服,回答更复杂、开创性的问题。
代码生成
如果说AI文字生成用的是常规人类文本,AI代码生成则是机器语言的自动生成。GitHub基于 OpenAI 推出的Copilot,可以说是程序员神器了,它是在数十亿行开源代码上训练,并在写代码的同时默默给出整行,甚至只要填写注释和调用的包,它就能给出完整算法的建议。在短期内,这一技术的应用将大大提升开发人员的生产力和效率,未来更多的非开发人员也将能利用代码生成,完成自己的内容开发。
AI文字生成的蛋糕在哪里:
1 结构化自动创作:新闻稿、公文件等标准化强度高的创作领域适用于AI文字生成;
2 非结构化创意辅助:创意创作者的细节优化、文采优化;
3 交互式文本:对比普通人完成交互,AI更适合满足长时间、高反应速度的客服及娱乐需求;
4 代码生成:降低开发人员门槛,让更多普通技术人员参与开发过程,优化低代码、无代码平台研发。
AI文字生成切走的蛋糕在哪里:
1 标准化强度高的文案内容创作;
2 传统NLP文本客服将依然存在,用于满足简单问题解答,但需求会显著降低;
3 代码生成将与此前的低代码、无代码平台融合,拉低开发人员和非开发人员的差距。
AI生成图像
图片生成出现的时间最短,但是最有成为杀手级应用的传播能力的一种。比起单调乏味的文字和专业性更强的代码开发,过去对AI的运用“更多像是学术界的自嗨”,今年AI创作的技术利用了基于大模型的diffusion model带来了文字转图像的交互方式,允许大众参与自主创作,大众属性和图片生成自带的传播能力是最近AIGC爆火的主要原因。
2D创意图像生成
2D创意图像生成是最近爆火的diffusion的主要功能,目前这个功能主要面向C端用户,而且多以免费的形式出现。在创意图像生成,功能性图像生成方面,如根据指定要求生成商业用途的海报、模特图、logo等,这些商业图片尽管目前尚未广泛应用,但在未来有望落地大规模低成本创作的机会。除了版权问题,AI生成的图像离商业化最大的阻碍在于现在绝大多数AI对图画细节的处理、可控性和文本理解能力尚有欠缺,所以常常会出现比例失调,看起来怪异狰狞,或者对着类似“鲑鱼洄游”有着独特的理解的情况。
功能性图像生成
当下的图片生成更多是做到了好看,但是没有细节。如果想在工业级别或者企业级别上使用内容生成,现在的模型还缺少科学的精准和可控性,这也是目前AI的创作技术的发展方向之一。
如果可以达到过程可控,相关技术就可以成为创作者的辅助插件,正如之前当PS刚刚推出各种笔刷,尽管刚出现时艺术家也有反感态度,但时至如今,笔刷已经做到了节能增效的作用,帮助艺术家更快速简便地完成创作,帮助创作者完成构建创意与实现的分离。
从这个角度来看,可以把创作者和AIGC的关系比作摄影师和照相机,创作者(摄影师)构建拍摄思路并进行规划,对相机进行参数配置,正如人们对AI模型进行参数配置,即可直接点击输出作品。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于0。
视频、3D模型、VR图像
比起普通2D图像更进一步的是视频、3D模型和VR图像,在这几个领域AI并没有太多的积累,却可以打破目前内容的投入产出比极低的痛点。无论是VRAR硬件设备厂商,还是元宇宙平台运营商,目前都面临“生态内容不足的痛点”,不足5秒的3D镜头需要耗费超2个月的时间完成,难以规模化生产,通过AI快速生成这类进阶图像则可以打破这一生态瓶颈。
RCT Studio打造的Morpheus引擎能够通过深度学习,输入目标文字即可渲染成3D资源和动画;同样NeRF能够利用几张静态图像生成多视角的3D动画。随着AI技术迭代,引擎渲染过程加速,人们期待在未来1-2年内看到基础的3D和视频模型的出现,打开电影、游戏、虚拟现实、建筑和实物产品设计等大型创意市场,同时带动硬件、影视、游戏等其他产业。
AI图像生成的蛋糕在哪里:
1 2D领域:批量艺术性内容,如海报、艺术头像等生成,艺术家创作辅助插件;
2 3D/VR/AR领域:模型快速渲染,数字人、仿真人等元宇宙内容生态搭建;
3 视频领域:广告内容生成。
无论是元宇宙平台、还是车企、互联网公司的营销需求,AI生成的内容都可以低成本、高效率的满足。
AI图像生成切走的蛋糕在哪里:
1“独一无二”版权在不同领域的应用,如服装、电子产品、建筑艺术品等
无论生成式AI的出现抢走了蛋糕还是做大了蛋糕, 璞跃中国移动出行团队认为,一切新技术和应用的出现,最终目的都应该是提高人们的工作效率,从而进一步提升生活体验。本文仅给大家列举了一部分有意思的生成式AI应用场景和旧市场之间的关系,在AIGC系列的下一篇中,我们将从商业模式出发,探讨商业化落地更快,变现能力更强的案例。
加入璞跃中国
科技创新生态
发送【移动出行玩家】
加入移动出行行业交流群
与更多志同道合的伙伴们共话移动出行