从AI画画到“用声音做视频”，全球掘金AIGC焦点分析-武陵观察网

整个科技行业经历了让人疲惫的2022年。但下半年，AI来了个华丽的返场——

登台的新宠儿名为“AIGC”，又称“生成式AI”（Generative AI）。这一领域正以令人侧目的速度发展，将创新和技术再度拉回到世界舞台的焦点。

今年4月，一家名为Open AI的公司公布旗下的DALL-E 2模型，其用文字生成图像的质量之高，让人震惊——以前，“AI画画”还只是一小群人的游戏，AI画出来的画，像出自小学生之手一样朴实稚拙。

但很快，大家发现AIGC进步神速。仅仅过了4个月，一名游戏设计师凭借AI模型Midjourney画出来的一幅画，夺取知名艺术大奖，这惹来争议一片。

而刚过去的10月，AIGC的另一家代表公司Stability.AI，仅仅成立2年，就宣布完成1.01亿美金的种子轮融资，估值达10亿美金，步入独角兽行列。

AI领域沉寂太久了。上一次AI吸引巨大的公众关注度，还要追溯到2016年——AlphaGo在围棋比赛中最终击败韩国国手李世石。过去几年里，AI有点像科技圈里的过气网红，技术上少有让大众惊喜的进展。在国内，AI公司的更多新闻是上市受挫、盈利遥遥无期。

如今，AIGC接棒AlphaGo，带着全新的故事归来。

最新的进展是，AIGC已有强劲的商业化苗头。一家名为Jasper的公司，用AI帮助企业和个人客户写社交媒体、博客等内容。Jasper最近宣布，今年收入预计近亿美元，这距离这家公司成立仅过去18个月。

浪潮已然来临。AIGC已处在爆发前夜，一个技术和商业化交汇的路口。巨大的关注度背后，是整个产业链的蓄势待发，摩拳擦掌。

AI重归舞台中心，大厂小厂齐下场

以AI生成文字、图像、音频等内容，是已经存在已久的深度学习方向。在2017年，一副由AI学习大量画作，最后“模仿”生成的作品，就已经在佳士得进行拍卖出超过40万美元的价格。

但从今年开始，各种各样的AI绘画应用，如同雨后春笋一般冒出。无论是大厂小厂，都像约好了一样发布AI绘画产品：2月，Disco Diffusion推出AI图像生成平台；7月，微软旗下的Open AI推出新模型WALL-E2，并进行公测；8月，Stability AI推出Stable Diffusion，并开放注册……

与2017年时相比，现在的AI画画到了“Text-to-Image”（文字生成图像）的新阶段。即用户描述画面中的内容、风格、材质、位置等，提供一个词群（如深邃的太空、达利画风、远景），机器就能进行解析，最后输出一张画作。

在以前，人们普遍意义上感受到AI的技术改革，很大程度都是在于一些决策性行为，如识别人脸（是否符合本人）、下棋（如何得出最优解）等等。

而“输入文字-AI画画”的最大不同，在于底层的AI模型的学习模式是发散性的——简而言之，是通过对文字、图片、数据等信息的学习，AI要自己开始“模仿”和“创造”新的东西。这大大降低了人们的创作门槛。

AI绘画能发展如此之快，原因首先在于，前几年全球科技行业斥巨资和大量人力，大练“AI大模型”，为之打下基础。

AI大模型，顾名思义，即是拥有巨大样本量的模型。2017年，Transformer结构的提出，让得深度学习模型参数突破了1亿。随着深度学习技术发展，模型中的数据量，更是逐步到了十亿级，再到百亿级。

以前用于训练AI画画的著名对抗生成网络模型“GAN”，就是一个百亿级的大模型。但以前，GAN学习画画的模式，只能做到无限接近原作的模仿，而不是创新。

真正让AI绘画取得突破的，是几家AI公司的接力，包括Open AI和Stability.AI在内的公司，将深度学习模型CAN、Diffusion等，和GAN模型进行了创新性的结合——相当于让AI换了一种学习画画的方式。这才让AI画画真正摆脱了模仿，走向“创造”之路。

而此前的AI绘画要耗费大量算力，动辄半天一天的生成时间。Stability.AI又在新模型上改进机器运算的方式，大大压缩了所需内存和空间——从一天出图，到以秒出图，对硬件要求也降到极低，C端用户才能无障碍地进行创作。

AI生成内容的星星之火开始燎原，现在新战场已经从图像走到了视频领域。9月，Meta、 Google都公布了自家的AI生成视频技术进展。比如Meta的Make-A-Video技术，就能够让平面上的物体短暂地“动起来”。

美丽新世界里，谁能淘到第一桶金？

9月，红杉资本发表了一篇名为《生成式AI：一个充满创造力的新世界》（Generative AI: A Creative New World）的文章。红杉在文中表示，生成式AI，让机器开始大规模涉足知识类和创造性工作，这涉及数十亿人的工作，未来预计能够产生数万美元的经济价值。

AIGC其商业前景看起来很诱人，这可遇不可求。比起VR/AR、新能源车等领域，尚在市场教育早期，要投入大量的教育成本。而AIGC只需算力稍微强劲一点的电脑，未来甚至可以跑在云上，其内容生成的边际成本无限接近于0。

巨大的商业空间已经显现——在写作、设计、影视、广告等多个领域，AI相当于可以作为人类的“副手”，可以快速提供一些最为基本的创意指导。

但AIGC无限拓展和输出的特性，也伴随着人们的担忧：商业壁垒到底在哪里？

市面上已有不少关于“调包侠”的讨论。如今市面上所有的AI绘画产品，基本都是基于几个开源模型开发。内核不变，只简单搭壳的情况下，调用的都是类似的模型。若都给AI喂类似的数据，这些产品输出的结果，是否也会逐渐趋同？

大厂们在算力、数据训练上投入多年，底层基础设施注定是大公司的游戏。不过，由于大厂间内卷得厉害，成本在急速下降。据一家美国风投机构NfX统计，在过去2个月中，AI生成图像的成本下降了100倍。

显然，底层技术和模型无法成为壁垒。应用层的竞争已经开始——想要让AIGC打开商业新局面，真正达到规模化，市场需要一个杀手级的应用。

NfX创始人James Currier在博客里举例——Facebook成立时，市面上有50个和它一样，有着相同功能的产品。但Facebook最巧妙的选择在于，从哈佛大学的学生群体开始推广，最终吸引到各个大学的学生竞相跟随。

淘到第一桶金的AIGC公司也很类似，他们大多抓住了不错的垂直场景。比如Copy.AI，从公司成立开始就看准广告营销场景，让AI帮助客户优化营销场景中的文案等内容。Copy.AI商业化进展迅速——两年内的ARR（年度经常性收入）就已经达到1000万美元。

远在大洋彼岸的AIGC热潮，同样点燃了国内市场的热情。

7月，百度就在百度世界大会上，用了“1秒”复原了《富春山居图》残卷——背后依托的正是千亿级的AI大模型“文心”。

除了百度，在创业公司方面，也已经有彩云小梦、Tiamat、蜜度、6pen、MuseArt等公司，其中不乏已经投入数年的公司，他们覆盖了文字、图像等方向。今年，他们也成了VC圈的新任香饽饽。

但国内的技术发展和商业化处在更早期。国内市场上已经有层出不穷的AI绘画小生意，比如在抖音、闲鱼等平台开展代画服务，提供词组调试攻略等等，很多人声称“AI画画，月入过万”。但这些生意都相对边缘。

短期内，AIGC还是要依靠企业端，才能有足够资源支撑起底层技术的快速迭代。尤其对国内而言，中文数据的NLP（语义识别）比英文更为复杂，要做中文版的AI生成技术，不是简单汉化就能够解决问题。像百度和清华的AI模型均为自研，底层模型的训练成本还处在高位。

在一位AIGC观察者的博客中，一家创业公司MuseArt的创始人曾提及：每次训练AI模型的成本都在2万元左右，通过收取C端用户费用，根本无法覆盖这么巨大的支出。而近期刚刚完成融资的国内AIGC平台TIAMAT，也宣布已经和多个龙头游戏企业、广告平台合作。

AIGC在载体上没有太多桎梏，在寻求商业化的路上，未来它更多要解决的是法律、监管以及伦理问题。前不久，日本绘画AI平台“mimic”上线，很快遭到众多日本画手抵制，声明“禁止AI学习自己的画作”。现在，包括Stability在内的平台，也正在卷入版权等不少争议。

AI绘画让人类一窥技术能够创造的未来图景，这足够让人激动，只是它还需更多时间完善自身。对感兴趣的人来说，对技术进步抱以更大的宽容，保持关注，或许才能更好地让AI为己所用。

正如Stability.AI的slogan所言——“AI by the people, for the people”。

全球,技术,掘金,公司,模型,声音,视频,文字,绘画,焦点,Jasper,公司,模型,图像,绘画

相关文章