文|新眸投研组
编辑|桑明强
受ChatGPT影响,今年AIGC赛道依旧火热。它指的是利用人工智能技术生成内容,AIGC也被认为是继UGC、PGC后一种新型内容生产方式。
流行的原因有很多因素,除了生成逼真图像、视频和文本的能力,用更高效的方式生成创意内容,AIGC在办公、娱乐、医疗、金融等领域都有着不小的潜力,去年刚兴起的AIGC浪潮,一度让不少业内人士认为,它的出现,将掀起一场革命性科技浪潮。
过去几年里,生成式人工智能的普及率一直在稳步增长,并且这种趋势很可能会持续下去。原因在于,就像前面说的,数据和计算能力的可用性不断提高,人们对更高效、更有效的方式来生成创意内容的需求等因素,正在推动生成型人工智能的普及。
作为一个快速发展的领域,研究人员和工程师正在努力推进这项技术,新的突破不断出现。由于AIGC目前的主要目标是通过学习数据分布的规律,进一步细分包括图像、视频、音频等生成,以及自然语言生成,比如生成文本或像搜索引擎一样通过信息整合提供对话、问答。
除此以外,AIGC还能够作为自动编码器,或者基于对抗学习,让机器学会生成与真实数据相似的样本,这项技术也已经被广泛运用到图像、音频和文本等领域。
如今已经有多家公司基于这项技术做出了重大贡献,包括OpenAI、谷歌、NVIDIA、微软和Facebook等,国内的互联网公司中,百度上线了中文版的AI绘画工具“文心一格”,阿里巴巴、京东等拥有海量数据的大厂也在陆续入局:
当然,还有许多初创公司正在开发生成型人工智能的创新应用,这里举一些例子:
市场的火热,让包括a16z、梯度风险投资、科斯拉风险投资公司、软银、红杉等知名投资机构纷纷入局。去年10月,Stable Diffusion背后的Stability AI宣布获得1.01亿美元来自Coatue和光速的投资,投后估值攀升至10亿美元。相关领域的其他多家公司获得了大量融资,比如:
总的来看,这些公司成功的因素都有一些共性特征,包括获取大量高质量数据、在人工智能和机器学习方面的强大技术专长,以及为一系列行业和用例开发用户友好且有效的应用程序的能力。此外,还有保持对道德考虑和负责任地使用技术,每一个参与者都需要重视的是长期价值。
Open AI:呼声最高的重量级选手
ChatGPT火爆全球,让open AI成为AIGC领域中估值最高的一家公司。追溯到这家公司创始人,20岁的山姆·阿尔特曼从斯坦福辍学创业,28岁晋升为YC孵化器总裁,37岁凭借ChatGPT被外界看作具备划时代的意义。
自从今年1月底,微软宣布对Open AI追加第三轮投资,数额或高达一百亿美元,Open AI的身价已经飙升到290亿美元。据了解,上线5天的ChatGPT,用户数就突破百万,2个月MAU破1亿,也意味着更高的服务器带宽成本。
微软为了在AI领域和Google、Meta等对手竞争,Azure被推向前台,作为Open AI的独家供应商,提供了多项优惠待遇。但即便如此,Open AI还没赚到过钱。ChatGPT和旗下其他AIGC产品都处于免费公测阶段,目前仅有卖AI软件赚的千万美元营收。
举个简单例子,微软对单个100 GPU的收费是每小时3美元,生成一个单词的费用约为0.0003美元,摩根士丹利甚至认为,ChatGPT一次回复可能会花掉2美分,大约是谷歌搜索查询平均成本的7倍。
这种情况下,Open AI亟须找到商业化路径来实现盈利,比如近期官宣了专业版本ChatGPT Pro,定价将为每月每月42美元(约285人民币)。同时,微软还计划将ChatGPT整合进旗下搜索引擎Bing中,Office产品也将陆续整合Open AI的其他AIGC产品。
微软投资OpenAI的逻辑也很好理解,生成式AI的大量资金最终往往都流向了基础设施层——以AWS、Azure、GCP为主的云厂商,以及以英伟达为代表的GPU厂商。应用层厂商将大约20%~40%的收入用于推理和模型微调。
据A16Z估计,这部分收入通常直接支付给云厂商或第三方模型提供商,第三方模型提供商也会将大约一半的收入用于云基础设施。因此,总的来看生成式AI总收入的10%~20%都流向了云提供商。
根据《财富》报道,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润直到收回投资成本;当OpenAI赚取920亿美元的利润后,微软的份额将降至49%。简单来说,OpenAI把公司借给微软,借多久取决于OpenAI赚钱的速度。老牌巨头与科技新星的强强联手,微软希望在下一个AI十年向谷歌及其他科技巨头发起挑战。
Anthropic:含着金钥匙出生的新生代选手
很多人觉得ChatGPT会颠覆搜索引擎,微软宣布旗下所有产品将全线整合ChatGPT之后,谷歌也开始开发自家的对话模型。
去年底,AIGC火的时候,谷歌的云部门向AI初创公司Anthropic投资了约3亿美元,获得10%的股份,Anthropic的最新估值逼近50亿美元,成了仅次于OpenAI的领域独角兽。
在此之前,2021年,Anthropic获1.24亿美元A轮融资,2022年获加密货币交易所FTX创始人Bankman-Fried领投的5.8亿美元融资,两轮融资后估值已达40亿美元。
据媒体透露,Anthropic打造的一款ChatGPT产品已经处于测试阶段。谷歌为了追赶微软,打算将Anthropic的数据密集型计算工作引入数据中心。相似的味道出现了,Anthropic近日宣布谷歌云作为“首选云提供商”,共同开发AI计算系统。这不能不令人联想起三年前,微软向OpenAI注资10亿美元,成为OpenAI的独家云提供商。
Anthropic和ChatGPT开发公司OpenAI关系暧昧,前者的创始人大部分都是从OpenAI离职的的几位高管:2020年底,OpenAI的早期员工Dario Amodei带着10名员工加入“硅谷叛徒”俱乐部,拿着1.24亿美元创办Anthropic。
目前正在开发通用人工智能聊天机器人Claude,Anthropic 将拿着这笔新融资继续计算密集型研究,来开发可操控、可解释且稳健的大规模人工智能系统,与此同时,谷歌云部门将提供计算能力和先进的人工智能芯片,Anthropic 计划使用这些芯片来训练和部署其未来的人工智能产品。
Hugging face:主打社区的成长型选手
Hugging Face是一家非常活跃的人工智能创业公司,早期凭借 Transformers 模型库和非常强大且活跃的人工智能社区被业内外关注。
创始人Clément Delangue来自法国,从17岁开始连续创业,又折腾过好几个创业公司。Hugging Face最开始的方向是对话机器人,从Betaworks和杜兰特等拿到天使融资,但项目并没有多大起色。
2018年,谷歌发布基于transformer机器学习方法的自然语言处理预训练模型BERT,标志人工智能你如了大炼模型参数的预训练模型。之后他们为了训练机器人的NLP能力,开发了一个部署机器学习模型的底层库,并在GitHub 上开源,赶上Transformer这波潮流,一下子就火了。
就像存放Git repo的地方叫Github,在 Hugging Face Hub,可以找到上万个已经训练好的模型,用户可以在 Hugging Face上托管和共享ML模型、数据集,也可以自己搭建部署新的模型。
关于自然语言处理的论文很多,而且每个实验室所开发出来的模型,如果要移植到自己的应用程式上面也很困难,Hugging Face试图解决这类的问题。他们把这些不同架构的模型,包成规格统一的 API ,让工程师可以更容易使用。
除此以外,Hugging Face提供的Library让用户更方便地使用Transformer做自然语言处理的应用程式,其中,最常用到的神器比如Transformer、Tokenizers和Datasets,能够提供开发策略,进行前后处理资料收集等功能。
完整的生态系和社群让人们觉得,几乎可以只使用Hugging Face,就做完大部分最困难的Transformer。
截至目前,Hugging Face 上共有近13.5万个预训练模型,在 GitHub 上拥有超过 1660名贡献者,54000名用户,81000颗stars和18000次forks,平均每天有超过5万人从 Hugging Face下载模型。
2019年底,Lux Capital的Brandon Reeves遇到Delangue,投了8000万美元。截至2022年5月,Hugging Face获得1亿美元C轮融资,由Lux Capital领投,Sequoia US、Coatue 等跟投。
目前Hugging Face目前有数千名客户和机构,包括微软、英特尔、高通、谷歌和彭博社等。虽然上一年收入还不到1000万美元,但上一轮融到的4000万美元依然存放在公司银行账户,并且据透露这家公司在去年年中已接近盈亏平衡,估值达到20亿美元。
Jasper:典型的面向PLG选手
ChatGPT之前,Jasper才是一度最被看好的“ AI 文字生成”工具。它能用来编写视频脚本、广告营销文本额电子邮件,以及其他具有重复性特征的文字工作。
这是一家成立在2021年的年轻公司。创始人Rogenmoser 认为Jasper是激进的,最初的想法是想做一个招聘软件,后来和朋友船板了一家小型营销公司,为网站内容、Facebook 广告和搜索引擎优化提供文案服务。Rogenmoser 和他的朋友都不具备这些技能,所以他们更多是找外包。
那时候,Rogenmoser在Twitter上看到人们谈论 GPT-3,这一模型在AI圈内十分火热,Rogenmoser和他的合伙人们抓住了这个风口,制作了一个对话式AI的原型,并把它卖给企业用户。
创立一年团队只有9人,10个月后扩大到160人。当时The Information报道,预计年营收将超过6000万,同年10月,Coatue 与 Insight Partners、Bessemer Venture Partners 等公司一起参与了8500万美元的A轮融资,Jasper成了历史上最快达到独角兽的公司之一。
去年下半年,Jasper又获得1.25亿美元融资,身价达到15亿美元,与此同时它的客户也达到10万名,资本市场对 Jasper 的欢迎一目了然。首席执行官 Dave Rogenmoser 称,融资用于打造Jasper的核心产品、改善客户体验、并将 Jasper 的技术引入更多应用程序,比如新推出的图像生成产品Jasper Art。
ChatGPT是Open AI 基于自己的 GPT-3 大模型所做的聊天机器人应用;而Jasper的技术底层也是 OpenAI 的 GPT-3。也就是说,Jasper 是在竞争对手的平台上,建立了自己的业务,这也是它未来发展的风险来源之一,意味着,对于Jasper的客户来说,他们是否会持续使用,很大程度在于使用效果有没有比对手更好,以及OpenAI开放的API是否能被不同地区接受。
Inflection AI:有点东西但不多型选手
Inflection AI是一家在通用建模领域的私人企业,作为一家机器学习初创公司,它开发了多个神经网络,可以优化处理自然语言文本,提供AI人机交互领域的一站式解决方案。
据了解,这家公司在去年5月获得了2.25亿美元的A轮融资,资金来源尚不清楚,估值超过12亿美金。Inflection的融资规模,反映了构建复杂AI系统的高成本。据估计,OpenAI 已花费数百万美元开发 GPT-3,该公司的系统可以在给出提示的情况下生成类似人类的文本。
Mustafa Suleyman是Inflection AI的CEO兼联合创始人,同时也是DeepMind AI实验室的创始成员,并在谷歌收购 DeepMind 6年之后,成为谷歌人工智能产品与政策副总裁,
在去年的CNBC简介中,Suleyman希望构建的产品能够简化人们与机器交流的需要,利用人工智能帮助人类与计算机“对话”。他声称Inflection在开发一套新技术,最终将使任何人都能用简单的语言与计算机交谈。目前尚不清楚Inflection会将其产品出售给哪些潜在客户、产品的价格和面世时间也未公布。
将人类意图翻译成计算机语言,即使是当今最好的聊天机器人和语音助手也没有兑现,但Suleyman认为,人工智能的未来进步将在未来五年内实现直观的人机界面。用联合创始人Dario Amodei的话来说是“探索机器学习系统的可预测扩展特性”。
stability.ai:开源、开放的技术型选手
同样是去年10月,爆火的文本到图像模型Stable Diffusion背后的创业公司Stability AI 宣布,在Coatue、Lightspeed Venture Partners和O"Shaughnessy Ventures领导的一轮融资中筹集了1.01 亿美元。这轮融资后,Stability AI公司的估值已经到达10亿美元。
这家公司的身世也很有意思。在AI技术研究受制于有限的算力和资金的时候,Open AI为AI研究人员提供了相对自由的研究环境,以及大量的资金与算力做支撑,可以帮助技术研发部门专心深入AIGC。
但由于2020年时的内部问题,造成无法支撑非盈利项目的后续运营,导致大批核心研究员出走,基于Open AI的企业价值理念,曾担任工程师、分析师的Emad Mostaque创办了Stability AI,希望延续非盈利模式的、同时更加开放的经营理念。
Stable Diffusion是一个根据文字生成图片的AI技术模型,只需要几秒钟的时间,就可以生成分辨率、清晰度高,同时不失真实性和艺术性的图片。它有一个由4000多个 Nvidia A100 GPU 组成的集群,用来训练 AI 系统,其中就包括 Stable Diffusion。它的维护成本相当高,Stability AI 的运营和云计算支出超过了 5000 万美元。
Mostaque表示,本轮融资的资金将用于为客户部署更大规模的 Stable Diffusion 的定制版本,并会投资于更多的算力上。这笔资金还将用于雇佣更多的员工,预计在未来的一年内,公司的员工将从100人增加到300人左右。
除了 Stable Diffusion,Stability AI 还有其他可商业化的项目正在进行中,包括生成音频、语言、"3D" 甚至视频的人工智能模型。其中之一就是目前已经公开的 "Dance Diffusion",它可以通过对数百小时的现有歌曲进行训练来生成音乐片段。
参与此轮投资的 Coatue 公司在声明中表示:"在 Coatue,我们相信开源的人工智能技术有能力释放人类的创造力,并实现更广泛的利益。我们很高兴能成为 Stability AI 旅程的一部分,我们期待能看到全球各方用 Stability AI 的技术创造出什么。"
Character. AI:创始人是谷歌20年老员工
Character.AI的创始人Noam Shazeer 是前谷歌首席软件工程师,也是Transformer论文作者之一。此前他在2000年底加入谷歌,直到2021年最终离职,是谷歌最重要的早期员工之一。
另一位联合创始人Daniel De Freitas也是前谷歌研究人员,他们之前曾在该公司的内部 LaMDA 系统上工作。这家公司成立于2021年10月,对于这家公司的组织架构和业务模式,外界能获取的信息量较少。据报道,Character AI已经创建了一个基于 LaMDA 的神经语言模型聊天机器人Web应用程序,能够生成类似人类的文本响应并参与上下文对话。
简单来说,产品为用户提供了一种与虚拟聊天机器人chatbot,任何人都可以在其中与虚拟的唐纳德特朗普、埃隆马斯克、臭名昭著的“绝命毒师”沃尔特怀特和许多其他角色聊天。
据The Information报道,这家公司目前在寻求筹集2.5亿美元融资。目前投资者包括Gmail创始人Paul Buchheit和前GitHub首席执行官Nat Friedman,估值也达到10亿美元左右。报道称,它已经与包括红杉资本在内的顶级风险投资公司进行了会谈,讨论仍处于早期阶段,他们是否会成功还有待观察。
Adept:另辟蹊径的黑马型选手
去年4月,Adept AI成立,业务专注于创建一种基于与文本生成工具相同核心技术的机器人,由首席科学家Ashish Vaswani和CTO Niki Parmar,以及现任CEODavid Luan三人共同创立。目前市场推测估值在10亿美元左右。
他们都曾是谷歌大脑的核心员工,其中Luan是GPT-2、PaLM 的论文作者之一,参与了 GPT-3 的部分工作;CTO和首席科学家都是Transformer 论文作者之一,还聚集了一大批曾在谷歌工作的技术人才。
这家公司去年从 Addition和Greylock 等获得融资 6500万美元,投资人包括 Scott Belsky(Behance 创始人)、Howie Liu(Airtable 创始人)、Chris Re(斯坦福)、Andrej Karpathy(特斯拉 Autopilot 负责人)和 Sarah Meyohas,Luan打算把这笔资金将用于通过一种既能读写又能操作的转换器,进一步优化智能技术。
谈及离开谷歌创业的原因,Luan认为,在谷歌,我们训练出了越来越大的 Transformer,目标是最终构建一个可以支持所有 ML 用例的模型。但过程中,团队发现了一个主要限制:像 GPT-3 这样的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。
你不能要求 GPT-3 订机票,给供应商开支票,或者进行科学实验,或者使用Airtable、Photoshop、ATS、Tableau等工具完成工作。所以有媒体指出,Adept的目标更像是协作智能,它选择了和其他通用人工智能公司不同的道路,前者是建立AI工具,来帮人类完成任务。这种方式更容易实现。
“变压器及其应用代表了近代史上迈向通用智能的最大一步。但我们认为,真正的通用智能需要能够行动的变形金刚——而不仅仅是读写。”Luan说,“在 Adept,我们正在训练一个模型来使用人们今天使用的所有软件工具和 API。”
百度:来自中国本土的重量级选手
主打AI的百度,绝不会错过这场科技盛宴。虽然ChatGPT在国内已经把AIGC推向爆发前夜,不过目前阿里、腾讯、字节等巨头,及科大讯飞、天娱数科等细分领域企业的布局大多仍是围绕提高工作效率上。
据了解,早在2019年,百度已经发布国内首个正式开放的预训练模型ERNIE1.0,并持续投入于大模型的研发升级;2021年初,ERNIE 3.0升级为知识增强千亿大模型鹏程-百度文心。
文心大模型基于大规模知识和海量无结构数据融合深度学习,吸收海量文本数据中词汇、结构、语义等方面的知识,并通过持续学习不断提升理解能力和生成能力,实现视频、歌词、艺术画等创意作品的自动生成。
去年末,文心大模型迎来全面升级。在模型层一次性发布11个大模型,涵盖基础大模型、任务大模型、行业大模型的三级体系;工具与平台层,升级大模型开发套件、文心API和提供全流程开箱即用大模型能力的EasyDL和BML开发平台;新增产品与社区层,包括AI艺术与辅助创作平台“文心一格”、产业级搜索系统“文心百中”和旸谷社区面向个人用户。
ChatGPT之后,近日百度也推出大模型新项目“文心一言”,公布消息当天,港股股价在一天内大涨15%,美股股价涨幅也达到了12%。据百度确认,文心一言计划于今年3月完成内测,面向公众开放。而按照谷歌和微软加快推出类 ChatGPT 服务的节奏,文心一言开放内测还有可能提前。多家企业宣布介入文心一言,这也推动了百度的股价上涨。
Synthesia:主打视频的硅谷型选手
Synthesia在2021年末就宣布B轮融资结束,由硅谷风险投资公司Kleiner Perkins领头,GV和Firstmark Capital、LDV Capital、欧洲最大的科技创业孵化平台Seedcamp以及MMC Ventures参投。本轮融资完成后,Synthesia融资总额达5000万美元。
早在2021年4月,Synthesia就完成筹集1250万美元的A轮融资,官方至今并未透露公司的具体估值。随后新增部分功能,用户可以轻松创建自己的虚拟人物形象。目前,Synthesia有1000个自定义人物形象。里帕贝利以安永会计事务所为例,它利用Synthesia平台创建虚拟形象,制作视频,与35家合作伙伴进行内部通信和交流。
不过具体到产品功能上,有媒体介绍,早期Synthesia能将文本或幻灯片转为视频,配有会说话的角色形象。“用户可基于预设虚拟人物,或上传视频创建自己的虚拟形象。此外,用户还能上传语音素材,转化成所需内容。”
由于Synthesia认为几乎所有网络工具都可能被利用进行不当用途,所以这家公司只为企业客户提供服务,而不是面向个人。Synthesia表示,客户主要使用产品工具来制作培训视频,不过这样的用户群体和创始人Victor Riparbelli想的并不一样。
“以前,人人都可以制作幻灯片或编写Word文档,现在他们还可以自己创建视频。从人工智能技术的角度来看,这是我们快速发展的关键所在。”他认为比起视频制作部门的大批用户,组织内部的其他人员才是该工具的超级用户。
Synthesia进一步开发虚拟人物形象视频,使其视觉和感官酷似真人,比如一个不知名的演员,或是自家公司的首席执行官。