36氪获悉,「Tiamat」已于日前完成近千万美元A轮融资,由老股东DCM和绿洲资本联合领投,远识资本担任独家财务顾问。本轮融资额将用于继续打磨产品和自研大模型,拓展商业化能力等。数月前,「Tiamat」已经获得由DCM独家领投的数百万美元天使轮融资。
36氪曾报道过的「Tiamat」是一家国内AI图像生成技术服务商,成立于2021年。其自研的MorpherVLM是国内首个基于概念融合范式提出的近百亿级跨模态生成模型,通过异构的视觉编码-解码网络结构,并引入基于用户反馈的强化学习(RLHF)和细粒度的提示-隐变量对齐技术,提高了模型对图像多尺度信息的建模能力,在用户Prompt输入的理解能力方面也实现了进步。
去年夏天,AI Art一跃成为了热度最高的新兴技术,在设计、绘画等专业化领域的影响力不亚于如今ChatGPT带来的全民狂欢。
AIGC的结构性机会下,“不追逐风口,但等到了风口”是技术型创业者和资本最愿意看到的拥抱创新的方式。而在时间差方面,「Tiamat」从2021年开始进行模型训练,以自研并自主训练底层模型的方式,始终与海外技术节点、开源社区等保持着同频。
“我们拼命地想告诉大家,这件事情很快就会成为风口。”
「Tiamat」创始人青柑告诉36氪,去年上半年融资的时候,他们还需要花很多精力去教育市场,解释什么是AI生成,什么是多模态,为什么要做图像。彼时,距离Stable Diffusion、MidJourney这些引领着行业革新的产品上线还有几个月左右的时间。
而作为国内AI生成图像领域的第一批团队,「Tiamat」如今也成为了为数不多成功融资并实现了商业化的技术服务商。
为此,36氪对话了「Tiamat」创始人青柑和联合创始人Eric,从「Tiamat」自研大模型和商业化的阶段性成果出发,探讨AIGC未来在国内市场的应用可行性。
36氪:从大模型出发,AI绘画和以ChatGPT为代表的对话式AI有哪些差异?
青柑:AIGC中的不同赛道其实会有很多细节上的差异。首先,是这些模型涉及的是单一模态还是多模态。我们的模型打通的是多个模态,体现在用户可以用文本去指导生成的图像,或者也可以用一张草图得到新的生成结果。而ChatGPT作为聚焦在文本领域的理解和生成模型,它只有文字这一个模态。但与此同时,它的参数非常多,需要花大量的时间和数据去清洗有害信息,所以实际上花费的时间精力和算力是远大于我们AI Art领域的。从一个比较直观的感受切入,如果文本出现了一些逻辑上的错误或对话上的失真,用户可以很快地感受到,而不像对于图片的细微瑕疵可能会有更好的包容度。
我们现在正在做的「Tiamat」文本到图像模型,大概是数十亿参数,这个量级实际上要比ChatGPT文本模型的参数量要低将近100倍左右。换算成他们当年发展的话,大概是在GPT1-2之间。所以,虽然都叫大模型,其实数据和参数量级还是有很大区别的。在此基础上,对于我们来说,不停地把模型的参数量级进行扩张并不是最重要的指标。
Eric:除了模态和输入种类上的区别之外,生成的任务是另一个可供参考的维度。我们在谈论AI的时候其实有很多解释空间,比如人脸识别、大数据文本分析等,他们更多地在于理解数据。但回归到AIGC领域,更多的则是在理解的基础上生成。ChatGPT首先能够做到很好地理解你的输入内容,并调用潜藏在自己参数里的知识,对人类的输入作出反应。在这一方面我们可以与ChatGPT做一个类比。我们会用多个不同的网络把用户的输入放到一个对AI来说比较自然的空间里,再从这个空间中去找到合适的解答。这与以往生成理解类的AI是不太一样的。
36氪:那么对于AI生成图像来说,更重要的指标有哪些?
青柑:更重要的指标在于能不能在垂直领域有更好的精准性和可控性,能不能更好地让图像展现出人类理想的构图、或者一致性的角色等等。除此之外,我们自研的考虑也来自如何能让研发的成本结构更加精益和可控。从这一点来说,创业公司也会有更多机会。刚才提到,图像文本多模态生成的领域参数量级更低,在标注数据和训练上的成本也可以有效压缩。整个图像类的AIGC创新更加关注具体的技术路径和商业化上的突破,成本压力相对较小。而文本领域目前的一次训练可能会花掉几十到几百万美元,成本是巨大的。
Eric:是的,同时可控性也是一个和商业化应用息息相关的指标。我们在谈论大模型的时候会有一个问题,很多大模型都是在大规模的数据集上构建的,其中大部分来源于互联网上获取的知识,问题随之产生:如何用人类可以操控的方式去做这些大模型可以做的事情?我们都知道,OpenAI的GPT-3和ChatGPT在技术上是同源的,但是ChatGPT效果明显好得多,大家也直观感受到了它在各行各业的应用。而在技术环节,就是因为ChatGPT比GPT-3多了一个用人类的反馈来自我学习的过程,可以使得它的应用更符合期望。所以,我们在做「Tiamat」生成模型的时候也会格外在意这一点,就是怎么样能让生成结果符合用户的期望。
36氪:从去年下半年开始,AIGC跑得非常快,整个行业在被资本推着走,可能还没有来得及出现一个得到广泛印证的商业模式,「Tiamat」在商业化方面是如何考虑的?
青柑:从创业开始,我们就在自研图像模型,自己去训练,一步步的优化和迭代。所以目前为止,我们应该是国内AI图像领域在商业化方面跑得最快的。去年Q4,我们有几百万元的合同订单。因为图像领域其实需要的是更加专业化、垂直化的理解生成。以我们正在商业化的服装领域为例。服装领域现在需要AI来代替设计师或者帮设计师寻找灵感,那么首先他们的输入方式一定是服装设计领域的“黑话”,比如什么样的领口版式、版型,不一定是外行能够理解到的行业知识。所以我们在去做行业模型的时候会先去理解设计师之间的沟通语言,再去理解对应的图片,在此过程中可能需要重新去构建一些图像文本作为训练数据集。
此外,我们还会通过一些方法去增强AI对行业的理解,基于大模型去调整,然后才能做行业的专有模型。所以比起其他非自研的图像生成公司,这是我们能够体现出优势的地方。
36氪:在当下的开源趋势中,非自研模型还有哪些弊端?
青柑:文本图像生成这个领域基本上是从去年二三月份开始公开测试,去年七八月份,SD(Stable Diffusion)这一类开源模型放出来之后,紧接着就有大量的创业者入局。但开源模型的参数本身是固定的,模型中本身没有特定行业的知识和术语,未经进一步的有效训练,很多用户输入都难以被理解。而且在我们看来,纯开源模型本身在图像的精准性和可控性上其实还是有一些问题。所以在国内市场经常会遇到的一些情况是,一些厂商需要图像生成的供应商,可能会找到一些用了开源模型的公司,发现没法达到好的效果,然后再来找我们。所以,自研也是我们商业化比较顺利的理由之一,因为非自研的服务商始终不能特别直接地生成一个行业想要的东西。
Eric:开源的另一个问题是数据训练细节上的模仿难度。因为Stable Diffusion虽然本身的模型结果是开源了出来,但其实现在大家对于其中一些具体的训练方法和细节仍然是不明确的。就好比说,如果我们想要做一个ChatGPT,这一系列的论文都是开放出来的,大家也大概知道它使用的参数和数据量在什么规模,但如果真的想要从零去做ChatGPT,遇到的难度会远比收集这么多数据要大。所以当我们在强调自研的时候,也意味着我们踩过很多图像生成工程化的坑,现在才能取得一个比较好的阶段成果。
36氪:经过一段时间的商业化沉淀后,发现了来自哪些具体行业的商业化潜力?
青柑:我们最开始聚焦的是一些垂直领域的中小型企业,因为他们有很多定制化属性或者跨界合作的需求,在市场层面的动作也是最活跃的,接受度更高,客户反馈也更多。其中目前发展得最好的行业其实还是广告、还有相关设计行业的,因为无论从调性、感兴趣程度、需求强烈度还是预算几个方面来说,这一领域的中小B表现都比较好。合作大多数都是主动找过来的,通过一些定制化的案例来帮助我们更深入地了解具体商业场景中的痛点。
36氪:在行业模型上的积累是AIGC商业化的核心壁垒吗?
青柑:从我们的视角出发是的,甚至于行业的数据会变得越来越重要。因为随着之后大家可能都会想要拥有AI技术,拉开差距的可能就是数据量、如何筛选有效数据、哪些数据是独有的,包括用户的正反反馈数据也包含在内。这些东西会逐渐成为各个AI公司的壁垒,而且会逐渐走向不同的垂直领域。数据收集的类型不一样,也会产生不同的影响。
36氪:“大厂”入局AIGC会让创业公司产生压力吗?
青柑:我们训练大模型,其实目标是找到一个更有效、更有优势的功能性定义。对于大厂来说,基于产品生态,在训练语料的数据量上会有一定优势,但可用性上不一定更强。再加上中文的语汇环境特点更加复杂,数据清洗难度很大,目前实际可用性的文本量级并没有这么高,可能仅为英文语境可用性的1/20。同时,就图像生成来说,更并没有观察到像文本领域一样由参数量引发的质变。
因此,在数据清洗和数据选择这一方面,大厂要去经历的流程和创业公司没有太大区别。当然也不排除大厂有更好的驱动力和更多擅长数据清洗的人。但从我们的技术视角来说,我们平时会开玩笑说,其实并不担心大厂突然做一个非常强的东西出来,而是会担心再出现一个很聪明的年轻人用有限的资源做出了一个很有意思的技术和方向,解决了一个复杂的问题。因为现在看来,AI可能会离现代技术更近,但如果一项技术的工程化潜力没有那么强,关于它的任何遐想,很快就会在下一代技术出现的时候被迭代掉。
36氪:如何评价ChatGPT引发的“AI浪潮”?
Eric:现在的AI技术其实比较像之前的影像技术,到了一个关键的技术节点之后自然会有一些不同的流向。比如有些是做照相机,有些做摄影机,而ChatGPT在产品化方面就像是直接做了个电视。大家现在的冲动可能来自于,有一天看到了电视,看到里面的一个影像化呈现非常感兴趣,引发了对整个成像技术的兴趣。但其实在用户兴趣的背后,不同的技术在不同的流向里都是有各自的发展的。单纯地去做影像或者相机本身,也可以发展出徕卡、佳能这样的应用端公司,中间层也有蔡司镜头等。细分市场的延伸不同,大家都有自己独有的数据,但技术节点后的市场空间会非常广阔,每个赛道都有可能催生非常大的公司。
ChatGPT一个很重要的意义是提高了大家对AI的接受程度。以前AI只是帮人类解决辅助性的问题,比如识别分析和判定。但现在关于AI的讨论已经发展到了如何和人的工作流进行有机结合,哪些环节应该直接交给AI来做,要做到什么程度,形成怎样的互动或者相互依存的关系。但这些都要针对接入特定的商业场景和工作流。
36氪:我们怎样去理解将AIGC融合进工作流的重要性?
青柑:在一点上,图像生成和文本可能又会存在比较大的区别。比如说AI帮我写了一封邮件、一段文字,它可以很顺滑地融入生产力工具,提高编辑效率,比如Notion AI。但图像生成的最终判定标准就是图片本身,比起工具体验的好坏,大家可能更关注图片效果。因为SD在开源之后大家其实做了很多插件,放到Blender、Figma等生产力环境中,但更多用户并没有很顺滑地去用这些插件,而是更愿意去MidJourney生成一张图片复制下载到工具中使用。根本原因就是MidJourney的生成质量要好很多。当然,生成图像之后一些二次编辑的小功能是大家愿意去快速使用的,但这和他们过去使用的软件并不冲突。整体来说我的感受是,在图像生成领域,目前工具化的接入方式还没有成为用户关注的重点。
36氪:「Tiamat」未来会考虑做文本语言模型吗?
青柑:我们公司的整体风格和选择方向都比较专注。我们非常信服前沿技术,但更加关注的是当下的技术能不能解决当下的问题。也许有能力的人会去努力成为“中国的OpenAI”,但目前来说,我们还没有去做ChatGPT这样的文本大模型的理由。因为对于一家创业公司来说,如果能把图像模型的可控性、精准性和连续性做到最好,它其实就已经能带来很多垂直行业和场景下的商业化应用了。比如去支持更加细分的、特定的设计行业,帮助它们完成生产力提效。
比较让我们高兴的一点是,我们看到AI技术正在向一个“新的互联网”形式进发,而我们在产品战略方面也会更加审慎。一个很具代表性的现象是,OpenAI可能都还没有想好ChatGPT的商业化应用场景,国内的创业公司反而会把这些问题想得更清楚。总体来说,AI是一个新的主题,每一个细分领域都值得被认真打磨,大家聚焦在各自擅长的地方,才能形成更好的产业。
---------------------------------------------------
DCM中国创始合伙人、董事合伙人林欣禾表示:“AIGC正在走向真实落地,不仅要保持对前沿技术的探索,捕捉到更多的商业化机会也更为重要。将AI能力迁移到不同场景,同时满足效率和成本的要求,AI才有更大的价值。”
绿洲资本表示:“「Tiamat」通过生成式 AI,结合已知文本或图像文件,自动生成新的图像数字内容,突破了专业插画师、设计师、数字艺术工作者在创作中的效率桎梏问题。绿洲资本自去年上半年就已经开始关注 AIGC 为产业带来的底层变化,我们认为「Tiamat」基于特定风格管线的积累,以及在社区用户之间的广泛影响力,必定会向用户提供新一代的创意设计工具产品。「Tiamat」正在围绕设计的垂直场景,逐步构建出一套 "AIGC-based" 工作流,我们相信这将会给整个创意行业带来巨大的变革。”