云从科技发布3D行为识别基础大模型-武陵观察网

9月22日，记者从云从科技获悉，在近日举行的国际计算机视觉大会（ICCV2023）细粒度行为检测挑战赛中，云从科技的云从从容大模型展示了对多种模态信息的理解和处理能力，刷新世界纪录，在行为分类赛道中斩获冠军。

多模态到底意味着什么？当你输入一张照片，并用语音或文字“指挥”AI将其部分抠图修改，并发送给朋友时，它能立即理解并完成指令。多模态交互降低了AI使用的门槛，使AI有望成为万千大众都能使用的生产工具和个人助理。

如今，多模态大模型已成为大模型迈向通用人工智能（AGI）目标的下一个前沿焦点。大模型具有强大的表征能力，并且在多模态（如语言、音频、图像、视频、视觉语言）上得到验证，云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型。

3D行为识别技术相比2D图像识别增加了时间维度的建模，是以人为中心的感知任务的重要组成部分，一直是人工智能领域的研究热点。

该模型基于Vision Transformer（视觉自注意力模型）结构进行设计，通过自注意力机制将空间维度和时间维度的信息进行充分关联。

基于大模型预训练获得的基础时空特征，能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段，通过帧间信息互补的方式自适应去除模型冗余的部分，极大提升了下游任务的训练和推理速度。

本次挑战赛数据集包含491个日常生活中的人类行为，部分行为之间只有极其微小的差别，需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。

挑战赛中，云从科技从容大模型凭借在视觉领域的积累，在数据集粗粒度（coarse）行为类别上精度达到93.87%，在细粒度（fine-grain）行为类别上精度达到91.96%，识别精度相比上一届冠军方案高出4%以上。

准确率的大幅提升表明大模型在时空关系特征建模上的优势，意味着3D行为识别算法已经迈入多模态大模型时代，将极大提升该技术的商业应用价值。目前，该技术已在金融、安防等领域得到了广泛应用，例如人员动作合规识别，打架、跌倒等行为检测。