我们希望AI大模型能像人脑一样,学习、思考甚至是创造,然而这一点对目前的AI大模型来说依然是非常具有挑战性的。我们生活在一个多模态的世界,人脑在感知和理解这个世界的过程中不仅仅局限于单一模态,而是会结合听觉、视觉甚至触觉、嗅觉等多个模态共同完成。
因此,我们希望在AI大模型中引入多模态的信息,尝试使用不同模态之间的交互进一步增强AI大模型的语义信息建模能力。但随之而来的是,如何合理地刻画模态之间的关联关系呢?我们的文澜团队针对这个问题提出了模态间的强关联和弱关联关系,并创新性地利用双塔模型建模图像和文本模态之间的“弱相关”,这是文澜2.0 AI大模型取得突破性进展的关键点之一。