多模态模型,多模态中的对齐是什么

多模态特征对齐 2023-11-29 11:50 369 墨鱼

多模态特征对齐

多模态模型,多模态中的对齐是什么

≡(▔﹏▔)≡ 多模态学习是一个目前热度逐年递增的研究领域，如果大家感兴趣，欢迎留言反馈，后续我们会考虑推出几个热门MMML 方向的经典or前沿论文、模型解析。如果想入门MMML 或者希望对该领多模态大模型的原理基于深度学习和人工智能技术，通过对大量数据的学习和训练，构建一个综合性的模型，可以同时处理多种数据类型。这种模型可以通过对不同数据类型的特征提取和

,这三个领域的研究也都在这几年得到了快速的发展，今天我们就来看看其交叉的领域即文字+图像的图文多模态，其实多模态涉及的领域很多，今天我们只看文字+图像这一分支(下文提到的多模态在传统的NLP单模态领域，表示学习的发展已经较为完善，而在多模态领域，由于高质量有标注多模态数据较少，因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer

多模态模型总结BEiT-3 Image as a Foreign Language:BEiT Pretraining for ALLvisionand Vision-language Tasks 提出背景：在计算机视觉领域(CV)通常使用的是有监督的预训练，就是模型结构：模型结构方面主要包括Encoder-only和Encoder-Decoder两种类型。一般比较常见的是Encoder-only结构。对于Encoder-Decoder结构，将Encoder得到的多模态表示输入到Decoder中

ˇωˇ 多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机在这里，我们从两个不同的角度介绍多模态模型结构：1. 从多模态融合的角度介绍单流和双流。2.从整体架构设计的角度介绍Encoder-only和Encoder-decoder。单流和双流单流架构指的是将文本和视觉特

╯﹏╰ CV常用模型：VGG, ResNet,是基于ImageNet的CNN模型，对图片进行类别预测，常用作图片分类，图片检索，目标检测任务。一般，会通过这些模型提取的视觉特征，再进行task-specific模型。NLP常多模态深度学习模型能够比浅层学习模型得到更加有效的跨模态数据融合结果。5、作者提出的解决方法提出基于深

后台-插件-广告管理-内容页尾部广告（手机）

标签：多模态中的对齐是什么