Do VLMs Need Vision Transformers? Evaluating State Space 模型 (Model)s as Vision Encoders
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

作者
Authors Shang-Jui Ray Kuo, Paola Cascante-Bonilla

期刊
Journal arXiv

年份
Year 2026

分类
Category 机器学习
Machine Learning

国家
Country 德国Germany

🔗 访问原文
🔗 Access Paper

📝 摘要
Abstract

Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.

📊 文章统计
Article Statistics

基础数据
Basic Stats

304 浏览
Views

0 下载
Downloads

6 引用
Citations

引用趋势
Citation Trend

阅读国家分布
Country Distribution

阅读机构分布
Institution Distribution

月度浏览趋势
Monthly Views

影响因子分析
Impact Analysis

7.30 综合评分
Overall Score

引用影响力
Citation Impact

浏览热度
View Popularity

下载频次
Download Frequency

Do VLMs Need Vision Transformers? Evaluating State Space 模型 (Model)s as Vision Encoders
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

📝 摘要
Abstract

📊 文章统计
Article Statistics

基础数据
Basic Stats

引用趋势
Citation Trend

阅读国家分布
Country Distribution

阅读机构分布
Institution Distribution

月度浏览趋势
Monthly Views

相关关键词
Related Keywords

影响因子分析
Impact Analysis

📄 相关文章
Related Articles

Do VLMs Need Vision Transformers? Evaluating State Space 模型 (Model)s as Vision EncodersDo VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

📝 摘要Abstract

📊 文章统计Article Statistics

基础数据Basic Stats

引用趋势Citation Trend

阅读国家分布Country Distribution

阅读机构分布Institution Distribution

月度浏览趋势Monthly Views

相关关键词Related Keywords

影响因子分析Impact Analysis

📄 相关文章Related Articles

海洋智能分析Ocean AI Analysis

Do VLMs Need Vision Transformers? Evaluating State Space 模型 (Model)s as Vision Encoders
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

📝 摘要
Abstract

📊 文章统计
Article Statistics

基础数据
Basic Stats

引用趋势
Citation Trend

阅读国家分布
Country Distribution

阅读机构分布
Institution Distribution

月度浏览趋势
Monthly Views

相关关键词
Related Keywords

影响因子分析
Impact Analysis

📄 相关文章
Related Articles