多模态遥感基础大模型:研究现状与未来展望
张永军, 李彦胜, 党博, 武康, 郭昕, 王剑, 陈景东, 杨铭

Multi-modal remote sensing large foundation models: current research status and future prospect
Yongjun ZHANG, Yansheng LI, Bo DANG, Kang WU, Xin GUO, Jian WANG, Jingdong CHEN, Ming YANG
表2 大规模遥感视觉-语言预训练数据集
Tab.2 Large-scale remote sensing vision-language pre-training datasets
数据集数量属性
RSICD[30]24 333个文本描述、10 921张遥感影像图像-文本描述
RSITMD[31]23 715个文本描述、4743张遥感影像图像-文本描述
RSVGD[32]38 320个语言表达、17 402张遥感影像视觉定位
RS5M[33]500万个图像文本对图像-文本描述
RSICap[34]2585个图像文本对图像-文本描述
文献[35]828 725个图像文本对图像-文本描述
文献[36]318 000个图像指令提示对图像-文本描述、定位描述、区域描述、复杂对话