多模态遥感基础大模型：研究现状与未来展望

多模态遥感基础大模型：研究现状与未来展望

张永军, 李彦胜, 党博, 武康, 郭昕, 王剑, 陈景东, 杨铭

Multi-modal remote sensing large foundation models: current research status and future prospect

Yongjun ZHANG, Yansheng LI, Bo DANG, Kang WU, Xin GUO, Jian WANG, Jingdong CHEN, Ming YANG

表2 大规模遥感视觉-语言预训练数据集

Tab.2 Large-scale remote sensing vision-language pre-training datasets

数据集	数量	属性
RSICD^[30]	24 333个文本描述、10 921张遥感影像	图像-文本描述
RSITMD^[31]	23 715个文本描述、4743张遥感影像	图像-文本描述
RSVGD^[32]	38 320个语言表达、17 402张遥感影像	视觉定位
RS5M^[33]	500万个图像文本对	图像-文本描述
RSICap^[34]	2585个图像文本对	图像-文本描述
文献[35]	828 725个图像文本对	图像-文本描述
文献[36]	318 000个图像指令提示对	图像-文本描述、定位描述、区域描述、复杂对话