智能遥感大模型研究进展与发展方向

doi:10.11947/j.AGCS.2024.20240053.

[1]

JIAO

Licheng

, HUANG

Zhongjian

, LU

Xiaoqiang

, et al.

Brain-inspired remote sensing foundation models and open problems: a comprehensive survey

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16:10084-10120.

[本文引用: 1]

[2]

DIAS

P

, POTNIS

A

, GUGGILAM

S

, et al.

An agenda for multimodal foundation models for earth observation

[C]//Proceedings of 2023 IEEE International Geoscience and Remote Sensing Symposium. Pasadena: IEEE, 2023: 1237-1240.

[本文引用: 1]

[3]

LECUN

Y

, BOTTOU

L

, BENGIO

Y

, et al.

Gradient-based learning applied to document recognition

[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[本文引用: 1]

[4]

MIKOLOV

T

, CHEN

Kai

, CORRADO

G

, et al.

Efficient estimation of word representations in vector space

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1301.3781v3.

[本文引用: 1]

[5]

VASWANI

A

, SHAZEER

N

, PARMAR

N

, et al.

Attention is all you need

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1706.03762.

[本文引用: 1]

[6]

BROWN

T B

, MANN

B

, RYDER

N

, et al.

Language models are few-shot learners

[C]//Proceedings of the 34th International Confe-rence on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2020.

[本文引用: 1]

[7]

OpenAI.

GPT-4 technical report

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2303.08774.

[本文引用: 1]

[8]

ANIL

R

, BORGEAUD

S

, WU

Yonghui

, et al.

Gemini: a family of highly capable multimodal models

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2312.11805v4.

[本文引用: 1]

[9]

BOMMASANI

R

, HUDSON

D A

, ADELI

E

, et al.

On the opportunities and risks of foundation models

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2108.07258v3.

[本文引用: 1]

[10]

TAO

Chao

, QI

Ji

, GUO

Mingning

, et al.

Self-supervised remote sensing feature learning: learning paradigms, challenges, and future works

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:5610426.

[11]

HONG

Danfeng

, ZHANG

Bing

, LI

Xuyang

, et al.

SpectralGPT: spectral remote sensing foundation model

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2311.07113v3.

[本文引用: 2]

[12]

张良培, 张乐飞, 袁强强.

遥感大模型：进展与前瞻

[J]. 武汉大学学报(信息科学版), 2023, 48(10):1574-1581.

[本文引用: 2]

ZHANG

Liangpei

, ZHANG

Lefei

, YUAN

Qiangqiang

.

Large remote sensing model: progress and prospects

[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10):1574-1581.

[本文引用: 2]

[13]

LI

Xiang

, WEN

Congcong

, HU

Yuan

, et al.

Vision-language models in remote sensing: current progress and future trends

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2305.13456.

[本文引用: 1]

[14]

CHEN

M

, RADFORD

A

, CHILD

R

, et al.

Generative pretraining from pixels

[C]//Proceedings of the 37th International Conference on Machine Learning. [S.l.]: JMLR, 2020: 1691-1703.

[本文引用: 1]

[15]

DEVLIN

J

, CHANG

Mingwei

, LEE

K

, et al.

BERT: pre-training of deep bidirectional transformers for language understanding

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1810.04805.

[本文引用: 1]

[16]

KIRILLOV

A

, MINTUN

E

, RAVI

N

, et al.

Segment anything

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2304.02643v1.

[本文引用: 1]

[17]

乐鹏, 刘瑞祥, 上官博屹, 等.

地理人工智能样本：模型、质量与服务

[J]. 武汉大学学报(信息科学版), 2023, 48(10):1616-1631.

[本文引用: 1]

YUE

Peng

, LIU

Ruixiang

, SHANGGUAN

Boyi

, et al.

GeoAI training data: model, quality, and services

[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10):1616-1631.

[本文引用: 1]

[18]

付琨, 卢宛萱, 刘小煜, 等.

遥感基础模型发展综述与未来设想

[J]. 遥感学报, 2023, 28(7):1667-1680.

[本文引用: 1]

FU

Kun

, LU

Wanxuan

, LIU

Xiaoyu

, et al.

A comprehensive survey and assumption of remote sensing foundation modal

[J]. National Remote Sensing Bulletin, 2023, 28(7):1667-1680.

[本文引用: 1]

[19]

LONG

Yang

, XIA

Guisong

, LI

Shengyang

, et al.

On creating benchmark dataset for aerial image interpretation: reviews, guidances, and million-AID

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14:4205-4230.

[本文引用: 1]

[20]

BASTANI

F

, WOLTERS

P

, GUPTA

R

, et al.

SatlasPretrain: a large-scale dataset for remote sensing image understanding

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2211.15660v3.

[本文引用: 1]

[21]

HU

Yuan

, YUAN

Jianlong

, WEN

Congcong

, et al.

RSGPT: a remote sensing vision language model and benchmark

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2307.15266v1.

[本文引用: 1]

[22]

KUCKREJA

K

, DANISH

M S

, NASEER

M

, et al.

GeoChat: grounded large vision-language model for remote sensing

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2311.15826v1.

[本文引用: 1]

[23]

VAN ETTEN

A

, LINDENBAUM

D

, BACASTOW

T M

.

SpaceNet: a remote sensing dataset and challenge series

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1807.01232v3.

[本文引用: 1]

[24]

WANG

Zhecheng

, PRABHA

R

, HUANG

Tianyuan

, et al.

SkyScript: a large and semantically diverse vision-language dataset for remote sensing

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2312.12856v1.

[本文引用: 2]

[25]

CHRISTIE

G

, FENDLEY

N

, WILSON

J

, et al.

Functional map of the world

[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018.

[本文引用: 1]

[26]

GUO

Xin

, LAO

Jiangwei

, DANG

Bo

.

SkySense: a multi-modal remote sensing foundation model towards universal interpretation for earth observation imagery

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2312.10115.

[本文引用: 1]

[27]

SUMBUL

G

, DE WALL

A

, KREUZIGER

T

, et al.

BigEarthNet-MM: a large-scale, multimodal, multilabel benchmark archive for remote sensing image classification and retrieval

[J]. IEEE Geoscience and Remote Sensing Magazine, 2021, 9(3):174-180.

[本文引用: 1]

[28]

SCHMITT

M

, HUGHES

L H

, QIU

C

, et al.

SEN12MS—a curated dataset of georeferenced multi-spectral Sentinel-1/2 imagery for deep learning and data fusion

[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2019, Ⅳ-2/W7:153-160.

[本文引用: 1]

[29]

SUN

Xian

, WANG

Peijin

, LU

Wanxuan

, et al.

RingMo: a remote sensing foundation model with masked image modeling

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:3194732.

[本文引用: 1]

[30]

WU

Qiusheng

, OSCO

L P

.

Samgeo: a Python package for segmenting geospatial datawith the segment anything model (SAM)

[J]. Journal of Open Source Software, 2023, 8(89):5663.

[本文引用: 1]

[31]

WANG

Di

, ZHANG

Jing

, DU

Bo

, et al.

SAMRS: scaling-up remote sensing segmentation dataset with segment anything model

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2305.02034v4.

[本文引用: 1]

[32]

CHEN

Keyan

, LIU

Chenyang

, CHEN

Hao

, et al.

RSPrompter: learning to prompt for remote sensing instance segmentation based on visual foundation model

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2306.16269.

[本文引用: 1]

[33]

HE

Kaiming

, CHEN

Xinlei

, XIE

Saining

, et al.

Masked autoencoders are scalable vision learners

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2111.06377v3.

[本文引用: 1]

[34]

GRILL

J B

, STRUB

F

, ALTCHÉ

F

, et al.

Bootstrap your own latent: a new approach to self-supervised Learning

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2006.07733v3.

[本文引用: 1]

[35]

CHEN

Xinlei

, XIE

Saining

, HE

Kaiming

.

An empirical study of training self-supervised vision transformers

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2104.02057v4.

[本文引用: 1]

[36]

CARON

M

, TOUVRON

H

, MISRA

I

, et al.

Emerging properties in self-supervised vision transformers

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2104.14294v2.

[本文引用: 1]

[37]

向鹏

.

周成虎院士：从遥感大数据到遥感大模型

[J]. 高科技与产业化, 2023, 29(9):16-19.

[本文引用: 1]

XIANG

Peng

.

Academician ZHOU Chenghu: from remote sensing big data to remote sensing big model

[J]. High-Technology & Commercialization, 2023, 29(9):16-19.

[本文引用: 1]

[38]

杨必胜, 陈一平, 邹勤.

从大模型看测绘时空信息智能处理的机遇和挑战

[J]. 武汉大学学报(信息科学版), 2023, 48(11):1756-1768.

YANG

Bisheng

, CHEN

Yiping

, ZOU

Qin

.

Opportunities and challenges of spatiotemporal information intelligent processing of sur-veying and mapping in the era of large models

[J]. Geomatics and Information Science of Wuhan University, 2023, 48(11):1756-1768.

[39]

罗锦钊, 孙玉龙, 钱增志, 等.

人工智能大模型综述及展望

[J]. 无线电工程, 2023, 53(11):2461-2472.

[本文引用: 1]

LUO

Jinzhao

, SUN

Yulong

, QIAN

Zengzhi

, et al.

Overview and prospect of artificial intelligence large models

[J]. Radio Engineering, 2023, 53(11):2461-2472.

[本文引用: 1]

[40]

LIU

Fan

, CHEN

Delong

, GUAN

Zhangqingyun

, et al.

RemoteCLIP: a vision language foundation model for remote sensing

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2306.11029v4.

[本文引用: 3]

[41]

JAIN

P

, SCHOEN-PHELAN

B

, ROSS

R

.

Self-supervised learning for invariant representations from multi-spectral and SAR images

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15:7797-7808.

[本文引用: 1]

[42]

ZHAO

Dong

, YANG

Ruizhi

, WANG

Shuang

, et al.

Semantic connectivity-driven pseudo-labeling for cross-domain segmentation

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2312.06331v1.

[本文引用: 1]

[43]

CONG

Yezhen

, KHANNA

S

, MENG

Chenlin

, et al.

SatMAE: pre-training transformers for temporal and multi-spectral satellite imagery

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2207.08051v3.

[本文引用: 1]

[44]

WANG

Di

, ZHANG

Qiming

, XU

Yufei

, et al.

Advancing plain vision transformer toward remote sensing foundation model

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:5607315.

[本文引用: 1]

[45]

WANG

Di

, ZHANG

Jing

, DU

Bo

, et al.

An empirical study of remote sensing pretraining

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:5608020.

[本文引用: 1]

[46]

REED

C J

, GUPTA

R

, LI

Shufan

, et al.

Scale-MAE: a scale-aware masked autoencoder for multiscale geospatial representation learning

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2212.14532v4.

[本文引用: 1]

[47]

WANYAN

Xinye

, SENEVIRATNE

S

, SHEN

Shuchang

, et al.

DINO-MC: self-supervised contrastive learning for remote sensing imagery with multi-sized local crops

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2303.06670.

[本文引用: 1]

[48]

KHANNA

S

, LIU

P

, ZHOU

Linqi

, et al.

DiffusionSat: a generative foundation model for satellite imagery

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2312.03606v2.

[本文引用: 1]

[49]

YUAN

Zhiqiang

, ZHANG

Wenkai

, TIAN

Changyuan

, et al.

MCRN: a multi-source cross-modal retrieval network for remote sensing

[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 115:103071.

[本文引用: 1]

[50]

MAI

Gengchen

, LAO

Ni

, HE

Yutong

, et al.

CSP: self-supervised contrastive spatial pre-training for geospatial-visual representations

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2305.01118v2.

[本文引用: 1]

[51]

CEPEDA

V V

, NAYAK

G K

, SHAH

M

.

GeoCLIP: clip-inspired alignment between locations and images for effective worldwide geo-localization

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2309.16020.

[本文引用: 1]

[52]

KLEMMER

K

, ROLF

E

, ROBINSON

C

, et al.

SatCLIP: global, general-purpose location embeddings with satellite imagery

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2311.17179v3.

[本文引用: 1]

[53]

HEIDLER

K

, MOU

Lichao

, HU

Di

, et al.

Self-supervised audiovisual representation learning for remote sensing data

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2108.00688v2.

[本文引用: 2]

[54]

RADFORD

A

, KIM

J W

, HALLACY

C

, et al.

Learning transferable visual models from natural language supervision

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2103.00020.

[本文引用: 2]

[55]

KIM

W

, SON

B

, KIM

I

.

ViLT: vision-and-language transformer without convolution or region supervision

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2102.03334.

[56]

BAO

Hangbo

, WANG

Wenhui

, DONG

Li

, et al.

VLMo: unified vision-language pre-training with mixture-of-modality-experts

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2111.02358v2.

[本文引用: 1]

[57]

SU

Weijie

, ZHU

Xizhou

, CAO

Yue

, et al.

VL-BERT: pre-training of generic visual-linguistic representations

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1908.08530v4.

[本文引用: 1]

[58]

CHEN

Y C

, LI

Linjie

, YU

Licheng

, et al.

UNITER: universal image-text representation learning

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1909.11740.

[本文引用: 1]

[59]

LU

Jiasen

, BATRA

D

, PARIKH

D

, et al.

ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1908.02265v1.

[本文引用: 1]

[60]

JIA

Chao

, YANG

Yinfei

, XIA

Ye

, et al.

Scaling up visual and vision-language representation learning with noisy text supervision

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2102.05918v2.

[本文引用: 1]

[61]

AKBARI

H

, YUAN

Liangzhe

, QIAN

Rui

, et al.

VATT: transformers for multimodal self-supervised learning from raw video, audio and text

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2104.11178v3.

[本文引用: 1]

[62]

RAMESH

A

, DHARIWAL

P

, NICHOL

A

, et al.

Hierarchical text-conditional image generation with CLIP latents

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2204.06125v1.

[本文引用: 1]

[63]

DING

Ming

, YANG

Zhuoyi

, HONG

Wenyi

, et al.

CogView: mastering text-to-image generation via transformers

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2105.13290v3.

[本文引用: 1]

[64]

HO

J

, JAIN

A

, ABBEEL

P

.

Denoising diffusion probabilistic models

[J]. Advances in Neural Information Processing Systems, 2020, 33:6840-6851.

[本文引用: 1]

[65]

ROMBACH

R

, BLATTMANN

A

, LORENZ

D

, et al.

High-resolution image synthesis with latent diffusion models

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2112.10752v2.

[本文引用: 1]

[66]

WANG

Xiao

, CHEN

Guangyao

, QIAN

Guangwu

, et al.

Large-scale multi-modal pre-trained models: a comprehensive survey

[J]. Machine Intelligence Research, 2023, 20(4):447-482.

[本文引用: 1]

[67]

付琨, 王佩瑾, 冯瑛超, 等.

遥感跨模态智能解译：模型、数据与应用

[J]. 中国科学：信息科学, 2023, 53(8):1529-1559.

FU

Kun

, WANG

Peijin

, FENG

Yingchao

, et al.

Cross-modal remote sensing intelligent interpretation: method, data, and application

[J]. Scientia Sinica (Informationis), 2023, 53(8):1529-1559.

[68]

ZHU

Deyao

, CHEN

Jun

, SHEN

Xiaoqian

, et al.

MiniGPT-4: enhancing vision-language understanding with advanced large language models

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2304.10592v2.

[69]

YE

Qinghao

, XU

Haiyang

, XU

Guohai

, et al.

mPLUG-Owl: modularization empowers large language models with multimodality

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2304.14178v3.

[70]

DRIESS

D

, XIA

F

, SAJJADI

M S M

, et al.

PaLM-E: an embodied multimodal language model

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2303.03378.

[本文引用: 1]

[71]

ZHOU

Bolei

, KHOSLA

A

, LAPEDRIZA

A

, et al.

Learning deep features for discriminative localization

[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2921-2929.

[本文引用: 1]

[72]

SHRIKUMAR

A

, GREENSIDE

P

, KUNDAJE

A

.

Learning important features through propagating activation differences

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1704.02685v2.

[本文引用: 1]

[73]

CHEN

Jiaoyan

, LÉCUÉ

F

, PAN

J Z

, et al.

Knowledge graph embeddings for dealing with concept drift in machine learning

[J]. Journal of Web Semantics, 2021, 67:100625.

[本文引用: 1]

[74]

张继贤, 李海涛, 顾海燕, 等.

人机协同的自然资源要素智能提取方法

[J]. 测绘学报, 2021, 50(8):1023-1032. DOI:.

DOI:10.11947/j.AGCS.2021.20210102 [本文引用: 1]

ZHANG

Jixian

, LI

Haitao

, GU

Haiyan

, et al.

Study on man-machine collaborative intelligent extraction for natural resource features

[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8):1023-1032. DOI:.

DOI:10.11947/j.AGCS.2021.20210102 [本文引用: 1]

[75]

张继贤, 顾海燕, 杨懿, 等.

高分辨率遥感影像智能解译研究进展与趋势

[J]. 遥感学报, 2021, 25(11):2198-2210.

ZHANG

Jixian

, GU

Haiyan

, YANG

Yi

, et al.

Research progress and trend of high-resolution remote sensing imagery intelligent interpretation

[J]. National Remote Sensing Bulletin, 2021, 25(11):2198-2210.

[76]

张继贤, 顾海燕, 杨懿, 等.

自然资源要素智能解译研究进展与方向

[J]. 测绘学报, 2022, 51(7):1606-1617. DOI:.

DOI:10.11947/j.AGCS.2022.20220109 [本文引用: 1]

ZHANG

Jixian

, GU

Haiyan

, YANG

Yi

, et al.

Research progress and trend of intelligent interpretation for natural resources features

[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(7):1606-1617. DOI:.

DOI:10.11947/j.AGCS.2022.20220109 [本文引用: 1]

[77]

张广运, 张荣庭, 戴琼海, 等.

测绘地理信息与人工智能2.0融合发展的方向

[J]. 测绘学报, 2021, 50(8):1096-1108. DOI:.

DOI:10.11947/j.AGCS.2021.20210200 [本文引用: 1]

ZHANG

Guangyun

, ZHANG

Rongting

, DAI

Qionghai

, et al.

The direction of integration surveying and mapping geographic information and artificial intelligence 2.0

[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8):1096-1108. DOI:.

DOI:10.11947/j.AGCS.2021.20210200 [本文引用: 1]

[78]

张俊, 李灵犀, 林懿伦, 等.

虚实系统互驱的混合增强智能开放创新平台的架构与方案

[J]. 智能科学与技术学报, 2019, 1(4):379-391.

[本文引用: 1]

ZHANG

Jun

, LI

Lingxi

, LIN

Yilun

, et al.

The architecture and scheme of the hybrid-augmented intelligence open innovation platform based on the virtual and real systems

[J]. Chinese Journal of Intelligent Science and Technology, 2019, 1(4):379-391.

[本文引用: 1]

[79]

LI

Zihao

, YANG

Zhuoran

, WANG

Mengdi

.

Reinforcement learning with human feedback: learning dynamic choices via pessimism

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2305.18438v3.

[本文引用: 1]

[80]

WIRTH

C

, AKROUR

R

, NEUMANN

G

, et al.

A survey of preference-based reinforcement learning methods

[J]. Journal of Machine Learning Research, 2017, 18(1):4945-4990.

[81]

OpenAI.

ChatGPT: optimizing language models for dialogue

[EB/OL]. [2024-01-29]. https://blog.cloudhq.net/openais-chatgpt-optimizing-language-models-for-dialogue/.

[82]

LEE

K

, LIU

Hao

, RYU

M

, et al.

Aligning text-to-image models using human feedback

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2302.12192v1.

[83]

METCALF

K

, SARABIA

M

, THEOBALD

B J

.

Rewards encoding environment dynamics improves preference-based reinforcement learning

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2211.06527.

[84]

RUSSO

D

, VAN

ROY B

.

Eluder dimension and the sample complexity of optimistic exploration

[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2013: 2256-2264.

[本文引用: 1]

[85]

CHRISTIANO

P

, LEIKE

J

, BROWN

T B

, et al.

Deep reinforcement learning from human preferences

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1706.03741v4.

[本文引用: 1]

[86]

IBARZ

B

, LEIKE

J

, POHLEN

T

, et al.

Reward learning from human preferences and demonstrations in Atari

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1811.06521v1.

[87]

LEIKE

J

, KRUEGER

D

, EVERITT

T

, et al.

Scalable agent alignment via reward modeling: a research direction

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/1811.07871v1.

[88]

OUYANG

Long

, WU

J

, XU

Jiang

, et al.

Training language models to follow instructions with human feedback

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2203.02155v1.

[89]

赵朝阳, 朱贵波, 王金桥.

ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

[J]. 数据分析与知识发现, 2023, 7(3):26-35.

[本文引用: 1]

ZHAO

ChaoYang

, ZHU

Guibo

, WANG

Jinqiao

.

The inspiration brought by ChatGPT to LLM and the new development ideas of multi-modal large model

[J]. Data Analysis and Knowledge Discovery, 2023, 7(3):26-35.

[本文引用: 1]

[90]

OQUAB

M

, DARCET

T

, MOUTAKANNI

T

, et al.

DINOv2: learning robust visual features without supervision

[EB/OL]. [2024-01-29]. https://arxiv.org/abs/2304.07193v2.

[本文引用: 1]

[91]

GOU

Jianping

, YU

Baosheng

, MAYBANK

S J

, et al.

Knowledge distillation: a survey

[J]. International Journal of Computer Vision, 2021, 129(6):1789-1819.

[本文引用: 1]

[92]

燕琴, 刘纪平, 董春, 等.

地理空间视角下自然资源认知探讨

[J]. 测绘科学, 2022, 47(8):9-17.

[本文引用: 1]

YAN

Qin

, LIU

Jiping

, DONG

Chun

, et al.

Natural resources cognition from the perspective of geographic space

[J]. Science of Sur-veying and Mapping, 2022, 47(8):9-17.

[本文引用: 1]

Brain-inspired remote sensing foundation models and open problems: a comprehensive survey

1

2023

... AI大模型(也称“基础模型”)是人工智能预训练大模型的简称，其主要采用卷积神经网络、循环神经网络、自注意力机制、Transformer等架构，在海量数据上进行训练，能适应多种下游任务，具有很好的泛化性、通用性和实用性，是计算机视觉、自然语言处理等各类AI应用的基石^[1-2]. ...

An agenda for multimodal foundation models for earth observation

1

2023

... AI大模型(也称“基础模型”)是人工智能预训练大模型的简称，其主要采用卷积神经网络、循环神经网络、自注意力机制、Transformer等架构，在海量数据上进行训练，能适应多种下游任务，具有很好的泛化性、通用性和实用性，是计算机视觉、自然语言处理等各类AI应用的基石^[1-2]. ...

Gradient-based learning applied to document recognition

1

1998

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

Efficient estimation of word representations in vector space

1

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

Attention is all you need

1

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

Language models are few-shot learners

1

2020

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

GPT-4 technical report

1

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

Gemini: a family of highly capable multimodal models

1

... AI模型的发展历程(图1)如下：第一个阶段是萌芽期(1950—2005年)，该阶段是以CNN为代表的卷积神经网络阶段.1980年，卷积神经网络的雏形诞生；1998年，现代卷积神经网络的基本结构LeNet-5^[3]诞生.此阶段的AI模型以简单的浅层神经网络为主，不具备处理复杂任务的能力.第二个阶段是探索沉淀期(2006—2019年)，该阶段是以Transformer为代表的全新神经网络模型阶段.2013年，自然语言处理模型Word2Vec^[4]诞生，首次提出将单词转换为向量的“词向量模型”；2017年，Google颠覆性地提出了自注意力机制神经网络结构Transformer^[5]，奠定了大模型预训练算法架构的基础.在此阶段，深度神经网络受到了广泛关注，但提出的模型一般针对的是单一任务，模型的通用性和泛化性不足.第三个阶段是迅猛发展期(2020年至今)，该阶段是以GPT为代表的预训练大模型阶段.2020年，OpenAI公司推出了GPT-3^[6]，模型参数规模达到了1750亿，成为当时最大的语言模型；2023年3月，发布的超大规模多模态预训练大模型GPT-4^[7]，具备了多模态理解与多类型内容生成能力；2023年12月，谷歌推出全新大语言模型Gemini^[8]，具备多模态理解、逻辑推理等能力.此阶段AI模型逐渐落地应用，在生产和生活中发挥越来越重要的作用. ...

On the opportunities and risks of foundation models

1

... AI大模型具有以下价值：①高泛化通用性.大模型由多个专家模型集成，通过学习大量数据和任务获得广泛知识，捕捉更多细节，具有解决多种下游任务的能力，并且可以更好地泛化到新的数据集中.②高精度.具有更多参数和更深层次结构，能对复杂的模式和规律进行准确建模，并通过不断学习和更新参数提高性能和准确度.③降低门槛.大模型可以自动学习更多特征和规律，减少手动特征工程的需求，使开发者能更轻松地构建高质量模型，节省了大量的训练时间和计算资源，并且用户可以通过唯一接口轻松调用各项功能，执行各项下游任务^[9-11]. ...

Self-supervised remote sensing feature learning: learning paradigms, challenges, and future works

0

2023

SpectralGPT: spectral remote sensing foundation model

2

... AI大模型具有以下价值：①高泛化通用性.大模型由多个专家模型集成，通过学习大量数据和任务获得广泛知识，捕捉更多细节，具有解决多种下游任务的能力，并且可以更好地泛化到新的数据集中.②高精度.具有更多参数和更深层次结构，能对复杂的模式和规律进行准确建模，并通过不断学习和更新参数提高性能和准确度.③降低门槛.大模型可以自动学习更多特征和规律，减少手动特征工程的需求，使开发者能更轻松地构建高质量模型，节省了大量的训练时间和计算资源，并且用户可以通过唯一接口轻松调用各项功能，执行各项下游任务^[9-11]. ...

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

遥感大模型：进展与前瞻

2

2023

... 遥感大模型是利用卷积神经网络、循环神经网络、自注意力机制、Transformer等先进的深度学习结构，通过对大规模遥感数据进行训练，实现对地物分类、目标检测、语义分割、变化检测等任务的高效处理^[12-13].国内外遥感领域的商业公司、高校及科研院所陆续推出遥感大模型平台，在一定程度上能满足城市规划、耕地保护、灾害监测等实际应用需求.部分国内外遥感大模型平台见表1. ...

... 对于遥感大模型的研究进展及面临的挑战，武汉大学张良培教授团队以遥感大模型的预训练技术为主线，归纳分析了有监督单模态、无监督单模态、视觉-文本联合多模态预训练遥感大模型的研究进展，探讨了结合遥感领域知识与物理约束、提高数据泛化性、扩展应用场景、降低数据成本4个方面的展望^[12].本文从数据、模型、下游任务3个方面阐述其研究进展，探讨多模态、可解释、人类反馈强化学习3个重要研究方向，并开展自监督单模态遥感大模型初步试验，旨在推动遥感大模型的研究应用实践，赋能遥感智能化发展. ...

遥感大模型：进展与前瞻

2

2023

... 遥感大模型是利用卷积神经网络、循环神经网络、自注意力机制、Transformer等先进的深度学习结构，通过对大规模遥感数据进行训练，实现对地物分类、目标检测、语义分割、变化检测等任务的高效处理^[12-13].国内外遥感领域的商业公司、高校及科研院所陆续推出遥感大模型平台，在一定程度上能满足城市规划、耕地保护、灾害监测等实际应用需求.部分国内外遥感大模型平台见表1. ...

... 对于遥感大模型的研究进展及面临的挑战，武汉大学张良培教授团队以遥感大模型的预训练技术为主线，归纳分析了有监督单模态、无监督单模态、视觉-文本联合多模态预训练遥感大模型的研究进展，探讨了结合遥感领域知识与物理约束、提高数据泛化性、扩展应用场景、降低数据成本4个方面的展望^[12].本文从数据、模型、下游任务3个方面阐述其研究进展，探讨多模态、可解释、人类反馈强化学习3个重要研究方向，并开展自监督单模态遥感大模型初步试验，旨在推动遥感大模型的研究应用实践，赋能遥感智能化发展. ...

Vision-language models in remote sensing: current progress and future trends

1

... 遥感大模型是利用卷积神经网络、循环神经网络、自注意力机制、Transformer等先进的深度学习结构，通过对大规模遥感数据进行训练，实现对地物分类、目标检测、语义分割、变化检测等任务的高效处理^[12-13].国内外遥感领域的商业公司、高校及科研院所陆续推出遥感大模型平台，在一定程度上能满足城市规划、耕地保护、灾害监测等实际应用需求.部分国内外遥感大模型平台见表1. ...

Generative pretraining from pixels

1

2020

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

BERT: pre-training of deep bidirectional transformers for language understanding

1

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

Segment anything

1

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

地理人工智能样本：模型、质量与服务

1

2023

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

地理人工智能样本：模型、质量与服务

1

2023

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

遥感基础模型发展综述与未来设想

1

2023

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

遥感基础模型发展综述与未来设想

1

2023

... 由于观测场景、地物类型、成像条件、遥感器设计与地面相机的差异，遥感影像呈现出多传感器、多时相、多分辨率、多要素等特点，使遥感大模型构建存在如下挑战.①高质量样本体量很小.如在遥感监测业务中，国土三调积累了2.7亿个地类图斑，常态化监测积累了4000万个变化图斑，但这些业务中积累的样本量远小于计算机视觉领域的数十亿图像数据集，亟须盘活现有的各类数据资源，构建亿级高质量样本.②语言、视觉大模型在遥感领域应用研究比较缺乏.如常用的Image GPT^[14]、BERT^[15]、SAM^[16]等大模型，主要应用于自然语言处理和自然图像处理领域，亟须借鉴视觉、语言大模型的思路发展遥感大模型.③模型迭代优化技术亟待突破.由于从零开始训练数十亿参数的大模型需要大量算力，难以满足日益细分的业务需求，需要利用微调及人类反馈强化学习等技术增强大模型的学习能力.④多源数据融合不足，需将不同分辨率、不同传感器和不同时间点的遥感数据与传感视频、文本等异构数据整合，利用多源信息提升遥感大模型的性能.⑤物理、地理、物候、专家等知识未有效利用，可解释性不强，需要更多地利用多源知识进行引导，提升模型的可信度、可解释性、场景适应性，以提高模型的决策认知能力^[17-18]. ...

On creating benchmark dataset for aerial image interpretation: reviews, guidances, and million-AID

1

2021

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SatlasPretrain: a large-scale dataset for remote sensing image understanding

1

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

RSGPT: a remote sensing vision language model and benchmark

1

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

GeoChat: grounded large vision-language model for remote sensing

1

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SpaceNet: a remote sensing dataset and challenge series

1

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SkyScript: a large and semantically diverse vision-language dataset for remote sensing

2

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

... 在目前典型遥感大模型^[40-53](表3)中，紫东太初为全球首个千亿参数多模态大模型，突破跨模态多任务自监督学习技术，实现多模态数据的统一表示与相互生成，形成了完整的智能表示、推理和生成能力.RemoteCLIP^[40]是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义视觉特征以及对齐的文本嵌入，以实现无缝的下游应用.SkySense是一个通用的十亿级遥感基础模型，在2150万个时间序列的多模态遥感图像数据集上进行预训练，在涵盖7个遥感任务的16个数据集上展示了卓越的泛化能力，性能大幅领先于其他模型.SkyScript^[24]是大规模遥感视觉语言数据集，包括260万个遥感图像-文本对，覆盖2.9万个不同的语义标签，可以助力VLM在遥感中的各种多模态任务发展. ...

Functional map of the world

1

2018

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SkySense: a multi-modal remote sensing foundation model towards universal interpretation for earth observation imagery

1

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

BigEarthNet-MM: a large-scale, multimodal, multilabel benchmark archive for remote sensing image classification and retrieval

1

2021

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SEN12MS—a curated dataset of georeferenced multi-spectral Sentinel-1/2 imagery for deep learning and data fusion

1

2019

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

RingMo: a remote sensing foundation model with masked image modeling

1

2023

... Multimodal dataset

Tab.2

数据集名称	发布年份	数据类型	数据量	描述
MillionAID^[19]	2021	Google Earth影像	百万张实例	一个用于遥感场景分类的大型基准数据集，包含了广泛的语义类别，具有空间分辨率高、规模大、分布全球等优势
Satlas^[20]	2022	中分辨率Sentinel-2影像、高分辨率NAIP影像	2.9亿个标签	覆盖场景广、数据规模大
RSICap^[21]	2023	遥感图像、文本描述数据	2585个高质量字幕	用于遥感图像精细描述的数据集，包括图像场景描述，(如住宅区、机场或农田)以及对象信息(如颜色、形状、数量、绝对位置等)
RSIEval^[22]	2023	人工注释的字幕-视觉问答	31.8万个图像指令对	图像-问答三元组，可以全面评估VLMs在遥感环境下的性能
SpaceNet^[23]	2018	WorldView-2/3等光学影像	1500万张影像	全球第一个公开发布的高分辨率大型遥感数据集，用于目标检测、语义分割和道路网络映射等任务
SkyScript^[24]	2023	遥感图像-文本描述数据	260万张图像文本对	一个用于遥感的大型且语义多样化的图像文本数据集，通过GEE和OpenStreetMap获取，全球覆盖，语义信息跨越对象类别、子类别和详细属性
fMoW^[25]	2018	多种传感器的时间序列影像、多光谱影像	70万张影像	一个用于多种遥感任务的大型数据集，旨在激发机器学习模型的开发，使模型能够从卫星图像的时间序列中预测建筑物的功能用途和土地利用
SkySense^[26]	2024	高分辨率WorldView-3/4影像，中分辨率Sentinel-1/2影像	2150万个训练样本	涵盖了不同分辨率、光谱和成像机制的各种情景，每个样本包括具有纹理细节的静态HSROI，包含时态和多光谱数据的TMsI，在云覆盖下提供散射极化的标准校准TSARI，以及用于地理上下文建模的元数据
BigEarthNet-MM^[27]	2021	Sentinel SAR和多光谱数据	59万个多模态样本	支持多模态多标签遥感图像检索和分类研究
SEN12MS^[28]	2019	Sentinel-1/2，MODIS传感器的SAR和多光谱数据	18万个多模态样本	由全球42个城市群的数据组成，能够应用于最先进的机器学习方法，以应对城市化和气候变化等全球挑战
RingMo^[29]	2023	Sentinel-1/2，Google Earth，WorldView，高分二号等多种光学遥感影像	200万张影像	数据集图像数量众多、分辨率变化范围大，更适合遥感领域下游任务

遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

Samgeo: a Python package for segmenting geospatial datawith the segment anything model (SAM)

1

2023

... 遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

SAMRS: scaling-up remote sensing segmentation dataset with segment anything model

1

... 遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

RSPrompter: learning to prompt for remote sensing instance segmentation based on visual foundation model

1

... 遥感业务需要大量的遥感影像数据支持，训练一个对目标任务有良好表达的模型所需的数据量随着业务需求的提升逐渐增加，而传统人工标注耗时长、成本高、效率低，难以满足训练多模态大模型的数据需求，必然需要数据扩充.数据快速扩充方式(图2)有：①数据增强.通过对原始数据集进行旋转变换、仿射变换、色彩变换、尺度变换等方法进行数据扩充；②提示学习自动标注.利用SAM、segment-anything-eo^[30]、SAMRS^[31]、RSPrompter^[32]等进行实例分割、语义分割、目标检测等，生成高质量的数据集；③历史解译成果自动生成样本.利用开源地理数据、业务生产解译成果数据及相应遥感影像，自动生成高质量的样本数据. ...

Masked autoencoders are scalable vision learners

1

... 自监督学习是通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息.主流方法分为预测、对比学习两大类.预测的自监督学习主要是通过预测重建数据从而使模型学习到数据中的深层特征，BERT通过“完形填空”的方式训练大型语言模型；GPT通过预测给定的一系列字符后续可能出现的字符，来学习字符之间的语义关联信息；MAE^[33]通过预测重建随机掩码后的图片块抽取特征训练视觉模型.对比的自监督学习方法是通过对比学习不同数据视角之间的一致性或差异性，进而学习到数据中的特征表达，BYOL^[34]首次舍弃了负样本，在主流对比学习框架中加入了预测层训练模型；Moco V3^[35]使用动量编码器训练ViT(vision transformer)模型，在ImageNet上达到了81.0%的Top-1准确率；DINO^[36]加入中心聚集层增加模型稳定性，从网络中“蒸馏”知识以训练视觉模型. ...

Bootstrap your own latent: a new approach to self-supervised Learning

1

... 自监督学习是通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息.主流方法分为预测、对比学习两大类.预测的自监督学习主要是通过预测重建数据从而使模型学习到数据中的深层特征，BERT通过“完形填空”的方式训练大型语言模型；GPT通过预测给定的一系列字符后续可能出现的字符，来学习字符之间的语义关联信息；MAE^[33]通过预测重建随机掩码后的图片块抽取特征训练视觉模型.对比的自监督学习方法是通过对比学习不同数据视角之间的一致性或差异性，进而学习到数据中的特征表达，BYOL^[34]首次舍弃了负样本，在主流对比学习框架中加入了预测层训练模型；Moco V3^[35]使用动量编码器训练ViT(vision transformer)模型，在ImageNet上达到了81.0%的Top-1准确率；DINO^[36]加入中心聚集层增加模型稳定性，从网络中“蒸馏”知识以训练视觉模型. ...

An empirical study of training self-supervised vision transformers

1

... 自监督学习是通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息.主流方法分为预测、对比学习两大类.预测的自监督学习主要是通过预测重建数据从而使模型学习到数据中的深层特征，BERT通过“完形填空”的方式训练大型语言模型；GPT通过预测给定的一系列字符后续可能出现的字符，来学习字符之间的语义关联信息；MAE^[33]通过预测重建随机掩码后的图片块抽取特征训练视觉模型.对比的自监督学习方法是通过对比学习不同数据视角之间的一致性或差异性，进而学习到数据中的特征表达，BYOL^[34]首次舍弃了负样本，在主流对比学习框架中加入了预测层训练模型；Moco V3^[35]使用动量编码器训练ViT(vision transformer)模型，在ImageNet上达到了81.0%的Top-1准确率；DINO^[36]加入中心聚集层增加模型稳定性，从网络中“蒸馏”知识以训练视觉模型. ...

Emerging properties in self-supervised vision transformers

1

... 自监督学习是通过特定的代理任务生成伪标签来从未标记的数据中获取有用的表示信息.主流方法分为预测、对比学习两大类.预测的自监督学习主要是通过预测重建数据从而使模型学习到数据中的深层特征，BERT通过“完形填空”的方式训练大型语言模型；GPT通过预测给定的一系列字符后续可能出现的字符，来学习字符之间的语义关联信息；MAE^[33]通过预测重建随机掩码后的图片块抽取特征训练视觉模型.对比的自监督学习方法是通过对比学习不同数据视角之间的一致性或差异性，进而学习到数据中的特征表达，BYOL^[34]首次舍弃了负样本，在主流对比学习框架中加入了预测层训练模型；Moco V3^[35]使用动量编码器训练ViT(vision transformer)模型，在ImageNet上达到了81.0%的Top-1准确率；DINO^[36]加入中心聚集层增加模型稳定性，从网络中“蒸馏”知识以训练视觉模型. ...

周成虎院士：从遥感大数据到遥感大模型

1

2023

... 遥感领域主要利用3种方式构建遥感大模型(图3)：①微调现有开源视觉大模型.通过微调、提示学习、特征融合等方法，将已有大模型迁移到遥感领域.②构建预训练大模型.使用无标签海量遥感数据，构建大型无标签数据集，利用自监督学习方法构建遥感大模型，通过微调技术使其适配多种业务场景.③构建多模态遥感大模型.将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合，充分利用多种数据知识，使模型真正理解遥感^[37-39]. ...

周成虎院士：从遥感大数据到遥感大模型

1

2023

... 遥感领域主要利用3种方式构建遥感大模型(图3)：①微调现有开源视觉大模型.通过微调、提示学习、特征融合等方法，将已有大模型迁移到遥感领域.②构建预训练大模型.使用无标签海量遥感数据，构建大型无标签数据集，利用自监督学习方法构建遥感大模型，通过微调技术使其适配多种业务场景.③构建多模态遥感大模型.将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合，充分利用多种数据知识，使模型真正理解遥感^[37-39]. ...

从大模型看测绘时空信息智能处理的机遇和挑战

0

2023

从大模型看测绘时空信息智能处理的机遇和挑战

0

2023

人工智能大模型综述及展望

1

2023

... 遥感领域主要利用3种方式构建遥感大模型(图3)：①微调现有开源视觉大模型.通过微调、提示学习、特征融合等方法，将已有大模型迁移到遥感领域.②构建预训练大模型.使用无标签海量遥感数据，构建大型无标签数据集，利用自监督学习方法构建遥感大模型，通过微调技术使其适配多种业务场景.③构建多模态遥感大模型.将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合，充分利用多种数据知识，使模型真正理解遥感^[37-39]. ...

人工智能大模型综述及展望

1

2023

... 遥感领域主要利用3种方式构建遥感大模型(图3)：①微调现有开源视觉大模型.通过微调、提示学习、特征融合等方法，将已有大模型迁移到遥感领域.②构建预训练大模型.使用无标签海量遥感数据，构建大型无标签数据集，利用自监督学习方法构建遥感大模型，通过微调技术使其适配多种业务场景.③构建多模态遥感大模型.将多源遥感数据与有关文本、声音、视频、矢量等数据进行融合，充分利用多种数据知识，使模型真正理解遥感^[37-39]. ...

RemoteCLIP: a vision language foundation model for remote sensing

3

... 在目前典型遥感大模型^[40-53](表3)中，紫东太初为全球首个千亿参数多模态大模型，突破跨模态多任务自监督学习技术，实现多模态数据的统一表示与相互生成，形成了完整的智能表示、推理和生成能力.RemoteCLIP^[40]是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义视觉特征以及对齐的文本嵌入，以实现无缝的下游应用.SkySense是一个通用的十亿级遥感基础模型，在2150万个时间序列的多模态遥感图像数据集上进行预训练，在涵盖7个遥感任务的16个数据集上展示了卓越的泛化能力，性能大幅领先于其他模型.SkyScript^[24]是大规模遥感视觉语言数据集，包括260万个遥感图像-文本对，覆盖2.9万个不同的语义标签，可以助力VLM在遥感中的各种多模态任务发展. ...

... [40]是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义视觉特征以及对齐的文本嵌入，以实现无缝的下游应用.SkySense是一个通用的十亿级遥感基础模型，在2150万个时间序列的多模态遥感图像数据集上进行预训练，在涵盖7个遥感任务的16个数据集上展示了卓越的泛化能力，性能大幅领先于其他模型.SkyScript^[24]是大规模遥感视觉语言数据集，包括260万个遥感图像-文本对，覆盖2.9万个不同的语义标签，可以助力VLM在遥感中的各种多模态任务发展. ...

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Self-supervised learning for invariant representations from multi-spectral and SAR images

1

2022

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Semantic connectivity-driven pseudo-labeling for cross-domain segmentation

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

SatMAE: pre-training transformers for temporal and multi-spectral satellite imagery

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Advancing plain vision transformer toward remote sensing foundation model

1

2023

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

An empirical study of remote sensing pretraining

1

2023

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Scale-MAE: a scale-aware masked autoencoder for multiscale geospatial representation learning

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

DINO-MC: self-supervised contrastive learning for remote sensing imagery with multi-sized local crops

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

DiffusionSat: a generative foundation model for satellite imagery

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

MCRN: a multi-source cross-modal retrieval network for remote sensing

1

2022

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

CSP: self-supervised contrastive spatial pre-training for geospatial-visual representations

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

GeoCLIP: clip-inspired alignment between locations and images for effective worldwide geo-localization

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

SatCLIP: global, general-purpose location embeddings with satellite imagery

1

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Self-supervised audiovisual representation learning for remote sensing data

2

... 在目前典型遥感大模型^[40-53](表3)中，紫东太初为全球首个千亿参数多模态大模型，突破跨模态多任务自监督学习技术，实现多模态数据的统一表示与相互生成，形成了完整的智能表示、推理和生成能力.RemoteCLIP^[40]是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义视觉特征以及对齐的文本嵌入，以实现无缝的下游应用.SkySense是一个通用的十亿级遥感基础模型，在2150万个时间序列的多模态遥感图像数据集上进行预训练，在涵盖7个遥感任务的16个数据集上展示了卓越的泛化能力，性能大幅领先于其他模型.SkyScript^[24]是大规模遥感视觉语言数据集，包括260万个遥感图像-文本对，覆盖2.9万个不同的语义标签，可以助力VLM在遥感中的各种多模态任务发展. ...

... Typical remote sensing large models

Tab.3

遥感大模型		代表模型	特点
遥感视觉大模型		RS-BYOL^[41]、SeCo^[42]、SatMAE^[43]、RingMo、RVSA^[44]、RSP^[45]、Scale-MAE^[46]、SpectralGPT^[11]、DINO-MC^[47]等	使用无标签光学影像作为训练数据，通过自监督学习预训练具有丰富语义的视觉特征，但需要微调才能实际应用
遥感生成大模型		DiffusionSat^[48]等	使用自监督学习，可以生成逼真的遥感影像，可以解决多种生成任务
遥感多模态大模型	视觉+语言	紫东太初、MCRN^[49]、RemoteCLIP^[40]、GeoChat等	将文本与遥感视觉特征对齐，具有无缝下游应用的潜力，但数据收集需要文本与遥感图像对应，成本较高
	视觉+位置	CSP^[50]、GeoCLIP^[51]、SatCLIP^[52]等	可从公开可用的遥感卫星图像结合其附带的位置信息中学习特征表示
	视觉+音频	SoundingEarth^[53]等	同时利用视觉和听觉理解应用场景

1.3　下游任务：从单任务向多任务发展

多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

Learning transferable visual models from natural language supervision

2

... 多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

ViLT: vision-and-language transformer without convolution or region supervision

0

VLMo: unified vision-language pre-training with mixture-of-modality-experts

1

... 多模态大模型的最终目标是适配并提升特定下游任务上的性能表现，通过提示学习、特征微调等方式将大模型的能力迁移到多任务场景中，适配下游任务的模型微调方式如下：①提示学习微调.利用提示学习让上游的预训练模型在尽量不需要标注数据的情况下适配下游任务，从而节省训练时间和计算资源.②设置适配层.通过微调更新适配层的网络参数实现不同任务之间的参数共享.③特定任务微调.将多模态大模型的权重作为初始参数，在任务特定数据上进行有监督的微调以适应特定任务需求^[54-56]. ...

VL-BERT: pre-training of generic visual-linguistic representations

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

UNITER: universal image-text representation learning

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

Scaling up visual and vision-language representation learning with noisy text supervision

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

VATT: transformers for multimodal self-supervised learning from raw video, audio and text

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

Hierarchical text-conditional image generation with CLIP latents

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

CogView: mastering text-to-image generation via transformers

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

Denoising diffusion probabilistic models

1

2020

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

High-resolution image synthesis with latent diffusion models

1

... 目前，多模态遥感大模型(图5)正向面向理解任务和生成任务发展.面向理解任务的多模态大模型可再分为单流和多流两种结构.单流结构是指不同模态的特征在拼接后由一个共享的Transformer网络进行处理，如VL-BERT^[57]、UNITER^[58]；在多流结构中，不同模态则分别由Transformer网络进行编码处理，这些网络之间存在一些特征上的交互融合机制，如ViLBERT^[59]、CLIP^[54]、ALIGN^[60]、VATT^[61].面向生成任务的多模态大模型能够实现文本、图片、视频、音频等多种模态内容的生成应用，目前主要有序列生成模型(DALL-E2^[62]、CogView^[63])和扩散模型(DDPM^[64]、Stable Diffusion^[65])等. ...

Large-scale multi-modal pre-trained models: a comprehensive survey

1

2023

... 多模态大模型需要解决的科学问题包括多模态数据对齐、多模态关联建模、跨模态预训练模型特征耦合和解耦等.需要突破的核心技术包括多模态数据语义统一表示、多模态特征融合、联合学习训练、多任务跨模态自监督学习、模态理解与模态生成统一建模、模型参数迁移等^[66-70]. ...

遥感跨模态智能解译：模型、数据与应用

0

2023

遥感跨模态智能解译：模型、数据与应用

0

2023

MiniGPT-4: enhancing vision-language understanding with advanced large language models

0

mPLUG-Owl: modularization empowers large language models with multimodality

0

PaLM-E: an embodied multimodal language model

1

... 多模态大模型需要解决的科学问题包括多模态数据对齐、多模态关联建模、跨模态预训练模型特征耦合和解耦等.需要突破的核心技术包括多模态数据语义统一表示、多模态特征融合、联合学习训练、多任务跨模态自监督学习、模态理解与模态生成统一建模、模型参数迁移等^[66-70]. ...

Learning deep features for discriminative localization

1

2016

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

Learning important features through propagating activation differences

1

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

Knowledge graph embeddings for dealing with concept drift in machine learning

1

2021

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

人机协同的自然资源要素智能提取方法

1

2021

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

人机协同的自然资源要素智能提取方法

1

2021

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

高分辨率遥感影像智能解译研究进展与趋势

0

2021

高分辨率遥感影像智能解译研究进展与趋势

0

2021

自然资源要素智能解译研究进展与方向

1

2022

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

自然资源要素智能解译研究进展与方向

1

2022

... 可解释遥感大模型构建一般通过3种方式(图6)：①可视化解释分析.利用显著性映射解释^[71-72]、高维特征降维分析等可解释技术，对大模型网络内部结构、运行过程、决策过程进行渐进式可视化解释分析.②知识增强.利用知识增广、知识支撑、知识约束、知识迁移等方式，增强模型与知识的一致性，提升遥感大模型的可解释性^[73].③人机协同.强化人类智能与机器智能的交互协作，实现对复杂问题的人机协同求解，形成人机协同混合智能增强形态及场景应用解决方案，提升遥感大模型的问题解决能力^[74-76]. ...

测绘地理信息与人工智能2.0融合发展的方向

1

2021

... 现有数据驱动的遥感大模型难以融合领域知识，推理与自学习不足，可解释性不强，缺乏对遥感数据的深层理解与逻辑推理能力，可解释遥感大模型可提高预测结果的信任度，减少偏差，促进模型调优.需要解决知识表示学习、数据-模型-知识耦合机制、人机协同策略、可解释信息转化等科学问题.需要突破大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型构建、知识数据双驱动的决策推理、人在回路反馈优化等^[77-78]等核心技术. ...

测绘地理信息与人工智能2.0融合发展的方向

1

2021

... 现有数据驱动的遥感大模型难以融合领域知识，推理与自学习不足，可解释性不强，缺乏对遥感数据的深层理解与逻辑推理能力，可解释遥感大模型可提高预测结果的信任度，减少偏差，促进模型调优.需要解决知识表示学习、数据-模型-知识耦合机制、人机协同策略、可解释信息转化等科学问题.需要突破大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型构建、知识数据双驱动的决策推理、人在回路反馈优化等^[77-78]等核心技术. ...

虚实系统互驱的混合增强智能开放创新平台的架构与方案

1

2019

... 现有数据驱动的遥感大模型难以融合领域知识，推理与自学习不足，可解释性不强，缺乏对遥感数据的深层理解与逻辑推理能力，可解释遥感大模型可提高预测结果的信任度，减少偏差，促进模型调优.需要解决知识表示学习、数据-模型-知识耦合机制、人机协同策略、可解释信息转化等科学问题.需要突破大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型构建、知识数据双驱动的决策推理、人在回路反馈优化等^[77-78]等核心技术. ...

虚实系统互驱的混合增强智能开放创新平台的架构与方案

1

2019

... 现有数据驱动的遥感大模型难以融合领域知识，推理与自学习不足，可解释性不强，缺乏对遥感数据的深层理解与逻辑推理能力，可解释遥感大模型可提高预测结果的信任度，减少偏差，促进模型调优.需要解决知识表示学习、数据-模型-知识耦合机制、人机协同策略、可解释信息转化等科学问题.需要突破大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型构建、知识数据双驱动的决策推理、人在回路反馈优化等^[77-78]等核心技术. ...

Reinforcement learning with human feedback: learning dynamic choices via pessimism

1

... 针对遥感大模型调整优化困难的问题，人类反馈强化学习是一种有效方法，它是一种结合计算机视觉的学习范式，旨在通过人类的反馈来进行强化学习优化模型，此方法将人类专家的知识引入大模型的学习过程中，人类专家可以对模型进行评估与指导，指出预测行为的优劣，并给予相应的奖励或惩罚.该方法可以帮助模型快速收敛到较好的策略，减少试错过程和学习时间，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容，进而能够更有效地完成特定任务^[79-84]. ...

A survey of preference-based reinforcement learning methods

0

2017

ChatGPT: optimizing language models for dialogue

0

Aligning text-to-image models using human feedback

0

Rewards encoding environment dynamics improves preference-based reinforcement learning

0

Eluder dimension and the sample complexity of optimistic exploration

1

2013

... 针对遥感大模型调整优化困难的问题，人类反馈强化学习是一种有效方法，它是一种结合计算机视觉的学习范式，旨在通过人类的反馈来进行强化学习优化模型，此方法将人类专家的知识引入大模型的学习过程中，人类专家可以对模型进行评估与指导，指出预测行为的优劣，并给予相应的奖励或惩罚.该方法可以帮助模型快速收敛到较好的策略，减少试错过程和学习时间，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容，进而能够更有效地完成特定任务^[79-84]. ...

Deep reinforcement learning from human preferences

1

... 人类反馈强化学习需要解决的科学问题包括模型与人类意图对齐、试错与开发权衡机制、学习奖励函数优化、增强学习优化决策等，需要突破的核心技术包括奖励模型训练、奖励模型精调、强化学习指令微调、人在回路反馈优化等^[85-89].基本思路是：首先，利用大规模数据训练遥感预训练大模型，并迁移至实际应用中的场景分类、地物提取、变化检测等下游任务；然后，在多次应用过程中收集人类专家的偏好标注数据，如专家对遥感影像的地物提取效果的评分，数据收集完成之后，利用这些偏好数据训练奖励模型，确保模型可以准确学习到人类专家的评价和奖励行为；最后，运用强化学习中的近端策略优化方法微调初始的遥感大模型，使遥感大模型与人类的价值观相对齐，整个流程构成人在回路式的模型训练优化过程，有利于遥感大模型充分运用人类专家知识，达到持续学习、持续优化的效果(图7). ...

Reward learning from human preferences and demonstrations in Atari

0

Scalable agent alignment via reward modeling: a research direction

0

Training language models to follow instructions with human feedback

0

ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

1

2023

... 人类反馈强化学习需要解决的科学问题包括模型与人类意图对齐、试错与开发权衡机制、学习奖励函数优化、增强学习优化决策等，需要突破的核心技术包括奖励模型训练、奖励模型精调、强化学习指令微调、人在回路反馈优化等^[85-89].基本思路是：首先，利用大规模数据训练遥感预训练大模型，并迁移至实际应用中的场景分类、地物提取、变化检测等下游任务；然后，在多次应用过程中收集人类专家的偏好标注数据，如专家对遥感影像的地物提取效果的评分，数据收集完成之后，利用这些偏好数据训练奖励模型，确保模型可以准确学习到人类专家的评价和奖励行为；最后，运用强化学习中的近端策略优化方法微调初始的遥感大模型，使遥感大模型与人类的价值观相对齐，整个流程构成人在回路式的模型训练优化过程，有利于遥感大模型充分运用人类专家知识，达到持续学习、持续优化的效果(图7). ...

ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

1

2023

... 人类反馈强化学习需要解决的科学问题包括模型与人类意图对齐、试错与开发权衡机制、学习奖励函数优化、增强学习优化决策等，需要突破的核心技术包括奖励模型训练、奖励模型精调、强化学习指令微调、人在回路反馈优化等^[85-89].基本思路是：首先，利用大规模数据训练遥感预训练大模型，并迁移至实际应用中的场景分类、地物提取、变化检测等下游任务；然后，在多次应用过程中收集人类专家的偏好标注数据，如专家对遥感影像的地物提取效果的评分，数据收集完成之后，利用这些偏好数据训练奖励模型，确保模型可以准确学习到人类专家的评价和奖励行为；最后，运用强化学习中的近端策略优化方法微调初始的遥感大模型，使遥感大模型与人类的价值观相对齐，整个流程构成人在回路式的模型训练优化过程，有利于遥感大模型充分运用人类专家知识，达到持续学习、持续优化的效果(图7). ...

DINOv2: learning robust visual features without supervision

1

... 以DINO V2^[90]自监督学习网络为基础，该网络使用了教师-学生知识蒸馏框架^[91]，利用对比学习方法实现遥感图像中的特征表达.将ViT-Huge作为骨干模型和编码器对输入学生模型和教师模型的特征进行编码，设置batch size为10，使用BFloat16数据类型加速.学习率最大值设置为5×10^-4，在初始的10个epoch会从0预热到最大值，使用Cosine Scheduler逐渐递减到1×10^-6，使用Fused-AdamW优化器在Nvidia A100 GPU上预训练共200个epoch，自监督模型构建流程如图9所示. ...

Knowledge distillation: a survey

1

2021

... 以DINO V2^[90]自监督学习网络为基础，该网络使用了教师-学生知识蒸馏框架^[91]，利用对比学习方法实现遥感图像中的特征表达.将ViT-Huge作为骨干模型和编码器对输入学生模型和教师模型的特征进行编码，设置batch size为10，使用BFloat16数据类型加速.学习率最大值设置为5×10^-4，在初始的10个epoch会从0预热到最大值，使用Cosine Scheduler逐渐递减到1×10^-6，使用Fused-AdamW优化器在Nvidia A100 GPU上预训练共200个epoch，自监督模型构建流程如图9所示. ...

地理空间视角下自然资源认知探讨

1

2022

... 以遥感智能认知为方向，以应用任务为导向，将遥感大模型的理论方法、工程技术、应用迭代进行结合^[92]，构建大规模高质量的预训练数据，设计高效计算的大模型网络结构，突破模型压缩与推理加速、下游任务高效适配等技术，实现遥感大模型的低成本训练、高效快速推理、轻量化部署及工程化应用，是未来的发展目标. ...

地理空间视角下自然资源认知探讨

1

2022

... 以遥感智能认知为方向，以应用任务为导向，将遥感大模型的理论方法、工程技术、应用迭代进行结合^[92]，构建大规模高质量的预训练数据，设计高效计算的大模型网络结构，突破模型压缩与推理加速、下游任务高效适配等技术，实现遥感大模型的低成本训练、高效快速推理、轻量化部署及工程化应用，是未来的发展目标. ...

名称	机构	技术特点
GeoForge	Ageospatial	基于大语言模型(GeoLLMs)开发的地理空间分析平台，可以实现空间数据处理和遥感数据智能分析
ArcGIS pro	ESRI	提供了大量遥感AI算法和在大规模数据上训练的预训练模型，可以完成要素提取、变化检测和时间序列分析等业务
Segment-geospatial	UniversityTennessee	基于视觉大模型Segment Anything开发的工具库，可以简化用户利用SAM进行遥感影像分割和地理空间数据分析的过程
AI Earth	阿里达摩院	遥感AI算法工具累计达16类，公开数据集规模达70余类
SkySense	武汉大学、蚂蚁集团	10亿参数量的多模态遥感基础模型，从单模态到多模态、静态到时序、分类到定位，灵活适应各种下游任务，具有显著泛化能力
空天·灵眸	空天院、华为	训练数据集包含了200多万幅遥感影像，数据集中包含了1亿多具有任意角度分布的目标实例
天权大模型	航天宏图	立足开源大模型基础结构，融合PIE-Engine AI 43类语义分割及变化检测模型，适配10余类重点目标检测识别业务
SenseEarth 3.0	商汤科技	具有3.5亿规模的遥感大模型，涵盖25个语义分割模型，其中地物分割能力在百万级图斑验证集上的平均精度超过80%
长城大模型	数慧时空	综合自然资源领域文本、图像、视频等多种模态的数据，通过学习能够有效对自然资源业务进行理解和生成
星图地球智脑	中科星图	提供地球数据智能处理能力、地球信息智能感知能力、地球场景智能重建能力等
珞珈灵感	武汉大学	遥感智能解译训推一体平台，13亿参数多模态大模型，集成了场景分类、目标检测、变化检测等典型下游任务模型库

数据集	类别数	训练集	验证集	Top-1准确率/(%)	Top-5准确率/(%)
AID	30	7000	3000	89.2	98.8
SIRI-WHU	12	1680	720	94.7	99.9

数据集	训练集	验证集	准确率/(%)	精确率/(%)	回报率/(%)	交并比/(%)	F₁值/(%)
GF1_WHU_CLOUD	7000	3000	96.6	94.6	95.1	90.4	94.9
Potsdam	1680	720	94.5	92.9	92.7	86.8	92.8
GID	22 048	9450	98.8	95.4	93.7	90.0	94.5