遥感公开数据集
🚀 单模态数据集
MillionAID数据集
- MillionAID包含超过100万张不重叠的遥感图像,覆盖农业用地、居住用地、水域等典型地表场景。数据来源于Google Earth,整合了IKONOS、WorldView和Landsat等多源传感器影像,图像尺寸跨度从110×110至31,672×31,672像素,均为RGB格式,样本量呈现长尾分布。
- https://opendatalab.com/OpenDataLab/Million-AID
Satlas数据集
- Satlas是由Allen Institute for AI发布的大规模多任务遥感图像理解数据集,包含2.9亿个标签,覆盖137个类别和七种标签模式(包括分类、目标检测、语义分割等),整合了高分辨率NAIP与中等分辨率Sentinel-2等多源遥感影像,分辨率跨度从0.5m至30m,支持全球范围的地物解译与时序分析。
- https://satlas.allen.ai/
SpaceNet数据集
- SpaceNet数据集是一个公开的商业卫星图像数据集,包含来自DigitalGlobe的WorldView-2和WorldView-3等多光谱成像卫星收集的图像,1500万张影像,全球第一个公开发布的高分辨率大型遥感数据集,用于目标检测、语义分割和道路网络映射等任务
- https://spacenet.ai/datasets/
fMoW数据集
- fMoW(Functional Map of the World)数据集是一个专为视觉识别和地理空间分析设计的遥感数据集,提供两个版本:fMoW-full(包含4波段和8波段多光谱图像的TIFF格式)和fMoW-rgb(JPEG格式的RGB图像),覆盖全球超过10万个地面目标,涵盖机场、风力农场等详细类别,支持对象检测、时空分析和环境监测等任务。其数据基于高质量卫星影像,融合多光谱信息,适用于机器学习模型训练和地理信息系统研究。
- https://github.com/fMoW/dataset
BigEarthNet-MM数据集
- BigEarthNet-MM数据集专为支持深度学习在遥感图像分类与检索任务中的研究而设计。该数据集包含590,326对Sentinel-1和Sentinel-2图像块,覆盖欧洲10个国家的多样化地理区域。其数据特点包括多模态融合(光学+雷达)、高分辨率(Sentinel-2波段空间分辨率达10-60m)、多标签分类(每个图像块可能对应多个土地覆盖类别),适用于迁移学习、类不平衡学习及多模态检索等研究场景。
- https://bigearth.net/
SEN12MS数据集
- SEN12MS数据集整合了Sentinel-1合成孔径雷达(SAR)图像、Sentinel-2多光谱光学图像及MODIS地表覆盖数据的三元组,分辨率达10m,覆盖全球所有有人居住的大陆及不同气象季节,共包含约180,662个256×256像素的样本。该数据集通过Google Earth Engine平台采集,支持语义分割、场景分类、地表映射等任务,尤其适用于多传感器数据融合算法的开发与验证,其多模态特性(SAR与光学结合)和分层标注体系(基于LCCS分类方案)显著提升了模型对复杂地物属性的识别能力。
- https://mediatum.ub.tum.de/1474000
Seco数据集
- SeCo(Seasonal Contrast)是由 ServiceNow 开发的遥感图像无监督预训练数据集,基于 Sentinel-2 卫星图像构建,包含 20 万至 100 万张全球不同地理位置的多时序影像,覆盖农业、城市、森林等场景,支持场景分类、环境变化监测等任务。其核心特点是通过季节对比(Seasonal Contrast)方法挖掘时序数据中的潜在规律,提升模型对复杂遥感场景的理解能力。
- https://github.com/ServiceNow/seasonal-contrast
fMoW-S2数据集
- fMoW-S2数据集基于欧洲航天局Sentinel-2卫星的时序多光谱数据构建,是fMoW主数据集的扩展版本。该数据集包含覆盖全球不同区域的712,874张训练影像、84,939张验证影像和84,966张测试影像,分辨率为10m,包含13个波段的地表反射率信息。聚焦于土地利用分类任务,对应fMoW主数据集的62个功能类别(如机场、农田、工厂等),并通过90天时间间隔的云掩膜合成影像捕捉地表变化规律。其核心特点是结合Sentinel-2的高光谱与时间序列特性,支持时序分析、环境监测等应用,同时提供与fMoW主数据集一致的元数据标注(如地理位置、类别标签)。
- https://github.com/fMoW/dataset
SSL4EO-S12数据集
- SSL4EO-S12 是由中国科学院空天信息创新研究院联合欧洲航天局(ESA)开发的全球首个多模态、多时相遥感影像自监督学习数据集,基于 Sentinel-1(SAR)和 Sentinel-2(光学)卫星数据构建,包含覆盖全球 251,079 个地理位置的 500 万幅无标签影像,每个位置包含四个季节的时间戳(如春季、夏季、秋季、冬季),分辨率为 2640 m ×2640 m,支持多模态数据融合(SAR 双极化与光学 13 波段)和多时相分析,适用于土地覆盖分类、环境变化监测等任务。
- https://github.com/zhu-xlab/SSL4EO-S12
SSL4EO-L数据集
- SSL4EO-L是为Landsat系列卫星设计的第一个自监督学习地球观测数据集,包含5M图像块,是历史上最大的Landsat数据集。
- https://github.com/microsoft/torchgeo
CACo数据集
- CACo数据集聚焦于卫星图像的变化检测与自监督学习任务。该数据集基于 Landsat 8 OLI/TIRS 和 Sentinel-2 MSI 卫星的多时相光学影像构建,包含覆盖全球 15 个国家的 10 万对多时相影像(分辨率 30 米),每对影像间隔 1-5 年,支持变化检测、环境监测等应用。
- https://github.com/utkarshmall13/CACo
SAMRS数据集
- SAMRS是由武汉大学联合澳大利亚悉尼大学开发的全球首个基于 Segment Anything Model(SAM)的大规模遥感影像分割数据集,基于Landsat 8 OLI/TIRS、Sentinel-2 MSI 等卫星的高分辨率光学影像构建,包含 105,090 张图像和 1,668,241 个实例,覆盖农业、城市、森林等典型场景,支持语义分割、实例分割、目标检测等任务。
- https://github.com/ViTAE-Transformer/SAMRS
BigEarthNet-S2数据集
- BigEarthNet-S2是由德国航空航天中心等机构构建的大规模多光谱遥感数据集,包含590,326个Sentinel-2图像块,覆盖欧洲10个国家(如奥地利、比利时等),时间跨度为2017年6月至2018年5月。每个图像块通过2018年CORINE土地覆盖数据库标注了19类土地覆盖类别(如森林、农田、城市建筑等),适用于多标签分类、迁移学习等任务。数据集包含12个光谱波段,分辨率从10米到60米不等,支持多模态研究。
- https://bigearth.net/
MSAR数据集
- MSAR-1.0(大规模多类SAR目标检测数据集),基于海丝一号和高分三号卫星数据构建,包含28,449张SAR图像切片,覆盖机场、港口等场景,标注目标包括飞机(6,368架)、油罐(12,319个)、桥梁(1,851座)和船只(39,858条),支持主流检测网络(如YOLO、Faster-RCNN)的训练与验证。数据极化方式涵盖HH、HV、VH和VV,适用于军事与民用领域的SAR目标识别研究。
- https://radars.ac.cn/web/data/getData
SAR-Ship数据集
- SAR-Ship 是高分辨率 SAR 船舶检测数据集,基于高分三号和 Sentinel-1 卫星数据构建,包含 43,819 张船舶切片,覆盖港口、岛礁、不同等级海况的海面等场景,图像分辨率包括1m、3m、5m等,极化方式为单极化,标注格式为 XML。
- https://github.com/CAESAR-Radi/SAR-Ship-Dataset
🚀 多模态数据集
UCM-Caption数据集
- UCM-Captions是基于UCM-Merced土地利用数据集构建的遥感图像字幕数据集,包含21个类别(如飞机、海滩等),共2100张256×256像素的遥感图像,每张图像配有5个描述性标题,总计10500条标注。数据集分为训练集(1680张)、验证集和测试集(各210张),适用于图像描述生成任务。
- https://github.com/xiaoyuan1996/RemoteSensingCaptions
RSICD数据集
- RSICD是专为遥感图像语义理解设计的最大数据集之一,基于 Google Earth、百度地图等平台的高分辨率影像构建,包含 10921 张遥感图像及 54605 条人工标注的中文描述文本,覆盖 200 余个地物类别,支持遥感图像描述生成、跨模态检索等任务。
- https://github.com/201528014227051/RSICD_optimal
RSITMD数据集
- RSITMD遥感图像-文本匹配数据集,适用于遥感多模态检索任务,具有描述物体间关系的详细说明。基于 Landsat 8、Sentinel-2 等卫星的光学影像构建,包含 21000 张多时相遥感图像及对应的文本描述,覆盖 21 类土地利用场景,支持跨模态遥感图像检索、时间序列分析等任务。
- https://github.com/xiaoyuan1996/AMFMN
DOTA数据集
- DOTA数据集是大规模航空影像目标检测数据集,基于高分辨率航空影像构建,包含 2806 张图像及 188282 个实例标注,覆盖 15 类目标(如飞机、车辆、船舶等),支持目标检测、实例分割等任务。
- https://captain-whu.github.io/DOTA/
DIOR数据集
- DIOR数据集是高分辨率遥感影像目标检测数据集,基于GF-2、高分三号等卫星的光学影像构建,包含 23463 张图像及 192472 个实例标注,覆盖 20 类目标(如机场、桥梁、油罐等),支持目标检测、实例分割等任务。
- https://data.mendeley.com/datasets/vvrhgbr643/1
fMoW数据集
- fMoW(Functional Map of the World)数据集是一个专为视觉识别和地理空间分析设计的遥感数据集,提供两个版本:fMoW-full(包含4波段和8波段多光谱图像的TIFF格式)和fMoW-rgb(JPEG格式的RGB图像),覆盖全球超过10万个地面目标,涵盖机场、风力农场、墓地等37个详细类别,支持对象检测、时空分析和环境监测等任务。其数据基于高质量卫星影像,融合多光谱信息,适用于机器学习模型训练和地理信息系统研究。
- https://github.com/fMoW/dataset
MillionAID数据集
- MillionAID包含超过100万张不重叠的遥感图像,涵盖51个场景类别,覆盖农业用地、居住用地、水域等典型地表场景。数据来源于Google Earth,整合了SPOT、IKONOS、WorldView和Landsat等多源传感器影像,分辨率范围从0.5m到153m,图像尺寸跨度从110×110至31,672×31,672像素,均为RGB格式,且样本量呈现长尾分布(每类2,000至45,000张)。
- https://opendatalab.com/OpenDataLab/Million-AID
UCM数据集
- UCM数据集是城市变化监测数据集,基于航空影像构建,包含 1000 张高分辨率图像及 21 类土地利用场景标注,支持变化检测、场景分类等任务。https://service.tib.eu/ldmservice/dataset/ucm-dataset
NWPU-RESISC45数据集
- NWPU-RESISC45 数据集是高分辨率遥感影像场景分类数据集,基于 Google Earth 影像构建,包含 31500 张图像及 45 类场景标注,覆盖自然、城市、农业等典型场景,支持场景分类、目标检测等任务。https://www.tensorflow.org/datasets/catalog/resisc45
SkyScript数据集
- SkyScript涵盖260万图像-文本对及2.9万语义标签。其通过地理坐标关联Google Earth Engine遥感影像与OpenStreetMap语义信息,实现全球范围覆盖。数据集包含多层级对象类别、子类别及精细属性(如作物品种、道路材质等)。该数据集旨在支持遥感领域中多种多模态任务的发展,如开放词汇分类、检索、图像描述和文本到图像合成。
- https://github.com/wangzhecheng/SkyScrip
RS5M数据集
- RS5M 是由中国科学院空天信息创新研究院开发的 5 百万级遥感影像数据集,基于高分系列卫星、Sentinel-2 等卫星的光学影像构建,包含 500 万张图像及 100 类场景标注,覆盖自然、城市、农业等典型场景,支持场景分类、变化检测等任务。http://www.cas.cn/
NWPU-Caption数据集
- NWPU-Caption是遥感影像-文本跨模态数据集,基于高分系列卫星和Google Earth影像构建,包含12类土地利用场景的15000张遥感图像,每张图像配有10个中英文描述文本,可用于图像描述、图像检索、跨模态融合等相关研究。
- https://github.com/HaiyanHuang98/NWPU-Captions
RSVQA-LR数据集
- RSVQA-LR 数据集基于Landsat 8等卫星的光学影像构建,包含低分辨率图像及对应的英文问答对,覆盖土地覆盖、地物类型等问题,支持遥感视觉问答、跨模态推理等任务。
- https://huggingface.co/datasets/exibings/rsvqa-lr
RSVQA-HR数据集
- RSVQA-HR数据集基于Sentinel-2等卫星的光学影像构建,包含高分辨率图像及对应的英文问答对,覆盖土地覆盖、地物类型等问题,支持遥感视觉问答、跨模态推理等任务。
- https://huggingface.co/datasets/exibings/rsvqa-hr
RSIVQA数据集
- RSIVQA数据集包含图像及图像-问题-答案三元组,覆盖场景分类、目标检测等任务,支持遥感视觉问答、跨模态推理等任务。
- https://github.com/spectralpublic/RSIVQA
FloodNet数据集
- FloodNet 是一个用于洪水检测的遥感影像数据集,由 ETCI 2021 Flood Detection 提供,包含 1578 张洪水相关遥感影像,可用于训练洪水检测模型等。
- https://deepai.org/publication/floodnet-a-high-resolution-aerial-imagery-dataset-for-post-flood-scene-understanding
FAIR1M数据集
- FAIR1M 是大规模遥感目标检测数据集,基于高分系列卫星和 Google Earth影像构建,包含15,000张高分辨率(0.3m-0.8m)图像及 1,000,000 个实例标注,覆盖船舶、车辆、飞机等5大类 37个子类目标,支持目标检测、实例分割等任务。
- https://huggingface.co/datasets/blanchon/FAIR1M
RSVG数据集
- 基于高分系列卫星和 Google Earth 影像构建,包含高分辨率图像及对应的自然语言描述和目标定位标注,覆盖机场、港口、农田等场景,支持视觉定位、跨模态检索等任务。
- https://github.com/ZhanYang-nwpu/RSVG-pytorch
DIOR-RSVG数据集
- 基于 DIOR 数据集构建,包含高分辨率图像及对应的自然语言描述和目标定位标注,覆盖机场、桥梁、油罐等目标,支持视觉定位、跨模态检索等任务。
- https://github.com/ZhanYang-nwpu/RSVG-pytorch
RSICap数据集
- 基于 DOTA 目标检测数据集构建,包含 2,585 张高分辨率图像及对应的中文描述文本,覆盖场景描述、物体属性、空间关系等信息,支持遥感图像描述生成、跨模态检索等任务。
- https://www.alibabacloud.com/
LHRS-Align数据集
- LHRS-Align数据集是一个大规模、高语义丰富度和特征多样性的遥感图像-文本对齐集合。该数据集整合了OpenStreetMap 的志愿地理信息 (VGI) 与Google Earth的遥感图像,涵盖了115万组高质量的遥感图像-文本对。
- https://github.com/NJU-LHRS/LHRS-Bot
LHRS-Instruct数据集
- LHRS-Instruct 面向遥感领域多模态指令跟随需求,将一系列开源遥感数据集重新组织为多任务指令数据集,并借助 GPT-4 生成复杂指令数据。
- https://github.com/NJU-LHRS/LHRS-Bot
Copyright © IVR Lab
Latest updated: 2025-12-17 22:59