100+深度學習各方向數據集資源大盤點

2024-04-02科技

一、影像增強

對比度增強評估數據庫（CEED2016）

數據集下載地址：http://suo.nz/2JfsSf

該CEED2016是新開發的影像數據庫，專門用於對比度增強評估。該數據庫包含 30 張原始彩色影像和 180 張使用六種不同 CE 方法獲得的增強影像。

NILUT三維LUT數據集

數據集下載地址：http://suo.nz/2QLFVk

內窺鏡真實影像

數據集下載地址：http://suo.nz/2YdgQ5

在內窺鏡檢查中，由於中空器官內壁的光反射而出現曝光誤差是很常見的。例如，當內窺鏡的尖端（有光）指向褶皺時，這些結構會反射光線，引起過度曝光，而鏡框另一端可能會出現曝光不足的區域。目前，增強曝光誤差的方法需要配對數據，即損壞的幀及其各自的地面實況（即未損壞或幹凈的影像）。例如，對於自然影像，已經提出了包含常見現實生活影像的LOL或MIT-Adobe FiveK數據集。這些配對數據集允許研究人員利用標準化的地面實況影像來訓練和評估他們的模型。我們的工作旨在透過使用GANs建立一個沒有任何曝光誤差的真實影像和具有曝光誤差的相同影像的配對數據集。

真實世界模糊影像數據集

下載連結：http://suo.nz/2nk7w2

訓練集：182 個不同場景的 3,758 個影像對。測試集：50 個不同場景的 980 個影像對。

I-HAZE影像去霧數據集

下載連結：http://suo.nz/2fNUrl

該數據集中包含 35 個有霧影像對和相應的無霧（地面實況）室內影像。與大多數現有的去霧數據庫不同，霧霾影像是使用專業霧霾機產生的真實霧霾生成的。為了簡化顏色校準並改進去霧演算法的評估，每個場景都包含一個 MacBeth 顏色檢查器。此外，由於影像是在受控環境中捕獲的，因此無霧和有霧影像都是在相同的照明條件下捕獲的。

UIEB水下影像增強數據集

下載連結：http://suo.nz/3dY13O

該數據集包括 950 張真實水下影像，其中 890 張具有相應的參考影像。並將其余60幅無法獲得滿意參考影像的水下影像視為具有挑戰性的數據。

GoPro去模糊數據集

下載連結：http://suo.nz/36rNZ7

用於去模糊的 GoPro 數據集由 3,214 張模糊影像組成，大小為 1,280×720，分為 2,103 張訓練影像和 1,111 張測試影像。該數據集由成對的真實模糊影像和高速攝影機獲得的相應地面實況影像組成。

NH-HAZE

下載地址：http://m6z.cn/5tyN0D

這是一個非均勻的真實數據集，具有成對的真實霧度和相應的無霧度影像。這是第一個非齊次影像去模糊數據集，包含55個室外場景。在場景中引入了非均勻霧，使用專業霧發生器模擬霧場景的真實條件。

ExDark影像數據集

下載地址：http://suo.nz/2lidoI

Exclusively Dark (ExDARK) 數據集是 7,363 張從極低光環境到黃昏（即 10 種不同條件）的低光影像的集合，具有 12 個物件類（類似於 PASCAL VOC），在影像類級別和局部物件邊界上進行了註釋盒子。

WoodScape自動駕駛魚眼數據集

下載地址：http://suo.nz/2HMEtL

WoodScape 包含四個環視網絡攝影機和九項任務，包括分割、深度估計、3D 邊界框檢測和新型汙染檢測。為超過 10,000 張影像提供例項級別的 40 個類的語意註釋。

PolyU數據集

數據集下載地址：https://sourl.cn/rMsdE8

大多數以前的影像去噪方法都集中在加性高斯白雜訊（AWGN）上。然而，隨著電腦視覺技術的進步，現實世界中的雜訊影像去噪問題也隨之而來。為了在實作並行真實世界影像去噪數據集的同時促進對該問題的研究，作者們構建了一個新的基準數據集，其中包含不同自然場景的綜合真實世界雜訊影像。這些影像是由不同的相機在不同的相機設定下拍攝的。

二、例項分割

細胞例項分割數據集

數據集下載連結：http://suo.nz/3bokV6

引入了新的大型細胞例項分割數據集（CISD）。它包括3911個樣品，其中包含至少兩個接觸或重疊的尿路上皮細胞。細胞例項由訓練有素的細胞技術人員手動註釋。所有樣品均從 30 張數碼細胞學載玻片中提取，這些載玻片用 9 種不同的 Papanicolaou 染色染色。細胞學載玻片使用豪洛捷 ThinPrep®5000 處理器從健康患者的尿液樣本中制備，並常規使用安捷倫 Dako 蓋染色儀®進行染色。最終使用具有21個焦平面的Hamamatsu NanoZoomer®S360對載玻片進行數碼化，並以掃描器自動對焦確定的最佳焦平面為中心。

非模態例項分割數據集

數據集下載連結：http://suo.nz/33S7Qp

這是遙感領域的非模態例項分割數據集。數據集目前僅包含 9 張圖片，其余 1000+ 張圖片將在稍後釋出。屋頂、建築物和遮擋類別在數據集中進行了標記，分別表示建築物的屋頂、建築物的整個區域和建築物的遮擋部份。

Embrapa釀酒葡萄例項分割數據集

數據集下載連結：http://suo.nz/337vkW

本數據集用於研究葡萄栽培中基於影像的監測和現場機器人的物件檢測和例項分割。它提供了在田間采集的五種不同葡萄品種的例項。這些例項顯示了葡萄姿勢、光照和焦點的差異，包括遺傳和物候變化，如形狀、顏色和緊湊度。

樹上芒果例項分割數據集

數據集下載連結：http://suo.nz/2VBigf

使用帶有多邊形區域註釋的VGG影像註釋工具（Dutta & Zisserman 2019）對影像進行註釋。兩個資料夾包含用於訓練和文本影像集的 COCO 註釋格式的影像和 JSON 註釋檔。

例項分割電腦視覺專案

數據集下載連結：http://suo.nz/2O5vcs

以下是此專案的一些用例：

1.雜貨庫存管理：洋蔥檢測器可用於超市和雜貨店，透過準確辨識和計數儲存區域或展示架上的洋蔥，自動監控和管理洋蔥的庫存和庫存。

2.洋蔥收獲自動化：使用洋蔥檢測器模型開發收獲自動化器材可以幫助農民和農業公司檢測和分離除草植物或土壤中的洋蔥，顯著提高洋蔥收獲過程的速度和效率。

3.食品工業質素控制：洋蔥檢測儀可以整合到食品加工廠的生產線中，使系統能夠自動檢測各個加工階段的洋蔥 - 例如分類，清潔和分級 - 以確保最終產品的質素一致。

4.減少洋蔥浪費：該模型可用於零售、餐廳或家庭環境，以辨識可能開始變質的洋蔥，使消費者或餐飲服務經營者能夠在需要丟棄之前優先使用這些洋蔥，最終限制食物浪費。

5.智能廚房輔助：透過將洋蔥檢測器整合到智能廚房電器中，使用者可以根據可用成分（包括洋蔥）接收自動食譜建議，從而更輕松地確定膳食選項，而無需手動搜尋食譜數據庫。

三、目標跟蹤

用於低空交通監控的多模態無人機數據集

數據集下載連結：http://suo.nz/2RX507

AU-AIR 數據集是第一個用於目標檢測的多模態無人機數據集。

AU-AIR具有以下幾個特點：

航空影像中的物體檢測

大於2 小時原始影片

32,823 個標記幀

132,034 個物件例項

與交通監控相關的8個物件類別

幀上還標註了無人機的時間、GPS、IMU、高度、線速度

KITTI目標跟蹤

數據集下載連結：http://suo.nz/2KqSby

ALOV300++跟蹤數據集

數據集下載連結：http://suo.nz/2dKDTl

ALOV++，Amsterdam Library of Ordinary Videos for tracking 是一個物體追蹤影片數據，旨在對不同的光線、通透度、泛著條件、背景雜亂程度、焦距下的相似物體的追蹤。

PathTrack 數據集

數據集下載連結：http://suo.nz/2OFhXy

用於多目標跟蹤 (MOT)。PathTrack 數據集包含 720 個影片序列中的 15,000 多個人的軌跡。

VOT2020

數據集下載連結：http://suo.nz/2W7iD5

NfS高幀率影片數據集

數據集下載連結：http://suo.nz/34o8df

第一個更高幀率的影片數據集（稱為極品飛車 - NfS）和視覺物件跟蹤基準。該數據集包含 100 個影片（380K 幀），這些影片是使用現在常見的更高幀率 (240 FPS) 攝影機從現實世界場景中捕獲的。所有幀都用軸對齊的邊界框進行註釋，所有序列都用九個視覺內容手動標記——例如遮擋、快速運動、背景雜亂等。

Temple Color 128

Temple Color 128 數據集下載連結：http://suo.nz/2dKEEL

本數據集包含一大組 128 種顏色序列，帶有基本事實和挑戰因素註釋（例如，遮擋）

四、少樣本/零樣本學習

FSOD少樣本目標檢測數據集

數據集下載連結：http://suo.nz/3d6H0E

少樣本目標檢測數據集（FSOD）是一個高度多樣化的數據集，專門為少樣本目標檢測而設計，本質上是為了評估模型在新類別上的通用性。

UT Zappos50K鞋類數據集

數據集下載連結：http://suo.nz/35EG4Z

UT Zappos50K ( UT-Zap50K ) 是一個大型鞋類數據集，包含從Zappos.com收集的50,025 個目錄影像。這些影像分為 4 個主要類別——鞋子、涼鞋、拖鞋和靴子——其次是功能類別和個人品牌。鞋子以白色背景為中心，並以相同方向進行拍照，以便於分析。

Animals with Attributes數據集

數據集下載連結：http://suo.nz/2Y8tgq

該數據集提供了一個基準遷移學習演算法的平台，特別是內容基分類和零樣本學習[1]。它可以作為原始Animals with Attributes (AwA)數據集 [2,3]的直接替代品，因為它具有相同的類結構和幾乎相同的特征。它由 50 個動物類別的 37322 張影像組成，每張影像都有預先提取的特征表示。這些類與 Osherson 的經典類/內容矩陣 [3,4] 對齊，從而為每個類提供 85 個數碼內容值。使用共享內容，可以在不同類之間傳輸資訊。

原始礦物物種辨識基準

數據集下載連結：http://suo.nz/2RidE3

該數據集包含 5,000 多種不同的礦物物種，並包含零樣本和少樣本學習的子集。除了樣本本身之外，數據集中的一些條目還附有補充的自然語言描述、大小測量和分割掩碼。

RareAct異常動作影片數據集

數據集下載連結：http://suo.nz/2JM0zm

RareAct是一個異常動作的影片數據集，包括「混合手機」、「切鍵盤」和「微波爐鞋」等動作。它的目的是評估動作辨識模型的零樣本和少樣本組合性，以辨識常見動作動詞和賓語名詞的不太可能的組合。它包含 122 個不同的動作，這些動作是透過組合在 HowTo100M 的大規模文本語料庫中很少同時出現但經常單獨出現的動詞和名詞來獲得的。

Generix 物件零樣本學習 ( GOZ ) 數據集

數據集下載連結：http://suo.nz/2J1o3T

Generix 物件零樣本學習 ( GOZ ) 數據集是零樣本學習的基準數據集。

五、異常檢測

AeBAD航空發動機葉片異常檢測數據集

數據集下載連結：http://suo.nz/2IU48P

真實世界的航空發動機葉片異常檢測（AeBAD）數據集，由兩個子數據集組成：單葉片數據集（AeBAD-S）和葉片影片異常檢測數據集（AeBAD-V）。與現有數據集相比，AeBAD具有以下兩個特點：1.）目標樣本未對齊且處於不同的尺度。2.) 測試集和訓練集中正態樣本的分布存在域偏移，其中域偏移主要是由光照和檢視的變化引起的。

BeanTech 異常檢測數據集

數據集下載連結：http://suo.nz/2JEGEi

BTAD （beanTech 異常檢測）數據集是真實世界的工業異常數據集。該數據集包含 3 種工業產品的總共 2830 張真實世界影像。

LAD影片序列異常檢測

數據集下載連結：http://suo.nz/35AL1Z

Large-scale Anomaly Detection (LAD) 是一個用於對影片序列中的異常檢測進行基準測試的數據庫，它具有兩個方面的特點。1) 包含正常和異常影片片段2000個影片序列，碰撞、火災、暴力等14個異常類別，場景種類繁多，是目前最大的異常分析數據庫。2）提供標註數據，包括影片級標簽（異常/正常影片、異常類別）和幀級標簽（異常/正常影片幀），方便異常檢測。

RoadAnomaly21

數據集下載連結：http://suo.nz/2Y8MHC

RoadAnomaly21是一個用於異常分割的數據集，其任務是辨識包含訓練期間從未見過的物件的影像區域。它由 100 張帶有像素級註釋的影像的評估數據集組成。每張圖片至少包含一個異常物體，例如動物或未知車輛。異常可以出現在影像的任何地方，並且大小差異很大，覆蓋影像的 0.5% 到 40%。

UBnormal數據集

數據集下載連結：http://suo.nz/2Rix5f

UBnormal 是一種新的監督開放集基準測試，由多個虛擬場景組成，用於影片異常檢測。與現有數據集不同，該數據集在訓練時引入了像素級註釋的異常事件，首次實作了使用全監督學習方法進行異常事件檢測。為了保留典型的開放集公式，數據集在影片的訓練和測試集合中包含不相交的異常類別集。

VisA異常數據集

數據集下載連結：http://suo.nz/2JMk0y

VisA 數據集包含 12 個子集，對應 12 個不同的物件。共有 10,821 張影像，其中包含 9,621 個正常樣本和 1,200 個異常樣本。四個子集是不同類別的印刷電路板 (PCB)，具有相對復雜的結構，包括晶體管、電容器、芯片等。對於檢視中多個例項的情況，我們收集了四個子集：Capsules、Candles、Macaroni1 和 Macaroni2。Capsules 和 Macaroni2 中的例項在位置和姿勢上有很大不同。

六、醫學影像

CT 醫學影像

下載連結：http://suo.nz/2tQehH

該數據集旨在允許測試不同的方法來檢查與使用對比度和患者年齡相關的 CT 影像數據的趨勢。基本思想是辨識與這些特征密切相關的影像紋理、統計模式和特征，並可能構建簡單的工具，在這些影像被錯誤分類時自動對其進行分類（或尋找可能是可疑情況、錯誤測量或校準不良機器的異常值）

MedMNIST醫學影像分割評估

下載連結：http://suo.nz/2Bmrmo

MedMNIST，這是 10 個預處理的醫學開放數據集的集合。MedMNIST 經過標準化處理，可在輕量級 28x28 影像上執行分類任務，無需背景知識。它涵蓋了醫學影像分析中的主要數據模式，在數據規模（從 100 到 100,000）和任務（二元/多類、序數回歸和多標簽）上具有多樣性。MedMNIST 可用於教育目的、快速原型設計、多模式機器學習或醫學影像分析中的 AutoML。此外，MedMNIST classification Decathlon 旨在對所有 10 個數據集上的 AutoML 演算法進行基準測試

多標簽視網膜疾病 (MuReD) 數據集

下載連結：http://suo.nz/2ISEr5

多標簽視網膜疾病（MuReD）數據集，使用從三個不同的最先進來源（即 ARIA、STARE 和 RFMiD 數據集）收集的影像，並執行一系列後處理確保影像質素的處理步驟、要分類的廣泛疾病以及每個疾病標簽有足夠數量的樣本。MuReD 數據集由 2208 張影像組成，具有 20 個不同的標簽，影像質素和分辨率各不相同。同時，確保數據的最低質素，每個標簽有足夠數量的樣本。

瘧疾細胞影像數據集

下載連結：http://suo.nz/2VQTUt

皮膚癌 MNIST：HAM10000

下載連結：http://suo.nz/33n6Xy

該數據集收集了來自不同人群的皮膚鏡影像，透過不同的方式獲取和儲存。最終數據集包含 10015 張皮膚鏡影像，可用作學術機器學習目的的訓練集。案例包括色素病變領域所有重要診斷類別的代表性集合：光化性角化病和上皮內癌/鮑溫氏病 (akiec)、基底細胞癌 (bcc)，超過50%的病變是透過組織病理學（histo）證實的，其余病例的ground truth要麽是後續檢查（follow_up），要麽是專家共識（consensus），要麽是活體共聚焦顯微鏡（confocal）證實. 數據集包括具有多個影像的病變，可以透過 HAM10000_metadata 檔中的 lesion_id 列進行跟蹤。

乳房組織病理學影像

下載連結：http://suo.nz/347Jt1

原始數據集包含以 40 倍掃描的 162 個完整的乳癌 (BCa) 標本投影片影像。從中提取了 277,524 個大小為 50 x 50 的修補程式（198,738 個 IDC 負值和 78,786 個 IDC 正值）。每個修補程式的檔名格式為：u_xX_yY_ classC.png — > example 10253_idx5_x1351_y1101_ class0.png。其中 u 是患者 ID (10253_idx5)，X 是裁剪此修補程式的 x 座標，Y 是裁剪此修補程式的 y 座標，C 表示類，其中 0 是非 IDC 和1 是數據中心。

胸部 X 光影像（肺炎）

下載連結：http://suo.nz/3aXYPg

數據集分為 3 個資料夾（train、test、val）並包含每個影像類別（肺炎/正常）的子資料夾。有 5,863 張 X 射線影像 (JPEG) 和 2 個類別（肺炎/正常）。胸部 X 光影像（前後位）選自廣州市婦女兒童醫療中心 1 至 5 歲兒科患者的回顧性佇列。

白內障數據集

下載連結：http://suo.nz/2cOidH

用於白內障檢測的白內障和正常眼睛影像數據集。

惡性與良性皮膚癌

下載連結：http://suo.nz/2kkvio

該數據集包含良性皮膚痣和惡性皮膚痣影像的平衡數據集。數據由兩個資料夾組成，每個資料夾包含兩種痣的 1800 張圖片 (224x244)。

七、面部表情辨識

FePh面部表情數據集

數據集下載連結：http://suo.nz/2zIouL

手語背景下帶註釋的序列化面部表情數據集，其中包含從公共電視台 PHOENIX 的每日新聞和天氣預報中提取的 3000 多張面部影像。與大多數當前現有的面部表情數據集不同，FePh 提供具有不同頭部姿勢、方向和運動的序列化半模糊面部影像。

不平衡面部表情數據集

數據集下載連結：http://suo.nz/2OKM2R

影像大小保持 96x96，並使用改進後的標簽。源數據集被分成兩個子集——訓練和測試。train.csv 和 test.csv 檔分別包含訓練和測試子集的標簽到檔名的對映。類別有：憤怒、蔑視、厭惡、恐懼、快樂、中性、悲傷和驚訝。

FER-2013

數據集下載連結：http://suo.nz/2WgZ7y

數據由 48x48 像素的人臉灰度影像組成。人臉已自動註冊，因此人臉或多或少居中，並且在每張影像中占據大致相同的空間訓練集包含 28,709 個範例，公共測試集包含 3,589 個範例。

FANE：面部表情和情緒數據集

數據集下載連結：http://suo.nz/2X1BD1

FANE 是一個影像數據集，用於對野外影像中的面部表情和情緒進行分類。數據集中有九個類別。總共有16,913 張圖片。影像是從多個來源收集的，包括其他面部表情數據集，以及主要透過網絡抓取的互聯網。使用手動註釋和預訓練模型對影像進行標記。

小鼠面部表情數據集

數據集下載連結：http://suo.nz/34xOHI

老鼠在三種情緒狀態（中性、疼痛和發癢）下的面部影像。

八、口罩辨識檢測

SF-MASK

數據集下載連結：http://suo.nz/2E6ADA

從監控錄像中對有面具和無面具的人臉進行分類是最困難的任務之一，數據集SF-MASK來解決這些問題，該數據集適用於小尺寸人臉、部份隱藏的人臉、各種人臉方向和各種面具類別等。SF-MASK是透過收集已經釋出的面具相關數據集而構建的。同時，透過分析現有數據集中缺失的數據和補充缺失的數據，使其更加完整。

口罩檢測影片數據集

數據集下載連結：http://suo.nz/2wAnAv

一個即時影片/影像數據集，其中包含在大學環境中行走的多個主題（帶/不帶面具）。每個帶註釋的幀都包含多個具有唯一標識、邊界框和類/標簽資訊的例項（即人）。數據集和註釋可用於訓練、驗證和測試基於深度學習和電腦視覺的口罩檢測演算法。以下是數據集的詳細資訊：影片總幀數：4357 邊界框總數：21941 帶遮罩的盒子 (MW)：8306 不帶遮罩的盒子 (NM)：13635 影像幀：此資料夾包含 4357 個影片幀 (.png)。

口罩佩戴數據集

數據集下載連結：http://suo.nz/2p4avO

該Mask Wearing數據集是戴各種口罩的人和不戴口罩的人的物體檢測數據集。這些影像最初由台灣伊甸社會福利基金會的 Cheng Hsun Teng 收集，並由 Roboflow 團隊重新標記。

口罩檢測數據集

數據集下載連結：http://suo.nz/2ojy0l

數據集由 2 個資料夾中的 7553 張 RGB 影像組成，分別是 with_mask 和 without_mask。影像被命名為標簽 with_mask 和 without_mask。戴口罩的人臉影像為3725張，不戴口罩的人臉影像為3828張。

MDMFR口罩數據集

數據集下載連結：http://suo.nz/2gNkVE

MDMFR 數據集由兩個主要集合組成，1) 面罩檢測和 2) 蒙面面部辨識。我們的 MDMFR 數據集中有 6006 張影像。面罩檢測集合包含兩類人臉影像，即蒙面和未蒙面。檢測數據庫包含 3174 個帶掩碼和 2832 個不帶掩碼（未掩碼）的影像。

RMFD口罩遮擋人臉數據集

數據集下載連結：http://suo.nz/2ojy0v

九、打架辨識

監控網絡攝影機下的打架檢測

數據集下載連結：http://suo.nz/39IbxQ

該數據集是從包含打架例項的 Youtube 影片中收集的。此外，還包括一些來自常規監控攝影機影片的非打架序列。

總共有300個影片，150個打架+150個非打架

影片時長 2 秒

範例中僅包含與打架相關的部份

此外，由於任務是透過監控網絡攝影機檢測打鬥，因此首選沒有背景運動的影片作為樣本。此外，還包括各種打鬥場景，例如用物體撞擊、踢打、拳擊、摔角。範例中的環境也各不相同，例如咖啡館、街道、公共汽車等。

UBI-Fight異常事件檢測數據集

數據集下載連結：http://suo.nz/3aoBUh

UBI-Fights 數據集是一個獨特的全新大型數據集，涉及特定的異常檢測並仍然在打鬥場景中提供廣泛的多樣性，該數據集包含 80 小時的影片，在幀級別進行了完全註釋。由 1000 個影片組成，其中 216 個影片包含打鬥事件，784 個是正常的日常生活場景。刪除所有可能幹擾學習過程的不必要的影片片段（例如，影片介紹、新聞等）。

曲棍球比賽檢測數據集

數據集下載連結：http://suo.nz/2ceViI

該數據集中包含 1000 個序列，分為兩組：打鬥和非打鬥。

打架辨識影像數據集

數據集下載連結：http://suo.nz/2jL8np

該數據集是為「打鬥探測器」專案建立的，該專案檢測靜止影像中的打鬥，然後將打鬥探測器移動到上下文中具有時間維度的下一級影片檢測。打鬥數據集是從影片數據集 HMDB51 數據集建立的。

真實街頭鬥毆影片數據集

數據集下載連結：http://suo.nz/2rhiQO

該數據集包含從 youtube 影片中收集的 1000 個暴力影片和 1000 個非暴力影片，數據集中的暴力影片包含多種環境和條件下的許多真實街頭鬥毆情況。數據集中的非暴力影片也是從許多不同的人類行為中收集的，如運動、飲食、步行等。

十、垃圾檢測分類

AquaTrash垃圾辨識數據集

數據集下載連結：http://suo.nz/2CdMGi

該數據集包含 369 張用於深度學習的垃圾影像。總共有 470 個邊界框。共有 4 類 {(0: glass), (1:paper), (2:metal), (3:plastic)}

口罩垃圾檢測

數據集下載連結：http://suo.nz/2CYpbL

這個數據集是一個極具挑戰性的集合，包含從 1200 多個城市和農村地區捕獲和眾包的 7000 多張原始 Masks 影像，其中每張影像都由DC Labs 的電腦視覺專業人員手動審查和驗證。

數據集大小：7000+ 捕獲者：超過 1200 多個眾包貢獻者分辨率：99% 影像高畫質及以上（1920x1080 及以上）地點：拍攝於印度 900 多個城市多樣性：各種照明條件，如白天、夜晚、不同的距離、觀察點等使用器材：2020-2021 年使用手機拍攝用途：口罩檢測、口罩隔離、垃圾口罩檢測等

煙頭垃圾數據集

數據集下載連結：http://suo.nz/2KuC0k

該數據集由一組 2200 張合成合成的地面香煙影像組成。它專為訓練 CNN（摺積神經網絡）而設計。

註釋：帶有自訂類別的分段物件檢測 COCO 格式。合成：影像由自訂程式碼自動合成，利用 Python 影像庫將隨機比例、旋轉、亮度等套用到前景切口地點：地上和煙頭的照片是在德薩斯州柯士甸拍攝的相機：iPhone 8，原始像素分辨率 3024 x 4032

水下垃圾檢測數據集

數據集下載連結：http://suo.nz/2RkRCH

該數據來自 J-EDI 海洋垃圾數據集。構成該數據集的影片在質素、深度、場景中的物件和使用的相機方面差異很大。它們包含許多不同類別的海洋垃圾的影像，這些影像是從現實世界環境中捕獲的，提供了處於不同衰減、遮擋和過度生長狀態的各種物體。此外，水的清晰度和光的質素因影片而異。這些影片經過處理以提取 5,700 張影像，這些影像構成了該數據集，所有影像都在垃圾例項、植物和動物等生物物件以及 ROV 上標有邊界框。

垃圾分類數據集

數據集下載連結：http://suo.nz/2YR4Ho

該數據集包含來自 12 個不同類別的生活垃圾的 15,150 張影像；紙、紙板、生物、金屬、塑膠、綠色玻璃、棕色玻璃、白色玻璃、衣服、鞋子、電池和垃圾。

Kaggle 垃圾分類圖片數據集

數據集下載連結：http://suo.nz/36mRLb

該數據集是圖片數據，分為訓練集85%（Train）和測試集15%（Test）。其中O代表Organic（有機垃圾），R代表Recycle（可回收）

生活垃圾數據集

數據集下載連結：http://suo.nz/3dT4PS

大約9000多張獨特的圖片。該數據集由印度國內常見垃圾物件的影像組成。影像是在各種照明條件、天氣、室內和室外條件下拍攝的。該數據集可用於制作垃圾/垃圾檢測模型、環保替代建議、碳足跡生成等。

垃圾溢位數據集

數據集下載連結：http://suo.nz/2fJocH

SpotGarbage垃圾辨識數據集

數據集下載連結：http://suo.nz/2nfBho

影像中的垃圾（GINI）數據集是SpotGarbage引入的一個數據集，包含2561張影像，956張影像包含垃圾，其余的是在各種視覺內容方面與垃圾非常相似的非垃圾影像。

十一、自動駕駛

ExDark影像數據集

下載地址：http://suo.nz/2lidoI

Nexet車輛檢測數據集

下載地址：http://suo.nz/2sKekn

50000張帶標註的訓練圖片

41190張測試圖片

圖片來自77個國家

Udacity 自動駕駛汽車數據集

下載地址：http://suo.nz/2Agrp4

該數據集包含 11 個類別的 97,942 個標簽和 15,000 張影像。有 1,720 個空樣本（沒有標簽的影像）。

所有影像均為 1920x1200（下載大小約為 3.1 GB）。我們還提供了一個降采樣到 512x512（下載大小約 580 MB）的版本，適用於大多數常見的機器學習模型（包括 YOLO v3、Mask R-CNN、SSD 和 mobilenet）。

WoodScape

下載地址：http://suo.nz/2HMEtL

BDD100K

下載地址：http://suo.nz/2OCU68

UCB的全天候全光照大型數據集，包含1,100小時的HD錄像、GPS/IMU、時間戳資訊，100,000張圖片的2D bounding box標註，10,000張圖片的語意分割和例項分割標註、駕駛決策標註和路況標註。官方推薦使用此數據集的十個自動駕駛任務：影像標註、道路檢測、可行駛區域分割、交通參與物檢測、語意分割、例項分割、多物體檢測追蹤、多物體分割追蹤、域適應和模仿學習。

Linkopings交通標誌數據集

下載地址：http://suo.nz/2W97aP

超過 20,000 張影像，其中 20% 已標記。

包含 3488個交通標誌。

從超過 350 公裏的瑞典道路上記錄的公路和城市序列。

非洲地區交通標誌數據集

下載地址：http://suo.nz/2WTJGi

該數據集已特別針對非洲地區進行了改進。兩個開源數據集僅用於提取非洲地區使用的交通標誌。該數據集包含來自所有類別的 76 個類，例如監管、警告、指南和資訊標誌。該數據集總共包含 19,346 張影像和每個類別至少 200 個例項。

十二、衛星影像

水體衛星影像的影像

數據集下載地址：http://suo.nz/2ksvWY

Sentinel-2 衛星拍攝的水體影像集。每張圖片都帶有一個黑白mask，其中白色代表水，黑色代表除水之外的其他東西。這些掩模是透過計算 NWDI（歸一化水差指數）生成的，該指數經常用於檢測和測量衛星影像中的植被，但使用更大的閾值來檢測水體。

城市航拍影像分割數據集

數據集下載地址：http://suo.nz/2cWiSh

此數據集包含用於檢查和準備航空影像分割數據集的指令碼。該數據集包含一組不同的衛星影像，這些影像用目標城市的建築物、道路和背景標簽進行了註釋。

遊泳池和汽車衛星影像檢測

數據集下載地址：http://suo.nz/3b5ZtQ

人工月球景觀數據集

數據集下載地址：http://suo.nz/33zMp9

由於月球影像的稀缺性和缺乏註釋，通常很難對其進行任何類別的機器學習實驗。該數據集的目標是為公眾提供人造而逼真的月球景觀樣本，可用於訓練巖石檢測演算法。這些經過訓練的演算法可以在實際的月球圖片或其他巖石地形圖片上進行測試。該數據集目前包含 9,766 個巖石月球景觀的真實渲染圖，以及它們的分段等價物（3 類是天空、較小的巖石和較大的巖石）。還提供了所有較大巖石和經過處理、清理後的地面實況影像的邊界框表。

麻省道路數據集

數據集下載地址：http://suo.nz/32Pa9O

麻省道路數據集由1171幅麻省的航空影像組成。與建築數據一樣，每個影像的大小為1500×1500像素，占地2.25平方公裏。

十三、工業檢測

MIO-TCD車輛分類數據集

數據集下載連結：http://suo.nz/2wf2fh

該數據集包含總共 786,702 張影像，其中分類數據集中有 648,959 張影像，定位數據集中有 137,743 張影像，這些影像是在一天中的不同時間和一年中的不同時期由部署在加拿大和美國的數千個交通網絡攝影機采集的。這些影像已被選中以涵蓋廣泛的挑戰，並且代表了當今在城市交通場景中捕獲的典型視覺數據。每個運動物體都經過近200人的仔細辨識，可以對各種演算法進行定量比較和排名。該數據集旨在提供嚴格的基準測試工具，用於訓練和測試現有演算法和新演算法，用於交通場景中移動車輛的分類和定位。數據集分為兩部份：「分類挑戰數據集」和「定位挑戰數據集」。

時尚產品圖片數據集

數據集下載連結：http://suo.nz/2DKP2W

每個產品都由類似42431的ID標識。可以在 styles.csv中找到所有產品的對映，從images/42431.jpg獲取該產品的影像，並從 styles/42431.json獲取完整的後設資料。

水稻病害數據集

數據集下載連結：http://suo.nz/2KB4Fj

用於檢測不同的水稻病害，2K+ 影像主要涵蓋 3 種疾病——褐斑病、Hispa 和葉瘟病。

火災檢測數據集

數據集下載連結：http://suo.nz/2S7hIo

檢測影像中是否存在火災，含有來自不同場景的 500 多張影像。

天氣和日光類別分類數據集

數據集下載連結：http://suo.nz/2ZziE3

用於影像分類的多類天氣數據集 (MWD) 是題為「使用異構整合方法從靜態影像進行多類天氣辨識」的研究論文，中使用的一個有價值的數據集。該數據集透過提取用於辨識不同天氣條件的各種特征，為室外天氣分析提供了一個平台。1000 多張影像，具有 5 種以上的不同類別——日出、雨天、多雲、傍晚、夜晚等。

天池鋁型材表面缺陷數據集

數據集下載地址：http://m6z.cn/61EksR

大賽數據集裏有1萬份來自實際生產中有瑕疵的鋁型材監測影像數據，每個影像包含一個或多種瑕疵。供機器學習的樣圖會明確標識影像中所包含的瑕疵類別。

Kylberg 紋理數據集

數據集下載地址：http://m6z.cn/61Ekw5

在布匹的實際生產過程中，由於各方面因素的影響，會產生汙漬、破洞、毛粒等瑕疵，為保證產品質素，需要對布匹進行瑕疵檢測。布匹疵點檢驗是紡織行業生產和質素管理的重要環節，目前人工檢測易受主觀因素影響，缺乏一致性；並且檢測人員在強光下長時間工作對視力影響極大。由於布匹疵點種類繁多、形態變化多樣、觀察辨識難道大，導致布匹疵點智能檢測是困擾行業多年的技術瓶頸。本數據涵蓋了紡織業中布匹的各類重要瑕疵，每張圖片含一個或多種瑕疵。封包括包括素色布和花色布兩類，其中，素色布數據約8000張；花色布數據約12000張。

東北大學帶鋼表面缺陷數據集

數據集下載地址：http://m6z.cn/5U87us

數據集收集了夾雜、劃痕、壓入氧化皮、裂紋、麻點和斑塊6種缺陷，每種缺陷300張，影像尺寸為200×200。數據集包括分類和目標檢測兩部份，不過目標檢測的標註中有少量錯誤，需要註意。

Severstal 帶鋼缺陷數據集

數據集下載地址：http://m6z.cn/61EkBp

該數據集中提供了四種類別的帶鋼表面缺陷。訓練集共有12568張，測試集5506張。影像尺寸為1600×256。

UCI 帶鋼缺陷數據集

數據集下載地址：http://m6z.cn/61EkUh

該數據集包含了7種帶鋼缺陷類別。這個數據集不是影像數據，而是帶鋼缺陷的28種特征數據，可用於機器學習專案。鋼板故障的7種類別：裝飾、Z_劃痕、K_劃痕、汙漬、骯臟、顛簸、其他故障。

DAGM 2007數據集

數據集下載地址：http://m6z.cn/5F5eQV

該數據集主要針對紋理背景上的雜項缺陷，為較弱監督的訓練數據。包含十個數據集，前六個為訓練數據集，後四個為測試數據集。每個數據集均包含以灰度8位元PNG格式保存的1000個「無缺陷」影像和150個「有缺陷」影像，每個數據集由不同的紋理模型和缺陷模型生成。「無缺陷」影像顯示的背景紋理沒有缺陷，「無缺陷」影像的背景紋理上恰好有一個標記的缺陷。所有數據集已隨機分為大小相等的訓練和測試子數據集。弱標簽以橢圓形表示，大致表示缺陷區域。

磁瓦缺陷數據集

數據集下載地址：http://m6z.cn/5F5eSd

中國科學院自動所一個課題組收集的數據集，是「Saliency of magnetic tile surface defects」這篇論文的數據集。收集了6種常見磁瓦缺陷的影像，並做了語意分割的標註。

RSDDs鐵軌表面缺陷數據集

數據集下載地址：http://m6z.cn/61EkKL

RSDDs數據集包含兩種類別的數據集：第一種是從快車道捕獲的I型RSDDs數據集，其中包含67個具有挑戰性的影像。第二個是從普通/重型運輸軌域捕獲的II型RSDDs數據集，其中包含128個具有挑戰性的影像。

兩個數據集的每幅影像至少包含一個缺陷，並且背景復雜且雜訊很大。

RSDDs數據集中的這些缺陷已由一些專業的人類觀察員在軌域表面檢查領域進行了標記。

KTH-TIPS 紋理影像數據集

數據集下載地址：http://m6z.cn/61EkMH

KTH-TIPS 是一個紋理影像數據集，在不同的光照、角度和尺度下拍攝的不同材質表面紋理圖片。類別包括砂紙、鋁箔、發泡膠、海綿、燈芯絨、亞麻、棉、黑麪包、橙皮和曲奇共10類。

印刷電路板（PCB）瑕疵數據集

數據集下載地址：http://m6z.cn/5U87Ji

這是一個公共的合成PCB數據集，由北京大學釋出，其中包含1386張影像以及6種缺陷（缺失孔，鼠咬壞，開路，短路，雜散，偽銅），用於檢測，分類和配準任務。

十三、安全帽、頭盔、反光衣分類辨識

安全帽佩戴數據集

數據集下載連結：http://suo.nz/2M6i3r

該數據集中有 5000 張影像和 5000 個註釋。原始數據集包含三個類別（人、頭部和頭盔），共有 2501 個標簽。此外，原始數據集沒有完全標記。我們在結果中的數據集上添加了三個新標簽，新標簽由六個類別（頭盔、帶頭盔的頭部、帶頭盔的人、頭部、不帶頭盔的人和面部）組成，共有 75578 個標簽。

SHWD安全帽佩戴檢測數據集

數據集下載連結：http://suo.nz/2TCswQ

SHWD 提供了用於安全頭盔佩戴和人頭檢測的數據集。它包括7581張影像，其中9044個人體安全頭盔佩戴物件（正面）和111514個正常頭部物件（未佩戴或負面）。

摩托車頭盔檢測數據集

數據集下載連結：http://suo.nz/318FBx

HELMET 數據集包含 2016 年在緬甸 12 個觀測點錄制的 910 個摩托車交通影片剪輯。每個影片剪輯的持續時間為 10 秒，以 10fps 的幀速率和 1920x1080 的分辨率記錄。該數據集包含 10,006 輛摩托車，超過了現有數據集中可用的摩托車數量。數據集中的 91,000 個帶註釋幀中的每輛摩托車都用邊界框進行註釋，並且提供每輛摩托車的騎手人數以及特定位置的頭盔使用數據。

安全帽和安全背心（反光衣）影像數據集

數據集下載連結：http://suo.nz/38ESGe

數據集中只有一個資料夾。

檔名以 pos 開頭：影像包含安全帽或安全背心。檔名以 neg 開頭：影像既不包含安全帽也不包含安全背心。

YOLO格式的頭盔/頭部檢測數據集

數據集下載連結：http://suo.nz/2pChfA

十三、影像分割

天空影像數據集

數據集下載連結：http://suo.nz/1ykW0L

Sky 數據集包含 60 張帶有地面實況的影像，用於天空分割。它基於 R. Fergus 15/02/03 的 Caltech Airplanes Side 數據集。選擇數據集中包含天空區域的那些影像，並為它們建立地面實況。原始數據集影像名稱保持不變。

CO-SKEL數據集

數據集下載連結：http://suo.nz/1FR95s

該數據集由分類骨架和分割掩碼組成，用於評估協同骨架化方法。

CAD-120 affordance數據集

數據集下載連結：http://suo.nz/1NnlU1

包含9916個物件例項的3090幅影像的逐像素註釋。

Intrinsic Images in the Wild

數據集下載連結：http://suo.nz/1UTwnq

「Intrinsic Images in the Wild」，這是一個用於評估室內場景固有影像分解的大規模公共數據集。作者們透過數百萬個眾包註釋建立了這個基準，這些註釋對每個場景中的點對的材料內容進行了相對比較。

具有細長部份的鳥類昆蟲數據集

數據集下載連結：http://suo.nz/22pJs7

這些數據庫由 280 張具有ground truth的鳥類和昆蟲的公共影像組成。

多品種果花檢測數據集

數據集下載連結：http://suo.nz/29RKnM

該數據集包含四組花卉影像，來自三種不同的樹種：蘋果、桃和梨，以及隨附的地面實況影像。

OpenSurfaces數據集

數據集下載連結：http://suo.nz/1bI3Md

包含從消費者內部照片中分割出來的數千個表面範例，並使用材料參數（反射率、材料名稱）、紋理資訊（表面法線、校正紋理）進行註釋和上下文資訊（場景類別和物件名稱）。

陰影檢測/紋理分析數據集

數據集下載連結：http://suo.nz/1iyjoA

一個用於陰影檢測和紋理分析的簡單電腦視覺數據集，專門用於幫助測試移動機器人的陰影檢測演算法（和紋理分割演算法）——即使用活動（移動）相機進行陰影檢測。

該數據集專註於紋理分析，因此每個影像序列都包含在許多不同紋理表面前移動的陰影。

十四、人群計數、行人檢測

SCUT FIR行人檢測數據集

數據集下載地址：https://sourl.cn/4VK3Bn

SCUT FIR Pedestrian Datasets 是一個大型遠紅外行人檢測數據集。它由大約 11 小時長的影像序列（幀）組成，速度為 25 Hz，以低於 80 km/h 的速度在不同的交通場景中行駛。影像序列來自中國廣州市中心、郊區、高速公路和校園 4 種場景下的 11 個路段。該數據集註釋了 211,011 幀，總共 477,907 個邊界框，圍繞 7,659 個獨特的行人。

JHU-CROWD++

數據集下載地址：https://sourl.cn/mgxHEY

包含 4,372 張影像和 151 萬條註釋的綜合數據集。與現有數據集相比，所提出的數據集是在各種不同的場景和環境條件下收集的。此外，該數據集提供了相對豐富的註釋集，如點、近似邊界框、模糊級別等。

CIHP人體解析數據集

數據集下載地址：https://sourl.cn/W3Tm2J

Crowd Instance-level Human Parsing (CIHP) 數據集包含 38,280 張多人影像，這些影像具有精細的註釋、高外觀可變性和復雜性。該數據集可用於人體部份分割任務。

AHU-Crowd人群數據集

數據集下載地址：https://sourl.cn/XFJDCh

人群數據集是從各種來源獲得的，例如 UCF 和數據驅動的人群數據集，以評估所提出的框架。序列多樣，代表了朝聖、車站、馬拉松、集會和體育場等各種場景中公共空間的密集人群。此外，這些序列具有不同的視野、分辨率，並表現出多種運動行為，涵蓋了明顯和微妙的不穩定性。

AudioVisual 人群計數

數據集下載地址：https://sourl.cn/wfd7wD

一個用於人群計數的新數據集，該數據集由中國不同位置的大約 2000 個帶註釋的影像令牌組成，每個影像對應一個 1 秒的音訊剪輯和一個密度圖。影像處於不同的照明條件下。

UCF-CC-50

數據集下載地址：http://c.nxw.so/9LYoK

該數據集包含極其密集人群的影像。影像主要是從 FLICKR 收集的。

北京BRT數據集

數據集下載地址：http://c.nxw.so/c1PV9

該數據集包含 1,280 張影像和 16,795 個標記的行人，用於人群分析。該數據集使用 720 張影像進行訓練，使用 560 張影像進行測試。

名為 frame 的資料夾包含人群影像。

名為 ground_truth 的資料夾包含ground_truth。例如，'1-20170325134657.jpg'對應於'1-20170325134657.mat'，以及這張圖片中第i個人的真實位置，其中每一行是位置[x,y]

十五、影像去噪

PolyU數據集

數據集下載地址：https://sourl.cn/rMsdE8

FMD（熒光顯微鏡去噪）數據集

數據集下載地址：https://sourl.cn/Wyqrui

熒光顯微鏡使現代生物學取得了巨大的發展。由於其固有的微弱訊號，熒光顯微鏡不僅比攝影雜訊大得多，而且還呈現出帕松-高斯雜訊，其中帕松雜訊或散粒雜訊是主要的雜訊源。為了獲得幹凈的熒光顯微鏡影像，非常需要有專門設計用於對熒光顯微鏡影像進行降噪的有效降噪演算法和數據集。雖然存在這樣的演算法，但沒有這樣的數據集可用。在本文中，我們透過構建專用於帕松-高斯去噪的數據集 - 熒光顯微鏡去噪 (FMD) 數據集來填補這一空白。該數據集由 12,000 個真實熒光顯微鏡影像組成，這些影像使用商業共焦、雙光子、寬視野顯微鏡和代表性生物樣本，如細胞、斑馬魚和小鼠腦組織。

SIDD智能電話影像去噪數據集

數據集下載地址：https://sourl.cn/jdpJZ6

該數據集包含以下智能電話在不同光照條件下拍攝的 160 對雜訊/真實影像：

GP: Google Pixel

IP: iPhone 7

S6: Samsung Galaxy S6

Edge N6: Motorola Nexus 6

G4: LG G4

SIDD-small數據集

數據集下載地址：https://sourl.cn/kaYGxd

一個小型版本的數據集，它由代表 160 個場景例項的160 個影像對（雜訊和ground-truth）組成。

Super Resolution Benchmarks

數據集下載地址：https://sourl.cn/Bp6QZs

來自於AIM 2022 壓縮影像和影片超分辨率挑戰賽」中的前 5 名解決方案工作：Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration

十六、RGB-T

HFUT-Lytro數據集

數據集下載地址：https://sourl.cn/xGKqau

一個光場顯著性分析基準數據集，名為HFUT Lytro，由255個光場組成，每個光場影像生成的影像範圍從53到64個，其中跨越了多個顯著性檢測挑戰，如遮擋、雜亂背景和外觀變化。

DUTLF-V2

數據集下載地址：http://u3v.cn/65oL0y

由於具有強大的三維資訊捕捉能力，光場數據為顯著性檢測演算法提供了更為有力的支持。但演算法的能力取決於數據集構建的全面性、有效性、規模化和多樣性，同時也取決於靈活高效的模型設計。為了促進這一領域的發展，來自大連理工的研究人員構建了大規模的多功能數據集，其中包含了102類目標、共4202個樣本，可以有效支持基於RGB、RGB-D和光場數據的顯著性檢測演算法。

Lytro Illum

數據集下載地址：http://u3v.cn/6kr8yE

我們收集了 640 個在大小、紋理、背景雜波和照明等方面具有顯著變化的光場。我們生成微透鏡影像陣列和中心觀察影像，並生成相應的地面實況圖。

DUTLF-MV

數據集下載地址：http://u3v.cn/6lbl3d

DUTLF-MV 是 DUTLF 的一部份，由 1580 個真實場景組成。該數據集的每個場景都由全焦點影像、多檢視影像和相應的地面實況組成。

光場 (Lytro) 和立體聲 (Project Tango) 數據集

數據集下載地址：http://u3v.cn/6s1AFA

數據來自 Lytro Illum，捕獲為 40MP 影像，然後轉換為 5MP RGB+D 影像。提供了幾個測試影像所需的所有數據。第二個數據集來自 Lenovo Phab2（Project Tango），它利用雙影像傳感器重新建立大型 3D 結構的點雲。這些以 .ply 和 .obj 數據集的形式提供。

RGB-D 人群數據集

數據集下載地址：http://u3v.cn/5tNHTn

該數據集包含在大學禮堂中從三個垂直安裝的 Kinect 傳感器獲取的 3000 多個 RGB-D 幀。數據主要包含從不同方向和不同遮擋程度看到的直立行走和站立的人。

ReDWeb-S

數據集下載地址：http://u3v.cn/5BjUY4

它共有 3179 張影像，具有各種真實世界場景和高質素的深度圖。我們將數據集分成包含 2179 個 RGB-D 影像對的訓練集和包含剩余 1000 個影像對的測試集。

NLPR

數據集下載地址：http://u3v.cn/5IQ82L

NJU2K是一個包含 1,985 個影像對的大型 RGB-D 數據集。立體影像是從互聯網和 3D 電影中收集的，而照片是由富士 W3 相機拍攝的。

十七、影像去霧

D-HAZY

下載地址：http://m6z.cn/5IBatp

D-HAZY，建立在Middelbury 和NYU深度數據集上，這些數據集提供各種場景的影像及其相應的深度圖。包含1400多對影像的數據集，其中包括同一場景的地面真實參考影像和模糊影像。

RESIDE

下載地址：http://m6z.cn/5IBauH

RESIDE數據集包括合成和真實世界的模糊影像，稱為REalistic Single Image Dehazing，RESIDE突出顯示了各種資料來源和影像內容，並分為五個子集，每個子集用於不同的訓練或評估目的。提供了各種各樣的去霧演算法評估標準，從完整參考度量，無參考度量，到主觀評估和任務驅動評估。

Middlebury Stereo雙目立體匹配測試數據集

下載地址：http://m6z.cn/5Prq8G

這24個數據集是由潘廣漢、孫天生、托比·威德和丹尼爾·沙爾斯坦在2019-2021期間建立的。數據集包括11個場景，在許多不同的照明條件和曝光（包括流動通訊器材的閃光燈和「手電筒」照明）下，從1-3個不同的觀看方向成像。

NH-HAZE

下載地址：http://m6z.cn/5tyN0D

DENSE-HAZE

下載地址：http://m6z.cn/5tyMZP

單影像去疊是一個不適定問題，最近引起了重要關註。盡管在過去幾年中，人們對去霧的興趣顯著增加，但由於缺乏真實的霧度和相應的無霧度參考影像對，去霧方法的驗證在很大程度上仍然不令人滿意。為了解決這一局限性，我們引入了一種新的去霧數據集稠密霧。【DENSE-HAZE】以濃密均勻的朦朧場景為特征，包含33對真實的朦朧影像和各種室外場景的相應無霾影像。透過引入由專業霧霾機器生成的真實霧霾來記錄霧霾場景。朦朧和無朦朧的對應場景包含在相同照明參數下捕獲的相同視覺內容。

REVIDE影片去霧數據集

下載地址：http://m6z.cn/6bVqYX

現有的深度學習去霧方法多采用單幀去霧數據集進行訓練和評測，從而使得去霧網絡只能利用當前有霧影像的資訊恢復清晰影像。另外一方面，理想中的影片去霧演算法卻可以使用相鄰的有霧幀來獲取更多的時空冗余資訊，從而得到更好的去霧效果，但由於影片去霧數據集的缺失，影片去霧演算法鮮有研究。為了實作影片去霧演算法的監督訓練，我們首次提出了一組真實的影片去霧數據集（REVIDE）。使用精心設計的影片采集系統，成功地在同一場景進行兩次采集，從而同時記錄下真實世界中成對且完美對齊的有霧和無霧影片。

十七、小目標檢測

AI-TOD航空影像數據集

數據集下載地址：http://m6z.cn/5MjlYk

AI-TOD 在 28,036 張航拍影像中包含 8 個類別的 700,621 個物件例項。與現有航拍影像中的目標檢測數據集相比，AI-TOD 中目標的平均大小約為 12.8 像素，遠小於其他數據集。

iSAID航空影像大規模數據集

數據集下載地址：http://m6z.cn/6nUrYe

現有的 Earth Vision 數據集要麽適用於語意分割，要麽適用於物件檢測。iSAID 是第一個用於航空影像例項分割的基準數據集。這個大規模和密集註釋的數據集包含 2,806 張高分辨率影像的 15 個類別的 655,451 個物件例項。iSAID 的顯著特征如下：(a) 大量具有高空間分辨率的影像，(b) 十五個重要且常見的類別，(c) 每個類別的大量例項，(d) 每個類別的大量標記例項影像，這可能有助於學習上下文資訊，(e) 巨大的物件尺度變化，通常在同一影像內包含小、中和大物件，(f) 影像內具有不同方向的物件的不平衡和不均勻分布，描繪真實-生活空中條件，（g）幾個小尺寸物體，外觀模糊，只能透過上下文推理來解決，（h）由專業註釋者執行的精確例項級註釋，由符合良好規範的專家註釋者交叉檢查和驗證定義的指導方針。

TinyPerson數據集

數據集下載地址：http://m6z.cn/6vqF3T

在 TinyPerson 中有 1610 個標記影像和 759 個未標記影像（兩者主要來自同一影片集），總共有 72651 個註釋。

Deepscores 數據集

數據集下載地址：http://m6z.cn/5xgYdY

DeepScores 數據集的目標是推進小物體辨識的最新技術，並將物體辨識問題置於場景理解的背景下。DeepScores 包含高質素的樂譜影像，分為 300 0 000 張書面音樂，其中包含不同形狀和大小的符號。擁有近一億個小物件，這使得我們的數據集不僅獨一無二，而且是最大的公共數據集。DeepScores 帶有用於物件分類、檢測和語意分割的基本事實。因此，DeepScores 總體上對電腦視覺提出了相關挑戰，超出了光學音樂辨識 (OMR) 研究的範圍。

密集行人檢測數據集

數據集下載地址：http://m6z.cn/6nUs1C

WiderPerson 數據集是野外行人檢測基準數據集，其影像選自廣泛的場景，不再局限於交通場景。我們選擇了 13,382 張影像並標記了大約 400K 帶有各種遮擋的註釋。我們隨機選擇 8000/1000/4382 影像作為訓練、驗證和測試子集。與 CityPersons 和 WIDER FACE 數據集類似，我們不釋出測試影像的邊界框基本事實。使用者需要送出最終的預測檔，我們將進行評估。

加州理工學院行人檢測數據集

數據集下載地址：http://m6z.cn/5N3Yk7

加州理工學院行人數據集由大約 10 小時的 640x480 30Hz 影片組成，該影片取自在城市環境中透過常規交通行駛的車輛。註釋了大約 250,000 幀（在 137 個大約分鐘長的片段中），總共 350,000 個邊界框和 2300 個獨特的行人。註釋包括邊界框和詳細的遮擋標簽之間的時間對應關系。

NWPU VHR-10衛星影像數據集

數據集下載地址：http://m6z.cn/5UAbEW

NWPU VHR-10 Dataset 是一個用於空間物體檢測的 10 級地理遙感數據集，其擁有 650 張包含目標的影像和 150 張背景影像，共計 800 張，目標種類包括飛機、艦船、油罐、棒球場、網球場、籃球場、田徑場、港口、橋梁和汽車共計 10 個類別。

該數據集由西北工業大學於 2014 年釋出，相關論文有【Multi- class geospatial object detection and geographic image classification based on collection of part detectors】、【A survey on objectdetection in optical remote sensing images】和【Learningrotation-invariant convolutional neural networks for object detection in VHRoptical remote sensing images】。

Inria 航空影像數據集

數據集下載地址：http://m6z.cn/6nUs6s

Inria 航空影像標註解決了遙感中的一個核心主題：航空影像的自動像素級標註（論文連結）。

數據集特點：

覆蓋面積 810 平方公裏（405 平方公裏用於訓練，405 平方公裏用於測試）

空間分辨率為 0.3 m 的航空正射校正彩色影像

兩個語意類的地面實況數據：構建和非構建（僅針對訓練子集公開披露）

這些影像涵蓋了不同的城市住區，從人口稠密的地區（例如，舊金山的金融區）到高山城鎮（例如，奧地利蒂羅爾的 Lienz）。

RSOD遙感影像數據集

數據集下載地址：http://m6z.cn/5EN96H

它是一個開放的遙感影像目標檢測數據集。數據集包括飛機、油箱、遊樂場和立交橋。此數據集的格式為PASCAL VOC。數據集包括4個檔，每個檔用於一種物件。

飛機數據集，446張圖片中有4993架飛機。

操場，189張圖片中的191個操場。

天橋，176張圖片中的180座天橋。

油箱，165張圖片中的1586個油箱。

小目標檢測數據集

數據集下載地址：http://m6z.cn/616t6R

從Internet（例如YouTube或Google）上的影像/影片收集的四個小物體數據集，包括4種類別的影像，可用於小物體目標檢測的研究。

數據集包含四類：

fly：飛行數據集，包含600個影片幀，平均每幀86±39個物體（648×72 @ 30 fps）。32張影像用於訓練（1：6：187），50張影像用於測試（301：6：600）。

honeybee：蜜蜂數據集，包含118張影像，每張影像平均有28±6個蜜蜂（640×480）。數據集被平均分配用於訓練和測試集。僅前32張影像用於訓練。

seagull：海鷗數據集，包含三個高分辨率影像（624×964），每個影像平均有866±107個海鷗。第一張圖片用於訓練，其余圖片用於測試。

fish：魚數據集，包含387幀影片數據，平均每幀56±9條魚（300×410 @ 30 fps）。32張影像進行訓練（1：3：94），65張影像進行測試（193：3：387）。

十八、目標檢測

COCO2017數據集

COCO2017是2017年釋出的COCO數據集的一個版本，主要用於COCO在2017年後持有的物體檢測任務、關鍵點檢測任務和全景分割任務。

火焰和煙霧影像數據集

數據集連結：http://m6z.cn/6fzn0f

該數據集由早期火災和煙霧的影像數據集組成。數據集由在真實場景中使用手機拍攝的早期火災和煙霧影像組成。大約有7000張影像數據。影像是在各種照明條件（室內和室外場景）、天氣等條件下拍攝的。該數據集非常適合早期火災和煙霧探測。數據集可用於火災和煙霧辨識、檢測、早期火災和煙霧、異常檢測等。數據集還包括典型的家庭場景，如垃圾焚燒、紙塑焚燒、田間作物焚燒、家庭烹飪等。本文僅含100張左右。

DOTA航拍影像數據集

數據集連結：http://m6z.cn/6vIKlJ

DOTA是用於航空影像中目標檢測的大型數據集。它可以用於開發和評估航空影像中的目標探測器。這些影像是從不同的傳感器和平台收集的。每個影像的大小在800×800到20000×20000像素之間，包含顯示各種比例、方向和形狀的物件。DOTA影像中的例項由航空影像解釋專家透過任意（8 d.o.f.）四邊形進行註釋。

AITEX數據集

數據集連結：http://m6z.cn/5DdJL1

該數據庫由七個不同織物結構的245張4096 x 256像素影像組成。數據庫中有140個無缺陷影像，每種類別的織物20個，除此之外，有105幅紡織行業中常見的不同類別的織物缺陷（12種缺陷）影像。影像的大尺寸允許使用者使用不同的視窗尺寸，從而增加了樣本數量。

T-LESS數據集

數據集連結：http://m6z.cn/5wnucm

該數據集采集的目標為工業套用、紋理很少的目標，同時缺乏區別性的顏色，且目標具有對稱性和互相關性，數據集由三個同步的傳感器獲得，一個結構光傳感器，一個RGBD sensor，一個高分辨率RGBsensor，從每個傳感器分別獲得了3.9w訓練集和1w測試集，此外為每個目標建立了2個3D model,一個是CAD手工制作的另一個是半自動重建的。訓練集圖片的背景大多是黑色的，而測試集的圖片背景很多變，會包含不同光照、遮擋等等變換（之所以這麽做作者說是為了使任務更具有挑戰性）。

同時作者解釋了本數據集的優勢在於：1.大量跟工業相關的目標；2.訓練集都是在可控的環境下抓取的；3.測試集有大量變換的視角；4.圖片是由同步和校準的sensor抓取的；5.準確的6D pose標簽；6.每個目標有兩種3D模型；

H²O 行人互動檢測數據集

數據集連結：http://m6z.cn/6fzmQf

H²O由V-COCO數據集中的10301張影像組成，其中添加了3635張影像，這些影像主要包含人與人之間的互動。所有的H²O影像都用一種新的動詞分類法進行了註釋，包括人與物和人與人之間的互動。該分類法由51個動詞組成，分為5類：

描述主語一般姿勢的動詞

與主語移動方式有關的動詞

與賓語互動的動詞

描述人與人之間互動的動詞

涉及力量或暴力的互動動詞

SpotGarbage垃圾辨識數據集

數據集連結：http://m6z.cn/5ZMmRG

NAO自然界對抗樣本數據集

數據集連結：http://m6z.cn/5KJWJA

NAO包含7934張影像和9943個物件，這些影像未經修改，代表了真實世界的場景，但會導致最先進的檢測模型以高置信度錯誤分類。與標準MSCOCO驗證集相比，在NAO上評估時，EfficientDet-D7的平均精度（mAP）下降了74.5%。

Labelme 影像數據集

數據集連結：http://m6z.cn/5Sg9NX

Labelme Dataset 是用於目標辨識的影像數據集，涵蓋 1000 多個完全註釋和 2000 個部份註釋的影像，其中部份註釋影像可以被用於訓練標記演算法，測試集擁有來自於世界不同地方拍攝的影像，這可以保證圖片在續聯和測試之間會有較大的差異。該數據集由麻省理工學院 –電腦科學和人工智能實驗室於 2007 年釋出，相關論文有【LabelMe: a database and web-based tool for image annotation】。

印度車輛數據集

數據集連結：http://m6z.cn/6uxAIx

該數據集包括小眾印度車輛的影像，如Autorikshaw、Tempo、卡車等。該數據集由用於分類和目標檢測的小眾印度車輛影像組成。據觀察，這些小眾車輛（如autorickshaw、tempo、trucks等）上幾乎沒有可用的數據集。這些影像是在白天、晚上和晚上的不同天氣條件下拍攝的。該數據集具有各種各樣的照明、距離、視點等變化。該數據集代表了一組非常具有挑戰性的利基礎類別車輛影像。該數據集可用於駕駛員輔助系統、自動駕駛等的影像辨識和目標檢測。

Seeing 3D chairs椅子檢測模型

數據集連結：http://m6z.cn/5DdK0v

椅子數據集包含大約1000個不同三維椅子模型的渲染影像。

SUN09場景理解數據集

數據集連結：http://m6z.cn/60wX8r

SUN09數據集包含12000個帶註釋的影像，其中包含200多個物件類別。它由自然、室內和室外影像組成。每個影像平均包含7個不同的註釋物件，每個物件的平均占用率為影像大小的5%。物件類別的頻率遵循冪律分布。釋出者使用 397 個采樣良好的類別進行場景辨識，並以此搭配最先進的演算法建立新的效能界限。

該數據集由普林斯頓視覺與機器人實驗室於 2014 年釋出，相關論文有【SUN Database: Large-scale Scene Recognition from Abbey to Zoo】、【SUN Database: Exploring a Large Collection of Scene Categories】。

Unsplash圖片檢索數據集

數據集連結：http://m6z.cn/5wnuoM

使用迄今為止公開共享的全球最大的開放檢索資訊數據集。Unsplash數據集由250000多名貢獻攝影師建立，並包含了數十億次照片搜尋的資訊和對應的照片資訊。由於Unsplash數據集中包含廣泛的意圖和語意，它為研究和學習提供了新的機會。

HICO-DET人物互動檢測數據集

數據集連結：http://m6z.cn/5DdK6D

HICO-DET是一個用於檢測影像中人-物互動（HOI）的數據集。它包含47776幅影像（列車組38118幅，測試組9658幅），600個HOI類別，由80個賓語類別和117個動詞類異位成。HICO-DET提供了超過150k個帶註釋的人類物件對。V-COCO提供了10346張影像（2533張用於培訓，2867張用於驗證，4946張用於測試）和16199人的例項。

上海科技大學人群統計數據集

數據集連結：http://m6z.cn/5Sgafn

上海科技數據集是一個大規模的人群統計數據集。它由1198張帶註釋的群組影像組成。數據集分為兩部份，A部份包含482張影像，B部份包含716張影像。A部份分為訓練和測試子集，分別由300和182張影像組成。B部份分為400和316張影像組成的序列和測試子集。群組影像中的每個人都有一個靠近頭部中心的點進行註釋。總的來說，該數據集由33065名帶註釋的人組成。A部份的影像是從互聯網上收集的，而B部份的影像是在上海繁忙的街道上收集的。

生活垃圾數據集

數據集連結：http://m6z.cn/6n5Adu

RMFD口罩遮擋人臉數據集

數據集下載地址：http://m6z.cn/61z9Fv

當前大多數高級人臉辨識方法都是基於深度學習而設計的，深度學習取決於大量人臉樣本。但是，目前尚沒有公開可用的口罩遮擋人臉辨識數據集。為此，這項工作提出了三種類別的口罩遮擋人臉數據集，包括口罩遮擋人臉檢測數據集（MFDD），真實口罩遮擋人臉辨識數據集（RMFRD）和模擬口罩遮擋人臉辨識數據集（SMFRD）。基於這些數據集，可以開發口罩遮擋人臉的各種套用。本專案開發的多粒度口罩遮擋人臉辨識模型可達到95％的準確性，超過了行業報告的結果。

GTSRB德國交通標誌數據集

數據集下載地址：http://m6z.cn/5wJJLA

德國交通標誌基準測試是在 2011 年國際神經網絡聯合會議 (IJCNN) 上舉辦的多類單影像分類挑戰賽。我們誠邀相關領域的研究人員參與：該比賽旨在參與者無需特殊領域知識。我們的基準測試具有以下內容：

單影像、多類分類問題

40多個分類

總共超過 50,000 張圖片

逼真的大型數據庫

VOC2005車輛數據集

數據集下載地址：http://m6z.cn/5U2X4u

該數據集中含有單車、摩托車、汽車、貨車的影像數據，可用於CNN模型以實作車輛辨識和車輛分類，其中單車、摩托車、汽車數據來自2005 PASCAL視覺類挑戰賽（VOC2005）所使用的數據的篩選處理結果，貨車圖片來自網絡收集，後期透過篩選處理得到。在本數據中，訓練數據集與測試數據集占比約為5:1。

Winegrape檢測數據集

數據集下載地址：http://m6z.cn/5TikF9

WGISD（Wine Grape Instance Segmentation Dataset）是為了提供影像和註釋來研究物件檢測和例項分割，用於葡萄栽培中基於影像的監測和現場機器人技術。它提供了來自五種不同葡萄品種的實地例項。這些例項顯示了葡萄姿勢、光照和焦點的變化，包括遺傳和物候變化，如形狀、顏色和緊實度。可能的用途包括放寬例項分割問題：分類（影像中是否有葡萄？）、語意分割（影像中的「葡萄像素」是什麽？）、物件檢測（影像中的葡萄在哪裏？）、和計數（每個簇有多少漿果？）。

全球小麥檢測數據集

數據集下載地址：http://m6z.cn/5wJK64

檢測小麥穗是一項重要任務，可以估計相關性狀，包括穗族群密度和穗特征，如衛生狀況、大小、成熟階段和芒的存在。本數據集包含 4,700 張高分辨率 RGB 影像和 190,000 個標記的小麥頭，這些小麥頭采集自世界各地不同生長階段的不同基因型的多個國家。

Linkopings交通標誌數據集

數據集下載地址：http://m6z.cn/68ldS0

透過記錄超過 350 公裏的瑞典高速公路和城市道路的序列，建立了一個數據集。一個 1.3 兆像素的彩色攝影機，一個點灰色變色龍，被放置在一輛汽車的儀表板上，從前窗向外看。網絡攝影機略微指向右側，以便盡可能多地覆蓋相關標誌。該鏡頭的焦距為 6.5 毫米，視野約為 41 度。高速公路上的典型速度標誌大約為 90 cm 寬，如果要在大約 30 m 的距離處檢測到它們，則對應於大約 50 像素的大小。總共記錄了超過 20 000 幀，其中每五幀被手動標記。每個標誌的標簽包含標誌類別（人行橫道、指定車道右側、禁止站立或停車、優先道路、讓路、50 公裏/小時或 30 公裏/小時）、能見度狀態（遮擋、模糊或可見）和道路狀態（是否標誌是在正在行駛的道路上或在小路上）。

防護裝備-頭盔和背心檢測

數據集下載地址：http://m6z.cn/61zarT

包含 774 個眾包影像和 698 個網絡挖掘影像。眾包和網絡挖掘的影像分別包含 2,496 和 2,230 個工人例項。

加州理工學院相機陷阱數據集

數據集連結：https://beerys.github.io/CaltechCameraTraps/

該數據集包含來自美國西南部 140 個網絡攝影機位置的 243,100 張影像，帶有 21 個動物類別的標簽（加上空白），主要是在物種級別（例如，最常見的標簽是負鼠、浣熊和土狼），以及大約 66,000 個邊界框註釋。大約 70% 的影像被標記為空。

水下垃圾檢測數據集

數據集下載地址：http://m6z.cn/6nnDQK

十九、人體姿態估計

MPII人體模型數據集

數據集連結：http://m6z.cn/69aaIe

MPII Human Shape 人體模型數據是一系列人體輪廓和形狀的3D模型及工具。模型是從平面掃描數據庫 CAESAR 學習得到。

MPII人類姿態數據集

數據集連結：http://m6z.cn/6gGnPb

MPII 人體姿態數據集是用於評估人體關節姿勢估計的最先進基準。該數據集包括大約 25,000 張影像，其中包含超過 40,000 個帶有註釋身體關節的人。這些影像是使用已建立的人類日常活動分類法系統收集的。總的來說，數據集涵蓋了 410 項人類活動，每個影像都提供了一個活動標簽。每張影像都是從 YouTube 影片中提取的，並提供前後未註釋的幀。此外，測試集有更豐富的註釋，包括身體部位遮擋和 3D 軀幹和頭部方向。

KTH 多檢視足球數據集

數據集連結：http://m6z.cn/692agI

作者收集了一個帶有註釋關節的足球運動員數據集，可用於多檢視重建。數據集包括：

771張足球運動員的照片

在 257 個時間例項中從 3 個檢視中獲取的影像

14 個帶註釋的身體關節

賓夕法尼亞動作數據集

數據集連結：http://m6z.cn/692akK

Penn Action Dataset（賓夕法尼亞大學）包含 15 個不同動作的 2326 個影片序列以及每個序列的人類聯合註釋。

BBC姿態數據集

數據集連結：http://m6z.cn/5xr6Xq

BBC Pose 包含 20 個影片（每個影片長度為 0.5 小時至 1.5 小時），由 BBC 錄制，並配有手語轉譯。這 20 個影片分為 10 個用於訓練的影片、5 個用於驗證的影片和 5 個用於測試的影片。

Poser 數據集

數據集連結：http://m6z.cn/6gynqz

Poser 數據集是用於姿態估計的數據集，由 1927 個訓練影像和 418 個測試影像組成。這些影像是綜合生成的，並調整為單峰預測。這些影像是使用 Poser 軟件包生成的。

野外 3D 姿勢數據集

數據集連結：http://m6z.cn/5xr6Z2

「野外 3D 姿勢數據集」是野外第一個具有準確 3D 姿勢用於評估的數據集。雖然存在戶外其他數據集，但它們都僅限於較小的記錄量。3DPW 是第一個包含從流動電話網絡攝影機拍攝的影片片段的技術。

數據集包括：

60 個影片序列。

2D 姿勢註釋。

使用我們的方法獲得的 3D 姿勢。我們的方法利用了影片和 IMU，盡管場景很復雜，但姿勢非常準確。

序列中每一幀的相機姿勢。

3D 身體掃描和 3D 人物模型（可重新調整和重新塑造）。每個序列都包含其對應的模型。

18 個不同服裝款式的 3D 模型。

V-COCO數據集

數據集連結：http://m6z.cn/5UGaii

V-COCO是一個基於 COCO 的數據集，用於人機互動檢測。V-COCO 提供 10,346 張影像（2,533 張用於訓練，2,867 張用於驗證，4,946 張用於測試）和 16,199 個人物例項。每個人都有 29 個動作類別的註釋，並且沒有包括物件在內的互動標簽。

宜家 ASM 數據集

數據集連結：http://m6z.cn/692aos

宜家 ASM 數據集是裝配任務的多模式和多檢視影片數據集，可對人類活動進行豐富的分析和理解。它包含 371 個家具元件樣本及其真實註釋。每個樣本包括 3 個 RGB 檢視、一個深度流、原子動作、人體姿勢、物件片段、物件跟蹤和外部相機校準。

立體人體姿勢估計數據集

數據集連結：http://m6z.cn/62cnp5

這是一個立體影像對數據集，適用於上身人的立體人體姿態估計。SHPED 由 630 個立體影像對（即 1260 個影像）組成，分為 42 個影片片段，每個片段 15 幀。這些剪輯是從 26 個立體影片中提取的，這些影片是從 YouTube 獲得的，標簽為 yt3d:enable = true。此外，SHPED 包含 1470 條火柴人上身註釋，對應於 49 個人根據這些條件：直立位置、所有上身部份幾乎可見以及身體的非側面視點。

AIST++ 舞蹈動作數據集

數據集連結：http://m6z.cn/5xr6M8

AIST++ 舞蹈動作數據集是從 AIST 舞蹈影片數據庫構建的。對於多檢視影片，設計了一個精心設計的管道來估計相機參數、3D 人體關鍵點和 3D 人體舞蹈動作序列：

它為 1010 萬張影像提供 3D 人體關鍵點註釋和相機參數，涵蓋 9 個檢視中的 30 個不同主題。這些內容使其成為具有 3D 人體關鍵點註釋的最大和最豐富的現有數據集。它還包含 1,408 個 3D 人類舞蹈動作序列，表示為關節旋轉以及根軌跡。舞蹈動作平均分布在 10 種舞蹈流派中，有數百種編舞。運動持續時間從 7.4 秒不等。至 48.0 秒。所有的舞蹈動作都有相應的音樂。

HiEve數據集

數據集連結：http://m6z.cn/6o4AAg

該數據集專註於在各種人群和復雜事件中進行非常具有挑戰性和現實性的以人為中心的分析任務，包括地鐵上下車、碰撞、戰鬥和地震逃生。並且具有大規模和密集註釋的標簽，涵蓋了以人為中心的分析中的廣泛任務。

二十、影像分類

寵物影像數據集

數據集下載地址：http://m6z.cn/5TAgdC

一個包含 37 個類別的寵物數據集，每個類別大約有 200 張影像。這些影像在比例、姿勢和照明方面有很大的變化。所有影像都有相關的品種、頭部 ROI 和像素級三元圖分割的地面實況註釋。

貓咪數據集

數據集下載地址：http://m6z.cn/5TAgbw

CAT 數據集包括超過 9,000 張貓影像。對於每張影像，貓的頭部都有九個點的註釋，眼睛兩個，嘴巴一個，耳朵六個。

史丹佛狗狗數據集

數據集下載地址：http://m6z.cn/6nF6kM

史丹佛狗數據集包含來自世界各地的 120 種狗的影像。該數據集是使用 ImageNet 中的影像和註釋構建的，用於細粒度影像分類任務。

該數據集的內容：

類別數：120

圖片數量：20,580

註釋：類標簽、邊界框

CBCL 街道場景數據

數據集下載地址：http://m6z.cn/5TAgeA

StreetScenes Challenge Framework 是用於物件檢測的影像、註釋、軟件和效能測量的集合。每張影像都是從麻省波士頓及其周邊地區的 DSC-F717 相機拍攝的。然後用圍繞 9 個物件類別的每個範例的多邊形手動標記每個影像，包括 [汽車、行人、單車、建築物、樹木、天空、道路、人行道和商店]。這些影像的標記是在仔細檢查下完成的，以確保物件總是以相同的方式標記，關於遮擋和其他常見的影像變換。

Stanford 汽車圖片數據

數據集下載地址：http://m6z.cn/616wop

Cars 數據集包含 196 類汽車的 16,185 張影像。數據分為 8,144 個訓練影像和 8,041 個測試影像，其中每個類別大致按 50-50 分割。課程通常在品牌、型號、年份級別，例如 2012 Tesla Model S 或 2012 BMW M3 coupe。

MNIST 手寫數碼影像數據集

MNIST數據集是一個手寫阿拉伯數碼影像辨識數據集，圖片分辨率為 20x20 灰度圖圖片，包含‘0 - 9’ 十組手寫手寫阿拉伯數碼的圖片。其中，訓練樣本 60000 ，測試樣本 10000，數據為圖片的像素點值，作者已經對數據集進行了壓縮。

Kaggle 垃圾分類圖片數據集

該數據集是圖片數據，分為訓練集85%（Train）和測試集15%（Test）。其中O代表Organic（有機垃圾），R代表Recycle（可回收）

二十一、影像分割

天空影像數據集

數據集下載連結：http://suo.nz/1ykW0L

CO-SKEL數據集

數據集下載連結：http://suo.nz/1FR95s