- Tanım :
 
COCO, büyük ölçekli bir nesne algılama, segmentasyon ve resim yazısı veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere ayrılmış, COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini yeni 5000 görüntülü doğrulama ve test kümelerine ve ayrıca kalan ~30 bin görüntüyü içeren bir "dinlenme" kümesine etkili bir şekilde böler. Tüm bölmelerin altyazı ek açıklamaları vardır.
Ek Belgeler : Kodlu Makaleleri Keşfedin
Yapılandırma açıklaması : Bu sürüm, 2014 sürümü için resimler, sınırlayıcı kutular ve etiketler içerir.
Ana sayfa : http://cocodataset.org/#home
Kaynak kodu :
tfds.object_detection.CocoCaptionsSürümler :
-  
1.1.0(varsayılan): Sürüm notu yok. 
-  
 İndirme boyutu :
37.61 GiBVeri kümesi boyutu :
18.83 GiBOtomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
| Bölmek | Örnekler | 
|---|---|
 'restval' | 30.504 | 
 'test' | 5.000 | 
 'train' | 82.783 | 
 'val' | 5.000 | 
- Özellik yapısı :
 
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| altyazılar | Sekans | |||
| altyazı/kimlik | Tensör | int64 | ||
| başlıklar/metin | Tensör | sicim | ||
| resim | Resim | (Yok, Yok, 3) | uint8 | |
| resim/dosya adı | Metin | sicim | ||
| resim/kimlik | Tensör | int64 | ||
| nesneler | Sekans | |||
| nesneler/alan | Tensör | int64 | ||
| nesneler/bbox | BBoxÖzelliği | (4,) | kayan nokta32 | |
| nesneler/kimlik | Tensör | int64 | ||
| nesneler/is_crowd | Tensör | bool | ||
| nesneler/etiket | SınıfEtiketi | int64 | 
Denetlenen anahtarlar (
as_supervisedbelgesine bakın):NoneŞekil ( tfds.show_examples ):

- Örnekler ( tfds.as_dataframe ):
 
- Alıntı :
 
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}