segment_anything

  • Tanım :

SA-1B İndir

Her Şeyi 1 Milyar Segmente Ayır (SA-1B), açık dünya görüntülerinden genel amaçlı nesne segmentasyon modellerini eğitmek için tasarlanmış bir veri kümesidir. Veri kümesi "Her Şeyi Segmente Çıkar" makalesinde tanıtıldı.

SA-1B veri kümesi 11 milyon çeşitli, yüksek çözünürlüklü, lisanslı ve gizliliği koruyan görüntülerden ve 1.1B maske açıklamalarından oluşur. Maskeler COCO çalışma uzunluğu kodlaması (RLE) formatında verilir ve sınıfları yoktur.

Lisans özeldir. Lütfen https://ai.facebook.com/datasets/segment-anything-downloads adresindeki şartlar ve koşulların tamamını okuyun.

image.content (görüntünün içeriği) dışında tüm özellikler orijinal veri kümesindedir.

Segmentasyon maskelerinin kodunu aşağıdakilerle çözebilirsiniz:

import tensorflow_datasets as tfds

pycocotools = tfds.core.lazy_imports.pycocotools

ds = tfds.load('segment_anything', split='train')
for example in tfds.as_numpy(ds):
  segmentation = example['annotations']['segmentation']
  for counts, size in zip(segmentation['counts'], segmentation['size']):
    encoded_mask = {'size': size, 'counts': counts}
    mask = pycocotools.decode(encoded_mask)  # np.array(dtype=uint8) mask
    ...
Bölmek Örnekler
'train' 11.185.362
  • Özellik yapısı :
FeaturesDict({
    'annotations': Sequence({
        'area': Scalar(shape=(), dtype=uint64, description=The area in pixels of the mask.),
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=The box around the mask, in TFDS format.),
        'crop_box': BBoxFeature(shape=(4,), dtype=float32, description=The crop of the image used to generate the mask, in TFDS format.),
        'id': Scalar(shape=(), dtype=uint64, description=Identifier for the annotation.),
        'point_coords': Tensor(shape=(1, 2), dtype=float64, description=The point coordinates input to the model to generate the mask.),
        'predicted_iou': Scalar(shape=(), dtype=float64, description=The model's own prediction of the mask's quality.),
        'segmentation': FeaturesDict({
            'counts': string,
            'size': Tensor(shape=(2,), dtype=uint64),
        }),
        'stability_score': Scalar(shape=(), dtype=float64, description=A measure of the mask's quality.),
    }),
    'image': FeaturesDict({
        'content': Image(shape=(None, None, 3), dtype=uint8, description=Content of the image.),
        'file_name': string,
        'height': uint64,
        'image_id': uint64,
        'width': uint64,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
ek açıklamalar Sekans
ek açıklamalar/alan Skaler uint64 Maskenin piksel cinsinden alanı.
ek açıklamalar/bbox BBoxÖzelliği (4,) kayan nokta32 Maskenin etrafındaki kutu, TFDS formatında.
ek açıklamalar/crop_box Bboxfeature (4,) kayan nokta32 Maskeyi oluşturmak için kullanılan görüntünün TFDS formatında kırpılmış hali.
Ek açıklamalar/kimlik Skaler uint64 Ek açıklamanın tanımlayıcısı.
ek açıklamalar/nokta_kodları Tensör (1, 2) kayan nokta64 Nokta, maskeyi oluşturmak için modele girişi koordine eder.
ek açıklamalar/predicted_iou Skaler kayan nokta64 Modelin maskenin kalitesine ilişkin kendi tahmini.
ek açıklamalar/segmentasyon ÖzelliklerDict COCO RLE formatında kodlanmış segmentasyon maskesi (anahtar size ve counts dikte).
ek açıklamalar/segmentasyon/sayımlar Tensör sicim
ek açıklamalar/segmentasyon/boyut Tensör (2,) uint64
ek açıklamalar/stability_score Skaler kayan nokta64 Maskenin kalitesinin bir ölçüsü.
görüntü ÖzelliklerDict
resim/içerik Resim (Yok, Yok, 3) uint8 Resmin içeriği.
resim/dosya_adı Tensör sicim
görüntü/yükseklik Tensör uint64
resim/resim_kimliği Tensör uint64
resim/genişlik Tensör uint64
  • Alıntı :
@misc{kirillov2023segment,
  title={Segment Anything},
  author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
  year={2023},
  eprint={2304.02643},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}