- Açıklama :
 
Genomik dizilere dayalı bakteri tanımlaması, hastalıkların erken saptanması vaadini yerine getirir, ancak eğitim verilerinde bulunmayan yeni bakterilerden dağıtım dışı (OOD) genomik diziler hakkında düşük güvenilirlikli tahminler çıkarabilen bir model gerektirir.
OOD tespiti için, diğer araştırmacıların bu önemli sorundaki ilerlemeyi karşılaştırmasına olanak tanıyan bir genomik veri seti sunuyoruz. Yıllar içinde yavaş yavaş yeni bakteri sınıfları keşfedilir. Sınıfları yıllara göre gruplamak, dağıtım içi ve OOD örneklerini taklit etmenin doğal bir yoludur.
Veri seti, dağıtım içi sınıflar olarak 2011 yılından önce keşfedilen 10 bakteri sınıfından, 2011-2016 yılları arasında doğrulama için OOD olarak keşfedilen 60 bakteri sınıfından ve test için 2016'dan sonra OOD olarak keşfedilen 60 farklı bakteri sınıfından örneklenen genomik dizileri içerir. toplam 130 bakteri sınıfı. Eğitim, doğrulama ve test verilerinin dağıtım içi sınıflar için sağlandığını ve doğrulama ve test verilerinin OOD sınıfları için sağlandığını unutmayın. Doğası gereği, OOD verileri eğitim sırasında mevcut değildir.
{A, C, G, T} karakterlerinden oluşan genomik dizi 250 uzunluğundadır. Her sınıfın örneklem büyüklüğü eğitimde 100.000, doğrulama ve test setlerinde 10.000'dir.
Her örnek için özellikler şunları içerir: sıra: {A, C, G, T} tarafından oluşturulan giriş DNA dizisi. etiket: bakteri sınıfının adı. seq_info: DNA dizisinin kaynağı, yani genom adı, NCBI erişim numarası ve örneklendiği konum. alan: bakteri dağıtımda (in) veya OOD (ood) ise
Veri kümesinin ayrıntıları makale ekinde bulunabilir.
Ek Belgeler : Belgeleri Keşfedin
Ana sayfa : https://github.com/google-research/google-research/tree/master/genomics_ood
Kaynak kodu :
tfds.structured.GenomicsOodsürümler :
-  
0.0.1(varsayılan): Sürüm notu yok. 
-  
 İndirme boyutu :
Unknown sizeVeri kümesi boyutu :
926.87 MiBOtomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
| Bölmek | örnekler | 
|---|---|
 'test' | 100.000 | 
 'test_ood' | 600.000 | 
 'train' | 1.000.000 | 
 'validation' | 100.000 | 
 'validation_ood' | 600.000 | 
- Özellik yapısı :
 
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| alan adı | Metin | sicim | ||
| etiket | SınıfEtiketi | int64 | ||
| sıra | Metin | sicim | ||
| sıra_bilgisi | Metin | sicim | 
Denetlenen anahtarlar (Bkz
as_superviseddoc ):('seq', 'label')Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
 
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}