- Описание :
Идентификация бактерий на основе геномных последовательностей обещает раннее обнаружение заболеваний, но требует модели, которая может давать прогнозы с низкой достоверностью для геномных последовательностей вне распространения (OOD) новых бактерий, которых не было в обучающих данных.
Мы представляем набор данных геномики для обнаружения OOD, который позволяет другим исследователям оценивать прогресс в решении этой важной проблемы. С годами постепенно открываются новые классы бактерий. Группировка классов по годам — это естественный способ имитировать примеры в распределении и OOD.
Набор данных содержит геномные последовательности, взятые из 10 классов бактерий, которые были обнаружены до 2011 года как классы в процессе распространения, 60 классов бактерий, обнаруженных в период с 2011 по 2016 год, как OOD для проверки, и еще 60 различных классов бактерий, обнаруженных после 2016 года как OOD для тестирования. всего 130 классов бактерий. Обратите внимание, что данные обучения, проверки и тестирования предоставляются для классов, находящихся в дистрибутиве, а данные проверки и тестирования предоставляются для классов OOD. По своей природе данные OOD недоступны во время обучения.
Геномная последовательность имеет длину 250 и состоит из символов {A, C, G, T}. Размер выборки каждого класса составляет 100 000 для обучения и 10 000 для проверочных и тестовых наборов.
Для каждого примера функции включают в себя: seq: входная последовательность ДНК, состоящая из {A, C, G, T}. метка: название класса бактерий. seq_info: источник последовательности ДНК, т. е. название генома, инвентарный номер NCBI и положение, из которого был взят образец. домен: если бактерия находится в распространении (in), или OOD (ood)
Детали набора данных можно найти в приложении к статье.
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/google-research/google-research/tree/master/genomics_ood . 
- Исходный код : - tfds.structured.GenomicsOod
- Версии : -  0.0.1(по умолчанию): нет примечаний к выпуску.
 
-  
- Размер загрузки : - Unknown size
- Размер набора данных : - 926.87 MiB.
- Автоматическое кэширование ( документация ): Нет 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 100 000 | 
| 'test_ood' | 600 000 | 
| 'train' | 1 000 000 | 
| 'validation' | 100 000 | 
| 'validation_ood' | 600 000 | 
- Структура функции :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| домен | Текст | нить | ||
| этикетка | Метка класса | int64 | ||
| последовательность | Текст | нить | ||
| seq_info | Текст | нить | 
- Контролируемые ключи (см. - as_superviseddoc ):- ('seq', 'label')
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Примеры ( tfds.as_dataframe ): 
- Цитата :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}