- বর্ণনা :
জিনোমিক সিকোয়েন্সের উপর ভিত্তি করে ব্যাকটেরিয়া সনাক্তকরণ রোগের প্রাথমিক সনাক্তকরণের প্রতিশ্রুতি ধারণ করে, তবে এমন একটি মডেলের প্রয়োজন যা প্রশিক্ষণের ডেটাতে উপস্থিত ছিল না এমন নতুন ব্যাকটেরিয়া থেকে আউট-অফ-ডিস্ট্রিবিউশন (OOD) জিনোমিক সিকোয়েন্সের উপর কম আত্মবিশ্বাসের পূর্বাভাস দিতে পারে।
আমরা OOD সনাক্তকরণের জন্য একটি জিনোমিক্স ডেটাসেট প্রবর্তন করি যা অন্যান্য গবেষকদের এই গুরুত্বপূর্ণ সমস্যাটির অগ্রগতি বেঞ্চমার্ক করতে দেয়। বছরের পর বছর ধরে নতুন ব্যাকটেরিয়া শ্রেণী ধীরে ধীরে আবিষ্কৃত হয়। বন্টন এবং OOD উদাহরণগুলি অনুকরণ করার একটি প্রাকৃতিক উপায় হল বছর অনুসারে ক্লাসগুলিকে গোষ্ঠীবদ্ধ করা৷
ডেটাসেটে 10টি ব্যাকটেরিয়া ক্লাস থেকে নমুনা নেওয়া জিনোমিক সিকোয়েন্স রয়েছে যা 2011 সালের আগে ইন-ডিস্ট্রিবিউশন ক্লাস হিসাবে আবিষ্কৃত হয়েছিল, 2011-2016-এর মধ্যে 60টি ব্যাকটেরিয়া ক্লাস যাচাইকরণের জন্য OOD হিসাবে আবিষ্কৃত হয়েছিল, এবং 2016-এর পরে OD টেস্ট হিসাবে আবিষ্কৃত আরও 60টি ভিন্ন ব্যাকটেরিয়া ক্লাস রয়েছে। মোট 130টি ব্যাকটেরিয়া ক্লাস। মনে রাখবেন যে প্রশিক্ষণ, বৈধতা, এবং পরীক্ষার ডেটা ইন-ডিস্ট্রিবিউশন ক্লাসের জন্য সরবরাহ করা হয় এবং OOD ক্লাসের জন্য বৈধতা এবং পরীক্ষার ডেটা সরবরাহ করা হয়। এর প্রকৃতি অনুসারে, প্রশিক্ষণের সময় ওওডি ডেটা পাওয়া যায় না।
জিনোমিক ক্রমটি 250 দীর্ঘ, {A, C, G, T} অক্ষর দ্বারা গঠিত। প্রশিক্ষণে প্রতিটি ক্লাসের নমুনার আকার 100,000 এবং বৈধতা এবং পরীক্ষা সেটের জন্য 10,000।
প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: seq: {A, C, G, T} দ্বারা গঠিত ইনপুট DNA ক্রম। লেবেল: ব্যাকটেরিয়া শ্রেণীর নাম। seq_info: ডিএনএ সিকোয়েন্সের উৎস, অর্থাৎ, জিনোমের নাম, এনসিবিআই অ্যাক্সিশন নম্বর এবং যে অবস্থান থেকে নমুনা নেওয়া হয়েছিল। ডোমেইন: যদি ব্যাকটেরিয়া ইন-ডিস্ট্রিবিউশন (ইন), বা OOD (ood) হয়
ডেটাসেটের বিশদ বিবরণ কাগজের পরিপূরকটিতে পাওয়া যাবে।
অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://github.com/google-research/google-research/tree/master/genomics_ood
উত্স কোড :
tfds.structured.GenomicsOodসংস্করণ :
-
0.0.1(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown sizeডেটাসেটের আকার :
926.87 MiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| ডোমেইন | পাঠ্য | স্ট্রিং | ||
| লেবেল | ক্লাসলেবেল | int64 | ||
| seq | পাঠ্য | স্ট্রিং | ||
| seq_info | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):('seq', 'label')চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}