- توضیحات :
مجموعه داده TAO یک مجموعه داده بزرگ تشخیص اشیاء ویدیویی است که از 2907 ویدیو با وضوح بالا و 833 دسته شی تشکیل شده است. توجه داشته باشید که این مجموعه داده برای ذخیره به حداقل 300 گیگابایت فضای خالی نیاز دارد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://taodataset.org/
کد منبع :
tfds.video.tao.Taoنسخه ها :
-
1.1.0(پیش فرض) : تقسیم آزمایشی اضافه شد.
-
اندازه دانلود :
Unknown sizeاندازه مجموعه داده :
Unknown sizeدستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dirدانلود کنید (پیشفرض~/tensorflow_datasets/downloads/manual/):
برخی از فایل های TAO (فیلم های HVACS و AVA) باید به صورت دستی دانلود شوند زیرا ورود به MOT لازم است. لطفاً آن دادهها را طبق دستورالعملهای موجود در https://motchallenge.net/tao_download.php دانلود کنید
این داده ها را دانلود کنید و فایل های .zip حاصل را به ~/tensorflow_datasets/downloads/manual/ منتقل کنید
اگر دادههایی که نیاز به دانلود دستی دارند وجود نداشته باشد، از آن صرفنظر میشود و فقط از دادههایی استفاده میشود که نیازی به دانلود دستی ندارند.
ذخیره خودکار ( اسناد ): ناشناخته
تقسیم ها :
| تقسیم کنید | نمونه ها |
|---|
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (پیکربندی پیشفرض)
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند
ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | توضیحات |
|---|---|---|---|---|
| FeaturesDict | ||||
| ابرداده | FeaturesDict | |||
| فراداده/مجموعه داده | تانسور | رشته | ||
| ابرداده/ارتفاع | تانسور | int32 | ||
| فراداده/neg_category_ids | تانسور | (هیچ،) | int32 | |
| فراداده/not_Exhaustive_category_ids | تانسور | (هیچ،) | int32 | |
| متادیتا/تعداد_فریم ها | تانسور | int32 | ||
| فراداده/نام_ویدئو | تانسور | رشته | ||
| فراداده/عرض | تانسور | int32 | ||
| آهنگ ها | دنباله | |||
| آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
| آهنگ / دسته | ClassLabel | int64 | ||
| آهنگ/قاب | دنباله (تنسور) | (هیچ،) | int32 | |
| tracks/is_crowd | تانسور | بوول | ||
| آهنگ/رده_مقیاس | تانسور | رشته | ||
| tracks/track_id | تانسور | int32 | ||
| ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
tao/full_resolution
توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده.
ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | توضیحات |
|---|---|---|---|---|
| FeaturesDict | ||||
| ابرداده | FeaturesDict | |||
| فراداده/مجموعه داده | تانسور | رشته | ||
| ابرداده/ارتفاع | تانسور | int32 | ||
| فراداده/neg_category_ids | تانسور | (هیچ،) | int32 | |
| فراداده/not_Exhaustive_category_ids | تانسور | (هیچ،) | int32 | |
| متادیتا/تعداد_فریم ها | تانسور | int32 | ||
| فراداده/نام_ویدئو | تانسور | رشته | ||
| فراداده/عرض | تانسور | int32 | ||
| آهنگ ها | دنباله | |||
| آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
| آهنگ / دسته | ClassLabel | int64 | ||
| آهنگ/قاب | دنباله (تنسور) | (هیچ،) | int32 | |
| tracks/is_crowd | تانسور | بوول | ||
| آهنگ/رده_مقیاس | تانسور | رشته | ||
| tracks/track_id | تانسور | int32 | ||
| ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |