- توضیحات :
QALITY، مجموعه داده درک مطلب چند گزینه ای و طولانی مدت.
ما فقط نسخه خام را ارائه می دهیم.
صفحه اصلی : https://github.com/nyu-mll/quality
کد منبع :
tfds.datasets.quality.Builderنسخه ها :
-
1.0.0(پیش فرض): انتشار اولیه.
-
حجم دانلود :
17.26 MiBذخیره خودکار ( اسناد ): بله
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'dev' | 230 |
'test' | 232 |
'train' | 300 |
- ساختار ویژگی :
FeaturesDict({
'article': Text(shape=(), dtype=string),
'article_id': Text(shape=(), dtype=string),
'difficults': Sequence(bool),
'gold_labels': Sequence(int32),
'options': Sequence(Sequence(Text(shape=(), dtype=string))),
'question_ids': Sequence(Text(shape=(), dtype=string)),
'questions': Sequence(Text(shape=(), dtype=string)),
'set_unique_id': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'topic': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'writer_id': Text(shape=(), dtype=string),
'writer_labels': Sequence(int32),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| مقاله | متن | رشته | ||
| article_id | متن | رشته | ||
| دشواری ها | دنباله (تنسور) | (هیچ یک،) | بوول | |
| برچسب های طلایی | دنباله (تنسور) | (هیچ یک،) | int32 | |
| گزینه ها | دنباله (توالی (متن)) | (هیچ، هیچکدام) | رشته | |
| question_ids | دنباله (متن) | (هیچ یک،) | رشته | |
| سوالات | دنباله (متن) | (هیچ یک،) | رشته | |
| set_unique_id | متن | رشته | ||
| منبع | متن | رشته | ||
| عنوان | متن | رشته | ||
| موضوع | متن | رشته | ||
| آدرس اینترنتی | متن | رشته | ||
| writer_id | متن | رشته | ||
| نویسنده_برچسب ها | دنباله (تنسور) | (هیچ یک،) | int32 |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{pang2021quality,
title={ {QuALITY}: Question Answering with Long Input Texts, Yes!},
author={Pang, Richard Yuanzhe and Parrish, Alicia and Joshi, Nitish and Nangia, Nikita and Phang, Jason and Chen, Angelica and Padmakumar, Vishakh and Ma, Johnny and Thompson, Jana and He, He and Bowman, Samuel R.},
journal={arXiv preprint arXiv:2112.08608},
year={2021}
}
کیفیت/خام (پیکربندی پیش فرض)
توضیحات پیکربندی : خام با HTML.
حجم مجموعه داده :
22.18 MiBمثالها ( tfds.as_dataframe ):
با کیفیت / برهنه
توضیحات پیکربندی : فاقد HTML.
حجم مجموعه داده :
20.73 MiBمثالها ( tfds.as_dataframe ):