- توضیحات :
این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعهای از کتابهای استخراجشده از پروژه کتابهای پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شدهاند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط 20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.
کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتابها در metadata.csv ذخیره میشود که حاوی (book_id، short_book_title، publication_date، book_link) است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع :
tfds.datasets.pg19.Builderنسخه ها :
-
0.1.1(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown sizeحجم مجموعه داده :
10.94 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- ساختار ویژگی :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| book_id | تانسور | int32 | ||
| پیوند_کتاب | تانسور | رشته | ||
| کتاب_متن | متن | رشته | ||
| عنوان کتاب | تانسور | رشته | ||
| تاریخ انتشار | تانسور | رشته |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
، - توضیحات :
این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعهای از کتابهای استخراجشده از پروژه کتابهای پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شدهاند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط 20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.
کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتابها در metadata.csv ذخیره میشود که حاوی (book_id، short_book_title، publication_date، book_link) است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع :
tfds.datasets.pg19.Builderنسخه ها :
-
0.1.1(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown sizeحجم مجموعه داده :
10.94 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- ساختار ویژگی :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| book_id | تانسور | int32 | ||
| پیوند_کتاب | تانسور | رشته | ||
| کتاب_متن | متن | رشته | ||
| عنوان کتاب | تانسور | رشته | ||
| تاریخ انتشار | تانسور | رشته |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}