- תיאור :
מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.
ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/deepmind/pg19
קוד מקור :
tfds.datasets.pg19.Builderגרסאות :
-
0.1.1(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown sizeגודל מערך נתונים :
10.94 GiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- מבנה תכונה :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| book_id | מוֹתֵחַ | int32 | ||
| ספר_קישור | מוֹתֵחַ | חוּט | ||
| ספר_טקסט | טֶקסט | חוּט | ||
| כותרת הספר | מוֹתֵחַ | חוּט | ||
| תאריך פרסום | מוֹתֵחַ | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - תיאור :
מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.
ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/deepmind/pg19
קוד מקור :
tfds.datasets.pg19.Builderגרסאות :
-
0.1.1(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown sizeגודל מערך נתונים :
10.94 GiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- מבנה תכונה :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| book_id | מוֹתֵחַ | int32 | ||
| ספר_קישור | מוֹתֵחַ | חוּט | ||
| ספר_טקסט | טֶקסט | חוּט | ||
| כותרת הספר | מוֹתֵחַ | חוּט | ||
| תאריך פרסום | מוֹתֵחַ | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}