- विवरण :
इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।
पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड :
tfds.datasets.pg19.Builderसंस्करण :
-
0.1.1(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
10.94 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- फ़ीचर संरचना :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| book_id | टेन्सर | int32 | ||
| book_link | टेन्सर | डोरी | ||
| book_text | मूलपाठ | डोरी | ||
| पुस्तक का शीर्षक | टेन्सर | डोरी | ||
| प्रकाशन तिथि | टेन्सर | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - विवरण :
इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।
पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड :
tfds.datasets.pg19.Builderसंस्करण :
-
0.1.1(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
10.94 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- फ़ीचर संरचना :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| book_id | टेन्सर | int32 | ||
| book_link | टेन्सर | डोरी | ||
| book_text | मूलपाठ | डोरी | ||
| पुस्तक का शीर्षक | टेन्सर | डोरी | ||
| प्रकाशन तिथि | टेन्सर | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}