- Deskripsi :
Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini termasuk satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata judul buku dan tanggal publikasi. PG-19 lebih dari dua kali lipat ukuran tolok ukur Miliar Kata dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jangka panjang WikiText.
Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/deepmind/pg19
Kode sumber :
tfds.datasets.pg19.BuilderVersi :
-
0.1.1(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown sizeUkuran dataset :
10.94 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Struktur fitur :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| book_id | Tensor | int32 | ||
| book_link | Tensor | rangkaian | ||
| book_text | Teks | rangkaian | ||
| judul buku | Tensor | rangkaian | ||
| Tanggal penerbitan | Tensor | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Deskripsi :
Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini termasuk satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata judul buku dan tanggal publikasi. PG-19 lebih dari dua kali lipat ukuran tolok ukur Miliar Kata dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jangka panjang WikiText.
Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/deepmind/pg19
Kode sumber :
tfds.datasets.pg19.BuilderVersi :
-
0.1.1(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown sizeUkuran dataset :
10.94 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Struktur fitur :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| book_id | Tensor | int32 | ||
| book_link | Tensor | rangkaian | ||
| book_text | Teks | rangkaian | ||
| judul buku | Tensor | rangkaian | ||
| Tanggal penerbitan | Tensor | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}