- Описание :
Этот набор данных содержит тест языкового моделирования PG-19. Он включает в себя набор книг, извлеченных из проекта книг Project Gutenberg ( https://www.gutenberg.org ), которые были опубликованы до 1919 года. Он также содержит метаданные названий книг и дат публикации. PG-19 более чем в два раза превышает размер теста Billion Word и содержит документы, которые в среднем в 20 раз длиннее, чем тест моделирования языка дальнего действия WikiText.
Книги разделены на поезд, проверку и набор тестов. Метаданные книг хранятся в файле metadata.csv, который содержит (book_id, short_book_title, publish_date, book_link).
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/deepmind/pg19
Исходный код :
tfds.datasets.pg19.BuilderВерсии :
-
0.1.1(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown sizeРазмер набора данных :
10.94 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 100 |
'train' | 28 602 |
'validation' | 50 |
- Структура функции :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| book_id | Тензор | int32 | ||
| книга_ссылка | Тензор | нить | ||
| книга_текст | Текст | нить | ||
| Заголовок книги | Тензор | нить | ||
| Дата публикации | Тензор | нить |
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Описание :
Этот набор данных содержит тест языкового моделирования PG-19. Он включает в себя набор книг, извлеченных из проекта книг Project Gutenberg ( https://www.gutenberg.org ), которые были опубликованы до 1919 года. Он также содержит метаданные названий книг и дат публикации. PG-19 более чем в два раза превышает размер теста Billion Word и содержит документы, которые в среднем в 20 раз длиннее, чем тест моделирования языка дальнего действия WikiText.
Книги разделены на поезд, проверку и набор тестов. Метаданные книг хранятся в файле metadata.csv, который содержит (book_id, short_book_title, publish_date, book_link).
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/deepmind/pg19
Исходный код :
tfds.datasets.pg19.BuilderВерсии :
-
0.1.1(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown sizeРазмер набора данных :
10.94 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 100 |
'train' | 28 602 |
'validation' | 50 |
- Структура функции :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| book_id | Тензор | int32 | ||
| книга_ссылка | Тензор | нить | ||
| книга_текст | Текст | нить | ||
| Заголовок книги | Тензор | нить | ||
| Дата публикации | Тензор | нить |
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}