- Descrição :
Este conjunto de dados contém o benchmark de modelagem de linguagem PG-19. Inclui um conjunto de livros extraídos do projeto de livros do Projeto Gutenberg ( https://www.gutenberg.org ), que foram publicados antes de 1919. Também contém metadados de títulos de livros e datas de publicação. O PG-19 tem mais do que o dobro do tamanho do benchmark Billion Word e contém documentos que são 20X mais longos, em média, do que o benchmark de modelagem de linguagem de longo alcance do WikiText.
Os livros são particionados em um conjunto de treinamento, validação e teste. Os metadados dos livros são armazenados em metadata.csv que contém (book_id, short_book_title, publication_date, book_link).
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/deepmind/pg19
Código -fonte:
tfds.datasets.pg19.BuilderVersões :
-
0.1.1(padrão): sem notas de versão.
-
Tamanho do download :
Unknown sizeTamanho do conjunto de dados :
10.94 GiBArmazenado em cache automaticamente ( documentação ): Não
Divisões :
| Dividir | Exemplos |
|---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Estrutura de recursos :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentação do recurso:
| Característica | Classe | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| livro_id | tensor | int32 | ||
| livro_link | tensor | corda | ||
| livro_texto | Texto | corda | ||
| título do livro | tensor | corda | ||
| data de publicação | tensor | corda |
Chaves supervisionadas (Consulte
as_superviseddoc ):NoneFigura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Descrição :
Este conjunto de dados contém o benchmark de modelagem de linguagem PG-19. Inclui um conjunto de livros extraídos do projeto de livros do Projeto Gutenberg ( https://www.gutenberg.org ), que foram publicados antes de 1919. Também contém metadados de títulos de livros e datas de publicação. O PG-19 tem mais do que o dobro do tamanho do benchmark Billion Word e contém documentos que são 20X mais longos, em média, do que o benchmark de modelagem de linguagem de longo alcance do WikiText.
Os livros são particionados em um conjunto de treinamento, validação e teste. Os metadados dos livros são armazenados em metadata.csv que contém (book_id, short_book_title, publication_date, book_link).
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/deepmind/pg19
Código -fonte:
tfds.datasets.pg19.BuilderVersões :
-
0.1.1(padrão): sem notas de versão.
-
Tamanho do download :
Unknown sizeTamanho do conjunto de dados :
10.94 GiBArmazenado em cache automaticamente ( documentação ): Não
Divisões :
| Dividir | Exemplos |
|---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Estrutura de recursos :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentação do recurso:
| Característica | Classe | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| livro_id | tensor | int32 | ||
| livro_link | tensor | corda | ||
| livro_texto | Texto | corda | ||
| título do livro | tensor | corda | ||
| data de publicação | tensor | corda |
Chaves supervisionadas (Consulte
as_superviseddoc ):NoneFigura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}