- Descripción :
El conjunto de datos de informes gubernamentales consiste en informes escritos por agencias de investigación gubernamentales, incluido el Servicio de Investigación del Congreso y la Oficina de Responsabilidad del Gobierno de EE. UU.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://gov-report-data.github.io/
Código fuente :
tfds.summarization.gov_report.GovReportVersiones :
-
1.0.0(predeterminado): Versión inicial.
-
Tamaño de la descarga :
320.59 MiBAlmacenamiento automático en caché ( documentación ): No
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report/crs_whitespace (configuración predeterminada)
Descripción de la configuración : informe CRS con resumen. Estructuras aplanadas y unidas por espacios en blanco. Este es el formato utilizado por el papel original
Tamaño del conjunto de datos :
349.76 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| identificación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| informes | Texto | cuerda | ||
| resumen | Texto | cuerda | ||
| título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised):('reports', 'summary')Ejemplos ( tfds.as_dataframe ):
gov_report/gao_espacio en blanco
Descripción de la configuración : informe GAO con estructuras resaltadas aplanadas y unidas por espacios en blanco. Este es el formato utilizado por el papel original
Tamaño del conjunto de datos :
690.24 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Estructura de características :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| hecho rápido | Texto | cuerda | ||
| destacar | Texto | cuerda | ||
| identificación | Texto | cuerda | ||
| Fecha de Publicación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| reporte | Texto | cuerda | ||
| título | Texto | cuerda | ||
| URL | Texto | cuerda |
Teclas supervisadas (ver documento
as_supervised):('report', 'highlight')Ejemplos ( tfds.as_dataframe ):
informe_gov/crs_html
Descripción de la configuración : informe CRS con resumen. Estructuras aplanadas y unidas por nueva línea mientras se agregan etiquetas html. Las etiquetas solo se agregan para section_title en un formato como
<h2>xxx<h2>.Tamaño del conjunto de datos :
351.25 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| identificación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| informes | Texto | cuerda | ||
| resumen | Texto | cuerda | ||
| título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised):('reports', 'summary')Ejemplos ( tfds.as_dataframe ):
gov_report/gao_html
Descripción de la configuración : informe GAO con estructuras resaltadas aplanadas y unidas por nueva línea mientras se agregan etiquetas html. Las etiquetas solo se agregan para section_title en un formato como
<h2>xxx<h2>.Tamaño del conjunto de datos :
692.72 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Estructura de características :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| hecho rápido | Texto | cuerda | ||
| destacar | Texto | cuerda | ||
| identificación | Texto | cuerda | ||
| Fecha de Publicación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| reporte | Texto | cuerda | ||
| título | Texto | cuerda | ||
| URL | Texto | cuerda |
Teclas supervisadas (ver documento
as_supervised):('report', 'highlight')Ejemplos ( tfds.as_dataframe ):
informe_gov/crs_json
Descripción de la configuración : informe CRS con resumen. Estructuras representadas como raw json.
Tamaño del conjunto de datos :
361.92 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| identificación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| informes | Texto | cuerda | ||
| resumen | Texto | cuerda | ||
| título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised):('reports', 'summary')Ejemplos ( tfds.as_dataframe ):
gov_report/gao_json
Descripción de la configuración : informe GAO con estructuras destacadas representadas como json sin procesar.
Tamaño del conjunto de datos :
712.82 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Estructura de características :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| hecho rápido | Texto | cuerda | ||
| destacar | Texto | cuerda | ||
| identificación | Texto | cuerda | ||
| Fecha de Publicación | Texto | cuerda | ||
| fecha de lanzamiento | Texto | cuerda | ||
| reporte | Texto | cuerda | ||
| título | Texto | cuerda | ||
| URL | Texto | cuerda |
Teclas supervisadas (ver documento
as_supervised):('report', 'highlight')Ejemplos ( tfds.as_dataframe ):