- Descripción :
CORD-19 es un recurso de más de 45 000 artículos académicos, incluidos más de 33 000 con texto completo, sobre COVID-19, SARS-CoV-2 y coronavirus relacionados.
Para ayudar a organizar la información en las literaturas científicas de COVID-19 a través del resumen abstracto. Este conjunto de datos analiza esos artículos en pares de documentos y resúmenes de texto completo-resumen o introducción-resumen.
Las características incluyen cadenas de: resumen, texto completo, sha (hash de pdf), source_x (fuente de publicación), título, doi (identificador de objeto digital), licencia, autores, tiempo de publicación, diario, url.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
Código fuente :
tfds.summarization.Covid19sumVersiones :
-
1.0.0(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown sizeTamaño del conjunto de datos :
Unknown sizeInstrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir(el valor predeterminado es~/tensorflow_datasets/downloads/manual/):
Este conjunto de datos debe descargarse manualmente a través de kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challengeColoque el archivo zip descargado en la carpeta manual.Auto-caché ( documentación ): Desconocido
Divisiones :
| Separar | Ejemplos |
|---|
- Estructura de características :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| resumen | Tensor | cuerda | ||
| autores | Tensor | cuerda | ||
| cuerpo de texto | Secuencia | |||
| cuerpo_texto/sección | Tensor | cuerda | ||
| cuerpo_texto/texto | Tensor | cuerda | ||
| doi | Tensor | cuerda | ||
| diario | Tensor | cuerda | ||
| licencia | Tensor | cuerda | ||
| publicar_hora | Tensor | cuerda | ||
| sha | Tensor | cuerda | ||
| fuente_x | Tensor | cuerda | ||
| título | Tensor | cuerda | ||
| URL | Tensor | cuerda |
Claves supervisadas (ver
as_superviseddoc ):('body_text', 'abstract')Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}