- 설명 :
CORD-19는 COVID-19, SARS-CoV-2 및 관련 코로나바이러스에 대한 전문이 포함된 33,000개 이상의 학술 기사를 포함하여 45,000개가 넘는 학술 기사의 리소스입니다.
추상적인 요약을 통해 COVID-19 과학 문헌의 정보 구성을 돕습니다. 이 데이터 세트는 해당 기사를 문서 쌍과 full_text-abstract 또는 소개-추상 요약으로 구문 분석합니다.
기능에는 abstract, full_text, sha(pdf 해시), source_x(출판 소스), 제목, doi(디지털 개체 식별자), 라이선스, 저자, publish_time, 저널, url 문자열이 포함됩니다.
추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
소스 코드 :
tfds.summarization.Covid19sum버전 :
-
1.0.0(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size데이터세트 크기 :
Unknown size수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/).
이 데이터 세트는 kaggle api를 통해 수동으로 다운로드해야 합니다.kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge다운로드한 zip 파일을 manual 폴더에 넣습니다.자동 캐시 됨( 문서 ): 알 수 없음
분할 :
| 나뉘다 | 예 |
|---|
- 기능 구조 :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- 기능 문서 :
| 특징 | 수업 | 모양 | D타입 | 설명 |
|---|---|---|---|---|
| 풍모Dict | ||||
| 요약 | 텐서 | 끈 | ||
| 저자 | 텐서 | 끈 | ||
| body_text | 순서 | |||
| 본문_텍스트/섹션 | 텐서 | 끈 | ||
| 본문_텍스트/텍스트 | 텐서 | 끈 | ||
| 도이 | 텐서 | 끈 | ||
| 신문 | 텐서 | 끈 | ||
| 특허 | 텐서 | 끈 | ||
| 게시 시간 | 텐서 | 끈 | ||
| 샤 | 텐서 | 끈 | ||
| 소스_x | 텐서 | 끈 | ||
| 제목 | 텐서 | 끈 | ||
| URL | 텐서 | 끈 |
감독 키 (
as_supervised문서 참조):('body_text', 'abstract')그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ): 누락.
인용 :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}