- Mô tả :
CORD-19 là nguồn tài nguyên gồm hơn 45.000 bài báo học thuật, trong đó có hơn 33.000 bài có toàn văn về COVID-19, SARS-CoV-2 và các loại vi-rút corona có liên quan.
Để giúp tổ chức thông tin trong các tài liệu khoa học về COVID-19 thông qua tóm tắt trừu tượng. Bộ dữ liệu này phân tích các bài báo đó thành các cặp tài liệu và tóm tắt full_text-abstract hoặc phần giới thiệu-trừu tượng.
Các tính năng bao gồm các chuỗi: trừu tượng, full_text, sha (hàm băm của pdf), source_x (nguồn xuất bản), tiêu đề, doi (số nhận dạng đối tượng kỹ thuật số), giấy phép, tác giả, publish_time, tạp chí, url.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://www.kaggle.com/allen-inst acad-for-ai/CORD-19-research-challenge
Mã nguồn :
tfds.summarization.Covid19sumPhiên bản :
-
1.0.0(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown sizeKích thước tập dữ liệu :
Unknown sizeHướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir(mặc định là~/tensorflow_datasets/downloads/manual/):
Tập dữ liệu này cần được tải xuống thủ công thông qua kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challengeĐặt tệp zip đã tải xuống vào thư mục thủ công.Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
| Tách ra | ví dụ |
|---|
- Cấu trúc tính năng :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| trừu tượng | tenxơ | sợi dây | ||
| tác giả | tenxơ | sợi dây | ||
| bài kiểm tra cơ thể | Sự phối hợp | |||
| body_text/phần | tenxơ | sợi dây | ||
| body_text/văn bản | tenxơ | sợi dây | ||
| doi | tenxơ | sợi dây | ||
| tạp chí | tenxơ | sợi dây | ||
| giấy phép | tenxơ | sợi dây | ||
| xuất bản_time | tenxơ | sợi dây | ||
| sha | tenxơ | sợi dây | ||
| nguồn_x | tenxơ | sợi dây | ||
| Tiêu đề | tenxơ | sợi dây | ||
| url | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('body_text', 'abstract')Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}