- Mô tả :
SAMSum Corpus chứa hơn 16 nghìn đoạn hội thoại trò chuyện với phần tóm tắt được chú thích thủ công.
Có hai tính năng:
- đối thoại: văn bản đối thoại.
- tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
id: id của một ví dụ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://arxiv.org/src/1911.12237v2/anc
Mã nguồn :
tfds.datasets.samsum.BuilderPhiên bản :
-
1.0.0(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown sizeKích thước tập dữ liệu :
10.71 MiBHướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir(mặc định là~/tensorflow_datasets/downloads/manual/):
Tải xuống https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và đặt train.json, val.json và test.json trong thư mục hướng dẫn sử dụng.Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- Cấu trúc tính năng :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| hội thoại | Chữ | chuỗi | ||
| Tôi | Chữ | chuỗi | ||
| tóm lược | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_superviseddoc ):('dialogue', 'summary')Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}