- Mô tả :
WikiDialog là một bộ dữ liệu lớn về các cuộc hội thoại tìm kiếm thông tin được tạo ra một cách tổng hợp. Mỗi cuộc hội thoại trong bộ dữ liệu chứa hai diễn giả dựa trên một đoạn văn từ Wikipedia tiếng Anh: lời phát biểu của một diễn giả bao gồm các câu chính xác trong đoạn văn; người nói khác được tạo ra bởi một mô hình ngôn ngữ lớn.
Mô tả cấu hình : WikiDialog được tạo từ hộp thoại inpainter được tinh chỉnh trên OR-QuAC và QReCC.
OQlà viết tắt của OR-QuAC và QReCC.Trang chủ : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Mã nguồn :
tfds.text.wiki_dialog.WikiDialogPhiên bản :
-
1.0.0(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
7.04 GiBKích thước tập dữ liệu:
36.58 GiBTự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
| Tách ra | ví dụ |
|---|---|
'train' | 11.264.129 |
'validation' | 113,822 |
- Cấu trúc tính năng :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| tác giả_num | Trình tự (Tensor) | (Không có,) | int32 | |
| đoạn văn | Chữ | sợi dây | ||
| pid | Chữ | sợi dây | ||
| câu | Trình tự (Văn bản) | (Không có,) | sợi dây | |
| Tiêu đề | Chữ | sợi dây | ||
| cách nói | Trình tự (Văn bản) | (Không có,) | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):NoneHình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}