- Mô tả :
Bộ dữ liệu LAMBADA đánh giá khả năng của các mô hình tính toán để hiểu văn bản bằng một nhiệm vụ dự đoán từ. LAMBADA là một tập hợp các đoạn tường thuật có chung đặc điểm là chủ thể con người có thể đoán từ cuối cùng của họ nếu họ tiếp xúc với toàn bộ đoạn văn, nhưng không phải nếu họ chỉ nhìn thấy câu cuối cùng trước từ mục tiêu
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://zenodo.org/record/2630551#.X4Xzn5NKjUI
Mã nguồn :
tfds.datasets.lambada.BuilderPhiên bản :
-
1.0.0(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
319.03 MiBKích thước tập dữ liệu :
3.49 MiBTự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 5,153 |
'train' | 4,869 |
- Cấu trúc tính năng :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| đoạn văn | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):NoneHình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{paperno-etal-2016-lambada,
title = "The {LAMBADA} dataset: Word prediction requiring a broad discourse context",
author = "Paperno, Denis and
Kruszewski, Germ{\'a}n and
Lazaridou, Angeliki and
Pham, Ngoc Quan and
Bernardi, Raffaella and
Pezzelle, Sandro and
Baroni, Marco and
Boleda, Gemma and
Fern{\'a}ndez, Raquel",
booktitle = "Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/P16-1144",
doi = "10.18653/v1/P16-1144",
pages = "1525--1534",
}