- Keterangan :
Kumpulan Data Multi-Berita
Multi-News terdiri dari artikel berita dan ringkasan artikel yang ditulis tangan dari situs berita newser.com
. Setiap ringkasan ditulis secara profesional oleh editor dan menyertakan tautan ke artikel asli yang dikutip.
Ini adalah kumpulan data berskala besar pertama untuk peringkasan multi-dokumen pada artikel berita.
Setiap rekaman memiliki dua fitur:
-
document
: Teks artikel berita, dipisahkan oleh token khusus "|||||". summary
: Ringkasan berita.Dokumentasi Tambahan : Jelajahi di Papers With Code
Kode sumber :
tfds.datasets.multi_news.Builder
Versi :
-
1.0.0
: Rilis awal. -
2.0.0
: [Jangan gunakan] Perbarui dataset dengan URL yang valid. -
2.1.0
(default) : Perbarui dataset dengan URL yang benar. URL dalam versi ini berasal dari repositori dataset HuggingFace, yang dikurasi oleh penulis yang sama: https://huggingface.co/datasets/alexfabbri/multi_news
-
Ukuran unduhan :
721.73 MiB
Ukuran kumpulan data :
666.50 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Struktur fitur :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
dokumen | Teks | rangkaian | ||
ringkasan | Teks | rangkaian |
Kunci yang diawasi (Lihat dokumen
as_supervised
):('document', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}