- Tanım :
Çoklu Haber Veri Seti
Multi-News, newser.com
haber sitesindeki haber makalelerinden ve bu makalelerin insan eliyle yazılmış özetlerinden oluşur. Her özet, editörler tarafından profesyonelce yazılır ve atıfta bulunulan orijinal makalelere bağlantılar içerir.
Bu, haber makaleleri hakkında çoklu belge özetlemesi için ilk büyük ölçekli veri kümesidir.
Her kaydın iki özelliği vardır:
-
document
: Haber makalelerinin özel belirteç "|||||" ile ayrılmış metinleri. summary
: Haberin özeti.Ek Belgeler : Kodlu Belgelerde Keşfedin
Ana sayfa : https://github.com/Alex-Fabbri/Multi-News
Kaynak kodu :
tfds.datasets.multi_news.Builder
Sürümler :
-
1.0.0
: İlk sürüm. -
2.0.0
: [Kullanmayın] Veri setini geçerli URL'lerle güncelleyin. -
2.1.0
(varsayılan) : Veri kümesini doğru URL'lerle güncelleyin. Bu sürümdeki URL'ler, aynı yazar tarafından düzenlenen HuggingFace veri kümesi deposundan gelmektedir: https://huggingface.co/datasets/alexfabbri/multi_news
-
İndirme boyutu :
721.73 MiB
Veri kümesi boyutu :
666.50 MiB
Otomatik önbelleğe alma ( dokümantasyon ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Özellik yapısı :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Özellik dokümantasyonu :
Özellik | Sınıf | Şekil | Veri türü | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
belge | Metin | sicim | ||
özet | Metin | sicim |
Gözetimli anahtarlar (Bkz.
as_supervised
doc ):('document', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}