- Opis :
Zestaw danych Multi-News
Multi-News składa się z artykułów prasowych i ich streszczeń napisanych przez ludzi, pochodzących z serwisu newser.com
. Każde streszczenie jest profesjonalnie napisane przez redaktorów i zawiera linki do oryginalnych, cytowanych artykułów.
Jest to pierwszy zbiór danych na dużą skalę umożliwiający podsumowania wielu dokumentów dotyczących artykułów informacyjnych.
Każdy rekord ma dwie cechy:
-
document
: Teksty artykułów informacyjnych, rozdzielone specjalnym tokenem "|||||". summary
: Podsumowanie wiadomości.Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://github.com/Alex-Fabbri/Multi-News
Kod źródłowy :
tfds.datasets.multi_news.Builder
Wersje :
-
1.0.0
: Wersja pierwsza. -
2.0.0
: [Nie używaj] Zaktualizuj zbiór danych, podając prawidłowe adresy URL. -
2.1.0
(domyślnie) : Zaktualizuj zbiór danych, dodając poprawne adresy URL. Adresy URL w tej wersji pochodzą z repozytorium zbioru danych HuggingFace, którego administratorem jest ten sam autor: https://huggingface.co/datasets/alexfabbri/multi_news
-
Rozmiar pobierania :
721.73 MiB
Rozmiar zbioru danych :
666.50 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 5622 |
'train' | 44 972 |
'validation' | 5622 |
- Struktura funkcji :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ danych | Opis |
---|---|---|---|---|
FunkcjeSłownik | ||||
dokument | Tekst | smyczkowy | ||
streszczenie | Tekst | smyczkowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('document', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}