- opis :
Ten wielkoskalowy zbiór danych wywiadów medialnych zawiera 463,6 tys. transkryptów z abstrakcyjnymi podsumowaniami, zebranymi z transkrypcji wywiadów oraz przeglądów/opisów tematów z NPR i CNN.
Ogranicz wykorzystanie tego zestawu danych wyłącznie do celów badawczych.
I proszę zacytować nasz artykuł: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
Etyka
Użyliśmy tylko publicznie dostępnych transkrypcji danych ze źródeł medialnych i przestrzegamy ich wytycznych wyłącznie do celów badawczych.
Ponieważ media i goście mogą mieć stronnicze poglądy, transkrypcje i streszczenia prawdopodobnie będą je zawierać. Treść stenogramów i streszczeń odzwierciedla wyłącznie poglądy mediów i gości i powinna być traktowana z rozwagą.
Strona główna : https://github.com/zcgzcgzcg1/MediaSum
Kod źródłowy :
tfds.datasets.media_sum.BuilderWersje :
-
1.0.0(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown sizeRozmiar zestawu danych :
4.11 GiBInstrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir(domyślnie~/tensorflow_datasets/downloads/manual/):
katalog_ręczny powinien zawierać pliki:- news_dialog.json
- train_val_test_split.json
Pliki można pobrać i wyodrębnić ze strony GitHub zestawu danych: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Podział | Przykłady |
|---|---|
'test' | 10 000 |
'train' | 443 596 |
'val' | 10 000 |
- Struktura funkcji :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| data | Tekst | strunowy | ||
| ID | Tekst | strunowy | ||
| program | Tekst | strunowy | ||
| głośnik | Sekwencja (tekst) | (Nic,) | strunowy | |
| streszczenie | Tekst | strunowy | ||
| adres URL | Tekst | strunowy | ||
| utt | Sekwencja (tekst) | (Nic,) | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised):('utt', 'summary')Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}