- Descrizione :
DART (DAta Record to Text generation) contiene relazioni di entità RDF annotate con descrizioni di frasi che coprono tutti i fatti nel triplo set. DART è stato creato utilizzando set di dati esistenti come: WikiTableQuestions, WikiSQL, WebNLG e Cleaned E2E. Le tabelle di WikiTableQuestions e WikiSQL sono state trasformate in triple soggetto-predicato-oggetto e le sue annotazioni di testo sono state raccolte principalmente da MTurk. Anche le rappresentazioni significative in E2E sono state trasformate in triple e sono state utilizzate le sue descrizioni, alcune che non potevano essere trasformate sono state eliminate.
Le divisioni del set di dati di E2E e WebNLG vengono mantenute e per WikiTableQuestions e WikiSQL viene utilizzata la somiglianza di Jaccard per mantenere tabelle simili nello stesso set (train/dev/tes).
Questo set di dati è costruito seguendo un formato di tabella standardizzato.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/Yale-LILY/dart
Codice sorgente :
tfds.structured.dart.DartVersioni :
-
0.1.0(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
249.71 MiBDimensione del set di dati:
38.83 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 12.552 |
'train' | 62.659 |
'validation' | 6.980 |
- Struttura delle caratteristiche :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| testo di input | CaratteristicheDict | |||
| testo_input/tabella | Sequenza | |||
| input_text/table/column_header | Tensore | corda | ||
| testo_input/tabella/contenuto | Tensore | corda | ||
| testo_input/tabella/numero_riga | Tensore | int16 | ||
| testo_destinazione | Tensore | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('input_text', 'target_text')Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}