- Açıklama :
 
DART (Metin Oluşturma Veri Kaydı), üçlü kümedeki tüm gerçekleri kapsayan cümle açıklamalarıyla açıklamalı RDF varlık-ilişkisini içerir. DART, WikiTableQuestions, WikiSQL, WebNLG ve Cleaned E2E gibi mevcut veri kümeleri kullanılarak oluşturulmuştur. WikiTableQuestions ve WikiSQL'den alınan tablolar özne-yüklem-nesne üçlülerine dönüştürüldü ve metin ek açıklamaları çoğunlukla MTurk'ten toplandı. E2E'deki anlamlı temsiller de üçlüye dönüştürülerek açıklamaları kullanılmış, dönüştürülemeyenler çıkarılmıştır.
E2E ve WebNLG'nin veri kümesi bölmeleri korunur ve WikiTableQuestions ve WikiSQL için Jaccard benzerliği, benzer tabloları aynı kümede tutmak için kullanılır (train/dev/tes).
Bu veri seti, standartlaştırılmış bir tablo formatına göre oluşturulmuştur.
Ek Belgeler : Kodlu Belgeleri Keşfedin
Ana Sayfa : https://github.com/Yale-LILY/dart
Kaynak kodu :
tfds.structured.dart.Dartsürümler :
-  
0.1.0(varsayılan): Sürüm notu yok. 
-  
 İndirme boyutu :
249.71 MiBVeri kümesi boyutu :
38.83 MiBOtomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
| Bölmek | örnekler | 
|---|---|
 'test' | 12.552 | 
 'train' | 62.659 | 
 'validation' | 6.980 | 
- Özellik yapısı :
 
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| giriş metni | ÖzelliklerDict | |||
| girdi_metni/tablo | Sekans | |||
| girdi_metni/tablo/sütun_başlığı | tensör | sicim | ||
| girdi_metni/tablo/içerik | tensör | sicim | ||
| girdi_metni/tablo/satır_numarası | tensör | int16 | ||
| hedef_metin | tensör | sicim | 
Denetlenen anahtarlar (Bkz
as_superviseddoc ):('input_text', 'target_text')Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
 
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}