- Açıklama :
 
 WikiAuto, cümle basitleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Vikipedi ve Basit İngilizce Vikipedi'den bir dizi hizalanmış cümle sağlar. Yazarlar önce Basit İngilizce Vikipedi'nin bir alt kümesindeki cümleler ile İngilizce Vikipedi'deki karşılık gelen sürümleri arasındaki bir dizi manuel hizalamayı kitle kaynaklı olarak sağladı (bu, manual yapılandırmaya karşılık gelir), ardından bu hizalamaları tahmin etmesi için bir sinirsel CRF sistemi eğitti. Eğitilen model daha sonra Basit İngilizce Vikipedi'deki diğer makalelere İngilizce eşdeğeri ile uygulandı ve daha büyük bir hizalanmış cümleler külliyatı oluşturdu (buradaki auto , auto_acl , auto_full_no_split ve auto_full_with_split yapılandırmalarına karşılık gelir).
Ana sayfa : https://github.com/chaojiang06/wiki-auto
Kaynak kodu :
tfds.text_simplification.wiki_auto.WikiAutosürümler :
-  
1.0.0(varsayılan): İlk sürüm. 
-  
 Denetlenen anahtarlar (Bkz
as_superviseddoc ):NoneŞekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (varsayılan yapılandırma)
Yapılandırma açıklaması : Kalabalık çalışanları tarafından hizalanmış 10.000 Wikipedia cümle çifti kümesi.
İndirme boyutu :
53.47 MiBVeri kümesi boyutu :
76.87 MiBOtomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
| Bölmek | örnekler | 
|---|---|
 'dev' | 73.249 | 
 'test' | 118.074 | 
- Özellik yapısı :
 
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| GLEU puanı | tensör | şamandıra64 | ||
| hizalama_etiketi | SınıfEtiketi | int64 | ||
| normal_sentence | Metin | sicim | ||
| normal_sentence_id | Metin | sicim | ||
| basit_sentence | Metin | sicim | ||
| basit_sentence_id | Metin | sicim | 
- Örnekler ( tfds.as_dataframe ):
 
wiki_auto/auto_acl
Yapılandırma açıklaması : ACL2020 sistemini eğitmek için hizalanmış cümle çiftleri.
İndirme boyutu :
112.60 MiBVeri kümesi boyutu :
138.83 MiBOtomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False(dolu) olduğundabölmeler :
| Bölmek | örnekler | 
|---|---|
 'full' | 488.332 | 
- Özellik yapısı :
 
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| normal_sentence | Metin | sicim | ||
| basit_sentence | Metin | sicim | 
- Örnekler ( tfds.as_dataframe ):
 
wiki_auto/auto_full_no_split
Yapılandırma açıklaması : Cümle bölme olmadan tüm cümle çiftleri otomatik olarak hizalanır.
İndirme boyutu :
135.02 MiBVeri kümesi boyutu :
166.78 MiBOtomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False(dolu) olduğundabölmeler :
| Bölmek | örnekler | 
|---|---|
 'full' | 591.994 | 
- Özellik yapısı :
 
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| normal_sentence | Metin | sicim | ||
| basit_sentence | Metin | sicim | 
- Örnekler ( tfds.as_dataframe ):
 
wiki_auto/auto_full_with_split
Yapılandırma açıklaması : Tümü otomatik olarak hizalanan cümle çiftleri, cümle bölme özelliğine sahiptir.
İndirme boyutu :
115.09 MiBVeri kümesi boyutu :
141.20 MiBOtomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False(dolu) olduğundabölmeler :
| Bölmek | örnekler | 
|---|---|
 'full' | 483.801 | 
- Özellik yapısı :
 
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| normal_sentence | Metin | sicim | ||
| basit_sentence | Metin | sicim | 
- Örnekler ( tfds.as_dataframe ):
 
wiki_otomatik/otomatik
Yapılandırma açıklaması : Otomatik olarak hizalanan geniş bir cümle çiftleri kümesi.
İndirme boyutu :
2.01 GiBVeri kümesi boyutu :
1.76 GiBOtomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
| Bölmek | örnekler | 
|---|---|
 'part_1' | 125.059 | 
 'part_2' | 13.036 | 
- Özellik yapısı :
 
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| örnek_id | Metin | sicim | ||
| normal | ÖzelliklerDict | |||
| normal/normal_article_content | Sekans | |||
| normal/normal_article_content/normal_sentence | Metin | sicim | ||
| normal/normal_article_content/normal_sentence_id | Metin | sicim | ||
| normal/normal_article_id | tensör | int32 | ||
| normal/normal_article_title | Metin | sicim | ||
| normal/normal_article_url | Metin | sicim | ||
| paragraf_hizalama | Sekans | |||
| paragraf_hizalama/normal_paragraph_id | Metin | sicim | ||
| paragraf_hizalama/simple_paragraph_id | Metin | sicim | ||
| cümle_hizalama | Sekans | |||
| cümle_align/normal_sentence_id | Metin | sicim | ||
| cümle_alignment/simple_sentence_id | Metin | sicim | ||
| basit | ÖzelliklerDict | |||
| basit/basit_article_content | Sekans | |||
| basit/simple_article_content/simple_sentence | Metin | sicim | ||
| basit/simple_article_content/simple_sentence_id | Metin | sicim | ||
| basit/basit_article_id | tensör | int32 | ||
| basit/basit_article_title | Metin | sicim | ||
| basit/basit_article_url | Metin | sicim | 
- Örnekler ( tfds.as_dataframe ):