- opis :
WikiAuto zapewnia zestaw dopasowanych zdań z angielskiej Wikipedii i prostej angielskiej Wikipedii jako źródło do szkolenia systemów upraszczania zdań. Autorzy najpierw pozyskali zestaw ręcznych dopasowań między zdaniami w podzbiorze prostej angielskiej Wikipedii i ich odpowiednimi wersjami w angielskiej Wikipedii (odpowiada to manual konfiguracji), a następnie wyszkolili neuronowy system CRF, aby przewidywał te wyrównania. Wyszkolony model został następnie zastosowany do innych artykułów w prostej angielskiej Wikipedii z angielskim odpowiednikiem, aby utworzyć większy korpus wyrównanych zdań (odpowiadających tutaj konfiguracjom auto , auto_acl , auto_full_no_split i auto_full_with_split ).
Strona główna : https://github.com/chaojiang06/wiki-auto
Kod źródłowy :
tfds.text_simplification.wiki_auto.WikiAutoWersje :
-
1.0.0(domyślnie): Wersja początkowa.
-
Klucze nadzorowane (Zobacz dokument
as_supervised):NoneRysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (domyślna konfiguracja)
Opis konfiguracji: Zestaw 10 000 par zdań z Wikipedii ułożonych przez pracowników społecznościowych.
Rozmiar pliku do pobrania :
53.47 MiBRozmiar zestawu danych :
76.87 MiBAutomatyczne buforowanie ( dokumentacja ): Tak
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'dev' | 73249 |
'test' | 118074 |
- Struktura funkcji :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| Wynik GLEU | Napinacz | pływak64 | ||
| etykieta_wyrównania | Etykieta klasy | int64 | ||
| normalne_zdanie | Tekst | strunowy | ||
| normal_sentence_id | Tekst | strunowy | ||
| proste zdanie | Tekst | strunowy | ||
| simple_sentence_id | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wiki_auto/auto_acl
Opis konfiguracji: pary zdań dopasowane do uczenia systemu ACL2020.
Rozmiar pliku do pobrania :
112.60 MiBRozmiar zestawu danych :
138.83 MiBAutomatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False(pełne)Podziały :
| Rozdzielać | Przykłady |
|---|---|
'full' | 488332 |
- Struktura funkcji :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| normalne_zdanie | Tekst | strunowy | ||
| proste zdanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań bez dzielenia zdań.
Rozmiar pliku do pobrania :
135.02 MiBRozmiar zestawu danych :
166.78 MiBAutomatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False(pełne)Podziały :
| Rozdzielać | Przykłady |
|---|---|
'full' | 591 994 |
- Struktura funkcji :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| normalne_zdanie | Tekst | strunowy | ||
| proste zdanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań z podziałem zdań.
Rozmiar pliku do pobrania :
115.09 MiBRozmiar zestawu danych :
141.20 MiBAutomatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False(pełne)Podziały :
| Rozdzielać | Przykłady |
|---|---|
'full' | 483801 |
- Struktura funkcji :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| normalne_zdanie | Tekst | strunowy | ||
| proste zdanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wiki_auto/auto
Opis konfiguracji: duży zestaw automatycznie dopasowanych par zdań.
Rozmiar pliku do pobrania :
2.01 GiBRozmiar zestawu danych :
1.76 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'part_1' | 125059 |
'part_2' | 13036 |
- Struktura funkcji :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| identyfikator_przykładu | Tekst | strunowy | ||
| normalna | FunkcjeDict | |||
| normalny/normalny_artykuł_zawartość | Sekwencja | |||
| normalny/normalny_artykuł_zawartość/normalne_zdanie | Tekst | strunowy | ||
| normal/normal_article_content/normal_sentence_id | Tekst | strunowy | ||
| normalny/normalny_identyfikator_artykułu | Napinacz | int32 | ||
| normalny/normalny_tytuł_artykułu | Tekst | strunowy | ||
| normalny/normalny_url_artykułu | Tekst | strunowy | ||
| wyrównanie_paragrafu | Sekwencja | |||
| wyrównanie_paragrafu/identyfikator_normalnego_akapitu | Tekst | strunowy | ||
| akapit_wyrównanie/simple_paragraf_id | Tekst | strunowy | ||
| zdanie_wyrównanie | Sekwencja | |||
| zdanie_wyrównanie/normalne_zdanie_id | Tekst | strunowy | ||
| zdanie_wyrównanie/simple_sentence_id | Tekst | strunowy | ||
| prosty | FunkcjeDict | |||
| prosty/prosty_artykuł_zawartość | Sekwencja | |||
| prosty/prosty_artykuł_zawartość/proste_zdanie | Tekst | strunowy | ||
| simple/simple_article_content/simple_sentence_id | Tekst | strunowy | ||
| prosty/prosty_identyfikator_artykułu | Napinacz | int32 | ||
| prosty/prosty_tytuł_artykułu | Tekst | strunowy | ||
| prosty/prosty_url_artykułu | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):