- Описание :
WikiAuto предоставляет набор выровненных предложений из английской Википедии и простой английской Википедии в качестве ресурса для обучения систем упрощения предложений. Сначала авторы собрали набор ручных выравниваний между предложениями в подмножестве Simple English Wikipedia и их соответствующими версиями в английской Википедии (это соответствует manual конфигурации), а затем обучили нейронную CRF-систему прогнозировать эти выравнивания. Затем обученная модель была применена к другим статьям в Википедии на простом английском языке с английским аналогом для создания большего корпуса выровненных предложений (соответствующих конфигурациям auto , auto_acl , auto_full_no_split и auto_full_with_split здесь).
Домашняя страница : https://github.com/chaojiang06/wiki-auto
Исходный код :
tfds.text_simplification.wiki_auto.WikiAutoВерсии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (конфигурация по умолчанию)
Описание конфигурации : набор из 10 тысяч пар предложений из Википедии, выровненных краудворкерами.
Размер загрузки :
53.47 MiBРазмер набора данных :
76.87 MiB.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'dev' | 73 249 |
'test' | 118 074 |
- Структура функции :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| GLEU-оценка | Тензор | поплавок64 | ||
| выравнивание_метка | Метка класса | int64 | ||
| normal_sentence | Текст | нить | ||
| normal_sentence_id | Текст | нить | ||
| простое предложение | Текст | нить | ||
| simple_sentence_id | Текст | нить |
- Примеры ( tfds.as_dataframe ):
wiki_auto/auto_acl
Описание конфигурации : пары предложений, выровненные для обучения системы ACL2020.
Размер загрузки :
112.60 MiBРазмер набора данных :
138.83 MiB.Автокэширование ( документация ): только когда
shuffle_files=False(полный)Сплиты :
| Расколоть | Примеры |
|---|---|
'full' | 488 332 |
- Структура функции :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| normal_sentence | Текст | нить | ||
| простое предложение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Описание конфигурации : все автоматически выровненные пары предложений без разделения предложений.
Размер загрузки :
135.02 MiBРазмер набора данных :
166.78 MiB.Автокэширование ( документация ): только когда
shuffle_files=False(полный)Сплиты :
| Расколоть | Примеры |
|---|---|
'full' | 591 994 |
- Структура функции :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| normal_sentence | Текст | нить | ||
| простое предложение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Описание конфигурации : все автоматически выровненные пары предложений с разделением предложений.
Размер загрузки :
115.09 MiBРазмер набора данных :
141.20 MiB.Автокэширование ( документация ): только когда
shuffle_files=False(полный)Сплиты :
| Расколоть | Примеры |
|---|---|
'full' | 483 801 |
- Структура функции :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| normal_sentence | Текст | нить | ||
| простое предложение | Текст | нить |
- Примеры ( tfds.as_dataframe ):
wiki_auto/авто
Описание конфига : большой набор автоматически выровненных пар предложений.
Размер загрузки :
2.01 GiBРазмер набора данных :
1.76 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'part_1' | 125 059 |
'part_2' | 13 036 |
- Структура функции :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| example_id | Текст | нить | ||
| обычный | ОсобенностиDict | |||
| обычный/нормальный_содержимое_статьи | Последовательность | |||
| обычный/нормальный_содержимое_статьи/нормальный_предложение | Текст | нить | ||
| нормальный/нормальный_содержимое_статьи/нормальный_идентификатор_предложения | Текст | нить | ||
| обычный/нормальный_идентификатор_статьи | Тензор | int32 | ||
| обычный/нормальный_статья_название | Текст | нить | ||
| обычный/нормальный_адрес_статьи | Текст | нить | ||
| параграф_выравнивание | Последовательность | |||
| paragraph_alignment/normal_paragraph_id | Текст | нить | ||
| paragraph_alignment/simple_paragraph_id | Текст | нить | ||
| предложение_выравнивание | Последовательность | |||
| предложение_выравнивание/нормальное_предложение_идентификатор | Текст | нить | ||
| предложение_выравнивание/simple_sentence_id | Текст | нить | ||
| просто | ОсобенностиDict | |||
| простой/простой_article_content | Последовательность | |||
| простое/простое_содержимое_статьи/простое_предложение | Текст | нить | ||
| простой/simple_article_content/simple_sentence_id | Текст | нить | ||
| простой/simple_article_id | Тензор | int32 | ||
| простой/простой_статья_название | Текст | нить | ||
| простой/простой_article_url | Текст | нить |
- Примеры ( tfds.as_dataframe ):