- Описание :
ASSET — это набор данных для оценки систем упрощения предложений с несколькими преобразованиями перезаписи, как описано в статье «ASSET: набор данных для настройки и оценки моделей упрощения предложений с несколькими преобразованиями перезаписи». Корпус состоит из 2000 проверочных и 359 тестовых исходных предложений, каждое из которых было упрощено в 10 раз разными аннотаторами. Корпус также содержит человеческие суждения о сохранении значения, беглости и простоте выходных данных нескольких систем автоматического упрощения текста.
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/facebookresearch/asset 
- Исходный код : - tfds.datasets.asset.Builder
- Версии : -  1.0.0(по умолчанию): Первоначальный выпуск.
 
-  
- Размер загрузки : - 3.47 MiB
- Автоматическое кэширование ( документация ): Да 
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}
актив/упрощение (конфигурация по умолчанию)
- Описание конфига : набор оригинальных предложений, выровненных с 10 возможными упрощениями для каждого. 
- Размер набора данных : - 2.64 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 359 | 
| 'validation' | 2000 | 
- Структура функции :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| оригинальный | Текст | нить | ||
| упрощения | Последовательность (текст) | (Никто,) | нить | 
- Примеры ( tfds.as_dataframe ):
актив/рейтинги
- Описание конфигурации : человеческие оценки автоматически создаваемого упрощения текста. 
- Размер набора данных : - 1.44 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'full' | 4500 | 
- Структура функции :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| аспект | Метка класса | int64 | ||
| оригинальный | Текст | нить | ||
| original_sentence_id | Тензор | int32 | ||
| рейтинг | Тензор | int32 | ||
| упрощение | Текст | нить | ||
| worker_id | Тензор | int32 | 
- Примеры ( tfds.as_dataframe ):