- Описание :
Этот набор данных содержит 23 659 оценочных пар PAWS, переведенных человеком, и 296 406 обучающих пар, переведенных машинным способом, на шести типологически различных языках:
- Французский
- испанский
- Немецкий
- китайский язык
- японский язык
- Корейский
Дополнительные сведения см. в сопроводительном документе: PAWS-X: набор межъязыковых состязательных данных для идентификации парафраз на https://arxiv.org/abs/1908.11828 .
Подобно набору данных PAWS, примеры разбиты на разделы «Обучение/Разработка/Тест». Все файлы в формате tsv с четырьмя столбцами:
-  id: уникальный идентификатор для каждой пары.
-  sentence1: Первое предложение.
-  sentence2: Второе предложение.
-  (noisy_)label: (Шумная) метка для каждой пары.
Каждая метка имеет два возможных значения: 0 указывает на то, что пара имеет другое значение, а 1 указывает на то, что пара является парафразой.
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/google-research-datasets/paws/tree/master/pawsx 
- Исходный код : - tfds.datasets.paws_x_wiki.Builder
- Версии : -  1.0.0(по умолчанию): нет примечаний к выпуску.
 
-  
- Размер загрузки : - 28.88 MiB
- Автоматическое кэширование ( документация ): Да 
- Структура функции : 
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| этикетка | Метка класса | int64 | ||
| предложение1 | Текст | нить | ||
| предложение2 | Текст | нить | 
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}
paws_x_wiki/de (конфигурация по умолчанию)
- Описание конфига : переведено на де 
- Размер набора данных : - 15.27 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 380 | 
| 'validation' | 2000 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ru
- Описание конфига : Переведено на en 
- Размер набора данных : - 14.59 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 175 | 
| 'validation' | 2000 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/es
- Описание конфига : переведено на es 
- Размер набора данных : - 15.27 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 401 | 
| 'validation' | 1961 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/fr
- Описание конфигурации : переведено на фр. 
- Размер набора данных : - 15.79 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 399 | 
| 'validation' | 1988 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ja
- Описание конфигурации : переведено на ja 
- Размер набора данных : - 17.77 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 401 | 
| 'validation' | 2000 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ko
- Описание конфигурации : переведено на ko 
- Размер набора данных : - 16.42 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1999 | 
| 'train' | 49 164 | 
| 'validation' | 2000 | 
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ж
- Описание конфига : Переведено на zh 
- Размер набора данных : - 13.20 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2000 | 
| 'train' | 49 401 | 
| 'validation' | 2000 | 
- Примеры ( tfds.as_dataframe ):