- Описание :
В существующих наборах данных идентификации перефразирования отсутствуют пары предложений с высоким лексическим перекрытием, но не являющиеся перефразированием. Модели, обученные на таких данных, не могут различать такие пары, как рейсы из Нью-Йорка во Флориду и рейсы из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 пары, помеченные человеком, и 656 тыс. пар, помеченных шумом, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации парафраз.
Дополнительные сведения см. в сопроводительном документе: PAWS: Paraphrase Adversaries from Word Scrambling по адресу https://arxiv.org/abs/1904.01130 .
Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, сгенерированные как методом замены слов, так и методом обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости, и они разделены на разделы «Обучение/Разработка/Тестирование».
Все файлы в формате tsv с четырьмя столбцами:
-  id: уникальный идентификатор для каждой пары.
-  sentence1: Первое предложение.
-  sentence2: Второе предложение.
-  (noisy_)label: (Шумная) метка для каждой пары.
Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/google-research-datasets/paws 
- Исходный код : - tfds.datasets.paws_wiki.Builder
- Версии : -  1.0.0: Начальная версия.
-  1.1.0(по умолчанию): Добавляет конфигурации в другое подмножество и поддерживает необработанный текст.
 
-  
- Размер загрузки : - 57.47 MiB
- Структура функции : 
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| этикетка | Метка класса | int64 | ||
| предложение1 | Текст | нить | ||
| предложение2 | Текст | нить | 
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}
paws_wiki/labeled_final_tokenized (конфигурация по умолчанию)
- Описание конфигурации : Подмножество: labeled_final tokenized: True 
- Размер набора данных : - 17.96 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 8000 | 
| 'train' | 49 401 | 
| 'validation' | 8000 | 
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
- Описание конфигурации : Подмножество: labeled_final tokenized: False 
- Размер набора данных : - 17.57 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 8000 | 
| 'train' | 49 401 | 
| 'validation' | 8000 | 
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
- Описание конфигурации : Подмножество: labeled_swap tokenized: True 
- Размер набора данных : - 8.79 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 30 397 | 
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
- Описание конфигурации : Подмножество: labeled_swap tokenized: False 
- Размер набора данных : - 8.60 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 30 397 | 
- Примеры ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
- Описание конфигурации : Подмножество: unlabeled_final tokenized: True 
- Размер набора данных : - 177.89 MiB.
- Автоматическое кэширование ( документация ): Да (проверка), только когда - shuffle_files=False(поезд)
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 645 652 | 
| 'validation' | 10 000 | 
- Примеры ( tfds.as_dataframe ):