- Descripción :
Este conjunto de datos contiene 23 659 pares de evaluación PAWS traducidos por humanos y 296 406 pares de entrenamiento traducidos automáticamente en seis idiomas tipológicamente distintos:
- Francés
- español
- Alemán
- Chino
- japonés
- coreano
Para obtener más detalles, consulte el documento adjunto: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification en https://arxiv.org/abs/1908.11828
De manera similar al conjunto de datos de PAWS, los ejemplos se dividen en secciones de Entrenamiento/Desarrollo/Prueba. Todos los archivos están en formato tsv con cuatro columnas:
-
id: una identificación única para cada par. -
sentence1: La primera oración. -
sentence2: La segunda oración. -
(noisy_)label: Etiqueta (ruidosa) para cada par.
Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/paws/tree/master/pawsx
Código fuente :
tfds.datasets.paws_x_wiki.BuilderVersiones :
-
1.0.0(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
28.88 MiBAlmacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| etiqueta | Etiqueta de clase | int64 | ||
| oracion1 | Texto | cuerda | ||
| oracion2 | Texto | cuerda |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Cita :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configuración predeterminada)
Descripción de la configuración : Traducido a de
Tamaño del conjunto de datos :
15.27 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descripción de la configuración : Traducido a en
Tamaño del conjunto de datos :
14.59 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descripción de la configuración : Traducido a es
Tamaño del conjunto de datos :
15.27 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/fr
Descripción de la configuración : Traducido a fr
Tamaño del conjunto de datos :
15.79 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/ja
Descripción de la configuración : Traducido a ja
Tamaño del conjunto de datos :
17.77 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/ko
Descripción de la configuración : Traducido a ko
Tamaño del conjunto de datos :
16.42 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
patas_x_wiki/zh
Descripción de la configuración : Traducido a zh
Tamaño del conjunto de datos :
13.20 MiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):