- Descrição :
Este conjunto de dados contém 23.659 pares de avaliação PAWS traduzidos por humanos e 296.406 pares de treinamento traduzidos por máquina em seis idiomas tipologicamente distintos:
- Francês
- Espanhol
- Alemão
- chinês
- japonês
- coreano
Para mais detalhes, consulte o documento anexo: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification em https://arxiv.org/abs/1908.11828
Semelhante ao PAWS Dataset, os exemplos são divididos em seções Train/Dev/Test. Todos os arquivos estão no formato tsv com quatro colunas:
-
id: Um id exclusivo para cada par. -
sentence1: A primeira frase. -
sentence2: A segunda frase. -
(noisy_)label: rótulo (ruidoso) para cada par.
Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/paws/tree/master/pawsx
Código -fonte:
tfds.datasets.paws_x_wiki.BuilderVersões :
-
1.0.0(padrão): sem notas de versão.
-
Tamanho do download :
28.88 MiBCache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentação do recurso:
| Característica | Classe | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| etiqueta | ClassLabel | int64 | ||
| frase1 | Texto | corda | ||
| frase2 | Texto | corda |
Chaves supervisionadas (Consulte
as_superviseddoc ):NoneFigura ( tfds.show_examples ): Não compatível.
Citação :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configuração padrão)
Descrição da configuração : Traduzido para de
Tamanho do conjunto de dados :
15.27 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/en
Descrição da configuração : Traduzido para en
Tamanho do conjunto de dados :
14.59 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descrição da configuração : Traduzido para es
Tamanho do conjunto de dados :
15.27 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/fr
Descrição da configuração : Traduzido para fr
Tamanho do conjunto de dados :
15.79 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/ja
Descrição da configuração : Traduzido para ja
Tamanho do conjunto de dados :
17.77 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/ko
Descrição da configuração : Traduzido para ko
Tamanho do conjunto de dados :
16.42 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/zh
Descrição da configuração : Traduzido para zh
Tamanho do conjunto de dados :
13.20 MiBDivisões :
| Dividir | Exemplos |
|---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):