- 説明:
既存の言い換え識別データセットには、言い換えでなく語彙の重複が多い文のペアがありません。このようなデータでトレーニングされたモデルは、ニューヨークからフロリダへのフライトとフロリダからニューヨークへのフライトのペアを区別できません。このデータセットには、108,463 の人間がラベル付けしたペアと 656,000 の騒々しくラベル付けされたペアが含まれており、言い換え識別の問題のための構造、文脈、および語順情報のモデリングの重要性を特徴としています。
詳細については、付属の論文を参照してください: PAWS: Paraphrase Adversaries from Word Scrambling ( https://arxiv.org/abs/1904.01130)
このコーパスには、ウィキペディアのページから生成されたペアが含まれており、単語の交換と逆翻訳の両方の方法で生成されたペアが含まれています。すべてのペアは、言い換えと流暢さの両方について人間の判断を下しており、トレーニング/開発/テストのセクションに分かれています。
すべてのファイルは、次の 4 つの列を持つ tsv 形式です。
-
id: 各ペアの一意の ID。 -
sentence11 : 最初の文。 -
sentence22 : 2番目の文。 -
(noisy_)label: 各ペアの (Noisy) ラベル。
各ラベルには 2 つの可能な値があります。0 はペアが異なる意味を持つことを示し、1 はペアが言い換えであることを示します。
追加のドキュメント:コードを使用したペーパーの探索
ソース コード:
tfds.datasets.paws_wiki.Builderバージョン:
-
1.0.0: 初期バージョン。 -
1.1.0(デフォルト): 構成を別のサブセットに追加し、未加工のテキストをサポートします。
-
ダウンロードサイズ:
57.47 MiB機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| ラベル | クラスラベル | int64 | ||
| センテンス1 | 文章 | ストリング | ||
| センテンス2 | 文章 | ストリング |
監視されたキー(
as_superviseddocを参照):None図( tfds.show_examples ): サポートされていません。
引用:
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (デフォルト設定)
構成の説明: サブセット: ラベル付き_最終トークン化: True
データセットのサイズ:
17.96 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- 例( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
構成の説明: サブセット: ラベル付き_最終トークン化: False
データセットのサイズ:
17.57 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- 例( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
構成の説明: サブセット: ラベル付き_スワップ トークン化: True
データセットのサイズ:
8.79 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'train' | 30,397 |
- 例( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
構成の説明: サブセット: ラベル付き_スワップ トークン化: False
データセットサイズ:
8.60 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'train' | 30,397 |
- 例( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
構成の説明: サブセット: unlabeled_final トークン化: True
データセットのサイズ:
177.89 MiB自動キャッシュ(ドキュメント): はい (検証)、
shuffle_files=Falseの場合のみ (トレーニング)スプリット:
| スプリット | 例 |
|---|---|
'train' | 645,652 |
'validation' | 10,000 |
- 例( tfds.as_dataframe ):