- 説明:
比較可能なコーパス内の対訳文の識別。 2 つの文に分割された単一言語コーパスが与えられた場合、参加者システムは、互いの翻訳である文のペアを識別することが期待されます。
BUCC マイニング タスクは、2 つの単一言語コーパスから、それらのサブセットが並列であると想定された並列文抽出に関する共有タスクであり、2016 年から利用可能になっています。共有タスクは、言語ペアごとに、各言語の単一言語コーパスを提供し、真の翻訳ペアを含むゴールド マッピング リスト。これらのペアはグラウンド トゥルースです。タスクは、単一言語コーパスから翻訳ペアのリストを作成することです。構築されたリストはグラウンド トゥルースと比較され、F1 尺度で評価されます。
ソース コード:
tfds.datasets.bucc.Builderバージョン:
-
1.0.0(デフォルト): 初期リリース。
-
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| source_id | 文章 | ストリング | ||
| source_sentence | 文章 | ストリング | ||
| target_id | 文章 | ストリング | ||
| target_sentence | 文章 | ストリング |
監視されたキー(
as_superviseddocを参照):None図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (デフォルト設定)
ダウンロード サイズ:
29.30 MiBデータセットサイズ:
3.21 MiBスプリット:
| スプリット | 例 |
|---|---|
'test' | 9,580 |
'validation' | 1,038人 |
- 例( tfds.as_dataframe ):
bucc/bucc_fr
ダウンロードサイズ:
21.65 MiBデータセットのサイズ:
2.90 MiBスプリット:
| スプリット | 例 |
|---|---|
'test' | 9,086 |
'validation' | 929 |
- 例( tfds.as_dataframe ):
bucc/bucc_zh
ダウンロードサイズ:
6.79 MiBデータセットサイズ:
615.20 KiBスプリット:
| スプリット | 例 |
|---|---|
'test' | 1,899 |
'validation' | 257 |
- 例( tfds.as_dataframe ):
bucc/bucc_ru
ダウンロードサイズ:
39.44 MiBデータセットサイズ:
6.36 MiBスプリット:
| スプリット | 例 |
|---|---|
'test' | 14,435 |
'validation' | 2,374 |
- 例( tfds.as_dataframe ):