- 説明:
BEIR は、さまざまな IR タスクを含む異種ベンチマークです。また、ベンチマーク内で NLP ベースの検索モデルを評価するための共通の簡単なフレームワークも提供します。
追加のドキュメント:コードを使用したペーパーの探索
ソースコード:
tfds.datasets.beir.Builderバージョン:
-
1.0.0(デフォルト): 初期リリース。
-
機能構造:
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| 通路 | 文章 | ストリング | ||
| パッセージ_id | 文章 | ストリング | ||
| パッセージ_メタデータ | 文章 | ストリング | ||
| クエリ | 文章 | ストリング | ||
| query_id | 文章 | ストリング | ||
| クエリ_メタデータ | 文章 | ストリング | ||
| スコア | テンソル | float32 |
監視されたキー(
as_superviseddocを参照):None図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (デフォルト設定)
ダウンロードサイズ:
1.01 GiBデータセットサイズ:
4.53 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 8,841,823 |
'query' | 509,962 |
'test' | 9,139 |
'train' | 516,472 |
'validation' | 7,433 |
- 例( tfds.as_dataframe ):
beir/trec_covid
ダウンロードサイズ:
70.45 MiBデータセットサイズ:
292.04 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 171,332 |
'query' | 50 |
'test' | 35,480 |
- 例( tfds.as_dataframe ):
ビール/nfcorpus
ダウンロードサイズ:
2.34 MiBデータセットサイズ:
24.94 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 3,633 |
'query' | 3,237 |
'test' | 3,128 |
'train' | 3,588 |
'validation' | 3,119 |
- 例( tfds.as_dataframe ):
ビール/nq
ダウンロードサイズ:
475.22 MiBデータセットサイズ:
1.66 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 2,681,468 |
'query' | 3,452 |
'test' | 4,201 |
- 例( tfds.as_dataframe ):
ビール/ホットポットカ
ダウンロードサイズ:
623.73 MiBデータセットサイズ:
2.64 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 5,233,329 |
'query' | 97,852 |
'test' | 13,783 |
'train' | 101,307 |
'validation' | 10,335 |
- 例( tfds.as_dataframe ):
ビール/フィーカ
ダウンロードサイズ:
17.12 MiBデータセットのサイズ:
73.39 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 57,638 |
'query' | 6,648 |
'test' | 1,706 |
'train' | 14,166 |
'validation' | 1,238 |
- 例( tfds.as_dataframe ):
ビール/アルグアナ
ダウンロードサイズ:
3.60 MiBデータセットのサイズ:
15.08 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 8,674 |
'query' | 1,406 |
'test' | 1,401 |
- 例( tfds.as_dataframe ):
beir/webis_touche2020
ダウンロードサイズ:
216.61 MiBデータセットのサイズ:
747.57 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 382,545 |
'query' | 49 |
'test' | 2,099 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.android
ダウンロードサイズ:
4.98 GiBデータセットのサイズ:
883.49 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 22,998 |
'query' | 699 |
'test' | 1,696 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.english
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
3.78 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 40,221 |
'query' | 1,570 |
'test' | 3,765 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.gaming
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
2.64 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 45,301 |
'query' | 1,595 |
'test' | 2,263 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.gis
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
1.47 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 37,637 |
'query' | 885 |
'test' | 1,114 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.mathematica
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
1.58 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 16,705 |
'query' | 804 |
'test' | 1,358 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.physics
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
2.02 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 38,316 |
'query' | 1,039 |
'test' | 1,933 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.programmers
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
2.14 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 32,176 |
'query' | 876 |
'test' | 1,675 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.stats
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
941.07 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 42,269 |
'query' | 652 |
'test' | 913 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.tex
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
21.75 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 68,184 |
'query' | 2,906 |
'test' | 5,154 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.unix
ダウンロードサイズ:
4.98 GiBデータセットサイズ:
2.04 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 47,382 |
'query' | 1,072 |
'test' | 1,693 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.webmasters
ダウンロードサイズ:
4.98 GiBデータセットのサイズ:
650.08 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 17,405 |
'query' | 506 |
'test' | 1,395 |
- 例( tfds.as_dataframe ):
beir/cqadupstack.wordpress
ダウンロードサイズ:
4.98 GiBデータセットのサイズ:
726.15 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 48,605 |
'query' | 541 |
'test' | 744 |
- 例( tfds.as_dataframe ):
ビール/クオラ
ダウンロードサイズ:
15.12 MiBデータセットサイズ:
121.33 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 522,931 |
'query' | 15,000 |
'test' | 15,675 |
'validation' | 7,626 |
- 例( tfds.as_dataframe ):
beir/dbpedia_entity
ダウンロードサイズ:
609.67 MiBデータセットサイズ:
2.47 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 4,635,922 |
'query' | 467 |
'test' | 40,724 |
'validation' | 5,658 |
- 例( tfds.as_dataframe ):
ベア/サイドックス
ダウンロードサイズ:
135.87 MiBデータセットのサイズ:
573.04 MiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 25,657 |
'query' | 1,000 |
'test' | 25,657 |
- 例( tfds.as_dataframe ):
ビール/発熱
ダウンロードサイズ:
1.15 GiBデータセットサイズ:
3.70 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 5,416,568 |
'query' | 123,142 |
'test' | 1,499 |
'train' | 12,547 |
'validation' | 1,460 |
- 例( tfds.as_dataframe ):
ビール/climate_fever
ダウンロードサイズ:
1.14 GiBデータセットサイズ:
3.64 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 5,416,593 |
'query' | 1,535 |
'test' | 1,344 |
- 例( tfds.as_dataframe ):
ビール/サイファクト
ダウンロードサイズ:
2.69 MiBデータセットサイズ:
10.16 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'passage' | 5,183 |
'query' | 1,109 |
'test' | 283 |
'train' | 565 |
- 例( tfds.as_dataframe ):