- Deskripsi :
BEIR adalah tolok ukur heterogen yang berisi beragam tugas IR. Ini juga menyediakan kerangka umum dan mudah untuk evaluasi model pengambilan berbasis NLP Anda dalam tolok ukur.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/beir-cellar/beir
Kode sumber :
tfds.datasets.beir.BuilderVersi :
-
1.0.0(default): Rilis awal.
-
Struktur fitur :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| jalan | Teks | rangkaian | ||
| pass_id | Teks | rangkaian | ||
| bagian_metadata | Teks | rangkaian | ||
| pertanyaan | Teks | rangkaian | ||
| query_id | Teks | rangkaian | ||
| kueri_metadata | Teks | rangkaian | ||
| skor | Tensor | float32 |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (konfigurasi default)
Ukuran unduhan :
1.01 GiBUkuran dataset :
4.53 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 8.841.823 |
'query' | 509.962 |
'test' | 9.139 |
'train' | 516.472 |
'validation' | 7.433 |
- Contoh ( tfds.as_dataframe ):
beir/trec_covid
Ukuran unduhan :
70.45 MiBUkuran dataset :
292.04 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 171.332 |
'query' | 50 |
'test' | 35.480 |
- Contoh ( tfds.as_dataframe ):
beir/nfcorpus
Ukuran unduhan :
2.34 MiBUkuran dataset :
24.94 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 3.633 |
'query' | 3.237 |
'test' | 3.128 |
'train' | 3.588 |
'validation' | 3.119 |
- Contoh ( tfds.as_dataframe ):
beir/nq
Ukuran unduhan :
475.22 MiBUkuran dataset :
1.66 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 2.681.468 |
'query' | 3.452 |
'test' | 4.201 |
- Contoh ( tfds.as_dataframe ):
beir/hotpotqa
Ukuran unduhan :
623.73 MiBUkuran dataset :
2.64 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 5.233.329 |
'query' | 97.852 |
'test' | 13.783 |
'train' | 101.307 |
'validation' | 10.335 |
- Contoh ( tfds.as_dataframe ):
beir/fiqa
Ukuran unduhan :
17.12 MiBUkuran dataset :
73.39 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 57.638 |
'query' | 6.648 |
'test' | 1.706 |
'train' | 14.166 |
'validation' | 1.238 |
- Contoh ( tfds.as_dataframe ):
beir/arguana
Ukuran unduhan :
3.60 MiBUkuran dataset :
15.08 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 8.674 |
'query' | 1.406 |
'test' | 1.401 |
- Contoh ( tfds.as_dataframe ):
beir/webis_touche2020
Ukuran unduhan :
216.61 MiBUkuran dataset :
747.57 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 382.545 |
'query' | 49 |
'test' | 2.099 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.android
Ukuran unduhan :
4.98 GiBUkuran dataset :
883.49 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 22.998 |
'query' | 699 |
'test' | 1.696 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.english
Ukuran unduhan :
4.98 GiBUkuran dataset :
3.78 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 40.221 |
'query' | 1.570 |
'test' | 3.765 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.gaming
Ukuran unduhan :
4.98 GiBUkuran dataset :
2.64 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 45.301 |
'query' | 1.595 |
'test' | 2.263 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.gis
Ukuran unduhan :
4.98 GiBUkuran dataset :
1.47 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 37.637 |
'query' | 885 |
'test' | 1.114 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.mathematica
Ukuran unduhan :
4.98 GiBUkuran dataset :
1.58 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 16.705 |
'query' | 804 |
'test' | 1.358 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.physics
Ukuran unduhan :
4.98 GiBUkuran dataset :
2.02 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 38.316 |
'query' | 1.039 |
'test' | 1.933 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.programmers
Ukuran unduhan :
4.98 GiBUkuran dataset :
2.14 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 32.176 |
'query' | 876 |
'test' | 1.675 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.stats
Ukuran unduhan :
4.98 GiBUkuran dataset :
941.07 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 42.269 |
'query' | 652 |
'test' | 913 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.tex
Ukuran unduhan :
4.98 GiBUkuran dataset :
21.75 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 68.184 |
'query' | 2.906 |
'test' | 5.154 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.unix
Ukuran unduhan :
4.98 GiBUkuran dataset :
2.04 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 47.382 |
'query' | 1.072 |
'test' | 1.693 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.webmasters
Ukuran unduhan :
4.98 GiBUkuran dataset :
650.08 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 17.405 |
'query' | 506 |
'test' | 1.395 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.wordpress
Ukuran unduhan :
4.98 GiBUkuran dataset :
726.15 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 48.605 |
'query' | 541 |
'test' | 744 |
- Contoh ( tfds.as_dataframe ):
beir/quora
Ukuran unduhan :
15.12 MiBUkuran dataset :
121.33 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 522.931 |
'query' | 15.000 |
'test' | 15.675 |
'validation' | 7.626 |
- Contoh ( tfds.as_dataframe ):
beir/dbpedia_entity
Ukuran unduhan :
609.67 MiBUkuran dataset :
2.47 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 4.635.922 |
'query' | 467 |
'test' | 40.724 |
'validation' | 5.658 |
- Contoh ( tfds.as_dataframe ):
beir/scidocs
Ukuran unduhan :
135.87 MiBUkuran dataset :
573.04 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 25.657 |
'query' | 1.000 |
'test' | 25.657 |
- Contoh ( tfds.as_dataframe ):
bir/demam
Ukuran unduhan :
1.15 GiBUkuran dataset :
3.70 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 5.416.568 |
'query' | 123.142 |
'test' | 1.499 |
'train' | 12.547 |
'validation' | 1.460 |
- Contoh ( tfds.as_dataframe ):
beir/climate_fever
Ukuran unduhan :
1.14 GiBUkuran dataset :
3.64 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 5.416.593 |
'query' | 1.535 |
'test' | 1.344 |
- Contoh ( tfds.as_dataframe ):
bir / scifact
Ukuran unduhan :
2.69 MiBUkuran dataset :
10.16 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'passage' | 5.183 |
'query' | 1.109 |
'test' | 283 |
'train' | 565 |
- Contoh ( tfds.as_dataframe ):