- Описание :
XQuAD (набор данных для ответов на вопросы на разных языках) — это эталонный набор данных для оценки эффективности ответов на вопросы на разных языках. Набор данных состоит из подмножества из 240 абзацев и 1190 пар вопросов-ответов из набора для разработки SQuAD v1.1 (Rajpurkar et al., 2016) вместе с их профессиональными переводами на десять языков: испанский, немецкий, греческий, русский, турецкий. , арабский, вьетнамский, тайский, китайский и хинди. Следовательно, набор данных полностью параллелен для 11 языков. Чтобы запустить XQuAD с настройками нулевого выстрела по умолчанию, используйте данные обучения и проверки SQuAD v1.1 здесь: https://www.tensorflow.org/datasets/catalog/squad .
Мы также включили разделы «перевод-обучение», «перевод-разработка» и «перевод-тест» для каждого языка, отличного от английского, из XTREME (Hu et al., 2020). Их можно использовать для запуска XQuAD в настройках «translate-train» или «translate-test».
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/deepmind/xquad 
- Исходный код : - tfds.question_answering.Xquad
- Версии : -  3.0.0(по умолчанию): исправлена проблема с рядом примеров, когда интервалы ответов смещены из-за удаления контекстного пробела. Это изменение затрагивает примерно 14% тестовых примеров.
 
-  
- Структура функции : 
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| ответы | Последовательность | |||
| ответы/answer_start | Тензор | int32 | ||
| ответы/текст | Текст | нить | ||
| контекст | Текст | нить | ||
| я бы | Тензор | нить | ||
| вопрос | Текст | нить | ||
| заглавие | Текст | нить | 
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}
xquad/ar (конфигурация по умолчанию)
- Описание конфигурации : XQuAD 'ar' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 420.97 MiB
- Размер набора данных : - 134.83 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 541 | 
| 'translate-test' | 1151 | 
| 'translate-train' | 86 787 | 
- Примеры ( tfds.as_dataframe ):
xquad/de
- Описание конфигурации : тестовое разделение XQuAD 'de' с машинно-переведенными разделениями translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 127.04 MiB
- Размер набора данных : - 98.80 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 371 | 
| 'translate-test' | 1168 | 
| 'translate-train' | 82 603 | 
- Примеры ( tfds.as_dataframe ):
xquad/эл
- Описание конфигурации : тестовый раздел XQuAD 'el' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 499.40 MiB
- Размер набора данных : - 157.90 MiB.
- Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если - shuffle_files=False(перевод-поезд)
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 100 | 
| 'translate-test' | 1182 | 
| 'translate-train' | 79 946 | 
- Примеры ( tfds.as_dataframe ):
xquad/es
- Описание конфигурации : тестовый раздел XQuAD 'es' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 138.41 MiB
- Размер набора данных : - 104.96 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 566 | 
| 'translate-test' | 1188 | 
| 'translate-train' | 87 488 | 
- Примеры ( tfds.as_dataframe ):
xquad/привет
- Описание конфигурации : тест XQuAD «привет» с разделами «перевод-поезд»/перевод-разработчик/перевод-тест из XTREME (Hu et al., 2020). 
- Размер загрузки : - 472.23 MiB
- Размер набора данных : - 207.85 MiB.
- Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если - shuffle_files=False(перевод-поезд)
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 536 | 
| 'translate-test' | 1184 | 
| 'translate-train' | 85 804 | 
- Примеры ( tfds.as_dataframe ):
xquad/ru
- Описание конфигурации : XQuAD 'ru' тестовое разделение с машинным переводом translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 513.80 MiB
- Размер набора данных : - 159.38 MiB.
- Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если - shuffle_files=False(перевод-поезд)
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 469 | 
| 'translate-test' | 1190 | 
| 'translate-train' | 84 869 | 
- Примеры ( tfds.as_dataframe ):
xquad/th
- Описание конфигурации : XQuAD 'th' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 461.54 MiB
- Размер набора данных : - 199.57 MiB.
- Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если - shuffle_files=False(перевод-поезд)
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 516 | 
| 'translate-test' | 1157 | 
| 'translate-train' | 85 846 | 
- Примеры ( tfds.as_dataframe ):
xquad/tr
- Описание конфигурации : XQuAD 'tr' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 151.08 MiB
- Размер набора данных : - 97.56 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 535 | 
| 'translate-test' | 1112 | 
| 'translate-train' | 86 511 | 
- Примеры ( tfds.as_dataframe ):
xquad/ви
- Описание конфигурации : XQuAD 'vi' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 218.09 MiB
- Размер набора данных : - 120.03 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 555 | 
| 'translate-test' | 1178 | 
| 'translate-train' | 87 187 | 
- Примеры ( tfds.as_dataframe ):
xquad/ж
- Описание конфигурации : XQuAD 'zh' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020). 
- Размер загрузки : - 174.57 MiB
- Размер набора данных : - 80.79 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
| 'translate-dev' | 10 475 | 
| 'translate-test' | 1186 | 
| 'translate-train' | 85 700 | 
- Примеры ( tfds.as_dataframe ):
xquad/en
- Описание конфигурации : тестовый сплит XQuAD 'en'. 
- Размер загрузки : - 595.10 KiB
- Размер набора данных : - 1.19 MiB
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 1190 | 
- Примеры ( tfds.as_dataframe ):