- Описание :
Corr2причина
Причинно-следственные выводы — одна из отличительных черт человеческого интеллекта.
Corr2cause — это крупномасштабный набор данных, содержащий более 400 тысяч образцов, на котором в соответствующей статье оцениваются семнадцать существующих LLM.
Всего Corr2cause содержит 415 944 образца, из которых 18,57% являются действительными. Средняя длина посылки составляет 424,11 токена, а гипотезы — 10,83 токена. Данные разделены на 411 452 обучающих выборки, 2246 разработок и тестовых выборок соответственно. Поскольку основной целью набора данных является оценка производительности LLM, приоритет отдается наборам для тестирования и разработки, чтобы они охватывали все размеры графиков.
- Домашняя страница : https://github.com/causalNLP/corr2cause/tree/main . 
- Исходный код : - tfds.datasets.corr2cause.Builder.
- Версии : -  1.0.0(по умолчанию): первоначальный выпуск.
 
-  
- Размер загрузки : - 727.22 MiB
- Размер набора данных : - 739.91 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'dev' | 2246 | 
| 'test' | 2246 | 
| 'train' | 411 452 | 
- Структура функции :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| вход | Текст | нить | ||
| этикетка | Тензор | int64 | 
- Контролируемые ключи (см. документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Примеры ( tfds.as_dataframe ): 
- Цитата :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}