- Descripción :
databricks-dolly-15k es un conjunto de datos de código abierto de registros de seguimiento de instrucciones utilizados en el entrenamiento de databricks/dolly-v2-12b que fue generado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento de InstructGPT , incluida la lluvia de ideas, la clasificación, Control de calidad cerrado, generación, extracción de información, control de calidad abierto y resumen.
Este conjunto de datos se puede utilizar para cualquier fin, ya sea académico o comercial, según los términos de la licencia Creative Commons Attribution-ShareAlike 3.0 Unported .
Página de inicio : https://github.com/databrickslabs/dolly
Código fuente :
tfds.datasets.databricks_dolly.BuilderVersiones :
-
1.0.0(predeterminado): versión inicial.
-
Tamaño de descarga :
12.60 MiBTamaño del conjunto de datos :
12.69 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 15.014 |
- Estructura de características :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| categoría | Texto | cadena | ||
| contexto | Texto | cadena | ||
| instrucción | Texto | cadena | ||
| respuesta | Texto | cadena |
Claves supervisadas (ver documento
as_supervised):NoneFigura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :