- Descrizione :
databricks-dolly-15k è un set di dati open source di record che seguono le istruzioni utilizzato nell'addestramento di databricks/dolly-v2-12b generato da migliaia di dipendenti di Databricks in diverse categorie comportamentali delineate nel documento InstructGPT , tra cui brainstorming, classificazione, QA chiuso, generazione, estrazione di informazioni, QA aperto e riepilogo.
Questo set di dati può essere utilizzato per qualsiasi scopo, accademico o commerciale, secondo i termini della licenza Creative Commons Attribuzione - Condividi allo stesso modo 3.0 Unported .
Home page : https://github.com/databrickslabs/dolly
Codice sorgente :
tfds.datasets.databricks_dolly.BuilderVersioni :
-
1.0.0(impostazione predefinita): versione iniziale.
-
Dimensione download :
12.60 MiBDimensione del set di dati :
12.69 MiBMemorizzazione nella cache automatica ( documentazione ): sì
Divide :
| Diviso | Esempi |
|---|---|
'train' | 15.014 |
- Struttura delle caratteristiche :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| categoria | Testo | corda | ||
| contesto | Testo | corda | ||
| istruzioni | Testo | corda | ||
| risposta | Testo | corda |
Chiavi supervisionate (vedi il documento
as_supervised):NoneFigura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :