- Descriptif :
databricks-dolly-15k est un ensemble de données open source d'enregistrements de suivi des instructions utilisés dans la formation databricks/dolly-v2-12b qui a été généré par des milliers d'employés de Databricks dans plusieurs des catégories comportementales décrites dans le document InstructGPT , notamment le brainstorming, la classification, Assurance qualité fermée, génération, extraction d'informations, assurance qualité ouverte et synthèse.
Cet ensemble de données peut être utilisé à toutes fins, qu'elles soient académiques ou commerciales, selon les termes de la licence Creative Commons Attribution-ShareAlike 3.0 Unported .
Page d'accueil : https://github.com/databrickslabs/dolly
Code source :
tfds.datasets.databricks_dolly.BuilderVersions :
-
1.0.0(par défaut) : version initiale.
-
Taille du téléchargement :
12.60 MiBTaille de l'ensemble de données :
12.69 MiBMise en cache automatique ( documentation ) : Oui
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 15 014 |
- Structure des fonctionnalités :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| catégorie | Texte | chaîne | ||
| contexte | Texte | chaîne | ||
| instruction | Texte | chaîne | ||
| réponse | Texte | chaîne |
Clés supervisées (Voir doc
as_supervised) :NoneFigure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :