- Descrição :
databricks-dolly-15k é um conjunto de dados de código aberto de registros de seguimento de instruções usado no treinamento databricks/dolly-v2-12b que foi gerado por milhares de funcionários da Databricks em várias das categorias comportamentais descritas no artigo InstructGPT , incluindo brainstorming, classificação, controle de qualidade fechado, geração, extração de informações, controle de qualidade aberto e resumo.
Este conjunto de dados pode ser utilizado para qualquer finalidade, seja acadêmica ou comercial, nos termos da Licença Creative Commons Attribution-ShareAlike 3.0 Unported .
Página inicial : https://github.com/databrickslabs/dolly
Código fonte :
tfds.datasets.databricks_dolly.BuilderVersões :
-
1.0.0(padrão): versão inicial.
-
Tamanho do download :
12.60 MiBTamanho do conjunto de dados :
12.69 MiBArmazenado em cache automaticamente ( documentação ): Sim
Divisões :
| Dividir | Exemplos |
|---|---|
'train' | 15.014 |
- Estrutura de recursos :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentação de recursos :
| Recurso | Aula | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| categoria | Texto | corda | ||
| contexto | Texto | corda | ||
| instrução | Texto | corda | ||
| resposta | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised):NoneFigura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :