- Descriptif :
Ensemble de données de dialogue contradictoire avec les robots.
Ensembles de données de dialogue étiquetés comme offensants de la tâche Bot Adversarial Dialogue. Les dialogues ont été collectés en demandant aux humains de parler de manière contradictoire aux robots.
Plus de détails dans le journal .
Page d'accueil : https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Code source :
tfds.datasets.bot_adversarial_dialogue.BuilderVersions :
-
1.0.0(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ) : Oui
Clés supervisées (Voir doc
as_supervised) :NoneFigure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{xu2021recipes,
title={Recipes for Safety in Open-domain Chatbots},
author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
year={2021},
eprint={2010.07079},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
bot_adversarial_dialogue/dialogue_datasets (configuration par défaut)
Description de la configuration : Les ensembles de données de dialogue, divisés en fractionnements de train, de validation et de test.
Taille du téléchargement :
3.06 MiBTaille de l'ensemble de données :
23.38 MiBDivisions :
| Diviser | Exemples |
|---|---|
'test' | 2 598 |
'train' | 69 274 |
'valid' | 7 002 |
- Structure des fonctionnalités :
FeaturesDict({
'bot_persona': Sequence(Text(shape=(), dtype=string)),
'dialogue_id': float32,
'episode_done': bool,
'id': Text(shape=(), dtype=string),
'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
'round_id': float32,
'speaker_to_eval': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| bot_persona | Séquence (Texte) | (Aucun,) | chaîne | Le personnage emprunté par le bot. |
| dialogue_id | Tenseur | flotteur32 | ||
| épisode_done | Tenseur | bouffon | ||
| identifiant | Texte | chaîne | L’identifiant de l’échantillon. | |
| Étiquettes | Étiquette de classe | int64 | ||
| rond_id | Tenseur | flotteur32 | ||
| haut-parleur_to_eval | Texte | chaîne | Le locuteur des énoncés étiquetés. | |
| texte | Texte | chaîne | L'énoncé à classer. |
- Exemples ( tfds.as_dataframe ) :
bot_adversarial_dialogue/human_nonadv_safety_eval
Description de la configuration : Un ensemble d'évaluation de la sécurité humaine évalué par des travailleurs participatifs pour leur caractère offensant.
Taille du téléchargement :
10.57 KiBTaille du jeu de données :
34.55 KiBDivisions :
| Diviser | Exemples |
|---|---|
'test' | 180 |
- Structure des fonctionnalités :
FeaturesDict({
'episode_done': bool,
'id': Text(shape=(), dtype=string),
'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| épisode_done | Tenseur | bouffon | ||
| identifiant | Texte | chaîne | L’identifiant de l’échantillon. | |
| Étiquettes | Étiquette de classe | int64 | ||
| texte | Texte | chaîne | L'énoncé à classer. |
- Exemples ( tfds.as_dataframe ) :