- Description :
D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.
Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.
Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source :
tfds.d4rl.d4rl_mujoco_ant.D4rlMujocoAntVersions :
-
1.0.0: Version initiale. -
1.1.0: Ajout de is_last. -
1.2.0(par défaut) : Mis à jour pour prendre en compte l'observation suivante.
-
Clés supervisées (Voir doc
as_supervised) :NoneFigure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_ant/v0-expert (configuration par défaut)
Taille du téléchargement :
131.34 MiBTaille de l'ensemble de données :
464.94 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 288 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v0-medium
Taille du téléchargement :
131.39 MiBTaille de l'ensemble de données :
464.78 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 122 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v0-medium-expert
Taille du téléchargement :
262.73 MiBTaille de l'ensemble de données :
929.71 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 2 410 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v0-mixed
Taille du téléchargement :
104.63 MiBTaille de l'ensemble de données :
464.93 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 320 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v0-random
Taille du téléchargement :
139.50 MiBTaille de l'ensemble de données :
464.97 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 377 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-expert
Taille du téléchargement :
220.72 MiBTaille de l'ensemble de données :
968.63 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 033 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| politique | FonctionnalitésDict | |||
| politique/fc0 | FonctionnalitésDict | |||
| politique/fc0/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc0/poids | Tenseur | (256, 111) | flotteur32 | |
| politique/fc1 | FonctionnalitésDict | |||
| politique/fc1/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc1/poids | Tenseur | (256, 256) | flotteur32 | |
| politique/last_fc | FonctionnalitésDict | |||
| politique/last_fc/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/last_fc_log_std | FonctionnalitésDict | |||
| politique/last_fc_log_std/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc_log_std/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/non-linéarité | Tenseur | chaîne | ||
| politique/distribution_de sortie | Tenseur | chaîne | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur32 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur32 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur32 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-medium
Taille du téléchargement :
222.39 MiBTaille de l'ensemble de données :
1023.71 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 179 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| politique | FonctionnalitésDict | |||
| politique/fc0 | FonctionnalitésDict | |||
| politique/fc0/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc0/poids | Tenseur | (256, 111) | flotteur32 | |
| politique/fc1 | FonctionnalitésDict | |||
| politique/fc1/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc1/poids | Tenseur | (256, 256) | flotteur32 | |
| politique/last_fc | FonctionnalitésDict | |||
| politique/last_fc/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/last_fc_log_std | FonctionnalitésDict | |||
| politique/last_fc_log_std/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc_log_std/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/non-linéarité | Tenseur | chaîne | ||
| politique/distribution_de sortie | Tenseur | chaîne | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur32 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur32 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur32 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-medium-expert
Taille du téléchargement :
442.25 MiBTaille du jeu de données :
1.13 GiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 2 211 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur32 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur32 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur32 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-medium-replay
Taille du téléchargement :
132.05 MiBTaille de l'ensemble de données :
175.27 MiBMise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False(train)Divisions :
| Diviser | Exemples |
|---|---|
'train' | 485 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float64),
'reward': float64,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur64 | |
| étapes/remise | Tenseur | flotteur64 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur64 | |
| étapes/récompense | Tenseur | flotteur64 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-full-replay
Taille du téléchargement :
437.57 MiBTaille de l'ensemble de données :
580.09 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 319 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float64),
'reward': float64,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur64 | |
| étapes/remise | Tenseur | flotteur64 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur64 | |
| étapes/récompense | Tenseur | flotteur64 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v1-random
Taille du téléchargement :
225.18 MiBTaille de l'ensemble de données :
583.83 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 5 741 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur32 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur32 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur32 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-expert
Taille du téléchargement :
355.94 MiBTaille de l'ensemble de données :
969.38 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 035 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| politique | FonctionnalitésDict | |||
| politique/fc0 | FonctionnalitésDict | |||
| politique/fc0/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc0/poids | Tenseur | (256, 111) | flotteur32 | |
| politique/fc1 | FonctionnalitésDict | |||
| politique/fc1/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc1/poids | Tenseur | (256, 256) | flotteur32 | |
| politique/last_fc | FonctionnalitésDict | |||
| politique/last_fc/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/last_fc_log_std | FonctionnalitésDict | |||
| politique/last_fc_log_std/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc_log_std/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/non-linéarité | Tenseur | chaîne | ||
| politique/distribution_de sortie | Tenseur | chaîne | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-full-replay
Taille du téléchargement :
428.57 MiBTaille de l'ensemble de données :
580.09 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 319 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-medium
Taille du téléchargement :
358.81 MiBTaille du jeu de données :
1.01 GiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 1 203 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| politique | FonctionnalitésDict | |||
| politique/fc0 | FonctionnalitésDict | |||
| politique/fc0/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc0/poids | Tenseur | (256, 111) | flotteur32 | |
| politique/fc1 | FonctionnalitésDict | |||
| politique/fc1/biais | Tenseur | (256,) | flotteur32 | |
| politique/fc1/poids | Tenseur | (256, 256) | flotteur32 | |
| politique/last_fc | FonctionnalitésDict | |||
| politique/last_fc/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/last_fc_log_std | FonctionnalitésDict | |||
| politique/last_fc_log_std/bias | Tenseur | (8,) | flotteur32 | |
| politique/last_fc_log_std/poids | Tenseur | (8, 256) | flotteur32 | |
| politique/non-linéarité | Tenseur | chaîne | ||
| politique/distribution_de sortie | Tenseur | chaîne | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-medium-expert
Taille du téléchargement :
713.67 MiBTaille du jeu de données :
1.13 GiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 2 237 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-medium-replay
Taille du téléchargement :
130.16 MiBTaille de l'ensemble de données :
175.27 MiBMise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False(train)Divisions :
| Diviser | Exemples |
|---|---|
'train' | 485 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| algorithme | Tenseur | chaîne | ||
| itération | Tenseur | int32 | ||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
d4rl_mujoco_ant/v2-random
Taille du téléchargement :
366.66 MiBTaille de l'ensemble de données :
583.90 MiBMise en cache automatique ( documentation ) : Non
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 5 822 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| pas | Base de données | |||
| étapes/actions | Tenseur | (8,) | flotteur32 | |
| étapes/remise | Tenseur | flotteur32 | ||
| étapes/infos | FonctionnalitésDict | |||
| étapes/infos/action_log_probs | Tenseur | flotteur64 | ||
| étapes/infos/qpos | Tenseur | (15,) | flotteur64 | |
| étapes/infos/qvel | Tenseur | (14,) | flotteur64 | |
| étapes/is_first | Tenseur | bouffon | ||
| étapes/est_dernier | Tenseur | bouffon | ||
| étapes/is_terminal | Tenseur | bouffon | ||
| étapes/observation | Tenseur | (111,) | flotteur32 | |
| étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :