- Описание :
D4RL — это тест с открытым исходным кодом для автономного обучения с подкреплением. Он предоставляет стандартизированные среды и наборы данных для алгоритмов обучения и сравнительного анализа.
Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.
- Описание конфигурации : более подробную информацию о задаче и ее версиях см. на странице https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym. 
- Домашняя страница : https://sites.google.com/view/d4rl-anonymous 
- Исходный код : - tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
- Версии : -  1.0.0: Начальная версия.
-  1.0.1: Поддержка метаданных эпизодов и этапов, а также унификация формы вознаграждения во всех конфигурациях.
-  1.1.0: Добавлен is_last.
-  1.2.0(по умолчанию): обновлено с учетом следующего наблюдения.
 
-  
- Контролируемые ключи (см. документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
d4rl_mujoco_halfcheetah/v0-expert (конфигурация по умолчанию)
- Размер загрузки : - 83.44 MiB
- Размер набора данных : - 98.43 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1002 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-medium
- Размер загрузки : - 82.92 MiB
- Размер набора данных : - 98.43 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1002 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-medium-expert
- Размер загрузки : - 166.36 MiB
- Размер набора данных : - 196.86 MiB
- Автоматическое кэширование ( документация ): только если - shuffle_files=False(поезд)
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 2004 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-смешанный
- Размер загрузки : - 8.60 MiB
- Размер набора данных : - 9.94 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 101 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-random
- Размер загрузки : - 84.79 MiB
- Размер набора данных : - 98.43 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1002 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-expert
- Размер загрузки : - 146.94 MiB
- Размер набора данных : - 451.88 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| политика | ВозможностиDict | |||
| политика/fc0 | ВозможностиDict | |||
| политика/fc0/предвзятость | Тензор | (256,) | float32 | |
| политика/fc0/вес | Тензор | (256, 17) | float32 | |
| политика/FC1 | ВозможностиDict | |||
| политика/fc1/предвзятость | Тензор | (256,) | float32 | |
| политика/fc1/вес | Тензор | (256, 256) | float32 | |
| политика/last_fc | ВозможностиDict | |||
| политика/last_fc/bias | Тензор | (6,) | float32 | |
| политика/last_fc/вес | Тензор | (6, 256) | float32 | |
| политика/last_fc_log_std | ВозможностиDict | |||
| политика/last_fc_log_std/bias | Тензор | (6,) | float32 | |
| политика/last_fc_log_std/вес | Тензор | (6, 256) | float32 | |
| политика/нелинейность | Тензор | нить | ||
| политика/выходное_распределение | Тензор | нить | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float32 | ||
| шаги/информация/qpos | Тензор | (9,) | float32 | |
| шаги/информация/qvel | Тензор | (9,) | float32 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-medium
- Размер загрузки : - 146.65 MiB
- Размер набора данных : - 451.88 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| политика | ВозможностиDict | |||
| политика/fc0 | ВозможностиDict | |||
| политика/fc0/предвзятость | Тензор | (256,) | float32 | |
| политика/fc0/вес | Тензор | (256, 17) | float32 | |
| политика/FC1 | ВозможностиDict | |||
| политика/fc1/предвзятость | Тензор | (256,) | float32 | |
| политика/fc1/вес | Тензор | (256, 256) | float32 | |
| политика/last_fc | ВозможностиDict | |||
| политика/last_fc/bias | Тензор | (6,) | float32 | |
| политика/last_fc/вес | Тензор | (6, 256) | float32 | |
| политика/last_fc_log_std | ВозможностиDict | |||
| политика/last_fc_log_std/bias | Тензор | (6,) | float32 | |
| политика/last_fc_log_std/вес | Тензор | (6, 256) | float32 | |
| политика/нелинейность | Тензор | нить | ||
| политика/выходное_распределение | Тензор | нить | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float32 | ||
| шаги/информация/qpos | Тензор | (9,) | float32 | |
| шаги/информация/qvel | Тензор | (9,) | float32 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-medium-expert
- Размер загрузки : - 293.00 MiB
- Размер набора данных : - 342.37 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 2000 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float32 | ||
| шаги/информация/qpos | Тензор | (9,) | float32 | |
| шаги/информация/qvel | Тензор | (9,) | float32 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-medium-replay
- Размер загрузки : - 57.68 MiB
- Размер набора данных : - 34.59 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 202 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float64 | |
| шаги/скидка | Тензор | float64 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float64 | |
| шаги/награда | Тензор | float64 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-full-replay
- Размер загрузки : - 285.01 MiB
- Размер набора данных : - 171.22 MiB
- Автоматическое кэширование ( документация ): только если - shuffle_files=False(поезд)
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float64 | |
| шаги/скидка | Тензор | float64 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float64 | |
| шаги/награда | Тензор | float64 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-random
- Размер загрузки : - 145.19 MiB
- Размер набора данных : - 171.18 MiB
- Автоматическое кэширование ( документация ): только если - shuffle_files=False(поезд)
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float32 | ||
| шаги/информация/qpos | Тензор | (9,) | float32 | |
| шаги/информация/qvel | Тензор | (9,) | float32 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-эксперт
- Размер загрузки : - 226.46 MiB
- Размер набора данных : - 451.88 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| политика | ВозможностиDict | |||
| политика/fc0 | ВозможностиDict | |||
| политика/fc0/предвзятость | Тензор | (256,) | float32 | |
| политика/fc0/вес | Тензор | (256, 17) | float32 | |
| политика/FC1 | ВозможностиDict | |||
| политика/fc1/предвзятость | Тензор | (256,) | float32 | |
| политика/fc1/вес | Тензор | (256, 256) | float32 | |
| политика/last_fc | ВозможностиDict | |||
| политика/last_fc/bias | Тензор | (6,) | float32 | |
| политика/last_fc/вес | Тензор | (6, 256) | float32 | |
| политика/last_fc_log_std | ВозможностиDict | |||
| политика/last_fc_log_std/bias | Тензор | (6,) | float32 | |
| политика/last_fc_log_std/вес | Тензор | (6, 256) | float32 | |
| политика/нелинейность | Тензор | нить | ||
| политика/выходное_распределение | Тензор | нить | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-full-replay
- Размер загрузки : - 277.88 MiB
- Размер набора данных : - 171.22 MiB
- Автоматическое кэширование ( документация ): только если - shuffle_files=False(поезд)
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-medium
- Размер загрузки : - 226.71 MiB
- Размер набора данных : - 451.88 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| политика | ВозможностиDict | |||
| политика/fc0 | ВозможностиDict | |||
| политика/fc0/предвзятость | Тензор | (256,) | float32 | |
| политика/fc0/вес | Тензор | (256, 17) | float32 | |
| политика/FC1 | ВозможностиDict | |||
| политика/fc1/предвзятость | Тензор | (256,) | float32 | |
| политика/fc1/вес | Тензор | (256, 256) | float32 | |
| политика/last_fc | ВозможностиDict | |||
| политика/last_fc/bias | Тензор | (6,) | float32 | |
| политика/last_fc/вес | Тензор | (6, 256) | float32 | |
| политика/last_fc_log_std | ВозможностиDict | |||
| политика/last_fc_log_std/bias | Тензор | (6,) | float32 | |
| политика/last_fc_log_std/вес | Тензор | (6, 256) | float32 | |
| политика/нелинейность | Тензор | нить | ||
| политика/выходное_распределение | Тензор | нить | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-medium-expert
- Размер загрузки : - 452.58 MiB
- Размер набора данных : - 342.37 MiB
- Автокэширование ( документация ): Нет 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 2000 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-medium-replay
- Размер загрузки : - 56.69 MiB
- Размер набора данных : - 34.59 MiB
- Автокэширование ( документация ): Да 
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 202 | 
- Структура функции :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| алгоритм | Тензор | нить | ||
| итерация | Тензор | int32 | ||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-random
- Размер загрузки : - 226.34 MiB
- Размер набора данных : - 171.18 MiB
- Автоматическое кэширование ( документация ): только если - shuffle_files=False(поезд)
- Расколы : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1000 | 
- Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание | 
|---|---|---|---|---|
| ВозможностиDict | ||||
| шаги | Набор данных | |||
| шаги/действия | Тензор | (6,) | float32 | |
| шаги/скидка | Тензор | float32 | ||
| шаги/информация | ВозможностиDict | |||
| шаги/информация/action_log_probs | Тензор | float64 | ||
| шаги/информация/qpos | Тензор | (9,) | float64 | |
| шаги/информация/qvel | Тензор | (9,) | float64 | |
| шаги/is_first | Тензор | логическое значение | ||
| шаги/is_last | Тензор | логическое значение | ||
| шаги/is_terminal | Тензор | логическое значение | ||
| шаги/наблюдение | Тензор | (17,) | float32 | |
| шаги/награда | Тензор | float32 | 
- Примеры ( tfds.as_dataframe ):