d4rl_adroit_pen

  • Keterangan :

D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan kumpulan data standar untuk pelatihan dan algoritma benchmarking.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

@misc{fu2020d4rl,
    title
={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author
={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year
={2020},
    eprint
={2004.07219},
    archivePrefix
={arXiv},
    primaryClass
={cs.LG}
}

d4rl_adroit_pen/v0-human (konfigurasi default)

Membelah Contoh
'train' 50
  • Struktur fitur :
FeaturesDict({
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float32,
       
'infos': FeaturesDict({
           
'qpos': Tensor(shape=(30,), dtype=float32),
           
'qvel': Tensor(shape=(30,), dtype=float32),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float32),
       
'reward': float32,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float32
langkah/info FiturDict
langkah/info/qpos Tensor (30,) float32
langkah/info/qvel Tensor (30,) float32
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float32
langkah/hadiah Tensor float32

d4rl_adroit_pen/v0-kloning

Membelah Contoh
'train' 5.023
  • Struktur fitur :
FeaturesDict({
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float64,
       
'infos': FeaturesDict({
           
'qpos': Tensor(shape=(30,), dtype=float64),
           
'qvel': Tensor(shape=(30,), dtype=float64),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float64),
       
'reward': float64,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float64
langkah/info FiturDict
langkah/info/qpos Tensor (30,) float64
langkah/info/qvel Tensor (30,) float64
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float64
langkah/hadiah Tensor float64

d4rl_adroit_pen/v0-expert

Membelah Contoh
'train' 5.000
  • Struktur fitur :
FeaturesDict({
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float32,
       
'infos': FeaturesDict({
           
'action_logstd': Tensor(shape=(24,), dtype=float32),
           
'action_mean': Tensor(shape=(24,), dtype=float32),
           
'qpos': Tensor(shape=(30,), dtype=float32),
           
'qvel': Tensor(shape=(30,), dtype=float32),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float32),
       
'reward': float32,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float32
langkah/info FiturDict
langkah/info/action_logstd Tensor (24,) float32
langkah/info/action_mean Tensor (24,) float32
langkah/info/qpos Tensor (30,) float32
langkah/info/qvel Tensor (30,) float32
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float32
langkah/hadiah Tensor float32

d4rl_adroit_pen/v1-human

Membelah Contoh
'train' 25
  • Struktur fitur :
FeaturesDict({
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float32,
       
'infos': FeaturesDict({
           
'desired_orien': Tensor(shape=(4,), dtype=float32),
           
'qpos': Tensor(shape=(30,), dtype=float32),
           
'qvel': Tensor(shape=(30,), dtype=float32),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float32),
       
'reward': float32,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float32
langkah/info FiturDict
langkah/info/desired_orien Tensor (4,) float32
langkah/info/qpos Tensor (30,) float32
langkah/info/qvel Tensor (30,) float32
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float32
langkah/hadiah Tensor float32

d4rl_adroit_pen/v1-kloning

Membelah Contoh
'train' 3.755
  • Struktur fitur :
FeaturesDict({
   
'algorithm': string,
   
'policy': FeaturesDict({
       
'fc0': FeaturesDict({
           
'bias': Tensor(shape=(256,), dtype=float32),
           
'weight': Tensor(shape=(45, 256), dtype=float32),
       
}),
       
'fc1': FeaturesDict({
           
'bias': Tensor(shape=(256,), dtype=float32),
           
'weight': Tensor(shape=(256, 256), dtype=float32),
       
}),
       
'last_fc': FeaturesDict({
           
'bias': Tensor(shape=(24,), dtype=float32),
           
'weight': Tensor(shape=(256, 24), dtype=float32),
       
}),
       
'nonlinearity': string,
       
'output_distribution': string,
   
}),
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float32,
       
'infos': FeaturesDict({
           
'desired_orien': Tensor(shape=(4,), dtype=float32),
           
'qpos': Tensor(shape=(30,), dtype=float32),
           
'qvel': Tensor(shape=(30,), dtype=float32),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float32),
       
'reward': float32,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
algoritma Tensor rangkaian
kebijakan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (256,) float32
kebijakan/fc0/bobot Tensor (45, 256) float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (256,) float32
kebijakan/fc1/bobot Tensor (256, 256) float32
kebijakan/last_fc FiturDict
kebijakan/last_fc/bias Tensor (24,) float32
policy/last_fc/weight Tensor (256, 24) float32
kebijakan/nonlinier Tensor rangkaian
kebijakan/output_distribusi Tensor rangkaian
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float32
langkah/info FiturDict
langkah/info/desired_orien Tensor (4,) float32
langkah/info/qpos Tensor (30,) float32
langkah/info/qvel Tensor (30,) float32
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float32
langkah/hadiah Tensor float32

d4rl_adroit_pen/v1-expert

  • Ukuran unduhan : 249.90 MiB

  • Ukuran kumpulan data : 548.47 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 5.000
  • Struktur fitur :
FeaturesDict({
   
'algorithm': string,
   
'policy': FeaturesDict({
       
'fc0': FeaturesDict({
           
'bias': Tensor(shape=(64,), dtype=float32),
           
'weight': Tensor(shape=(64, 45), dtype=float32),
       
}),
       
'fc1': FeaturesDict({
           
'bias': Tensor(shape=(64,), dtype=float32),
           
'weight': Tensor(shape=(64, 64), dtype=float32),
       
}),
       
'last_fc': FeaturesDict({
           
'bias': Tensor(shape=(24,), dtype=float32),
           
'weight': Tensor(shape=(24, 64), dtype=float32),
       
}),
       
'last_fc_log_std': FeaturesDict({
           
'bias': Tensor(shape=(24,), dtype=float32),
           
'weight': Tensor(shape=(24, 64), dtype=float32),
       
}),
       
'nonlinearity': string,
       
'output_distribution': string,
   
}),
   
'steps': Dataset({
       
'action': Tensor(shape=(24,), dtype=float32),
       
'discount': float32,
       
'infos': FeaturesDict({
           
'action_log_std': Tensor(shape=(24,), dtype=float32),
           
'action_mean': Tensor(shape=(24,), dtype=float32),
           
'desired_orien': Tensor(shape=(4,), dtype=float32),
           
'qpos': Tensor(shape=(30,), dtype=float32),
           
'qvel': Tensor(shape=(30,), dtype=float32),
       
}),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'observation': Tensor(shape=(45,), dtype=float32),
       
'reward': float32,
   
}),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
algoritma Tensor rangkaian
kebijakan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (64,) float32
kebijakan/fc0/bobot Tensor (64, 45) float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (64,) float32
kebijakan/fc1/bobot Tensor (64, 64) float32
kebijakan/last_fc FiturDict
kebijakan/last_fc/bias Tensor (24,) float32
policy/last_fc/weight Tensor (24, 64) float32
kebijakan/last_fc_log_std FiturDict
kebijakan/last_fc_log_std/bias Tensor (24,) float32
policy/last_fc_log_std/weight Tensor (24, 64) float32
kebijakan/nonlinier Tensor rangkaian
kebijakan/output_distribusi Tensor rangkaian
Langkah Himpunan data
langkah/tindakan Tensor (24,) float32
langkah/diskon Tensor float32
langkah/info FiturDict
langkah/info/action_log_std Tensor (24,) float32
langkah/info/action_mean Tensor (24,) float32
langkah/info/desired_orien Tensor (4,) float32
langkah/info/qpos Tensor (30,) float32
langkah/info/qvel Tensor (30,) float32
langkah/adalah_pertama Tensor bodoh
langkah/adalah_terakhir Tensor bodoh
langkah/is_terminal Tensor bodoh
langkah/pengamatan Tensor (45,) float32
langkah/hadiah Tensor float32