- תיאור :
סוייר דוחף וקוטף חפצים בפח
דף הבית : https://arxiv.org/abs/2206.11894
קוד מקור :
tfds.robotics.rtx.StanfordMaskVitConvertedExternallyToRlds
גרסאות :
-
0.1.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
76.17 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 9,109 |
'val' | 91 |
- מבנה תכונה :
FeaturesDict({
'episode_metadata': FeaturesDict({
'file_path': Text(shape=(), dtype=string),
}),
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32, description=Robot action, consists of [3x change in end effector position, 1x gripper yaw, 1x open/close gripper (-1 means to open the gripper, 1 means close)].),
'discount': Scalar(shape=(), dtype=float32, description=Discount if provided, default to 1.),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'language_embedding': Tensor(shape=(512,), dtype=float32, description=Kona language embedding. See https://tfhub.dev/google/universal-sentence-encoder-large/5),
'language_instruction': Text(shape=(), dtype=string),
'observation': FeaturesDict({
'end_effector_pose': Tensor(shape=(5,), dtype=float32, description=Robot end effector pose, consists of [3x Cartesian position, 1x gripper yaw, 1x gripper position]. This is the state used in the MaskViT paper.),
'finger_sensors': Tensor(shape=(1,), dtype=float32, description=1x Sawyer gripper finger sensors.),
'high_bound': Tensor(shape=(5,), dtype=float32, description=High bound for end effector pose normalization. Consists of [3x Cartesian position, 1x gripper yaw, 1x gripper position].),
'image': Image(shape=(480, 480, 3), dtype=uint8, description=Main camera RGB observation.),
'low_bound': Tensor(shape=(5,), dtype=float32, description=Low bound for end effector pose normalization. Consists of [3x Cartesian position, 1x gripper yaw, 1x gripper position].),
'state': Tensor(shape=(15,), dtype=float32, description=Robot state, consists of [7x robot joint angles, 7x robot joint velocities,1x gripper position].),
}),
'reward': Scalar(shape=(), dtype=float32, description=Reward if provided, 1 on final step for demos.),
}),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
episode_metadata | FeaturesDict | |||
episode_metadata/file_path | טֶקסט | חוּט | נתיב לקובץ הנתונים המקורי. | |
צעדים | מערך נתונים | |||
צעדים/פעולה | מוֹתֵחַ | (5,) | לצוף32 | פעולת רובוט, מורכבת מ[3x שינוי במיקום האפקטור הקצה, 1x פיהוק תפס, 1x פתיחה/סגירה תפס (-1 פירושו לפתוח את התפסן, 1 פירושו סגירה)]. |
צעדים/הנחה | סקלר | לצוף32 | הנחה אם ניתנת, ברירת המחדל היא 1. | |
צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
steps/is_terminal | מוֹתֵחַ | bool | ||
שלבים/הטבעת_שפה | מוֹתֵחַ | (512,) | לצוף32 | הטבעת שפת Kona. ראה https://tfhub.dev/google/universal-sentence-encoder-large/5 |
שלבים/הוראת_שפה | טֶקסט | חוּט | הוראת שפה. | |
צעדים/תצפית | FeaturesDict | |||
צעדים/תצפית/תנוחה_קצה | מוֹתֵחַ | (5,) | לצוף32 | תנוחת קצה רובוט, מורכבת מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. זהו המצב המשמש בנייר MaskViT. |
צעדים/תצפית/חיישני_אצבע | מוֹתֵחַ | (1,) | לצוף32 | 1x חיישני אצבע תפס Sawyer. |
צעדים/תצפית/גבוה_גבוה | מוֹתֵחַ | (5,) | לצוף32 | סף גבוה לנורמליזציה של תנוחת ה-End Effector. מורכב מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. |
צעדים/תצפית/תמונה | תְמוּנָה | (480, 480, 3) | uint8 | תצפית RGB של מצלמה ראשית. |
צעדים/תצפית/נמוך | מוֹתֵחַ | (5,) | לצוף32 | סף נמוך לנורמליזציה של תנוחת ה-End Effector. מורכב מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. |
צעדים/תצפית/מצב | מוֹתֵחַ | (15,) | לצוף32 | מצב רובוט, מורכב מ[7x זוויות מפרק רובוט, 7x מהירויות מפרק רובוט, 1x מיקום תפס]. |
צעדים/פרס | סקלר | לצוף32 | תגמול אם מסופק, 1 בשלב האחרון להדגמות. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{gupta2022maskvit,
title={MaskViT: Masked Visual Pre-Training for Video Prediction},
author={Agrim Gupta and Stephen Tian and Yunzhi Zhang and Jiajun Wu and Roberto Martín-Martín and Li Fei-Fei},
booktitle={International Conference on Learning Representations},
year={2022}
}