- תיאור :
databricks-dolly-15k הוא מערך נתונים בקוד פתוח של רשומות העוקבות אחר הוראות המשמשות באימון databricks/dolly-v2-12b שנוצר על ידי אלפי עובדי Databricks במספר מקטגוריות ההתנהגות המתוארות במאמר InstructGPT , כולל סיעור מוחות, סיווג, QA סגור, יצירה, חילוץ מידע, QA פתוח וסיכום.
ניתן להשתמש במערך נתונים זה לכל מטרה, בין אם אקדמית או מסחרית, תחת התנאים של Creative Commons Attribution-ShareAlike 3.0 Unported License .
דף הבית : https://github.com/databrickslabs/dolly
קוד מקור :
tfds.datasets.databricks_dolly.Builderגרסאות :
-
1.0.0(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
12.60 MiBגודל מערך נתונים :
12.69 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 15,014 |
- מבנה תכונה :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| קטגוריה | טֶקסט | חוּט | ||
| הֶקשֵׁר | טֶקסט | חוּט | ||
| הוראה | טֶקסט | חוּט | ||
| תְגוּבָה | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :