- תיאור :
מערך נתונים המתואר במאמר: הוראות לא טבעיות: כוונון מודלים של שפה עם (כמעט) ללא עבודה אנושית (2022). מכיל קבוצות של הוראות בשפה טבעית, עם אילוצים אופציונליים / ניסוחים מחדש שנוצרו על ידי LLM.
דף הבית : https://github.com/orhonovich/unnatural-instructions
קוד מקור :
tfds.text.unnatural_instructions.UnnaturalInstructionsגרסאות :
-
0.0.1(ברירת מחדל): שחרור ראשוני. השמט הוראות/קלטות, מכיוון שהן דורשות עיבוד נוסף לשימוש. הוראות_עם_תשומות וניסוחים מחדש מכילים הוראות והקשרים.
-
גודל הורדה :
17.48 MiBגודל מערך נתונים :
154.71 MiBשמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False(רכבת)פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 66,010 |
- מבנה תכונה :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'instances': Sequence({
'constraints': Text(shape=(), dtype=string),
'input': Text(shape=(), dtype=string),
'instruction_with_input': Text(shape=(), dtype=string),
'output': Text(shape=(), dtype=string),
}),
'instruction': Text(shape=(), dtype=string),
'reformulations': Sequence({
'input': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'instruction_with_input': Text(shape=(), dtype=string),
'output': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| תְעוּדַת זֶהוּת | טֶקסט | חוּט | מזהה ייחודי למשל. | |
| מקרים | סדר פעולות | |||
| מופעים/אילוצים | טֶקסט | חוּט | אילוצים ספציפיים למשימה. | |
| מופעים/קלט | טֶקסט | חוּט | יש להזין קלט למצייני מקום להוראה נתונה. | |
| מופעים/הוראה_עם_קלט | טֶקסט | חוּט | הוראות עם כניסות מסופקות למצייני מקום. | |
| מופעים/פלט | טֶקסט | חוּט | תפוקת יעד עבור משימה נתונה. | |
| הוראה | טֶקסט | חוּט | הוראה עם מציין מיקום לקלט. | |
| ניסוחים מחדש | סדר פעולות | |||
| ניסוחים/קלט מחדש | טֶקסט | חוּט | יש להזין קלט למצייני מקום להוראה נתונה. | |
| ניסוחים/הוראה מחדש | טֶקסט | חוּט | הוראה עם מציין מיקום לקלט. | |
| ניסוחים מחדש/הוראה_עם_קלט | טֶקסט | חוּט | הוראות עם כניסות מסופקות למצייני מקום. | |
| ניסוחים/פלט מחדש | טֶקסט | חוּט | תפוקת יעד עבור משימה נתונה. |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{honovich2022unnatural,
title = {Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor},
author = {Honovich, Or and Scialom, Thomas and Levy, Omer and Schick, Timo},
url = {https://arxiv.org/abs/2212.09689},
publisher = {arXiv},
year={2022}
}