- الوصف :
تتكون مجموعة بيانات التقارير الحكومية من تقارير مكتوبة من قبل وكالات الأبحاث الحكومية بما في ذلك خدمة أبحاث الكونغرس ومكتب محاسبة الحكومة الأمريكية.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://gov-report-data.github.io/
كود المصدر :
tfds.summarization.gov_report.GovReportإصدارات :
-
1.0.0(افتراضي): الإصدار الأولي.
-
حجم التحميل :
320.59 MiBالتخزين المؤقت التلقائي ( التوثيق ): لا
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report / crs_whitespace (التكوين الافتراضي)
وصف التكوين : تقرير CRS مع ملخص. تم تسطيح الهياكل وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي
حجم مجموعة البيانات :
349.76 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| هوية شخصية | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| التقارير | نص | سلسلة | ||
| ملخص | نص | سلسلة | ||
| لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_superviseddoc ):('reports', 'summary')أمثلة ( tfds.as_dataframe ):
gov_report / gao_whitespace
وصف التكوين : تقرير GAO مع تمييز الهياكل بالارض وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي
حجم مجموعة البيانات :
690.24 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| حقيقة سريع | نص | سلسلة | ||
| تسليط الضوء | نص | سلسلة | ||
| هوية شخصية | نص | سلسلة | ||
| تاريخ النشر | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| أبلغ عن | نص | سلسلة | ||
| لقب | نص | سلسلة | ||
| عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised):('report', 'highlight')أمثلة ( tfds.as_dataframe ):
gov_report / crs_html
وصف التكوين : تقرير CRS مع ملخص. تم تسوية الهياكل وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل
<h2>xxx<h2>.حجم مجموعة البيانات :
351.25 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| هوية شخصية | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| التقارير | نص | سلسلة | ||
| ملخص | نص | سلسلة | ||
| لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_superviseddoc ):('reports', 'summary')أمثلة ( tfds.as_dataframe ):
gov_report / gao_html
وصف التكوين : تقرير GAO مع تمييز الهياكل تم تسويتها وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل
<h2>xxx<h2>.حجم مجموعة البيانات :
692.72 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| حقيقة سريع | نص | سلسلة | ||
| تسليط الضوء | نص | سلسلة | ||
| هوية شخصية | نص | سلسلة | ||
| تاريخ النشر | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| أبلغ عن | نص | سلسلة | ||
| لقب | نص | سلسلة | ||
| عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised):('report', 'highlight')أمثلة ( tfds.as_dataframe ):
gov_report / crs_json
وصف التكوين : تقرير CRS مع ملخص. الهياكل الممثلة في شكل json الخام.
حجم مجموعة البيانات :
361.92 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| هوية شخصية | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| التقارير | نص | سلسلة | ||
| ملخص | نص | سلسلة | ||
| لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_superviseddoc ):('reports', 'summary')أمثلة ( tfds.as_dataframe ):
gov_report / gao_json
وصف التهيئة : تقرير GAO مع تمييز الهياكل الممثلة كـ json raw.
حجم مجموعة البيانات :
712.82 MiBالانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| حقيقة سريع | نص | سلسلة | ||
| تسليط الضوء | نص | سلسلة | ||
| هوية شخصية | نص | سلسلة | ||
| تاريخ النشر | نص | سلسلة | ||
| تاريخ الإفراج | نص | سلسلة | ||
| أبلغ عن | نص | سلسلة | ||
| لقب | نص | سلسلة | ||
| عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised):('report', 'highlight')أمثلة ( tfds.as_dataframe ):