- توضیحات :
مجموعه داده خلاصه سازی SummScreen، نسخه بدون نام، بدون نشانه.
تقسیمبندی و فیلتر Train/val/test بر اساس مجموعه داده نهایی نشانهگذاری شده است، اما رونوشتها و خلاصههای ارائهشده بر اساس متن غیرتوکنسازی شده است.
دو ویژگی وجود دارد:
- رونوشت: متن کامل قسمت، هر خط از گفتگو با خطوط جدید جدا شده است
recap: خلاصه یا خلاصه اپیزودها
صفحه اصلی : https://github.com/mingdachen/SummScreen
کد منبع :
tfds.datasets.summscreen.Builderنسخه ها :
-
1.0.0(پیش فرض): انتشار اولیه.
-
حجم دانلود :
841.27 MiBکلیدهای نظارت شده (به
as_supervisedنظارت شده رجوع کنید):('transcript', 'recap')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (پیکربندی پیش فرض)
توضیحات پیکربندی : ForeverDreaming
حجم مجموعه داده :
132.99 MiBذخیره خودکار ( اسناد ): بله
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- ساختار ویژگی :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| قسمت_شماره | متن | رشته | ||
| قسمت_عنوان | متن | رشته | ||
| خلاصه کردن | متن | رشته | ||
| عنوان_نمایش | متن | رشته | ||
| رونوشت | متن | رشته | ||
| رونوشت_نویسنده | متن | رشته |
- مثالها ( tfds.as_dataframe ):
summscreen/tms
توضیحات پیکربندی : TVMegaSite
حجم مجموعه داده :
592.53 MiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 1793 |
'train' | 18915 |
'validation' | 1795 |
- ساختار ویژگی :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| قسمت_خلاصه | متن | رشته | ||
| خلاصه کردن | متن | رشته | ||
| recap_author | متن | رشته | ||
| عنوان_نمایش | متن | رشته | ||
| رونوشت | متن | رشته | ||
| رونوشت_نویسنده | تانسور | (هیچ یک،) | رشته |
- مثالها ( tfds.as_dataframe ):