جمع بندی

توضیحات :

مجموعه داده خلاصه سازی SummScreen، نسخه بدون نام، بدون نشانه.

تقسیم‌بندی و فیلتر Train/val/test بر اساس مجموعه داده نهایی نشانه‌گذاری شده است، اما رونوشت‌ها و خلاصه‌های ارائه‌شده بر اساس متن غیرتوکن‌سازی شده است.

دو ویژگی وجود دارد:

رونوشت: متن کامل قسمت، هر خط از گفتگو با خطوط جدید جدا شده است
recap: خلاصه یا خلاصه اپیزودها
صفحه اصلی : https://github.com/mingdachen/SummScreen
کد منبع : tfds.datasets.summscreen.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 841.27 MiB
کلیدهای نظارت شده (به as_supervised نظارت شده رجوع کنید): ('transcript', 'recap')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (پیکربندی پیش فرض)

توضیحات پیکربندی : ForeverDreaming
حجم مجموعه داده : 132.99 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	337
`'train'`	3,673
`'validation'`	338

ساختار ویژگی :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
قسمت_شماره	متن	رشته
قسمت_عنوان	متن	رشته
خلاصه کردن	متن	رشته
عنوان_نمایش	متن	رشته
رونوشت	متن	رشته
رونوشت_نویسنده	متن	رشته

مثال‌ها ( tfds.as_dataframe ):

summscreen/tms

توضیحات پیکربندی : TVMegaSite
حجم مجموعه داده : 592.53 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	1793
`'train'`	18915
`'validation'`	1795

ساختار ویژگی :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
قسمت_خلاصه	متن		رشته
خلاصه کردن	متن		رشته
recap_author	متن		رشته
عنوان_نمایش	متن		رشته
رونوشت	متن		رشته
رونوشت_نویسنده	تانسور	(هیچ یک،)	رشته

مثال‌ها ( tfds.as_dataframe ):

جمع بندی با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

summscreen/fd (پیکربندی پیش فرض)

summscreen/tms

جمع بندی