- 説明:
マルチニュースデータセット
Multi-Newsは、ニュースサイトnewser.com
に掲載されているニュース記事と、それらの記事を人間が作成した要約で構成されています。各要約は編集者によって専門的に作成されており、引用元の記事へのリンクが含まれています。
これは、ニュース記事の複数文書の要約のための最初の大規模データセットです。
各レコードには 2 つの機能があります。
-
document
: ニュース記事のテキスト。特殊トークン「|||||」で区切られます。 summary
: ニュースの要約。追加ドキュメント: Papers With Code で探す
ソースコード:
tfds.datasets.multi_news.Builder
バージョン:
-
1.0.0
: 最初のリリース。 -
2.0.0
: [使用しないでください] 有効な URL でデータセットを更新します。 -
2.1.0
(デフォルト) : データセットを正しいURLに更新してください。このバージョンのURLは、同じ著者によってキュレーションされているHuggingFaceのデータセットリポジトリから取得されています: https://huggingface.co/datasets/alexfabbri/multi_news
-
ダウンロードサイズ:
721.73 MiB
データセットサイズ:
666.50 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- 機能構造:
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dタイプ | 説明 |
---|---|---|---|---|
機能辞書 | ||||
書類 | 文章 | 弦 | ||
まとめ | 文章 | 弦 |
教師ありキー(
as_supervised
ドキュメントを参照):('document', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}