- 설명 :
다중 뉴스 데이터 세트
멀티 뉴스는 뉴스 사이트 newser.com
의 뉴스 기사와 직접 작성한 요약으로 구성되어 있습니다. 각 요약은 편집자들이 전문적으로 작성했으며, 인용된 원문 기사로 연결되는 링크가 포함되어 있습니다.
이는 뉴스 기사에 대한 다중 문서 요약을 위한 최초의 대규모 데이터 세트입니다.
각 레코드에는 두 가지 특징이 있습니다.
-
document
: 특수 토큰 "|||||"로 구분된 뉴스 기사 텍스트입니다. summary
: 뉴스 요약.추가 문서 : 코드 포함된 논문에서 탐색
소스 코드 :
tfds.datasets.multi_news.Builder
버전 :
-
1.0.0
: 최초 릴리스. -
2.0.0
: [사용하지 마세요] 유효한 URL로 데이터 세트를 업데이트합니다. -
2.1.0
(기본값) : 데이터 세트를 올바른 URL로 업데이트합니다. 이 버전의 URL은 HuggingFace의 데이터 세트 저장소에서 가져왔으며, 해당 저장소는 같은 작성자가 큐레이팅했습니다. https://huggingface.co/datasets/alexfabbri/multi_news
-
다운로드 크기 :
721.73 MiB
데이터 세트 크기 :
666.50 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예시 |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- 기능 구조 :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 기능 설명서 :
특징 | 수업 | 모양 | 디타입 | 설명 |
---|---|---|---|---|
특징 사전 | ||||
문서 | 텍스트 | 끈 | ||
요약 | 텍스트 | 끈 |
감독 키 (
as_supervised
doc 참조):('document', 'summary')
그림 ( tfds.show_examples ): 지원되지 않음.
예시 ( tfds.as_dataframe ):
- 인용 :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}