wikihow

Описание :

WikiHow — это новый крупномасштабный набор данных, использующий онлайновую базу знаний WikiHow ( http://www.wikihow.com/ ).

Есть две функции: - текст: wikihow отвечает на тексты. - заголовок: жирные линии в качестве резюме.

Есть две отдельные версии: - all: состоит из объединения всех абзацев в виде статей и выделенных жирным шрифтом строк в виде кратких ссылок. - sep: состоит из каждого абзаца и его резюме.

Загрузите «wikihowAll.csv» и «wikihowSep.csv» с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в папку вручную https://www.tensorflow.org/datasets/api_docs/python/tfds/ Разделы download/DownloadConfig Train/validation/test предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации < 0,75 длины статьи) и очистки лишних запятых.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/mahnazkoupaee/WikiHow-Dataset
Исходный код : tfds.summarization.Wikihow
Версии :
- 1.2.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 5.21 MiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Ссылки на файлы можно найти на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста, загрузите файлы wikihowAll.csv и wikihowSep.csv.
Автоматическое кэширование ( документация ): Нет
Контролируемые ключи (см. as_supervised doc ): ('text', 'headline')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (конфигурация по умолчанию)

Описание конфигурации : используйте объединение всех абзацев в качестве статей и выделенных жирным шрифтом строк в качестве справочных сводок.
Размер набора данных : 531.56 MiB .
Сплиты :

Расколоть	Примеры
`'test'`	5 577
`'train'`	157 252
`'validation'`	5 599

Структура функции :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
Заголовок	Текст	нить
текст	Текст	нить
заглавие	Текст	нить

Примеры ( tfds.as_dataframe ):

wikihow/сен

Описание конфигурации : используйте каждый абзац и его краткое содержание.
Размер набора данных : 1.07 GiB
Сплиты :

Расколоть	Примеры
`'test'`	37 800
`'train'`	1 060 732
`'validation'`	37 932

Структура функции :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
Заголовок	Текст	нить
обзор	Текст	нить
разделЭтикетка	Текст	нить
текст	Текст	нить
заглавие	Текст	нить

Примеры ( tfds.as_dataframe ):

wikihow Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

wikihow/all (конфигурация по умолчанию)

wikihow/сен

wikihow