- Описание :
WikiHow — это новый крупномасштабный набор данных, использующий онлайновую базу знаний WikiHow ( http://www.wikihow.com/ ).
Есть две функции: - текст: wikihow отвечает на тексты. - заголовок: жирные линии в качестве резюме.
Есть две отдельные версии: - all: состоит из объединения всех абзацев в виде статей и выделенных жирным шрифтом строк в виде кратких ссылок. - sep: состоит из каждого абзаца и его резюме.
Загрузите «wikihowAll.csv» и «wikihowSep.csv» с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в папку вручную https://www.tensorflow.org/datasets/api_docs/python/tfds/ Разделы download/DownloadConfig Train/validation/test предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации < 0,75 длины статьи) и очистки лишних запятых.
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://github.com/mahnazkoupaee/WikiHow-Dataset 
- Исходный код : - tfds.summarization.Wikihow
- Версии : -  1.2.0(по умолчанию): нет примечаний к выпуску.
 
-  
- Размер загрузки : - 5.21 MiB
- Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в - download_config.manual_dir(по умолчанию- ~/tensorflow_datasets/downloads/manual/):
 Ссылки на файлы можно найти на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста, загрузите файлы wikihowAll.csv и wikihowSep.csv.
- Автоматическое кэширование ( документация ): Нет 
- Контролируемые ключи (см. - as_superviseddoc ):- ('text', 'headline')
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
wikihow/all (конфигурация по умолчанию)
- Описание конфигурации : используйте объединение всех абзацев в качестве статей и выделенных жирным шрифтом строк в качестве справочных сводок. 
- Размер набора данных : - 531.56 MiB.
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 5 577 | 
| 'train' | 157 252 | 
| 'validation' | 5 599 | 
- Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| Заголовок | Текст | нить | ||
| текст | Текст | нить | ||
| заглавие | Текст | нить | 
- Примеры ( tfds.as_dataframe ):
wikihow/сен
- Описание конфигурации : используйте каждый абзац и его краткое содержание. 
- Размер набора данных : - 1.07 GiB
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 37 800 | 
| 'train' | 1 060 732 | 
| 'validation' | 37 932 | 
- Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| Заголовок | Текст | нить | ||
| обзор | Текст | нить | ||
| разделЭтикетка | Текст | нить | ||
| текст | Текст | нить | ||
| заглавие | Текст | нить | 
- Примеры ( tfds.as_dataframe ):