- Описание :
Общая задача CoNLL-2002 касается распознавания именованных объектов, не зависящих от языка. Типы именованных сущностей включают в себя: лица, местоположения, организации и названия различных сущностей, не принадлежащих к предыдущим трем группам. Участникам общего задания предлагались обучающие и тестовые данные как минимум для двух языков. В этой общей задаче могли использоваться источники информации, отличные от обучающих данных.
Домашняя страница : https://aclanthology.org/W02-2024/
Исходный код :
tfds.text.conll2002.Conll2002Версии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (конфигурация по умолчанию)
Размер загрузки :
3.95 MiBРазмер набора данных :
3.52 MiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'dev' | 1916 |
'test' | 1518 |
'train' | 8324 |
- Структура функции :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| нер | Последовательность (метка класса) | (Никто,) | int64 | |
| поз | Последовательность (метка класса) | (Никто,) | int64 | |
| жетоны | Последовательность (текст) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):
conll2002/nl
Размер загрузки :
3.47 MiBРазмер набора данных :
3.55 MiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'dev' | 2896 |
'test' | 5196 |
'train' | 15 807 |
- Структура функции :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| нер | Последовательность (метка класса) | (Никто,) | int64 | |
| поз | Последовательность (метка класса) | (Никто,) | int64 | |
| жетоны | Последовательность (текст) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):