- Descriptif :
La tâche partagée de CoNLL-2002 concerne la reconnaissance d'entités nommées indépendantes de la langue. Les types d'entités nommées comprennent : les personnes, les lieux, les organisations et les noms d'entités diverses qui n'appartiennent pas aux trois groupes précédents. Les participants à la tâche partagée ont reçu une formation et des données de test pour au moins deux langues. Des sources d'informations autres que les données d'entraînement peuvent avoir été utilisées dans cette tâche partagée.
Page d' accueil : https://aclanthology.org/W02-2024/
Code source :
tfds.text.conll2002.Conll2002Versions :
-
1.0.0(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir
as_superviseddoc ):NoneFigure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (configuration par défaut)
Taille du téléchargement :
3.95 MiBTaille du jeu de données :
3.52 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'dev' | 1 916 |
'test' | 1 518 |
'train' | 8 324 |
- Structure des fonctionnalités :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
| Caractéristique | Classe | Façonner | Dtype | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| ner | Séquence(ClassLabel) | (Aucun,) | int64 | |
| position | Séquence(ClassLabel) | (Aucun,) | int64 | |
| jetons | Séquence (texte) | (Aucun,) | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
conll2002/nl
Taille du téléchargement :
3.47 MiBTaille du jeu de données :
3.55 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'dev' | 2 896 |
'test' | 5 196 |
'train' | 15 807 |
- Structure des fonctionnalités :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
| Caractéristique | Classe | Façonner | Dtype | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| ner | Séquence(ClassLabel) | (Aucun,) | int64 | |
| position | Séquence(ClassLabel) | (Aucun,) | int64 | |
| jetons | Séquence (texte) | (Aucun,) | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):