- विवरण :
CoNLL-2002 का साझा कार्य भाषा-स्वतंत्र नामित इकाई मान्यता से संबंधित है। नामित संस्थाओं के प्रकारों में शामिल हैं: व्यक्ति, स्थान, संगठन और विविध संस्थाओं के नाम जो पिछले तीन समूहों से संबंधित नहीं हैं। साझा कार्य के प्रतिभागियों को कम से कम दो भाषाओं के लिए प्रशिक्षण और परीक्षण डेटा की पेशकश की गई। इस साझा कार्य में प्रशिक्षण डेटा के अलावा अन्य सूचना स्रोतों का उपयोग किया गया हो सकता है।
होमपेज : https://aclanthology.org/W02-2024/
स्रोत कोड :
tfds.text.conll2002.Conll2002संस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
3.95 MiBडेटासेट का आकार :
3.52 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- फ़ीचर संरचना :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| नेर | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
| स्थिति | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
| टोकन | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):
conll2002/nl
डाउनलोड आकार :
3.47 MiBडेटासेट का आकार :
3.55 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- फ़ीचर संरचना :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| नेर | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
| स्थिति | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
| टोकन | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):