- বর্ণনা :
CoNLL-2002-এর ভাগ করা কাজটি ভাষা-স্বাধীন নামকৃত সত্তার স্বীকৃতি নিয়ে উদ্বিগ্ন। নামধারী সত্ত্বার ধরনগুলির মধ্যে রয়েছে: ব্যক্তি, অবস্থান, সংস্থা এবং বিবিধ সত্তার নাম যা পূর্ববর্তী তিনটি গোষ্ঠীর অন্তর্গত নয়। ভাগ করা টাস্কের অংশগ্রহণকারীদের কমপক্ষে দুটি ভাষার জন্য প্রশিক্ষণ এবং পরীক্ষার ডেটা দেওয়া হয়েছিল। প্রশিক্ষণের ডেটা ব্যতীত অন্য তথ্য উত্সগুলি এই ভাগ করা টাস্কে ব্যবহার করা হতে পারে।
হোমপেজ : https://aclanthology.org/W02-2024/
সোর্স কোড :
tfds.text.conll2002.Conll2002সংস্করণ :
-
1.0.0(ডিফল্ট): প্রাথমিক প্রকাশ।
-
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):Noneচিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (ডিফল্ট কনফিগারেশন)
ডাউনলোড সাইজ :
3.95 MiBডেটাসেটের আকার :
3.52 MiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | ৮,৩২৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| ner | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
| অবস্থান | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
| টোকেন | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
conll2002/nl
ডাউনলোড সাইজ :
3.47 MiBডেটাসেটের আকার :
3.55 MiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| ner | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
| অবস্থান | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
| টোকেন | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):