- Описание :
Контекстуализация
ASSIN 2 — это второе издание Avaliação de Similaridade Semantica e Inferência Textual (Оценка семантического сходства и текстового описания), и это был семинар, приуроченный к STIL 2019 . Он следует за первым изданием ASSIN , предлагая новую общую задачу с новыми данными.
На семинаре оценивались системы, которые оценивают два типа отношений между двумя предложениями: семантическое текстовое сходство и текстовое следствие.
Семантическое сходство текста состоит из количественной оценки уровня семантической эквивалентности между предложениями, в то время как распознавание текстового дополнения состоит из классификации того, влечет ли первое предложение второе.
Данные
Корпус, используемый в ASSIN 2, состоит из довольно простых предложений. Следуя процедурам задания 1 SemEval 2014, мы попытались удалить из корпуса именованные сущности и косвенную речь, а также постарались, чтобы все глаголы были в настоящем времени. Инструкции по аннотированию, данные аннотаторам, доступны (на португальском языке).
Данные обучения и проверки состоят, соответственно, из 6500 и 500 пар предложений на бразильском португальском языке, аннотированных на предмет следования и семантического сходства. Значения семантического подобия варьируются от 1 до 5, а классы следствия текста либо являются следствиями, либо отсутствуют. Тестовые данные состоят примерно из 3000 пар предложений с одинаковыми аннотациями. Все данные были аннотированы вручную.
Оценка
Оценка Оценка представлений в ASSIN 2 проводилась с теми же метриками, что и в первом ASSIN, с F1 точности и полноты в качестве основного показателя для следования текста и корреляции Пирсона для семантического сходства. Сценарии оценки такие же, как и в последнем издании.
PS: Описание взято с официальной страницы .
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://sites.google.com/view/assin2/english 
- Исходный код : - tfds.datasets.assin2.Builder
- Версии : -  1.0.0(по умолчанию): Первоначальный выпуск.
 
-  
- Размер загрузки : - 2.02 MiB
- Размер набора данных : - 1.82 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'test' | 2448 | 
| 'train' | 6500 | 
| 'validation' | 500 | 
- Структура функции :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| логическое следствие | Метка класса | int64 | ||
| гипотеза | Текст | нить | ||
| я бы | Тензор | int32 | ||
| сходство | Тензор | поплавок32 | ||
| текст | Текст | нить | 
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Примеры ( tfds.as_dataframe ): 
- Цитата :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}