esquadrão

  • Descrição :

Stanford Question Answering Dataset (SQuAD) é um conjunto de dados de compreensão de leitura, que consiste em perguntas feitas por crowdworkers em um conjunto de artigos da Wikipedia, onde a resposta para cada pergunta é um segmento de texto, ou extensão, da passagem de leitura correspondente, ou a pergunta pode ser irrespondível.

@article{2016arXiv160605250R,
       author
= { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 
Konstantin and {Liang}, Percy},
        title
= "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal
= {arXiv e-prints},
         year
= 2016,
          eid
= {arXiv:1606.05250},
        pages
= {arXiv:1606.05250},
archivePrefix
= {arXiv},
       eprint
= {1606.05250},
}

squad/v1.1 (configuração padrão)

  • Descrição da configuração : Versão 1.1.0 do SQUAD

  • Tamanho do download : 33.51 MiB

  • Tamanho do conjunto de dados : 94.06 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 87.599
'validation' 10.570
  • Estrutura de recursos :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
respostas Seqüência
respostas/resposta_início tensor int32
respostas/texto Texto corda
contexto Texto corda
Eu iria tensor corda
pergunta Texto corda
título Texto corda

esquadrão/v2.0

  • Descrição da configuração : Versão 2.0.0 do SQUAD

  • Tamanho do download : 44.34 MiB

  • Tamanho do conjunto de dados : 148.54 MiB

  • Armazenado automaticamente em cache ( documentação ): Sim (validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 130.319
'validation' 11.873
  • Estrutura de recursos :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'is_impossible': bool,
   
'plausible_answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
respostas Seqüência
respostas/resposta_início tensor int32
respostas/texto Texto corda
contexto Texto corda
Eu iria tensor corda
é impossível tensor bool
plausible_answers Seqüência
plausible_answers/answer_start tensor int32
plausible_answers/text Texto corda
pergunta Texto corda
título Texto corda