- Descrizione :
Questo set di dati contiene circa 3 milioni di messaggi da reddit. Ogni messaggio è etichettato con metadati. L'attività è prevedere l'id del suo messaggio principale nel thread corrispondente. Ogni record contiene un elenco di messaggi da un thread. I record duplicati e interrotti vengono rimossi dal set di dati.
Le caratteristiche sono:
- id - id messaggio
- testo - testo del messaggio
- autore - autore del messaggio
- created_utc - timestamp UTC del messaggio
- link_id - ID del post a cui si riferisce il commento
Obbiettivo:
parent_id - id del messaggio principale nel thread corrente
Home page : https://github.com/henghuiz/MaskedHierarchicalTransformer
Codice sorgente :
tfds.datasets.reddit_disentanglement.BuilderVersioni :
-
2.0.0(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown sizeDimensioni del set di dati :
Unknown sizeIstruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir(il valore predefinito~/tensorflow_datasets/downloads/manual/):
Scarica https://github.com/henghuiz/MaskedHierarchicalTransformer, decomprimi raw_data.zip ed esegui generate_dataset.py con le tue credenziali API reddit. Quindi inserisci train.csv, val.csv e test.csv dalla directory di output nella cartella manual.Cache automatica ( documentazione ): Sconosciuto
Divisioni :
| Diviso | Esempi |
|---|
- Struttura delle caratteristiche :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| filo | Sequenza | |||
| filo/autore | Testo | corda | ||
| discussione/creato_utc | Testo | corda | ||
| filo/id | Testo | corda | ||
| thread/link_id | Testo | corda | ||
| thread/id_genitore | Testo | corda | ||
| filo/testo | Testo | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):NoneFigura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}