- Descrizione :
ProteinNet è un set di dati standardizzato per l'apprendimento automatico della struttura delle proteine. Fornisce sequenze proteiche, strutture (secondarie e terziarie), allineamenti di sequenze multiple (MSA), matrici di punteggio specifiche per posizione (PSSM) e divisioni standardizzate di addestramento/validazione/test. ProteinNet si basa sulle valutazioni CASP biennali, che eseguono previsioni cieche di strutture proteiche recentemente risolte ma non disponibili pubblicamente, per fornire set di test che spingono le frontiere della metodologia computazionale. È organizzato come una serie di set di dati, che vanno da CASP 7 a 12 (coprendo un periodo di dieci anni), per fornire una gamma di dimensioni di set di dati che consentono la valutazione di nuovi metodi in regimi relativamente poveri di dati e ricchi di dati.
Homepage : https://github.com/aqlaboratory/proteinnet
Codice sorgente :
tfds.datasets.protein_net.BuilderVersioni :
-
1.0.0(impostazione predefinita): versione iniziale.
-
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| evolutivo | Tensore | (Nessuno, 21) | galleggiante32 | |
| id | Testo | corda | ||
| lunghezza | Tensore | int32 | ||
| maschera | Tensore | (Nessuno,) | bool | |
| primario | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
| terziario | Tensore | (Nessuno, 3) | galleggiante32 |
Chiavi supervisionate (vedi
as_superviseddoc ):('primary', 'tertiary')Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configurazione predefinita)
Dimensione del download :
3.18 GiBDimensione del set di dati:
2.53 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp8
Dimensioni del download :
4.96 GiBDimensione del set di dati:
3.55 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21,191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp9
Dimensione del download :
6.65 GiBDimensione del set di dati:
4.54 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp10
Dimensione del download :
8.65 GiBDimensione del set di dati:
5.57 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp11
Dimensioni del download :
10.81 GiBDimensione del set di dati:
6.72 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp12
Dimensioni del download :
13.18 GiBDimensione del set di dati:
8.05 GiBDivisioni :
| Diviso | Esempi |
|---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):