- Descriptif :
ProteinNet est un ensemble de données standardisé pour l'apprentissage automatique de la structure des protéines. Il fournit des séquences de protéines, des structures (secondaires et tertiaires), des alignements de séquences multiples (MSA), des matrices de notation spécifiques à la position (PSSM) et des fractionnements de formation/validation/test standardisés. ProteinNet s'appuie sur les évaluations biennales du CASP, qui effectuent des prédictions à l'aveugle de structures protéiques récemment résolues mais non disponibles publiquement, pour fournir des ensembles de tests qui repoussent les frontières de la méthodologie informatique. Il est organisé en une série d'ensembles de données, couvrant les CASP 7 à 12 (couvrant une période de dix ans), pour fournir une gamme de tailles d'ensembles de données qui permettent l'évaluation de nouvelles méthodes dans des régimes relativement pauvres en données et riches en données.
Page d' accueil : https://github.com/aqlaboratory/proteinnet
Code source :
tfds.datasets.protein_net.BuilderVersions :
-
1.0.0(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentation des fonctionnalités :
| Caractéristique | Classer | Forme | Dtype | La description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| évolutionniste | Tenseur | (Aucun, 21) | float32 | |
| identifiant | Texte | chaîne de caractères | ||
| longueur | Tenseur | int32 | ||
| masque | Tenseur | (Aucun,) | bourdonner | |
| primaire | Séquence(ClassLabel) | (Aucun,) | int64 | |
| tertiaire | Tenseur | (Aucun, 3) | float32 |
Clés supervisées (Voir
as_superviseddoc ):('primary', 'tertiary')Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configuration par défaut)
Taille du téléchargement :
3.18 GiBTaille du jeu de données :
2.53 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 93 |
'train_100' | 34 557 |
'train_30' | 10 333 |
'train_50' | 13 024 |
'train_70' | 15 207 |
'train_90' | 17 611 |
'train_95' | 17 938 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp8
Taille du téléchargement :
4.96 GiBTaille du jeu de données :
3.55 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 120 |
'train_100' | 48 087 |
'train_30' | 13 881 |
'train_50' | 17 970 |
'train_70' | 21 191 |
'train_90' | 24 556 |
'train_95' | 25 035 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp9
Taille du téléchargement :
6.65 GiBTaille du jeu de données :
4.54 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 116 |
'train_100' | 60 350 |
'train_30' | 16 973 |
'train_50' | 22 172 |
'train_70' | 26 263 |
'train_90' | 30 513 |
'train_95' | 31 128 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp10
Taille du téléchargement :
8.65 GiBTaille du jeu de données :
5.57 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 95 |
'train_100' | 73 116 |
'train_30' | 19 495 |
'train_50' | 25 897 |
'train_70' | 31 001 |
'train_90' | 36 258 |
'train_95' | 37 033 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp11
Taille du téléchargement :
10.81 GiBTaille du jeu de données :
6.72 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 81 |
'train_100' | 87 573 |
'train_30' | 22 344 |
'train_50' | 29 936 |
'train_70' | 36 005 |
'train_90' | 42 507 |
'train_95' | 43 544 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp12
Taille du téléchargement :
13.18 GiBTaille du jeu de données :
8.05 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 40 |
'train_100' | 104 059 |
'train_30' | 25 299 |
'train_50' | 34 039 |
'train_70' | 41 522 |
'train_90' | 49 600 |
'train_95' | 50 914 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):