- Descriptif :
BIGPATENT, composé de 1,3 million d'enregistrements de documents de brevets américains ainsi que de résumés abstraits écrits par des humains. Chaque demande de brevet américain est déposée sous un code de classification coopérative des brevets (CPC). Il existe neuf catégories de classification de ce type :
- A (nécessités humaines),
- B (Exécution d'opérations ; Transport),
- C (Chimie; Métallurgie),
- D (Textile; Papier),
- E (Constructions Fixes),
- F (Génie Mécanique ; Foudre ; Chauffage ; Armes ; Dynamitage),
- G (Physique),
- H (Électricité), et
- Y (marquage général des technologies nouvelles ou transversales)
Il existe deux fonctionnalités :
- description : description détaillée du brevet.
résumé : Abrégé de brevet.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : https://evasharma.github.io/bigpatent/
Code source :
tfds.datasets.big_patent.BuilderVersions :
-
1.0.0: mots symbolisés en minuscules -
2.0.0: Mise à jour pour utiliser les chaînes brutes en casse -
2.1.2(par défaut) : Correction de la mise à jour des chaînes brutes en casse.
-
Taille du téléchargement :
9.45 GiBMise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Dtype | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| abstrait | Texte | chaîne | ||
| description | Texte | chaîne |
Clés supervisées (Voir
as_superviseddoc ):('description', 'abstract')Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (configuration par défaut)
Description de la configuration : Brevets sous toutes les catégories.
Taille du jeu de données :
35.17 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 67 072 |
'train' | 1 207 222 |
'validation' | 67 068 |
- Exemples ( tfds.as_dataframe ):
big_patent/a
Description de la configuration : Brevets sous classification coopérative des brevets (CPC)a : nécessités humaines
Taille du jeu de données :
5.16 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 9 675 |
'train' | 174 134 |
'validation' | 9 674 |
- Exemples ( tfds.as_dataframe ):
big_patent/b
Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)b : exécution d'opérations ; Transport
Taille du jeu de données :
4.06 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 8 974 |
'train' | 161 520 |
'validation' | 8 973 |
- Exemples ( tfds.as_dataframe ):
big_patent/c
Description de la configuration : Brevets sous classification coopérative des brevets (CPC)c : chimie ; Métallurgie
Taille du jeu de données :
3.63 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 5 614 |
'train' | 101 042 |
'validation' | 5 613 |
- Exemples ( tfds.as_dataframe ):
big_patent/d
Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)d : textiles ; Papier
Taille du jeu de données :
255.56 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 565 |
'train' | 10 164 |
'validation' | 565 |
- Exemples ( tfds.as_dataframe ):
big_patent/e
Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)e : Constructions Fixes
Taille du jeu de données :
871.40 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 1 914 |
'train' | 34 443 |
'validation' | 1 914 |
- Exemples ( tfds.as_dataframe ):
big_patent/f
Description de la configuration : Brevets relevant de la Classification coopérative des brevets (CPC)f : Génie mécanique ; Foudre; Chauffage; Armes; Dynamitage
Taille du jeu de données :
2.06 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 4 754 |
'train' | 85 568 |
'validation' | 4 754 |
- Exemples ( tfds.as_dataframe ):
big_patent/g
Description de la configuration : Brevets sous classification coopérative des brevets (CPC) g : physique
Taille du jeu de données :
8.19 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 14 386 |
'train' | 258 935 |
'validation' | 14 385 |
- Exemples ( tfds.as_dataframe ):
big_patent/h
Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)h : Électricité
Taille du jeu de données :
7.50 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 14 279 |
'train' | 257 019 |
'validation' | 14 279 |
- Exemples ( tfds.as_dataframe ):
big_patent/y
Description de la configuration : Brevets sous classification coopérative des brevets (CPC) y : étiquetage général des technologies nouvelles ou transversales
Taille du jeu de données :
3.46 GiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 6 911 |
'train' | 124 397 |
'validation' | 6 911 |
- Exemples ( tfds.as_dataframe ):