- Deskripsi :
BIGPATENT, terdiri dari 1,3 juta catatan dokumen paten AS bersama dengan ringkasan abstraksi tertulis manusia. Setiap aplikasi paten AS diajukan di bawah kode Cooperative Patent Classification (CPC). Ada sembilan kategori klasifikasi seperti itu:
- A (Kebutuhan Manusia),
- B (Melakukan Operasi; Mengangkut),
- C (Kimia; Metalurgi),
- D (Tekstil; Kertas),
- E (Konstruksi Tetap),
- F (Teknik Mesin; Petir; Pemanas; Senjata; Peledakan),
- G (Fisika),
- H (Listrik), dan
- Y (Penandaan umum teknologi baru atau cross-sectional)
Ada dua fitur:
- deskripsi: penjelasan rinci tentang paten.
ringkasan: Abstrak paten.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://evasharma.github.io/bigpatent/
Kode sumber :
tfds.datasets.big_patent.BuilderVersi :
-
1.0.0: kata-kata token dengan huruf kecil -
2.0.0: Perbarui untuk menggunakan string mentah cased -
2.1.2(default): Perbaiki pembaruan untuk string mentah berselubung.
-
Ukuran unduhan :
9.45 GiBDi-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| abstrak | Teks | rangkaian | ||
| keterangan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('description', 'abstract')Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (konfigurasi default)
Deskripsi konfigurasi : Paten di bawah semua kategori.
Ukuran dataset :
35.17 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 67.072 |
'train' | 1.207.222 |
'validation' | 67.068 |
- Contoh ( tfds.as_dataframe ):
big_patent/a
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)a: Kebutuhan Manusia
Ukuran dataset :
5.16 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 9.675 |
'train' | 174.134 |
'validation' | 9.674 |
- Contoh ( tfds.as_dataframe ):
big_patent/b
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)b: Melakukan Operasi; Mengangkut
Ukuran dataset :
4.06 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 8.974 |
'train' | 161.520 |
'validation' | 8.973 |
- Contoh ( tfds.as_dataframe ):
big_patent/c
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)c: Kimia; Metalurgi
Ukuran dataset :
3.63 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 5.614 |
'train' | 101.042 |
'validation' | 5.613 |
- Contoh ( tfds.as_dataframe ):
big_patent/d
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)d: Tekstil; Kertas
Ukuran dataset :
255.56 MiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 565 |
'train' | 10.164 |
'validation' | 565 |
- Contoh ( tfds.as_dataframe ):
big_patent/e
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)e: Fixed Constructions
Ukuran dataset :
871.40 MiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 1.914 |
'train' | 34.443 |
'validation' | 1.914 |
- Contoh ( tfds.as_dataframe ):
big_patent/f
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)f: Teknik Mesin; Petir; Pemanasan; Senjata; Peledakan
Ukuran dataset :
2.06 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 4.754 |
'train' | 85.568 |
'validation' | 4.754 |
- Contoh ( tfds.as_dataframe ):
big_patent/g
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)g: Fisika
Ukuran dataset :
8.19 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 14.386 |
'train' | 258.935 |
'validation' | 14.385 |
- Contoh ( tfds.as_dataframe ):
big_patent/h
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)h: Listrik
Ukuran dataset :
7.50 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 14.279 |
'train' | 257.019 |
'validation' | 14.279 |
- Contoh ( tfds.as_dataframe ):
big_patent/y
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)y: Penandaan umum teknologi baru atau cross-sectional
Ukuran dataset :
3.46 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 6.911 |
'train' | 124.397 |
'validation' | 6.911 |
- Contoh ( tfds.as_dataframe ):