- توضیحات :
جاسازیهای بردار جهانی برای نمایش کلمه (GloVe) برای جستجوی تقریبی نزدیکترین همسایه. این مجموعه داده از دو تقسیم تشکیل شده است:
- 'پایگاه داده': شامل 1,183,514 نقطه داده است که هر کدام دارای ویژگی هایی است: 'جاسازی' (100 شناور)، 'شاخص' (int64)، 'همسایگان' (فهرست خالی).
- "تست": شامل 10000 نقطه داده است که هر کدام دارای ویژگی هایی است: "جاسازی" (100 شناور)، "شاخص" (int64)، "همسایگان" (فهرست "شاخص" و "فاصله" نزدیکترین همسایگان در پایگاه داده. )
صفحه اصلی : https://nlp.stanford.edu/projects/glove/
کد منبع :
tfds.nearest_neighbors.glove_100_angular.Glove100Angularنسخه ها :
-
1.0.0(پیش فرض): انتشار اولیه.
-
حجم دانلود :
462.93 MiBحجم مجموعه داده :
567.90 MiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| تقسیم کنید | نمونه ها |
|---|---|
'database' | 1,183,514 |
'test' | 10000 |
- ساختار ویژگی :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | توضیحات |
|---|---|---|---|---|
| FeaturesDict | ||||
| تعبیه کردن | تانسور | (100،) | float32 | |
| شاخص | اسکالر | int64 | شاخص در شکاف. | |
| همسایه ها | دنباله | همسایه های محاسبه شده، که فقط برای تقسیم تست در دسترس است. | ||
| همسایگان/فاصله | اسکالر | float32 | فاصله همسایه | |
| همسایگان/شاخص | اسکالر | int64 | شاخص همسایه. |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}