- বর্ণনা :
এই ডেটাসেটে একটি স্পার্স গ্রাফ রয়েছে যা ওয়েবের একটি ছোট উপসেটের জন্য ওয়েব লিঙ্কের কাঠামোকে উপস্থাপন করে।
এটি 2021 সালে CommonCrawl দ্বারা সঞ্চালিত একটি একক ক্রলের একটি প্রক্রিয়াকৃত সংস্করণ যেখানে আমরা সবকিছু খুলে রাখি এবং শুধুমাত্র লিঙ্ক->আউটলিঙ্কের কাঠামো রাখি। চূড়ান্ত ডেটাসেটটি মূলত int -> তালিকা[int] বিন্যাস যার প্রতিটি পূর্ণসংখ্যা আইডি একটি url প্রতিনিধিত্ব করে।
এছাড়াও, এই সম্পদের মান বৃদ্ধি করার জন্য, আমরা WebGraph-এর 6টি ভিন্ন সংস্করণ তৈরি করেছি, প্রতিটি স্পার্সিটি প্যাটার্ন এবং লোকেলে পরিবর্তিত। আমরা ক্রমানুসারে নিম্নলিখিত প্রক্রিয়াকরণ পদক্ষেপ নিয়েছি:
- আমরা জুন 2021 ক্রল থেকে WAT ফাইলগুলি দিয়ে শুরু করেছি।
- যেহেতু HTTP-প্রতিক্রিয়া-মেটাডেটাতে আউটলিঙ্কগুলি আপেক্ষিক পাথ হিসাবে সংরক্ষণ করা হয়, তাই আমরা প্রতিটি লিঙ্ক যাচাই করার পরে urllib ব্যবহার করে তাদের পরম পাথে রূপান্তর করি।
- লোকেল-নির্দিষ্ট গ্রাফগুলি অধ্যয়ন করার জন্য, আমরা 2টি শীর্ষ স্তরের ডোমেনের উপর ভিত্তি করে আরও ফিল্টার করি: 'de' এবং 'in', প্রতিটি নোডের কম সংখ্যক মাত্রার ক্রম সহ একটি গ্রাফ তৈরি করে।
- এই গ্রাফগুলিতে এখনও নির্বিচারে স্পারসিটি প্যাটার্ন এবং ঝুলন্ত লিঙ্ক থাকতে পারে। এইভাবে আমরা প্রতিটি গ্রাফে নোডগুলিকে ফিল্টার করি যাতে ন্যূনতম K ∈ [10, 50] ইনলিংক এবং আউটলিঙ্ক থাকে। মনে রাখবেন যে আমরা এই প্রক্রিয়াকরণটি শুধুমাত্র একবার করি, এইভাবে এটি এখনও একটি আনুমানিক অর্থাৎ ফলাফল গ্রাফে K লিঙ্কের চেয়ে কম নোড থাকতে পারে।
- উভয় লোকেল এবং গণনা ফিল্টার ব্যবহার করে, আমরা ওয়েবগ্রাফ ডেটাসেটের 6 টি সংস্করণ চূড়ান্ত করি, যা ফলো করা টেবিলে সংক্ষিপ্ত করা হয়েছে।
| সংস্করণ | শীর্ষ স্তরের ডোমেইন | নূন্যতম গণনা | নোড সংখ্যা | প্রান্ত সংখ্যা |
|---|---|---|---|---|
| sparse | 10 | 365.4M | 30B | |
| ঘন | 50 | 136.5M | 22B | |
| ডি-স্পার্স | ডি | 10 | 19.7M | 1.19B |
| কম ঘন | ডি | 50 | 5.7M | 0.82B |
| in-sparse | ভিতরে | 10 | 1.5M | 0.14B |
| মধ্যে ঘন | ভিতরে | 50 | 0.5M | 0.12B |
ডেটাসেটের সমস্ত সংস্করণে নিম্নলিখিত বৈশিষ্ট্য রয়েছে:
- "row_tag": সারির একটি অনন্য শনাক্তকারী (উৎস লিঙ্ক)।
- "col_tag": অ-শূন্য কলামের অনন্য শনাক্তকারীর একটি তালিকা (ডেস্ট আউটলিঙ্ক)।
"gt_tag": গ্রাউন্ড ট্রুথ (ডেস্ট আউটলিঙ্ক) হিসাবে ব্যবহৃত নন-জিরো কলামগুলির অনন্য শনাক্তকারীর একটি তালিকা, ট্রেন/ট্রেন_টি বিভাজনের জন্য খালি।
হোমপেজ : https://arxiv.org/abs/2112.02194
সোর্স কোড :
tfds.structured.web_graph.WebGraphসংস্করণ :
-
1.0.0(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown sizeস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| col_tag | ক্রম (টেনসর) | (কোনটিই নয়,) | int64 | |
| gt_tag | ক্রম (টেনসর) | (কোনটিই নয়,) | int64 | |
| সারি_ট্যাগ | টেনসর | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):Noneচিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-স্পার্সে প্রায় 30B প্রান্ত এবং প্রায় 365M নোড রয়েছে।
ডেটাসেটের আকার :
273.38 GiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- উদাহরণ ( tfds.as_dataframe ):
ওয়েব_গ্রাফ/ঘন
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ঘনটিতে প্রায় 22B প্রান্ত এবং প্রায় 136.5M নোড রয়েছে।
ডেটাসেটের আকার :
170.87 GiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/de-sparse
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 1.19B প্রান্ত এবং প্রায় 19.7M নোড রয়েছে।
ডেটাসেটের আকার :
10.25 GiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/de-dens
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.82B প্রান্ত এবং প্রায় 5.7M নোড রয়েছে।
ডেটাসেটের আকার :
5.90 GiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | ৫,৬৭২,৪৭৩ |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/in-sparse
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 0.14B প্রান্ত এবং প্রায় 1.5M নোড রয়েছে।
ডেটাসেটের আকার :
960.57 MiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/in-dens
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.12B প্রান্ত এবং প্রায় 0.5M নোড রয়েছে।
ডেটাসেটের আকার :
711.72 MiBবিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- উদাহরণ ( tfds.as_dataframe ):