- คำอธิบาย :
ชุดข้อมูลนี้มีกราฟกระจัดกระจายซึ่งแสดงโครงสร้างลิงก์เว็บสำหรับส่วนย่อยเล็กๆ ของเว็บ
เป็นเวอร์ชันที่ประมวลผลแล้วของการรวบรวมข้อมูลเดี่ยวที่ดำเนินการโดย CommonCrawl ในปี 2021 โดยเราจะตัดทุกอย่างออกและเก็บเฉพาะโครงสร้างลิงก์->เอาท์ลิงก์ ชุดข้อมูลสุดท้ายนั้นเป็นรูปแบบ int -> List[int] โดยแต่ละรหัสจำนวนเต็มจะแทน url
นอกจากนี้ เพื่อเพิ่มมูลค่าของทรัพยากรนี้ เราได้สร้าง WebGraph 6 เวอร์ชันที่แตกต่างกัน โดยแต่ละเวอร์ชันจะแตกต่างกันไปตามรูปแบบและโลแคล เราใช้ขั้นตอนการประมวลผลต่อไปนี้ ตามลำดับ:
- เราเริ่มต้นด้วยไฟล์ WAT จากการรวบรวมข้อมูลในเดือนมิถุนายน 2021
- เนื่องจากเอาท์ลิงก์ใน HTTP-Response-Metadata ถูกจัดเก็บเป็นพาธสัมพัทธ์ เราจึงแปลงเป็นพาธสัมบูรณ์โดยใช้ urllib หลังจากตรวจสอบแต่ละลิงก์แล้ว
- เพื่อศึกษากราฟเฉพาะตำแหน่งที่ตั้ง เรากรองเพิ่มเติมตามโดเมนระดับบนสุด 2 โดเมน: 'de' และ 'in' โดยแต่ละโดเมนจะสร้างกราฟที่มีลำดับความสำคัญน้อยกว่าจำนวนโหนด
- กราฟเหล่านี้ยังคงมีรูปแบบกระจัดกระจายตามอำเภอใจและลิงก์ห้อย ดังนั้นเราจึงกรองโหนดเพิ่มเติมในแต่ละกราฟเพื่อให้มีลิงก์เข้าและออกขั้นต่ำ K ∈ [10, 50] โปรดทราบว่าเราทำการประมวลผลเพียงครั้งเดียว ดังนั้นนี่จึงยังคงเป็นการประมาณ เช่น กราฟผลลัพธ์อาจมีโหนดที่มีลิงก์น้อยกว่า K
- การใช้ทั้งตัวกรองตำแหน่งที่ตั้งและจำนวนนับ เราสรุปชุดข้อมูล WebGraph 6 เวอร์ชัน สรุปไว้ในตารางต่อไปนี้
| รุ่น | โดเมนระดับบนสุด | นับขั้นต่ำ | จำนวนโหนด | ขอบตัวเลข | 
|---|---|---|---|---|
| เบาบาง | 10 | 365.4M | 30 บ | |
| หนาแน่น | 50 | 136.5ม | 22B | |
| กระจัดกระจาย | เดอ | 10 | 19.7M | 1.19 บ | 
| ไม่หนาแน่น | เดอ | 50 | 5.7M | 0.82บ | 
| ในเบาบาง | ใน | 10 | 1.5M | 0.14บ | 
| ในความหนาแน่น | ใน | 50 | 0.5M | 0.12บ | 
ชุดข้อมูลทุกรุ่นมีคุณสมบัติดังต่อไปนี้:
- "row_tag": ตัวระบุเฉพาะของแถว (ลิงก์แหล่งที่มา)
- "col_tag": รายการตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ (ปลายทาง outlinks)
- "gt_tag": รายการของตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ที่ใช้เป็นค่าความจริงพื้นฐาน (ปลายทางของลิงก์ภายนอก) ว่างเปล่าสำหรับการแยก train/train_t 
- โฮมเพจ : https://arxiv.org/abs/2112.02194 
- รหัสที่มา : - tfds.structured.web_graph.WebGraph
- รุ่น : -  1.0.0(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
 
-  
- ขนาดการดาวน์โหลด : - Unknown size
- แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่ 
- โครงสร้างคุณลักษณะ : 
FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
- เอกสารคุณสมบัติ :
| ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย | 
|---|---|---|---|---|
| คุณสมบัติDict | ||||
| col_tag | ลำดับ (เทนเซอร์) | (ไม่มี,) | int64 | |
| gt_tag | ลำดับ (เทนเซอร์) | (ไม่มี,) | int64 | |
| row_tag | เทนเซอร์ | int64 | 
- คีย์ภายใต้การดูแล (ดู - as_superviseddoc ):- None
- รูปภาพ ( tfds.show_examples ): ไม่รองรับ 
- การอ้างอิง : 
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
web_graph/sparse (การกำหนดค่าเริ่มต้น)
- คำอธิบาย การกำหนดค่า: WebGraph-sparse มีขอบประมาณ 30B และโหนดประมาณ 365M 
- ขนาดชุดข้อมูล : - 273.38 GiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 39,871,321 | 
| 'train' | 372,049,054 | 
| 'train_t' | 410,867,007 | 
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/หนาแน่น
- คำอธิบาย การกำหนดค่า: WebGraph-dense มีขอบประมาณ 22B และโหนดประมาณ 136.5M 
- ขนาดชุดข้อมูล : - 170.87 GiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 13,256,496 | 
| 'train' | 122,815,749 | 
| 'train_t' | 136,019,364 | 
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/de-sparse
- คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 1.19B และโหนดประมาณ 19.7M 
- ขนาดชุดข้อมูล : - 10.25 GiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 1,903,443 | 
| 'train' | 17,688,633 | 
| 'train_t' | 19,566,045 | 
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/de-หนาแน่น
- คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.82B และโหนดประมาณ 5.7M 
- ขนาดชุดข้อมูล : - 5.90 GiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 553,270 | 
| 'train' | 5,118,902 | 
| 'train_t' | 5,672,473 | 
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/in-sparse
- คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 0.14B และโหนดประมาณ 1.5M 
- ขนาดชุดข้อมูล : - 960.57 MiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 140,313 | 
| 'train' | 1,309,063 | 
| 'train_t' | 1,445,042 | 
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/หนาแน่น
- คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.12B และโหนดประมาณ 0.5M 
- ขนาดชุดข้อมูล : - 711.72 MiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 47,894 | 
| 'train' | 443,786 | 
| 'train_t' | 491,634 | 
- ตัวอย่าง ( tfds.as_dataframe ):