- คำอธิบาย :
การระบุประโยคคู่ขนานในหน่วยเปรียบเทียบ เมื่อพิจารณาจากองค์กรภาษาเดียวที่แยกประโยคออกเป็นสองประโยค ระบบผู้เข้าร่วมคาดว่าจะระบุคู่ของประโยคที่เป็นการแปลของกันและกัน
งานการขุด BUCC เป็นงานที่ใช้ร่วมกันในการแยกประโยคคู่ขนานจากคลังข้อมูลภาษาเดียวสองรายการโดยมีส่วนย่อยที่ถือว่าคู่ขนานกัน และมีให้บริการตั้งแต่ปี 2559 สำหรับแต่ละคู่ภาษา งานที่ใช้ร่วมกันจะจัดเตรียมคลังข้อมูลภาษาเดียวสำหรับแต่ละภาษาและ รายการการจับคู่ทองคำที่มีคู่การแปลจริง คู่เหล่านี้เป็นความจริงพื้นฐาน ภารกิจคือสร้างรายการคู่การแปลจากองค์กรภาษาเดียว รายการที่สร้างขึ้นจะถูกเปรียบเทียบกับความจริงพื้นฐาน และประเมินในแง่ของการวัด F1
- หน้าแรก : https://comparable.limsi.fr/bucc2018/ 
- รหัสแหล่งที่มา : - tfds.datasets.bucc.Builder
- รุ่น : -  1.0.0(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
 
-  
- แคชอัตโนมัติ ( เอกสาร ): ใช่ 
- โครงสร้างคุณลักษณะ : 
FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
| ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย | 
|---|---|---|---|---|
| คุณสมบัติDict | ||||
| รหัสแหล่งที่มา | ข้อความ | สตริง | ||
| source_sentence | ข้อความ | สตริง | ||
| target_id | ข้อความ | สตริง | ||
| target_sentence | ข้อความ | สตริง | 
- คีย์ภายใต้การดูแล (ดู - as_superviseddoc ):- None
- รูปภาพ ( tfds.show_examples ): ไม่รองรับ 
- การอ้างอิง : 
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}
bucc/bucc_de (การกำหนดค่าเริ่มต้น)
- ขนาดการดาวน์โหลด : - 29.30 MiB
- ขนาดชุดข้อมูล : - 3.21 MiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 9,580 | 
| 'validation' | 1,038 | 
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_fr
- ขนาดการดาวน์โหลด : - 21.65 MiB
- ขนาดชุดข้อมูล : - 2.90 MiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 9,086 | 
| 'validation' | 929 | 
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_zh
- ขนาดการดาวน์โหลด : - 6.79 MiB
- ขนาดชุดข้อมูล : - 615.20 KiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 1,899 | 
| 'validation' | 257 | 
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_ru
- ขนาดการดาวน์โหลด : - 39.44 MiB
- ขนาดชุดข้อมูล : - 6.36 MiB
- แยก : 
| แยก | ตัวอย่าง | 
|---|---|
| 'test' | 14,435 | 
| 'validation' | 2,374 | 
- ตัวอย่าง ( tfds.as_dataframe ):