- Mô tả :
Một kho văn bản chuẩn được sử dụng để đo lường tiến độ trong mô hình ngôn ngữ thống kê. Điều này có gần một tỷ từ trong dữ liệu đào tạo.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.statmt.org/lm-benchmark/
Mã nguồn :
tfds.datasets.lm1b.BuilderPhiên bản :
-
1.1.0(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
1.67 GiBKích thước tập dữ liệu :
4.40 GiBTự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 306.688 |
'train' | 30.301.028 |
- Cấu trúc tính năng :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('text', 'text')Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}