Japanese-LUW-Tokenizer

Japanese Long-Unit-Word (国語研長単位) Tokenizer for Transformers based on 青空文庫

Basic Usage

>>> from transformers import RemBertTokenizerFast
>>> tokenizer=RemBertTokenizerFast.from_pretrained("Japanese-LUW-Tokenizer")
>>> tokenizer.tokenize("全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている")
['全', '学年', 'にわたって', '小学校', 'の', '国語', 'の', '教科書', 'に', '大量', 'の', '挿し', '絵', 'が', '用い', 'られ', 'ている']

Installation

pip3 install 'transformers>=4.10.0' --user
git clone --depth=1 https://github.com/KoichiYasuoka/Japanese-LUW-Tokenizer

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
benchmark		benchmark
scripts		scripts
LICENSE.txt		LICENSE.txt
README.md		README.md
sentencepiece.model		sentencepiece.model
special_tokens_map.json		special_tokens_map.json
tokenizer.json		tokenizer.json
tokenizer_config.json		tokenizer_config.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Japanese-LUW-Tokenizer

Basic Usage

Installation

About

Releases

Packages

Languages

License

QiChaoLiang/Japanese-LUW-Tokenizer

Folders and files

Latest commit

History

Repository files navigation

Japanese-LUW-Tokenizer

Basic Usage

Installation

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages