Update README.md

This commit is contained in:
Zeyao Du
2019-12-08 10:25:13 +08:00
committed by GitHub
parent ce72444db2
commit d8b648b25d

View File

@@ -50,7 +50,7 @@ python ./generate.py --length=50 --nsamples=4 --prefix=xxx --fast_pattern --save
## 注意
- 本项目使用Bert的tokenizer处理中文字符。
- 如果使用分词版的tokenizer不需要自己事先分词tokenizer会帮你分。
- 如果使用分词版的tokenizer不需要自己事先分词tokenizer会帮你分。
- 如果使用分词版的tokenizer最好先使用cache文件夹内的make_vocab.py文件建立针对你的语料的词表。
- 模型需自行运算。各位如果完成了预训练的话欢迎进行交流。
- 如果你的内存非常大或者语料较小的话可以改掉train.py内build files内的对应代码不做拆分直接预处理语料。