1. ERNIE-Gram的由来 在经典预训练模型BERT中,主要是通过Masked Language Modeling(MLM)预训练任务学习语言知识。在BERT中MLM会随机Masking一些位置的token,然后让模型去预测这些token。这些Masking的token在中文中便是字,在英文中便是sub-word,这样的预测也许不能让模型获取更加直观的语言知识,所以后续又出现了一些模型...
于是,我们做一个简单的马尔科夫假设(Markov Assumption)来简化问题:假设第i个词出现的概率只与前面的N-1个词有关,这就是N-gram语言模型的由来。比如计算的概率时候,我们假设单词wi出现的概率只与前面出现的N个词有关: 当N=1的时候,为一元模型(Unigram model):P(S)=P(w1,w2,w3,..,wn)=P(W1)*P(W2)*...
使用SRILM生成arpa格式的语言模型 ngram-count -sort -text lm/test_lm.seg 3 -unk -map-unk "UNK" -interpolate -lm corpus.lm 将语言模型转化为G.fst arpa2fst --disambig-symbol=#0 --read-symbol-table=gmm/data/lang/words.txt corpus.lm G.fst ...
ngram-count-read speechocean-train-4gram.count-order4-lm speechocean-train-4gram.arpa-interpolate-kndiscount 3.模型剪枝 对3gram语言模型进行剪枝操作 执行命令剪枝3gram模型,剪枝阈值为0.0000001 ngram-lm speechocean-train-3gram.arpa-order3-prune0.0000001-write-lm speechocean-train-3gram-pruned-0.0000001....
来自苹果公司的研究团队提出了一种单模型推测解码方法——Speculative Streaming,它通过将微调目标从下一个 token 预测改为未来的 n-gram 预测,将草稿模型融合到目标模型中。Speculative Streaming 在处理多种任务(如Summarization,Structured Queries和Meaning Representation)中,在不影响生成质量的同时将解码速度提高了 1.8...