Unigram Language Model:这种方法基于概率模型,通过优化下一个词出现的概率来进行Tokenization,它可以输出具有概率的多个分段。 WordPiece:这种方法类似于BPE,但它基于可能性而不是频率来形成新的子词单元。 这些方法各有优缺点,通常根据具体的应用场景和需求来选择合适的Tokenization方法。 References 机器如何认识文本 ?NLP...