【转】语言模型 稀疏问题可以通过数据平滑(DataSmoothing)技术来解决。 3.3n-gram模型的数据平滑数据平滑是对频率为0的n元对进行估计,典型的平滑算法有加法平滑、Good-Turing平滑...) C(X)表示X在训练语料中出现的次数,训练语料的规模越大,参数估计的结果越可靠。但即使训练数据的规模很大,如若干GB,还是会有很多...