豆瓣影评 - 飞桨AI Studio
#2、特征处理:从数据里面拿到有区分度的特征,采用TF-IDF向量方法 from sklearn.feature_extraction.text import TfidfVectorizer as TFIV # 初始化TFIV对象,去停用词,加2元语言模型 tfv = TFIV(min_df=3, max_features=None, strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}', ngra...