中文数据质量差是中文的问题么? | 快速扫了一遍 sharegpt,alpaca,med等等数据。 作为一个网络人口绝对值很高的语种。严格来说,不是从印刷时代历史积累下来的中文数据质量垃圾,而是搜集清洗整理中文数据的人太拉了。而这一点似乎才是中文科技工作者或者说科级领导不愿意承认的。说到数据质量反而是看到最近准备比赛的一组本科生,