UTF-8,是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存... 所以,python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill),如果是如下代码的话: 报错:ascii码无法表示中文...
总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则: unicode => encode(‘合适的编码') => str str => decode(‘合适的编码') => unicode 还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦: import sys reloads(sys) sys.s...
如题:[\u4e00-\u9fa5] 最后编辑于:
python2默认编码:ASCll python3默认编码:Unicode GBK 是目前为止用的最常见的显示中文的编码格式。 ASCII, 一个英文字符,占一个字节byte(占8位bit) Unicode,一个英文字符或中文,占二个字节(占16位) UTF-8,一个英文字符,占一个字节,欧洲码占二个字节,中文占3个字节。