blog/code.md at cd9ad778d120cefa97845c402a9073e6cea05940

11 KiB

Raw Blame History

title

date

常见编码

unicode编码

A: 00000010 00000010 00000010 00000010  4个字节，32位。
中: 00000010 00000010 00000010 00000010  4个字节，32位
万国码，包含所有国家的文字。

在文本文件中，看到的所有字符，包括中文，都需要在计算机中存储，而计算机只能存储0和1这样的二进制位，

所以需要一种方法，将字符映射成数字，然后将数字转化为二进制位存储在计算机中。

针对字符和数字的映射的问题，产生了unicode编码，unicode将世界上的所有字符映射为唯一的数字。

unicode数字并不是直接就可以转化为二进制存储，比如假设中文字符‘中’映射为数字1（00000001），

‘国’映射为数字2（00000010），由于汉字很多，单字节并不能表示完所有的汉字，

故可能会有汉字的unicode数字为258（00000001 00000010），

假设为‘京’，现在在字符串中碰到存储为00000001 00000010的二进制串，不能区分出其实际代表的是“中国”还是“京”。

针对unicode数字和二进制的映射问题，

有两种解决方法：

一种是每个unicode数字用固定宽度的二进制位表示，比如都用两字节，由此产生了ASCII、GB2312、GBK编码；
另一种是存储的二进制位除了表示数字之外，还表示每个unicode数字的长度，由此产生了utf-8编码。

ASCII编码

ASCII编码用单字节表示字符，最高位固定为0，故最多只能表示128个字符，当编程只涉及到英文字符或数字时，

不涉及中文字符时，可以使用ASCII编码。

A: 00000010  一个字节，8位。只有英文、数字、符号。
最后一位是0。7位就够了，最后一位是预留扩展用的。

GB2312编码、GBK

GB(GuoBiao)为国标，GBK(GuoBiao Kuozhan)表示国标扩展。

GB2312兼容ASCII编码，对于ASCII可以表示的字符，如英文字符‘A’、‘B’等，在GB2312中的编码和ASCII编码一致，

占一个字节，对于ASCII不能表示的字符，GB2312用两个字节表示，且最高位不为0，以防和ASCII字符冲突。

例如：‘A’在GB2312中存储的字节十六进制为41，在ASCII中也是41，中文字符‘中’在GB2312中存储的两个字节十六进制为D6D0，最高位为1不为0。

GB2312只有6763个汉字，而汉字特别多。

GBK属于GB2312的扩展，增加了很多汉字，同时兼容GB2312，同样用两个字节表示非ASCII字符。

A: 00000010 一个字节  8位
中: 00000010 00000010  2个字节，16位
是国人开发的只包含大多数中文和英文。
（ps：中文一共有9w+的汉字，而16位只能包含6w+的汉字）

UTF-8编码

和GB系列不同，UTF-8可以将全世界所有的unicode数字表示出来。

UTF-8兼容ASCII编码，不兼容GB系列编码，因此，若文本中UTF-8和GB系列编码混用，会出现乱码问题。

UTF-8对于每个字符的存储，用最高二进制位开始连续1的个数表示字的长度，最高位为0表示单字节，

用来兼容ASCII字符，为110表示双字节，非字符首字节的字节都以10开始，如下表格所示。

例如：字符‘中’的unicode编码为2D4E(00101101 01001110),用UTF-8存储的二进制为E4B8AD(11100100 10111000 10101101 )，

存储在计算机中的首字节为1110开头，表示此字符占三个字节，去掉开始字节表示长度的1110和其余字节开头的10，

可以得到01001110 00101101(4E2D)，可以看到和unicode数字刚好相反，是因为是大端存储方式，

高字节存储在内存中的低地址端，反过来即为unicode编码。

A: 00000010 一个字节  8位
中: 00000010 00000010 00000010  3个字节，24位
是Unicode的升级优化版。

字节数	二进制编码格式
单字节	0XXXXXXX
双字节	110XXXXX 10XXXXXX
三字节	1110XXXX 10XXXXXX 10XXXXXX
四字节	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
五字节	111110XX 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX
六字节	1111110X 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX

python字符序列及编码问题

上一节对几种常见的编码原理做出了介绍，以便理解python由于编码引起的异常，

本节将对python中的字符串作出介绍，并在此基础上提出几种常见的编码异常，并提供解决方案。

python2和python3字符序列

python2中字符序列有两种类型：unicode和str。unicode字符序列存储的元素为unicode字符。

如图所示，unicode_string代表unicode字符序列“中国”，其长度为2，恰好表示两个unicode字符。

python2中的另一种字符序列是str类型，str类型的字符序列其实是unicode字符序列encode之后的值，

用不同的编码类型encode，得出的值不一样。str字符序列的元素为字节，

如图所示，“中国” 的str字符序列长度为6，为UTF-8编码后所占字节长度。

与unicode字符串转化为str类型用encode相反，str类型的字符序列转化为unicode字符串，

可以通过decode方法，如图所示：

python3中的字符序列也有两种类型：bytes和str。python3中的bytes和python2中的str相似，

str和python2中的unicode相似。这里要注意,str类型在python3和python2中都有，但含义完全变了。

常见编码问题

UnicodeEncoderError

将文本转化为字节序列时，若有字符在目标编码中没有定义，则会出现UnicodeEncoderError。

如图所示，由于中文字符在ascii编码中无定义，则会报出编码错误。

对于此类问题，需选择合适的编码类型，比如含有中文字符，一般用UTF-8编码类型对unicode字符串编码。

UnicodeDecodeError

把二进制序列转化为文本时，遇到无法转换的字节序列，则会发生此异常。

比如用UTF-8编码后的二进制序列，用GB2312解码，由于两种编码不兼容，用GB2312不能识别字节序列，

则会出现异常，如图所示。

碰到这种异常，是由于decode使用的编码和字节序列的编码不一致，

可以用字符编码侦测包chardet检测字节序列的编码，然后再用此编码解码。如图所示:

实践中常见编码异常场景

字符串连接

python代码

1 # -*- coding: utf-8 -*-
2 unicode_string=u'中国'
3 str_string='中国'
4 merge_string= str_string+unicode_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

python代码

1 # -*- coding: utf-8 -*-
2 unicode_string=u'中国'
3 str_string='中国'
4 "中国：%s" % str_string
5 #两种字符序列混用，相当于"中国：%s".decode('ascii')%unicode_string
6 "中国：%s" % unicode_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
7 u"中国：%s"%unicode_string
8 #两种字符序列混用，相当于u"中国：%s"%str_string.decode('ascii')
9 u"中国：%s"%str_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

当str类型字符串和unicode类型字符串混合运算时，python默认会将str类型字符串转化为unicode字符串，

由于不知道str类型字符串的编码格式，会使用 sys.getdefaultencoding() ,

而默认的defaultencoding一般是ascii，故会出错。

print中文问题

如图，python打印变量时，操作系统会对变量进行相应的处理，若变量是str类型，则操作系统直接发送到终端显示，

若变量是unicode类型，则操作系统会对变量用sys.stdout.encoding编码对变量encode，

若变量中含有sys.stdout.encoding未定义字符，则会出现UnicodeEncodeError。

编码后字节序列被发送给终端，假若终端设置的编码和str编码不一致，终端就会显示出乱码。

最佳实践

编写python程序时，为避免不同类型字符串混用出现编解码异常，要把编码和解码操作放在程序的最外围来做，

程序的核心逻辑统一使用unicode字符类型。下面分别对python2和python3编写了外围编码转换工具类。

 1 #python2,unicode和utf-8类型的str互相转换
 2 #file:python2_endecode_helper.py
 3 
 4 # -*- coding: utf-8 -*-
 5 def to_unicode(unicode_or_str):
 6     if isinstance(unicode_or_str, str):
 7         value = unicode_or_str.decode('UTF-8')
 8     else:
 9         value = unicode_or_str
10     return value
11 
12 def to_str(unicode_or_str):
13     if isinstance(unicode_or_str, unicode):
14         value = unicode_or_str.encode('UTF-8')
15     else:
16         value = unicode_or_str
17     return value
18 
19 if __name__=='__main__':
20     unicode_string = u'中国'
21     value = to_str(unicode_string)
22     print type(value) #<type 'str'>
23     value = to_unicode(value)
24     print type(value) #<type 'unicode'>

#python3,str和bytes类型相互转换工具类
#file:python3_endecode_helper.py
def to_str(bytes_or_str):
    if isinstance(bytes_or_str,bytes):
        value = bytes_or_str.decode('UTF-8')
    else:
        value = bytes_or_str
    return value

def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str,str):
        value = bytes_or_str.encode('UTF-8')
    else:
        value = bytes_or_str
    return value

if __name__=='__main__':
    str_string = u'中国'
    value = to_bytes(str_string)
    print(type(value)) #<class 'bytes'>
    value = to_str(value)
    print(type(value)) #<class 'str'>

11 KiB Raw Blame History Unescape Escape