簡介
目前世界上廣泛應用的文字信息交換碼的體系有兩個:ANSI碼和Unicode碼。提高文字的編碼效率,會在通信中産生巨大的經濟效益。
不同ANSI編碼之間互不兼容,當信息在國際間交流時,無法将屬于兩種語言的文字,存儲在同一段ANSI編碼的文本中。ANSI編碼表示英文字符時用一個字節,表示中文用兩個或四個字節。
ANSI編碼作為中國以及部分亞太地區的多字符編碼格式,Windows系統和OSX都是提供原生支持的。但是即便如此,許多國外開發者仍然在開發筆記或者文字錄入類應用的時候将ANSI編碼完全忽略,隻加入全球通用的UTF-8編碼。
其他字符代碼
在實際應用中接觸比較多的文本編碼有3種:ASCII、ANSI和UNICODE,其中ASCII碼是後兩種也是大多數常用編碼的基礎。
ASCII碼
文本編碼方式的基礎是ASCII碼,它是一個7位的編碼标準,包括26個小寫字母、26個大寫字母、10個數字、32個符号、33個控制代碼和一個空格,共128個代碼。由于計算機通常采用“字節”為單位存儲和交換數據信息,因此很多計算機廠家對ASCII碼進行了擴充,在原來的基礎上又增加了128個附加字符,如ANSI、UNICODE等字符集。
UNICODE
對于英文來講,ASCII碼就足以編碼所有字符,但對于中文,則必須使用兩個字節來代表一個漢字,這種表示漢字的方式習慣上稱為雙字節。雖然雙字節可以解決中英文字符混合使用的情況,但對于不同字符系統而言,就要經過字符碼轉換,非常麻煩,如中英、中日、日韓混合的情況。為解決這一問題,很多公司聯合起來制定了一套可以适用于全世界所有國家的字符碼,不管是東方文字還是西方文字,一律用兩個字節來表示,這就是UNICODE。