Python 常見字串編碼問題
python 讀取文字檔,檔頭為\ufeff,係Windows的記事本建立UTF-8等Unicode格式文字檔,會在檔頭加入一個位元組順序記號(BOM),標示檔案是以UTF-8、UTF-16或UTF-32編碼的記號,此編碼格式名稱就為UTF-8-SIG。只要把編碼utf-8,改成編碼utf-8-sig,即可除去這個字元,範例連結。
big5解碼原理,參照。big5因只有13,060個字,又因非官方擴充版本太多,致如戶政及地政以大五碼匯出資料,其姓名或地名含大五碼外的漢字,即可能使用編碼範圍外表示。在python通常將溢碼位元以特定字元取代,如下例:
open('r', encoding='big5', errors='replace')
留言