Python 常見字串編碼問題

python 讀取文字檔,檔頭為\ufeff,係Windows的記事本建立UTF-8等Unicode格式文字檔,會在檔頭加入一個位元組順序記號(BOM),標示檔案是以UTF-8UTF-16UTF-32編碼的記號,此編碼格式名稱就為UTF-8-SIG。只要把編碼utf-8,改成編碼utf-8-sig,即可除去這個字元,範例連結

 
big5解碼原理,參照。big5因只有13,060個字,又因非官方擴充版本太多,致如戶政及地政以大五碼匯出資料,其姓名或地名含大五碼外的漢字,即可能使用編碼範圍外表示。在python通常將溢碼位元以特定字元取代,如下例:

open('r', encoding='big5', errors='replace')

留言

這個網誌中的熱門文章

浴室水龍頭切換拉桿維修

【麵】的倉頡碼

投資現況