在Python裡面的處理主要是以UTF-8的方式來處理字串,所以在抓一些繁體中文的文字檔時,要先把他轉成UTF-8的形式。
轉換的方式為:
try:
utf8_string = unicode(cp950_string, "cp950").encode("utf8")
except:
print "can't transfer"
做法大致上是先把字串用unicode這個function decode成unicode的形式,再用encode這個function轉成你想要轉的編碼。
這裡的例子是將繁體中文轉成utf8,而編碼使用cp950是因為它支援一些big5沒有支援的繁體中文字。
如果沒辦法將編碼轉成unicode的情況,會產生expection,如果不catch的話程式會中止。在這裡很簡單的印出錯誤訊息。
參考資料 :
http://hoamon.blogspot.com/2008/05/python-big5.html
沒有留言:
張貼留言