2008年8月15日 星期五

[Python] 字串的編碼

在Python裡面的處理主要是以UTF-8的方式來處理字串,所以在抓一些繁體中文的文字檔時,要先把他轉成UTF-8的形式。

轉換的方式為:


try:
utf8_string = unicode(cp950_string, "cp950").encode("utf8")
except:
print "can't transfer"

做法大致上是先把字串用unicode這個function decode成unicode的形式,再用encode這個function轉成你想要轉的編碼。

這裡的例子是將繁體中文轉成utf8,而編碼使用cp950是因為它支援一些big5沒有支援的繁體中文字。

如果沒辦法將編碼轉成unicode的情況,會產生expection,如果不catch的話程式會中止。在這裡很簡單的印出錯誤訊息。

參考資料 :
http://hoamon.blogspot.com/2008/05/python-big5.html

沒有留言: