json.dumps（）の使用中のUnicodeDecodeError

Question

pythonリスト（コマンドプロンプトから取得））に次のような文字列があります。

_>>> o['records'][5790] (5790, 'Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ', 60, True, '40141613') >>> _

私はここで言及されている提案を試しました： Pythonのデフォルトのエンコーディングを変更しますか？

さらに、デフォルトのエンコーディングもutf-16に変更しました。しかし、それでもjson.dumps()は次のように例外をスローしました：

_>>> write(o) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "okapi_create_master.py", line 49, in write o = json.dumps(output) File "C:\Python27\lib\json\__init__.py", line 231, in dumps return _default_encoder.encode(obj) File "C:\Python27\lib\json\encoder.py", line 201, in encode chunks = self.iterencode(o, _one_shot=True) File "C:\Python27\lib\json\encoder.py", line 264, in iterencode return _iterencode(o, 0) UnicodeDecodeError: 'utf8' codec can't decode byte 0xe1 in position 25: invalid continuation byte _

json.dumps()が機能するように、このような文字列に必要な変換の種類を理解できません。

falsetru · Accepted Answer

\xe1は、utf-8、utf-16エンコーディングを使用してデコードできません。

>>> '\xe1'.decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError: 'utf8' codec can't decode byte 0xe1 in position 0: unexpected end of data >>> '\xe1'.decode('utf-16') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_16.py", line 16, in decode return codecs.utf_16_decode(input, errors, True) UnicodeDecodeError: 'utf16' codec can't decode byte 0xe1 in position 0: truncated data

Latin-1エンコーディングを試してください：

>>> record = (5790, 'Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ', ... 60, True, '40141613') >>> json.dumps(record, encoding='latin1') '[5790, "Vlv-Gate-Assy-Mdl-\u00e1M1-2-\u00e19/16-10K-BB Credit Memo ", 60, true, "40141613"]'

または、ensure_ascii=False、json.dumps 作る json.dumps文字列をデコードしようとしないでください。

>>> json.dumps(record, ensure_ascii=False) '[5790, "Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ", 60, true, "40141613"]'

miraculixx · Answer

私も同様の問題を抱えており、どちらかの入力からユニコードまたはバイト文字列を保証するために次のアプローチを考え出しました。要するに、 include and use 次のラムダ：

# guarantee unicode string _u = lambda t: t.decode('UTF-8', 'replace') if isinstance(t, str) else t _uu = lambda *tt: Tuple(_u(t) for t in tt) # guarantee byte string in UTF8 encoding _u8 = lambda t: t.encode('UTF-8', 'replace') if isinstance(t, unicode) else t _uu8 = lambda *tt: Tuple(_u8(t) for t in tt)

あなたの質問に適用されます：

import json o = (5790, u"Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ", 60, True, '40141613') as_json = json.dumps(_uu8(*o)) as_obj = json.loads(as_json) print "object
 ", o print "json (type %s)
 %s " % (type(as_json), as_json) print "object again
 ", as_obj

=>

object (5790, u'Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ', 60, True, '40141613') json (type <type 'str'>) [5790, "Vlv-Gate-Assy-Mdl-\u00e1M1-2-\u00e19/16-10K-BB Credit Memo ", 60, true, "40141613"] object again [5790, u'Vlv-Gate-Assy-Mdl-\xe1M1-2-\xe19/16-10K-BB Credit Memo ', 60, True, u'40141613']

これがもう少しこれについての推論です。