web-dev-qa-db-ja.com

ウィキペディアの漢字のエンコードとは何ですか?

私はウィキペディアで漢字のエンコードを見ていましたが、それらが何を使用しているのかわかりません。たとえば、「的」は「%E7%9A%84」としてエンコードされます( こちらを参照 )。これは3バイトですが、説明されているエンコーディングはどれもありません このページ は、中国語文字を表すために3バイトを使用します。たとえば、UTF-8は2バイトを使用します。

基本的に、これらの3バイトを実際の文字に一致させようとしています。それがどのようなエンコーディングになり得るかについての提案はありますか?

22
laurent

>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

24
jcomeau_ictx

ウィキペディアページのヘッダーには以下が含まれます。

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

したがって、ページはUTF-8です。

18
Adam

あなたが与える例は [〜#〜] iri [〜#〜] です。

IRIはUTF8エンコーディングを使用します。 UTF8はUnicodeを実装し、Unicodeでは、各文字にcodepointがあります。これは、すべての中国語文字に対して0x4E00〜0x9FFF(2バイト)です。

しかし、UTF8はcodepointを格納するだけでは文字をエンコードしません(UTF32はそれを行います)。代わりに、すべての中国語表意文字を2または3バイト長にする より複雑な標準 を使用します。

4
lovasoa