web-dev-qa-db-ja.com

Unicodeの漢字の完全な範囲は?

U + 4E00..U + 9FFFは完全なセットの一部ですが、すべてではありません

82
omg

CJK Unicode FAQ (「中国語、日本語、韓国語」の文字を含む)で完全なリストを見つけることができるかもしれません

East Asian Script 」ドキュメントには次の記述があります。

漢字を含むブロック

表12-2に示すように、漢字の表意文字はUnicode標準の5つの主要なブロックにあります。

表12-2。漢字を含むブロック

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

注:ブロック範囲は時間とともに変化する可能性があります。最新は CJK Unified Ideographs です。

ウィキペディアもご覧ください。

93
VonC

Unicodeには現在74605個のCJK文字があります。 CJK文字には、中国語で使用される文字だけでなく、日本語の漢字、韓国語のハンジャ、ベトナム語も含まれます Chu Nom 。一部のCJK文字はnot中国語の文字です。

1) CJK Unified Ideographsブロック の20941文字。

コードポイントU + 4E00からU + 9FCC。

  1. + 4E00-U + 62FF
  2. + 6300-U + 77FF
  3. + 7800-U + 8CFF
  4. + 8D00-U + 9FCC

2) CJKUI Ext Aブロック から6582文字。

コードポイント + 3400からU + 4DB5 。 Unicode 3.0(1999)。

3) CJKUI Ext Bブロック からの42711文字。

コードポイントU + 20000〜U + 2A6D6。 Unicode 3.1(2001)。

  1. + 20000-U + 215FF
  2. + 21600-U + 230FF
  3. + 23100-U + 245FF
  4. + 24600-U + 260FF
  5. + 26100-U + 275FF
  6. + 27600-U + 290FF
  7. + 29100-U + 2A6DF

3) CJKUI Ext Cブロック の4149文字。

コードポイント + 2A700からU + 2B734 。 Unicode 5.2(2009)。

4) CJKUI Ext Dブロック からの222文字。

コードポイント + 2B740からU + 2B81D 。 Unicode 6.0(2010)。

5)CJKUI Ext Eブロック。

近日公開

上記のスパゲッティでは不十分な場合は、 既知の問題 をご覧ください。楽しんでください=)

46
Pacerier

漢字(拡張子を除く)の正確な範囲は[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]

  1. [\u2e80-\u2fd5]

CJK Radicals Supplementは、Kangxiラジカルの代替の、多くの場合、位置的な形式を含むUnicodeブロックです。これらは、ディクショナリインデックスおよびラジカルストロークによって編成された他のCJK表意文字コレクションのヘッダーとして使用されます。

  1. [\u3190-\u319f]

漢文は、読み順を示すために、古典的な中国語のテキストの日本語コピーで使用される注釈文字を含むUnicodeブロックです。

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-Aは、まれな漢字の表意文字を含むUnicodeブロックです。

  1. [\u4E00-\u9FCC]

CJK Unified Ideographsは、現代の中国語と日本語で使用される最も一般的なCJK表意文字を含むUnicodeブロックです。

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographsは、Unicodeとそれらのエンコーディング間の往復互換性を維持するために、CJK Unified Ideographs割り当てに加えて、他の確立された文字エンコーディングで複数の場所でエンコードされた漢字を含むように作成されたUnicodeブロックです。

詳細については here を参照してください。拡張機能は他の回答で提供されています。

16
Lerner Zhang

Unicodeバージョン11.0.0

Unicodeでは、中国語、日本語、および韓国語(CJK)のスクリプトは、CJK文字として総称される共通の背景を共有します。

これらの範囲には、多くの場合、未割り当てまたは予約済みのコードポイントが含まれています(U + 2E9A、U + 2EF4-2EFF)、

漢字

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • CJK Unified Ideographsブロックでは、多くの回答が上限9FCCを使用していますが、U + 9FCD(鿍)は実際には中国語の文字です。また、このブロック内のすべての文字は中国語文字です(日本語または韓国語などでも使用されます)。
  • CJK Unified Ideograohs Extのほとんどの文字(Ext Fを除く、Ext Fの17%のみが中国語の文字です)は、中国ではほとんど使用されない伝統的な中国語の文字です。
  • 〇はゼロの漢字であり、現在も使用されています

したがって、範囲は

[0x3007,0x3007]、[0x3400,0x4DBF]、[0x4E00,0x9FEF]、[0x20000,0x2EBFF]

CJK文字ですが、中国語では使用されません

それらは互換性のためにのみ使用される一般的な漢です。

中国の本、記事、文章などに登場するのを見るのはほとんど不可能です。

ここのすべての文字には、対応するグリフと同じ漢字が1つあります。金(U + F90A)や金(U + 91D1)など、Glyphでは同一です。

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

[〜#〜] cjk [〜#〜]関連記号

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • Hangul Compatibility Jamoなどの一部のブロックは、中国語とは無関係であるため破棄されます。
  • Kangxi Radicalsは中国語の文字ではなく、中国語の文字のグラフィカルなコンポーネントであり、特にラジカルを表現するために使用されます。 ⼻(U + 2F3B)および彳(U + 5F73)、⻜(U + 2EDC)および飞(U + 98DE)

他の一般的な句読点は中国語で表示されます

これは広い範囲であり、句読点は使用されない場合があり、中国語では……”“などの句読点が非常に使用されます。

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Yijing Hexagram SymbolsまたはKanbunなど、多くの中国語関連のシンボルもありますが、とにかくオフトピックです。 CJKで中国語以外の文字を書いて、漢字とは何かをよりよく説明します。また、上記の範囲は、数学やその他の特殊表記法を除き、中国語の文章に登場するほとんどすべての文字をすでにカバーしています。

補足

CJK記号と句読点

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

半角および全角フォーム

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

参照

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (中国語では、右側のバーに注意してください)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1 %A8%E6%84%8F%E6%96%87%E5%AD%97 (下の表に注意してください)
  3. http://www.unicode.org
3
Voyager

他の回答が与えたUnicodeコードブロックは、ほとんどの中国語Unicode文字を確実にカバーしますが、これらの他のコードブロックの一部もチェックしてください。

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

私の詳細な議論を参照してください こちら 。そして、 このサイト はUnicodeの閲覧に便利です。

1
Suragch

要約すると、これらはそれらのように聞こえます:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
0
Lance Pollard