web-dev-qa-db-ja.com

ASCII '—'の文字コードは何ですか?

テキストのデコードに取り組んでいます。 ASCIIで文字と間違えないように、-文字の文字コードを見つけようとしています。私は失敗しました。誰がそれを変換する方法を知っていますか?

22
Adam Sh

ウィキからの引用( Em dash

ASCII文字セットなど)のように実際のemダッシュが使用できない場合、ダブル( "-")またはトリプルハイフンマイナス( "---")が使用されます。Unicodeでは、 emダッシュはU + 2014(10進数8212)です。

ダッシュ文字はASCII文字セットの一部ではありません。

34
Li0liQ

は、Em Dashとして知られています。文字コードは\u2014。 ASCII文字ではないため、ASCII文字セットでデコードすることはできません。ASCII =文字テーブル。代わりにUTF8を使用することをお勧めします。

11
vcsjones

この文字はASCIIには存在せず、Unicodeにのみ存在し、通常はUTF-8でエンコードされます。

UTF-8では、文字は2バイトまたは3バイトのシーケンス(または場合によってはそれ以上)でエンコードされます。2バイトまたは3バイトのいずれも有効なASCIIコードではありません。 ASCII 0〜127の範囲外。

上記はあなたの質問に部分的にしか答えていないのではないかと疑っていますが、そうであれば、おそらくあなたの質問が誤って部分的にしか聞かれていないからでしょう。詳細については、より詳細に質問を拡張できます。

2
thb

キャラクター は、ASCIIセットの一部ではありません。

ただし、他の形式(U + hexなど)に変換する場合は、 this オンラインツールを使用できます。キャラクターを最初の緑色のボックスに入れ、「変換」をクリックします(ボックスの上)

さらに下には、U + hexを含むいくつかの異なるコードがあります。

U+2014


リンクが壊れたりコメントを残したりする場合は、この回答を自由に編集して、代替品を見つけてください。

1
Lonely Neuron