web-dev-qa-db-ja.com

wstringをUTF-8でエンコードされた文字列に変換します

Wstringとstringの間で変換する必要があります。 codecvtファセットを使用するとうまくいくはずですが、utf-8ロケールでは機能しないようです。

私の考えでは、utf-8でエンコードされたファイルをcharsに読み取ると、1つのutf-8文字が2つの通常の文字に読み取られます(これがutf-8の仕組みです)。コードで使用するライブラリのwstring表現からこのutf-8文字列を作成したいと思います。

誰かがそれを行う方法を知っていますか?

私はすでにこれを試しました:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

これは、cs_CZ.utf-8ロケールでは「failed」を返し、cs_CZ.iso8859-2ロケールでは正しく機能します。

18
Trakhan

以下のコードはあなたを助けるかもしれません:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}
72
skyde

あなたのプラットフォームは何ですか? WindowsはUTF-8ロケールをサポートしていないため、これが失敗の理由を説明している可能性があることに注意してください。

これをプラットフォームに依存する方法で行うには、Windowsでは MultiByteToWideChar / WideCharToMultiByte を、Linuxでは iconv を使用できます。プラットフォームに依存しない方法でこれを行うためにいくつかのブーストマジックを使用できるかもしれませんが、私はそれを自分で試したことがないので、このオプションについて追加することはできません。

4
hillel

Boostのutf_to_utfコンバーターを使用して、char形式を取得してstd :: stringに格納できます。

std::string myresult = boost::locale::conv::utf_to_utf<char>(my_wstring);
1
Avinash