std::codecvt_utf8

定义于头文件 `<codecvt>`
template< class Elem, unsigned long Maxcode = 0x10ffff, std::codecvt_mode Mode = (std::codecvt_mode)0 > class codecvt_utf8 : public std::codecvt<Elem, char, std::mbstate_t>;		(C++11 起) (C++17 中已弃用) (C++26 中移除)

std::codecvt_utf8 是一个 std::codecvt facet，它封装了 UTF-8 编码的字节字符串和 UCS-2 或 UTF-32 字符字符串（取决于 Elem 的类型）之间的转换。这个 std::codecvt facet 可用于读写 UTF-8 文件，包括文本和二进制。

UCS-2 是一种过时的编码，是 UTF-16 的一个子集，它只编码 U+0000-U+FFFF 范围内的标量值（基本多语言平面）。

std::codecvt_utf8::codecvt_utf8

explicit codecvt_utf8( std::size_t refs = 0 );

构造一个新的 std::codecvt_utf8 facet，将初始引用计数 refs 传递给基类。

参数

refs

-

链接到 facet 的引用计数

std::codecvt_utf8::~codecvt_utf8

~codecvt_utf8();

销毁 facet。与区域设置管理的 facet 不同，此 facet 的析构函数是公共的。

继承自 std::codecvt

嵌套类型

类型	定义
`intern_type`	`internT`
`extern_type`	`externT`
`state_type`	`stateT`

[编辑] 数据成员

成员	描述
std::locale::id `id` [static]	facet 的标识符

成员函数

out	调用 `do_out` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
in	调用 `do_in` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
unshift	调用 `do_unshift` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
encoding	调用 `do_encoding` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
always_noconv	调用 `do_always_noconv` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
length	调用 `do_length` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]
max_length	调用 `do_max_length` (`std::codecvt<InternT,ExternT,StateT>` 的公共成员函数) [编辑]

受保护的成员函数

do_out [虚拟]	将字符串从 `InternT` 转换为 `ExternT`，例如写入文件时 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_in [虚拟]	将字符串从 `ExternT` 转换为 `InternT`，例如从文件读取时 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_unshift [虚拟]	为不完整的转换生成 `ExternT` 字符的终止字符序列 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_encoding [虚拟]	返回生成一个 `InternT` 字符所需的 `ExternT` 字符数（如果恒定） (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_always_noconv [虚拟]	测试 facet 是否为所有有效参数值编码同一性转换 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_length [虚拟]	计算转换为给定 `InternT` 缓冲区时将消耗的 `ExternT` 字符串的长度 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]
do_max_length [虚拟]	返回可以转换为单个 `InternT` 字符的最大 `ExternT` 字符数 (`std::codecvt<InternT,ExternT,StateT>` 的虚保护成员函数) [编辑]

继承自 std::codecvt_base

嵌套类型	定义
enum result { ok, partial, error, noconv };	无作用域枚举类型

枚举常量	定义
`ok`	转换完成，无错误
`部分`	并非所有源字符都已转换
`error`	遇到无效字符
`noconv`	无需转换，输入和输出类型相同

[编辑] 注意

尽管标准要求当 Elem 的大小为 16 位时，此 facet 与 UCS-2 一起使用，但某些实现使用 UTF-16。术语“UCS-2”已弃用并从 ISO 10646 中删除。

[编辑] 示例

以下示例演示了 UCS-2/UTF-8 和 UTF-16/UTF-8 转换之间的区别：字符串中的第三个字符不是有效的 UCS-2 字符。

运行此代码

#include <codecvt>
#include <cstdint>
#include <iostream>
#include <locale>
#include <string>
 
int main()
{
    // UTF-8 data. The character U+1d10b, musical sign segno, does not fit in UCS-2
    std::string utf8 = "z\u6c34\U0001d10b";
 
    // the UTF-8 / UTF-16 standard conversion facet
    std::wstring_convert<std::codecvt_utf8_utf16<char16_t>, char16_t> utf16conv;
    std::u16string utf16 = utf16conv.from_bytes(utf8);
    std::cout << "UTF-16 conversion produced " << utf16.size() << " code units:\n"
              << std::showbase << std::hex;
    for (char16_t c : utf16)
        std::cout << static_cast<std::uint16_t>(c) << ' ';
 
    // the UTF-8 / UCS-2 standard conversion facet
    std::wstring_convert<std::codecvt_utf8<char16_t>, char16_t> ucs2conv;
    try
    {
        std::u16string ucs2 = ucs2conv.from_bytes(utf8);
    }
    catch(const std::range_error& e)
    {
        std::u16string ucs2 = ucs2conv.from_bytes(utf8.substr(0, ucs2conv.converted()));
        std::cout << "\nUCS-2 failed after producing " << std::dec << ucs2.size()
                  << " characters:\n" << std::showbase << std::hex;
        for (char16_t c : ucs2)
            std::cout << static_cast<std::uint16_t>(c) << ' ';
        std::cout << '\n';
    }
}

输出

UTF-16 conversion produced 4 code units:
0x7a 0x6c34 0xd834 0xdd0b
UCS-2 failed after producing 2 characters:
0x7a 0x6c34

[编辑] 缺陷报告

下列更改行为的缺陷报告追溯地应用于以前出版的 C++ 标准。

缺陷报告	应用于	发布时的行为	正确的行为
LWG 2229	C++98	构造函数和析构函数未指定	指定它们

[编辑] 另请参阅

字符转换	由区域设置定义的多字节 (UTF-8, GB18030)	UTF-8	UTF-16
UTF-16	`mbrtoc16` / `c16rtomb` (带 C11 的 DR488)	`codecvt`<char16_t,char,mbstate_t> `codecvt_utf8_utf16`<char16_t> `codecvt_utf8_utf16`<char32_t> `codecvt_utf8_utf16`<wchar_t>	不适用
UCS-2	`c16rtomb` (不带 C11 的 DR488)	`codecvt_utf8`<char16_t>	`codecvt_utf16`<char16_t>
UTF-32	`mbrtoc32` / `c32rtomb`	`codecvt`<char32_t,char,mbstate_t> `codecvt_utf8`<char32_t>	`codecvt_utf16`<char32_t>
系统 wchar_t UTF-32 (非 Windows) UCS-2 (Windows)	`mbsrtowcs` / `wcsrtombs` `use_facet`<`codecvt` <wchar_t,char,mbstate_t>>(`locale`)	`codecvt_utf8`<wchar_t>	`codecvt_utf16`<wchar_t>

codecvt	在字符编码之间转换，包括 UTF-8、UTF-16、UTF-32 (类模板) [编辑]
codecvt_mode (C++11)(C++17 中已弃用)(C++26 中已移除)	用于改变标准 codecvt 刻面行为的标签 (枚举) [编辑]
codecvt_utf16 (C++11)(C++17 中已弃用)(C++26 中已移除)	在 UTF-16 和 UCS-2/UCS-4 之间转换 (类模板) [编辑]
codecvt_utf8_utf16 (C++11)(C++17 中已弃用)(C++26 中已移除)	在 UTF-8 和 UTF-16 之间转换 (类模板) [编辑]

编译器支持
自由（freestanding）与宿主（hosted）
语言
标准库
标准库头文件
具名要求
特性测试宏 (C++20)
语言支持库
概念库 (C++20)
诊断库
内存管理库
元编程库 (C++11)
通用工具库
容器库
迭代器库
范围库 (C++20)
算法库
字符串库
文本处理库
数值库
日期和时间库
输入/输出库
文件系统库 (C++17)
并发支持库 (C++11)
执行控制库 (C++26)
技术规范
符号索引
外部库

(构造函数)	构造一个新的 `codecvt_utf8` facet (公开成员函数)
(析构函数)	销毁一个 `codecvt_utf8` facet (公开成员函数)

cppreference.cn

命名空间

变体

视图

操作