命名空间
变体
操作

std::text_encoding

来自 cppreference.cn
< cpp‎ | text
定义于头文件 <text_encoding>
struct text_encoding;
(自 C++26 起)

text_encoding 提供了一种识别字符编码的机制。它用于确定编译时翻译环境的普通字符字面量编码以及运行时执行环境的字符编码。

每个 text_encoding 对象封装了一个字符编码方案,该方案由 text_encoding::id 中的枚举器和以空终止字节字符串表示的对应名称唯一标识。这些可以通过成员函数 mib()name() 分别访问。对象是否表示翻译或执行环境中实现的字符编码方案的确定是实现定义的。

text_encoding 是一个 TriviallyCopyable 类型。表示字符编码方案对应名称的数组对象嵌套在 text_encoding 对象本身内。存储的名称最多限制为 max_name_length 个字符,不包括空字符 '\0'

该类支持注册和未注册的字符编码。注册编码是在 IANA 字符集注册表中找到的编码,但不包括以下字符编码

  • NATS-DANO (33)
  • NATS-DANO-ADD (34)。

此外,该类为注册字符编码提供访问

  1. 主名称:注册表中指定的官方名称。
  2. 别名:注册表中别名的实现定义超集。
  3. MIBenum 值:用于标识编码字符编码的唯一标识符。

未注册的编码可以使用枚举器 id::otherid::unknown 和自定义名称来表示。

MIBenum 值既不是 id::other 也不是 id::unknowntext_encoding 对象 e 保持以下不变性

  • *e.name() != '\0'true,并且
  • e.mib() == std::text_encoding(e.name()).mib()true

目录

[编辑] 成员类型

表示字符编码的 MIBenum 值
(公共成员枚举)[编辑]
字符编码别名的 view
(公共成员类) [编辑]

[编辑] 成员常量

名称
constexpr std::size_t max_name_length
[静态]
63
(公共静态成员常量)

[编辑] 数据成员

成员 描述
std::text_encoding::id mib_ (私有) id::unknown 作为默认值的 MIBenum 值
(仅为说明目的的成员对象*)
char[max_name_length + 1] name_ (私有) 存储的主名称
(仅为说明目的的成员对象*)

[编辑] 成员函数

创建
构造新的 text_encoding 对象
(公共成员函数) [编辑]
[静态]
构造一个新的 text_encoding,表示普通字符字面量编码
(公共静态成员函数) [编辑]
[静态]
构造一个新的 text_encoding,表示执行环境的实现定义的字符编码方案
(公共静态成员函数) [编辑]
观察器
返回当前字符编码的 MIBenum 值
(公共成员函数) [编辑]
返回当前字符编码的主名称
(公共成员函数) [编辑]
返回当前字符编码别名的 view
(公共成员函数) [编辑]
使用指定的 MIB 值检查执行环境的字符编码方案
(公共静态成员函数) [编辑]
辅助函数
[静态](私有)
使用字符集别名匹配比较两个别名
(仅为说明目的的静态成员函数*)[编辑]

[编辑] 非成员函数

比较两个 text_encoding 对象。
(公共成员函数) [编辑]

[编辑] 辅助类

std::text_encoding 的哈希支持
(类模板特化) [编辑]

[编辑] 注解

在使用字符编码时,重要的是要注意,当使用 Unicode 技术标准描述的字符集别名匹配进行比较时,两个不同的注册字符编码的主名称或别名并不等效。

为方便起见,text_encoding::id 的枚举器作为 text_encoding 的成员引入,可以直接访问。这意味着 text_encoding::ASCIItext_encoding::id::ASCII 指的是同一个实体。

建议实现应将注册编码视为不可互换的。此外,注册编码的主名称不应用于描述类似但不同的未注册编码,除非有明显的先例。

特性测试宏 Std 特性
__cpp_lib_text_encoding 202306L (C++26) std::text_encoding

[编辑] 示例

#include <locale>
#include <print>
#include <text_encoding>
 
int main()
{
    // literal encoding is known at compile-time
    constexpr std::text_encoding literal_encoding = std::text_encoding::literal();
 
    // check for literal encoding
    static_assert(literal_encoding.mib() != std::text_encoding::other &&
                  literal_encoding.mib() != std::text_encoding::unknown);
 
    // environment encoding is only known at runtime
    std::text_encoding env_encoding = std::text_encoding::environment();
 
    // associated encoding of the default locale
    std::text_encoding locale_encoding = std::locale("").encoding();
 
    std::println("The literal encoding is {}", literal_encoding.name());
    std::println("The aliases of literal encoding:");
    for (const char* alias_name : literal_encoding.aliases())
        std::println(" -> {}", alias_name);
 
    if (env_encoding == locale_encoding)
        std::println("Both environment and locale encodings are the same");
 
    std::println("The environment encoding is {}", env_encoding.name());
    std::println("The aliases of environment encoding:");
    for (const char* alias_name : env_encoding.aliases())
        std::println(" -> {}", alias_name);
}

可能的输出

The literal encoding is UTF-8
The aliases of literal encoding:
 -> UTF-8
 -> csUTF8
Both environment and locale encodings are the same
The environment encoding is ANSI_X3.4-1968
The aliases of environment encoding:
 -> US-ASCII
 -> iso-ir-6
 -> ANSI_X3.4-1968
 -> ANSI_X3.4-1986
 -> ISO_646.irv:1991
 -> ISO646-US
 -> us
 -> IBM367
 -> cp367
 -> csASCII
 -> ASCII

[编辑] 参见

封装文化差异的多态 facets 集合
(类) [编辑]