Shen

Windows 文本文件的字符集和编码研究

Nov 5, 2015 • 1 min read

Windows 环境下文本文件的字符集和编码是比较特殊的,因此在编程中使用 Windows 环境下的文本文件时容易出现问题。需要申明的一点是字符集(character set)与编码(encoding)是两个概念。

首先介绍几个名词:

UTF-8 编码

对于 Windows,其内核采用 UTF-16 编码,但 Windows 采用了区域(locale)来决定具体的编码,也即是 Windows 下所谓的 ANSI,例如简体中文的 Windows 采用的是 GBK。

采用记事本生成的文本文件可以有四种编码形式:

另外需要注意的是: