字符编码

计算机中储存的信息都是用二进制数表示的，而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。

按照某种规则，将字符存储到计算机中，称为 编码。

反之，将存储在计算机中的二进制数按照某种规则解析显示出来，称为 解码。

按照 A 规则存储，同样按照 A 规则解析，那么就能显示正确的文本f符号。反之，按照 A 规则存储，再按照 B 规则解析，就会导致乱码现象。

字符集

字符集概念

字符集 Charset ：也叫 编码表。是一个系统支持的所有字符的集合，包括各国家文字、标点符号、图形符号、数字等。

计算机要准确的存储和识别各种字符集符号，需要进行字符编码，一套字符集必然至少有一套字符编码。

常见字符集有 ASCII 字符集、GBK 字符集、Unicode 字符集等。

常见字符集

ASCII字符集：ASCII编码
GBK字符集：GBK编码
Unicode字符集
- UTF8编码
- UTF16编码
- UTF32编码

当指定了编码，它所对应的字符集自然就指定了，所以编码才是我们最终要 关心 的。

字符集介绍

ASCII字符集

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，用于显示现代英语，主要包括控制字符（回车键、退格、换行键等）和可显示字符（英文大小写字符、阿拉伯数字和西文符号）。基本的ASCII字符集，使用 7 位（bits）表示一个字符，共 128 字符，ASCII的扩展字符集使用 8 位（bits）表示一个字符，共 256 字符，方便支持欧洲常用字符

ISO-8859-1字符集

拉丁码表，别名 Latin-1，用于显示欧洲使用的语言，包括荷兰、丹麦、德语、意大利语、西班牙语等，ISO-5559-1 使用单字节编码，兼容 ASCII 编码

GBxxx字符集

GB就是 国标 的意思，是为了显示 中文 而设计的一套字符集

GB2312

简体中文码表。一个小于 127 的字符的意义与原来相同,但两个大于 127 的字符连在一起时，就表示一个汉字，这样大约可以组合了包含 7000 多个简体汉字，此外数学符号、罗马希腊的字母、日文的假名们都编进去了，在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的 “全角” 字符，而原来在 127 号以下的那些就叫 “半角” 字符了

最常用的中文码表。是在 GB2312 标准基础上的扩展规范，使用了双字节编码方案，共收录了 21003 个汉字，完全兼容 GB2312 标准，同时支持繁体汉字以及日韩汉字等

GB18030

新的中文码表。收录汉字 70244 个，采用多字节编码，每个字可以由 1 个、2 个或 4 个字节组成。支持中国国内少数民族的文字，同时支持繁体汉字以及日韩汉字等

Unicode字符集

Unicode编码系统为表达任意语言的任意字符而设计，是业界的一种标准，也称为统一码、标准 万国 码。它最多使用 4 个字节的数字来表达每个字母、符号，或者文字。有三种编码方案，UTF-8、UTF-16 和 UTF32,最为常用 的 UTF-8 编码，UTF-8编码，可以用来表示Unicode标准中任何字符，它是电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码

UTF8编码规则

128 个 US-ASCII 字符，只需一个字节编码

拉丁文等字符，需要二个字节编码

大部分常用字（含中文），使用三个字节编码

其他极少使用的 Unicode 辅助字符，使用四字节编码

编码引出的问题

在 IDEA 中，使用 FileReader 读取项目中的文本文件。由于 IDEA 的设置，都是默认的 UTF-8 编码，所以没有任何问题。

但是，当读取 Windows 系统中创建的文本文件时，由于 Windows 系统的默认是 GBK 编码，就会出现乱码。

public static void main(String[] args) throws Exception {
    FileReader fileReader = new FileReader("d://gbkfile.txt");
    int read;
    while ((read = fileReader.read()) != -1) {
        System.out.println((char) read); //读出的内容是乱码
    }
    fileReader.close();
}

解决乱码

InputStreamReader：转换流 java.io.InputStreamReader ，是Reader的子类，是从字节流到字符流的 桥梁，它读取字节，并使用指定的字符集将其解码为字符。它的字符集可以由名称指定，也可以接受平台的默认字符集。

# 构造方法

InputStreamReader(InputStream in)：创建一个使用 默认字符集 的字符流

InputStreamReader(InputStream in, String charsetName) ：创建一个 指定字符集 的字符流

public static void main(String[] args) throws Exception {
    InputStreamReader isr = new InputStreamReader(new FileInputStream("d://gbkfile.txt"), "gbk");
    int read;
    while ((read = isr.read()) != -1) {
        System.out.println((char) read);
    }
    isr.close();
}

OutputStreamWriter：转换流 java.io.OutputStreamWriter ，是Writer的子类，是从 字符流 到 字节流 的桥梁，使用指定的字符集将字符编码为字节。它的字符集可以由名称指定，也可以接受平台的默认字符集。

# 构造方法

OutputStreamWriter(OutputStream in)：创建一个使用 默认字符集 的字符流

OutputStreamWriter(OutputStream in, String charsetName) ：创建一个 指定字符集 的字符流

public static void main(String[] args) throws Exception {
    String fileName1 = "d://out.txt";
    OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(fileName1));
    osw.write("小灰");//保存为6个字节
    osw.close();

    String fileName2 = "d://out2.txt";
    OutputStreamWriter osw2 = new OutputStreamWriter(new FileOutputStream(fileName2), "gbk");
    osw2.write("小灰");//4个字节
    osw2.close();
}

I'M JonathanLee

一个人除非真正接受自己，否则他没法成长。

I don’t think that anybody can grow unless he really is accepted exactly as he is.

❤️-Leader_TBlog

转换流