C语言入门：C 语言中的 “文本流”-CSDN博客

本文链接：https://blog.csdn.net/pythonsys/article/details/147795765

1. C 语言文本流的定义与本质

在 C 语言中，“文本流” 是标准 I/O 库（Standard I/O Library）提供的一种抽象概念，用于处理字符数据的输入输出。它的本质是：

将字符序列视为一个连续的、无边界的数据流，屏蔽了底层设备（如硬盘、键盘、显示器）的差异。
对换行符等特殊字符进行系统无关的处理，使程序在不同操作系统（Windows、Linux、Unix）下可以统一处理文本数据。

2. 文本流与二进制流的核心区别

C 语言中文件有两种打开方式：文本模式（Text Mode）和二进制模式（Binary Mode），对应两种流：

特性	文本流（Text Stream）	二进制流（Binary Stream）
处理对象	字符（`char`），以文本形式解析数据	字节（`unsigned char`），原样读取 / 写入数据
换行符转换	自动转换不同系统的换行符（如 Windows 的`\r\n`→`\n`）	不转换，原样处理（`\r`和`\n`视为两个独立字节）
数据格式	可读的文本（如`"123"`对应字符`'1'`、`'2'`、`'3'`）	二进制数据（如整数`123`对应二进制字节`0x7B`）
适用场景	处理人类可读的文本文件（如`.txt`、配置文件）	处理二进制文件（如图片、可执行文件、压缩文件）

关键结论：文本流是 “面向字符的翻译层”，二进制流是 “面向字节的直通管道”。

3. 文本流的物理载体：文件与标准流

文本流可以关联到三种类型的载体：

普通文件：如data.txt，通过fopen函数以文本模式打开（"r"、"w"、"a"等模式）。
标准输入流（stdin）：默认对应键盘，程序通过scanf、getchar等函数从这里读取字符。
标准输出流（stdout）：默认对应屏幕，程序通过printf、putchar等函数向这里写入字符。
标准错误流（stderr）：默认对应屏幕，用于输出错误信息，通过fprintf(stderr, ...)操作。

这三者本质上都是文本流，区别仅在于关联的设备不同。

4. 文本流的核心特性：缓冲区与行缓冲

为了提高效率，C 语言会为文本流分配缓冲区（Buffer），数据先写入缓冲区，再批量写入设备（或从设备批量读取到缓冲区）。
文本流的缓冲区特性包括：

行缓冲（Line Buffering）：当写入换行符（\n）时，缓冲区会被刷新（数据立即写入设备）。
例如，printf("hello\n")会在输出\n时立即刷新缓冲区，而printf("hello")不会，直到缓冲区满或程序结束。
全缓冲（Full Buffering）：当缓冲区填满时才刷新，通常用于普通文件。
无缓冲（Unbuffered）：直接写入设备，不使用缓冲区，如stderr通常是无缓冲的（确保错误信息立即显示）。

示例：缓冲区如何影响输出

#include <stdio.h>
int main() {
    printf("Hello");  // 不换行，缓冲区未刷新，屏幕暂不显示
    // 如果此时程序结束，缓冲区会自动刷新，所以最终会显示
    return 0;
}

5. 文本流的核心操作函数

C 语言提供了一套函数用于操作文本流，按功能可分为三类：

5.1 打开与关闭流：`fopen`、`fclose`

语法：

FILE *fopen(const char *filename, const char *mode);  // 打开文件，返回流指针
int fclose(FILE *stream);  // 关闭流，成功返回0，失败返回EOF

文本模式的mode参数：
- "r"：只读，流指向文件开头（文件必须存在）。
- "w"：写入，若文件存在则清空，不存在则创建。
- "a"：追加，流指向文件末尾，写入数据追加到文件结尾。
- "r+"、"w+"、"a+"：读写模式（细节需注意流的位置）。
关键注意：
文本流打开文件时，会自动处理换行符转换。例如，在 Windows 系统中，读取文件时\r\n会被转换为\n，写入时\n会被转换为\r\n。

5.2 字符级操作：`fgetc`、`fputc`

读取单个字符（输入流）：

int fgetc(FILE *stream);  // 返回读取的字符（转为int），失败或结束返回EOF

示例：读取文件中的所有字符并打印到屏幕

FILE *file = fopen("test.txt", "r");
int c;
while ((c = fgetc(file)) != EOF) {
    putchar(c);  // 输出到标准输出流
}
fclose(file);

写入单个字符（输出流）：

int fputc(int c, FILE *stream);  // 写入字符c（低8位视为char），成功返回c，失败返回EOF

示例：向文件写入字符串"ABC"

FILE *file = fopen("output.txt", "w");
fputc('A', file);
fputc('B', file);
fputc('C', file);
fclose(file);

5.3 行级操作：`fgets`、`fputs`

读取一行字符（输入流）：

char *fgets(char *str, int num, FILE *stream);  // 读取最多num-1个字符，遇到\n或EOF停止

str：存储字符串的缓冲区。
num：缓冲区大小，确保不会溢出。
返回值：成功则返回str，失败或结束返回NULL。
示例：读取文件中的每一行并打印

FILE *file = fopen("test.txt", "r");
char line[100];
while (fgets(line, sizeof(line), file)) {
    printf("%s", line);
}
fclose(file);

写入一行字符（输出流）：

int fputs(const char *str, FILE *stream);  // 写入字符串str（不包含末尾的\0），成功返回非负值，失败返回EOF

示例：向文件写入两行文本

FILE *file = fopen("output.txt", "w");
fputs("First line\n", file);  // 显式添加\n
fputs("Second line\n", file);
fclose(file);

5.4 格式化操作：`fscanf`、`fprintf`

格式化读取（输入流）：

int fscanf(FILE *stream, const char *format, ...);  // 按格式解析流中的字符

示例：从文件中读取整数和字符串

FILE *file = fopen("data.txt", "r");
int num;
char name[20];
fscanf(file, "%d %s", &num, name);  // 假设文件内容为“123 Alice”
fclose(file);

格式化写入（输出流）：

int fprintf(FILE *stream, const char *format, ...);  // 按格式生成字符并写入流

示例：向文件写入格式化数据

FILE *file = fopen("report.txt", "w");
float score = 85.5;
fprintf(file, "Student score: %.1f\n", score);
fclose(file);

6. 文本流中的换行符：跨平台的 “隐形转换”

不同操作系统对换行符的定义不同：

Windows：换行符为\r\n（回车 + 换行，两个字节）。
Linux/Unix：换行符为\n（单个字节）。
Mac（旧系统）：换行符为\r（单个字节，现代 Mac 已改用\n）。

当 C 语言以文本模式打开文件时：

读取时：系统会将文件中的换行符（如 Windows 的\r\n）统一转换为\n（单个字符）。
写入时：程序中的\n会被转换为目标系统的换行符（如 Windows 转为\r\n，Linux 转为\n）。

这意味着，无论在哪个系统上编写 C 程序，只需使用\n作为换行符，文本流会自动处理底层差异。
反例：如果用二进制模式打开文件，\r\n会被视为两个独立字符（\r和\n），不会自动转换。

7. 文本流的局限性与注意事项

不能直接操作二进制数据：文本流会误解二进制数据中的字节（例如，二进制数据中的0x0A会被视为\n，导致换行符转换错误）。
效率问题：缓冲区操作虽然提高了效率，但频繁的fflush（刷新缓冲区）可能降低性能（需合理设计缓冲区大小）。
文件结束判断：fgetc返回EOF可能是读取错误或文件结束，需用ferror和feof函数区分：
```
if (feof(stream)) printf("文件结束\n");
if (ferror(stream)) printf("读取错误\n");
```
流的位置控制：文本流支持fseek和rewind函数，但某些系统对文本流的fseek有额外限制（例如，不能随意定位到文件中间的任意位置，需以SEEK_SET定位到文件开头或已知位置）。

8. 文本流的典型应用场景

配置文件读取：程序读取config.ini等文本格式的配置文件，通过fgets逐行解析。
日志记录：将程序运行日志以文本形式写入文件，方便人类阅读（如fprintf(log_file, "错误：%s\n", error_msg)）。
交互式输入输出：通过scanf/printf与用户交互，本质上是操作标准输入 / 输出流。
数据交换：与其他程序交换文本数据（如 CSV 文件），利用文本流的跨平台兼容性。

9. 深入理解：文本流的底层实现原理

C 语言的文本流由stdio.h头文件中的FILE结构体管理，该结构体包含缓冲区指针、当前位置、错误状态等信息。
当程序调用fgetc读取字符时：

若缓冲区中还有未读取的字符，直接从缓冲区获取。
若缓冲区为空，从底层设备（如硬盘）读取一块数据到缓冲区，再返回第一个字符。
写入时类似，fputc先将字符存入缓冲区，直到缓冲区满或遇到\n，再批量写入设备。

这种 “缓冲机制” 减少了程序与硬件的直接交互次数，大幅提高了 I/O 效率。

10. 总结：文本流的核心价值

抽象统一：屏蔽了不同设备和操作系统的差异，让程序员只需处理字符序列。
简单易用：提供字符级、行级、格式化等多层操作接口，适应不同场景。
跨平台兼容：通过自动转换换行符，确保程序在 Windows、Linux 等系统上行为一致。

对于 C 语言入门者，掌握文本流是理解文件操作和标准 I/O 的基础。后续学习二进制流、缓冲区管理、错误处理等内容时，文本流的概念会成为重要的知识铺垫。

三、动手实践：用文本流实现一个简易文本处理器

尝试编写一个 C 程序，实现以下功能：

打开一个文本文件。
逐行读取内容，在每行开头添加行号（如1: Hello）。
将处理后的内容写入另一个文件。

#include <stdio.h>
#include <stdlib.h>

int main() {
    FILE *input, *output;
    char line[256];
    int line_number = 1;

    // 打开输入文件（文本模式）
    input = fopen("input.txt", "r");
    if (input == NULL) {
        fprintf(stderr, "无法打开输入文件\n");
        return 1;
    }

    // 打开输出文件（文本模式）
    output = fopen("output.txt", "w");
    if (output == NULL) {
        fclose(input);
        fprintf(stderr, "无法打开输出文件\n");
        return 1;
    }

    // 逐行读取并处理
    while (fgets(line, sizeof(line), input)) {
        fprintf(output, "%d: %s", line_number, line);
        line_number++;
    }

    // 关闭流
    fclose(input);
    fclose(output);
    printf("处理完成！\n");
    return 0;
}

通过这个例子，可以直观感受文本流的打开、读取、写入和关闭过程，以及缓冲区和换行符转换的实际效果。

四、扩展思考：文本流与 “流” 的哲学

从编程思想来看，“流” 的概念不仅限于 C 语言，它是一种处理连续数据的通用模型（如 Python 的文件对象、Java 的 IO 流）。其核心思想是：

数据是流动的，而非静态的块状结构。
处理过程是顺序的，无需关心数据的底层存储细节。

形象比喻：把 “文本流” 想象成 “字符河流”

1. 什么是 “流”？先看生活中的例子

你可以把 “文本流（Text Stream）” 想象成一条流动的 “字符河流”。

每个字符（比如字母a、数字1、标点!）都是河流中的 “小水滴”。
这些 “水滴” 按顺序一个接一个地流动，形成一条连续的、有顺序的 “字符序列”，这就是 “文本流”。

比如，当你用记事本写一段话：

Hello, world!
I love C language.

这段文字在计算机中存储时是一个文件，但当你用 C 语言程序读取这个文件时，程序不会直接 “看到” 整个文件，而是 “看到” 一个从文件开头流到结尾的字符序列—— 第一个字符是H，第二个是e，第三个是l…… 直到最后一个字符（比如换行符或文件结束符）。
这个 “字符一个接一个流动” 的过程，就是 “文本流” 的核心概念。

2. “文本流” 和 “文件” 有什么区别？

文件：是字符在硬盘上的 “静态存储”，比如你看到的.txt文件，有固定的格式和结构（比如换行符在 Windows 系统中是\r\n，在 Linux 中是\n）。
文本流：是程序操作文件时的一种 “动态视角”，它会把文件中的字符 “翻译” 成一个统一的、方便程序处理的 “字符流”。
比如，当程序通过文本流读取 Windows 的\r\n换行符时，会自动将其视为一个\n（换行符），让程序员不用关心不同系统的差异。
简单说：文本流是程序与文件之间的 “翻译官”，让字符的读取和写入更简单统一。

3. 为什么叫 “流”？因为它有 “方向性”

输入流（Input Stream）：字符从外部（比如文件、键盘）“流” 向程序（比如用fscanf读取文件）。
输出流（Output Stream）：字符从程序 “流” 向外部（比如用fprintf写入文件或打印到屏幕）。
无论是输入还是输出，字符都是按顺序流动的，不能 “逆流”（比如不能在文本流中直接跳回前面修改某个字符，除非重新打开文件）。