scanf()和getchar()在循环中出现的输入问题研究

本文探讨了在C语言中,scanf()和getchar()在循环中遇到的输入问题。当输入非预期字符时,scanf()可能导致循环无法正常中断,而getchar()则可能因' '字符导致提前结束输入。解决方案包括理解和利用输入流的状态以及避免内核缓冲区的残留。通过实验和源码阅读,澄清了setbuf()在无缓冲模式下的工作原理,并提出了解决这些问题的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. scanf()在循环中出现的问题

下面这段代码,如果一开始就输入字符d这样非数字的话,那么会直接执行完剩余9次循环,
用户不再有输入的机会。

	int unused;
    for (size_t i = 0; i < 10; i++)
    {
        printf("please press any key to continue:\n");
        scanf("%d", &unused);
	}

我猜测是标准IO函数流缓冲区的问题(详见apue第五章),可能不合格式的字符采用类似ugetc()的方法丢回了流缓冲中,于是不断重复读取丢弃的智障行为,于是我试着关闭了流缓冲。然而问题仍然存在,情况和之前一样。所以,这和标准IO的缓冲无关,也就是用户态的缓冲无关,那只能是和内核态有关了,暂时还没想到怎么研究,只能看源码了吧。

    setbuf(stdin, NULL);
    int unused;
    for (size_t i = 0; i < 10; i++)
    {
        printf("please press any key to continue:\n");
        scanf("%d", &unused);
    
    }

虽然其具体机理暂时不清楚,我试着将缓冲改为自定义的缓冲,至少探究一下缓冲内部是怎么变化的吧。输出了一下读指针的偏移情况,以及缓冲中内容。暂时的结论是:

  • 在scanf()函数的开始,应该会有一种将读指针移到缓冲区开头的操作;

  • 推测scanf()内部机制可能是这样的,

    • 如果输入例如1234a这样的字符串,a会被用类似ugetc()的机制返回;

    • stdin文件中仍然有内容未被读取,所以用户没机会再次输入,

      scanf()内部的缓冲和读指针也不会进行更新。可能是这样的,

      不向内核发送read请求,并且读指针也不重置;

    • 不断尝试读取,直到循环结束;

  • 我认为应该存在相关的机制,来记录stdin在内核缓冲区中关于上一次循环输入是否已经读取完,

    因为即使关闭了scanf()内部的用户态缓冲也无济于事。

void pBuf(char* buf, int size)
{
    for (int i = 0; i < size; ++i)
    {
        printf("%c", buf[i]);
    }
}

void scanfTest1()
{
    char buf[64];
    setvbuf(stdin, buf, _IOFBF, 64);
    int unused;
    for (size_t i = 0; i < 5; i++)
    {
        printf("round %ld\n", i);
        scanf("%d", &unused);
        pBuf(buf, 16);
        printf("\n");
    }
}

void readOffset(FILE* fp)
{
    printf("src_IO_read_ptr: %ld\n", fp->_IO_read_ptr - fp->_IO_buf_base);
}

void scanfTest2()
{
    int unused;
    for (size_t i = 0; i < 5; i++)
    {
        printf("round %ld\n", i);
        readOffset(stdin);
        scanf("%d", &unused);
        readOffset(stdin);
        printf("\n");
    }
}
please press any key to continue:
1234
the ctx in buf:
1234

please press any key to continue:
3
the ctx in buf:
3
34
round 0
src_IO_read_ptr: 0
1234
src_IO_read_ptr: 4

round 1
src_IO_read_ptr: 4
123a
src_IO_read_ptr: 3

round 2
src_IO_read_ptr: 3
src_IO_read_ptr: 3

round 3
src_IO_read_ptr: 3
src_IO_read_ptr: 3

round 4
src_IO_read_ptr: 3
src_IO_read_ptr: 3

那么,扯了那么多,有没有解决方法呢?其实解决起来蛮简单的。其实我们可以完全忽略什么缓冲什么用户内核之类的…就以平时打开文档之后的光标文件内容去理解就行,这种视图下,scanf()的机制类似于:

  • 如果光标所在的字符符合要求,就读取,并且光标向前移动;

    如果光标所在的字符不符合要求,就不读取,并且不向前移动;

  • 如果上一轮读取时,光标移动到了末尾,则把文件内容全部清楚,让用户重新输入;

    如果上一轮读取时,光标并没有移动到末尾,则不把文件内容清楚,并且光标位置不变,

    继续往下读取;

所以,只要能做到上一轮的输入被完全读取就行了,既然输入的全是字符,那么用getchar()也就能全部接收了。如果就是相当于输出流中的fflush(),但是输入流没有相应的函数,VS2015之前的VC是有这个扩展的,但这在C标准中是未定义的,gcc中就没扩展,所以不建议使用。具体的实现如下:

void stdin_fflush()
{
    int c;
    while ('\n' != (c = getchar()) && EOF != c);
}

2.getchar()在循环中出现的问题

getchar()在循环中会出现,循环10次,但只让你输入5次这样的问题。究其原因就是’\n’也是一个字符,getchar()把’\n’也当成输入了,感觉真蠢…同样的,用setbuf()关闭缓冲也同样解决不了问题。总的来说,就是跟scanf()一样,“文件”中有残留,所以“文件”被读完之前,不会清空让你重新输入,也可以用光标和文件内容来理解,忽略掉各种缓冲区,毕竟这些内部机理本来就是应该被隐藏的。但是不同的是,由于getchar()可以接受所有字符,所以无论怎样,只要循环次数足够多,最后还是能把"文件内容"吃干净的。

解决方法和scanf()是一样的。

先输出缓冲看一下情况吧。

    char buf[64];
    memset(buf, 0, 64);
    setvbuf(stdin, buf, _IOFBF, 64);
    for (size_t i = 0; i < 10; i++)
    {
        printf("please press any key to continue:\n");
        getchar();
        printf("the ctx in buf:\n");
        pBuf(buf, 16);
        printf("\n");
    }

可以看到,和scanf()一样,当读完之后,缓冲区读指针被重置,发送read()请求得到新内容覆盖进缓冲区中。

please press any key to continue:
afdd
the ctx in buf:
afdd

please press any key to continue:
the ctx in buf:
afdd

please press any key to continue:
the ctx in buf:
afdd

please press any key to continue:
the ctx in buf:
afdd

please press any key to continue:
the ctx in buf:
afdd

please press any key to continue:
a
the ctx in buf:
a
dd

please press any key to continue:
the ctx in buf:
a
dd

3.深入、补充、纠正

相关里另一篇文章中提到了MINGW的getchar()实现,我对相关源码进行了一番阅读并实验,发现我上面的理解存在错漏:

  • setbuf(stdin, NULL)的所谓无缓冲,并不会真正的无缓冲,只不过缓冲大小为1byte而已。真正无缓冲是做不到的,因为get相关函数都是封装系统调用read()而来,read()负责将内核缓冲区的数据写到用户态缓冲中,所以至少需要1byte大小的地方放着;
  • 根据相关源码,其实原理就是一开始想的那么简单…
    • 流缓存从内核缓存拉取数据;
    • scanf()、getchar()等标准输入函数从流缓存拉取数据;
    • 当流缓存中数据耗完了,就再向内核缓存拉取数据,并重置读指针到开头;

根据原理,设计了一个实验,如果不断setbuf(stdin,NULL)呢?这样应该就会不断丢弃已经缓存中的内容,并从内核缓存中不断逐个字符地拉取新内容,直到键盘输入的内容耗尽为止。实验结果符合猜想。

	    int unused = 42;
	    for (size_t i = 0; i < 5; i++)
	    {
	        /* code */
	        printf("Please input:\n");
	        scanf("%d", &unused);
	        setbuf(stdin, NULL);
    	}
   

//输入abb后,a未被读取仍然留在缓冲因为setbuf()被丢弃,2个b字符和a执行相同操作。
//读取到'\n'字符之后,scanf接收字符并等候后面的输入。
Please input:



1
Please input:
abb
Please input:
Please input:
Please input:
123

相关

printf()关系缓冲
另外一篇探究相同问题的文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值