中文在URL中的编码

问题来源:
    正在研究一个程序,输入一个关键字,能够把这个关键字发送到Google,yahoo等搜索引擎,进行搜索,然后打开结果网页。原理很简单。比如在Google搜索China,搜索结果页面的URL就是“http://www.google.com/search?hl=zh-CN&q=China&lr=”。只要替换红颜色的内容,就可以按照不同的关键字搜索。

但是如果关键字是中文,就会出现问题。比如在google搜索“中国”,Url是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD&lr=”。汉字“中国”被按照UTF-8的格式进行编码。

不仅汉字进行编码,一些特殊字符也会进行编码。比如搜索“C#”,URL是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=C%23&lr=”。

一般来说,国外的网站都是按照UTF-8编码,而“百度”是按照“GB2312”进行编码的。比如搜索“中国”,URL是“http://www.baidu.com/s?wd=%D6%D0%B9%FA&cl=3”

我们对比一下:C#中国的编码

编码结果网站
UTF-8C%23%E4%B8%AD%E5%9B%BDGoogle
GB2312C%23%D6%D0%B9%FABaiDu

总结:
UTF-8中,一个汉字对应三个字节,GB2312中一个汉字占用两个字节。
不论何种编码,字母数字都不编码,特殊符号编码后占用一个字节。

开始编程:

         public   static   string  UrlEncode( string  str,  string  encode)
        
{
            
int factor;
            
if (encode == "UTF-8")
                factor 
= 3;
            
if (encode == "GB2312")
                factor 
= 2;
            
//不需要编码的字符
            string okChar = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.-*@";
            System.Text.Encoder encoder 
= System.Text.Encoding.GetEncoding(encode).GetEncoder();
            
char[] c1 = str.ToCharArray();
            System.Text.StringBuilder sb 
= new System.Text.StringBuilder();
            
//一个字符一个字符的编码
            for (int i = 0; i < c1.Length; i++)
            
{
                
//不需要编码
                if (okChar.IndexOf(c1[i]) > -1)
                    sb.Append(c1[i]);
                
else
                
{
                    
byte[] c2 = new byte[factor];
                    
int charUsed, byteUsed; bool completed;

                    encoder.Convert(c1, i, 
1, c2, 0, factor, trueout charUsed, out byteUsed, out completed);

                    
foreach (byte b in c2)
                    
{
                        
if (b != 0)
                            sb.AppendFormat(
"%{0:X}", b);
                    }

                }

            }

            
return sb.ToString().Trim();


        }


后来发现更简单的方法。

 

// 按照UTF-8进行编码
string  tempSearchString1  =  System.Web.HttpUtility.UrlEncode( " C#中国 " );
// 按照GB2312进行编码
string  tempSearchString2  =  System.Web.HttpUtility.UrlEncode( " C#中国 " ,System.Text.Encoding.GetEncoding( " GB2312 " ));

大家直接用第二种方法就行了。
因为第一种是自己好不容易编出来的,贴在这里留个纪念。

 
### PyCharm 打开文件显示全的解决方案 当遇到PyCharm打开文件显示全的情况时,可以尝试以下几种方法来解决问题。 #### 方法一:清理缓存并重启IDE 有时IDE内部缓存可能导致文件加载异常。通过清除缓存再启动程序能够有效改善此状况。具体操作路径为`File -> Invalidate Caches / Restart...`,之后按照提示完成相应动作即可[^1]。 #### 方法二:调整编辑器字体设置 如果是因为字体原因造成的内容显示问题,则可以通过修改编辑区内的文字样式来进行修复。进入`Settings/Preferences | Editor | Font`选项卡内更改合适的字号大小以及启用抗锯齿功能等参数配置[^2]。 #### 方法三:检查项目结构配置 对于某些特定场景下的源码视图缺失现象,可能是由于当前工作空间未能正确识别全部模块所引起。此时应该核查Project Structure的Content Roots设定项是否涵盖了整个工程根目录;必要时可手动添加遗漏部分,并保存变更生效[^3]。 ```python # 示例代码用于展示如何获取当前项目的根路径,在实际应用中可根据需求调用该函数辅助排查问题 import os def get_project_root(): current_file = os.path.abspath(__file__) project_dir = os.path.dirname(current_file) while not os.path.exists(os.path.join(project_dir, '.idea')): parent_dir = os.path.dirname(project_dir) if parent_dir == project_dir: break project_dir = parent_dir return project_dir print(f"Current Project Root Directory is {get_project_root()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kubernetes-k8s

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值