haproxy-高性能负载均衡反向代理服务

F5 美国F5网络公司 https://f5.com/zh

Netscaler 美国思杰公司 https://www.citrix.com.cn/products/citrix-adc/

Array 华耀 https://www.arraynetworks.com.cn/

AD-1000 深信服 http://www.sangfor.com.cn/

2.四层负载均衡

1.通过ip+port决定负载均衡的去向。

2.对流量请求进行NAT处理，转发至后台服务器。

3.记录tcp、udp流量分别是由哪台服务器处理，后续该请求连接的流量都通过该服务器处理。

4.支持四层的软件

lvs：重量级四层负载均衡器。
Nginx：轻量级四层负载均衡器，可缓存。（nginx四层是通过upstream模块）
Haproxy：模拟四层转发

3.七层负载均衡

1.通过虚拟ur|或主机ip进行流量识别，根据应用层信息进行解析，决定是否需要进行负载均衡

2.代理后台服务器与客户端建立连接，如nginx可代理前后端，与前端客户端tcp连接，与后端服务器建立 tcp连接

3.支持7层代理的软件：

Nginx:基于http协议(nginx七层是通过proxy_pass)
Haproxy:七层代理，会话保持、标记、路径转移等

4 四层和七层的区别

所谓的四到七层负载均衡，就是在对后台的服务器进行负载均衡时，依据四层的信息或七层的信息来决定怎么样转发流量

四层的负载均衡，就是通过发布三层的IP地址（VIP），然后加四层的端口号，来决定哪些流量需要做负载均衡，对需要处理的流量进行NAT处理，转发至后台服务器，并记录下这个TCP或者UDP的流量是由哪台服务器处理的，后续这个连接的所有流量都同样转发到同一台服务器处理

七层的负载均衡，就是在四层的基础上（没有四层是绝对不可能有七层的），再考虑应用层的特征，比如同一个Web服务器的负载均衡，除了根据VIP加80端口辨别是否需要处理的流量，还可根据七层的 URL、浏览器类别、语言来决定是否要进行负载均衡

1.分层位置:四层负载均衡在传输层及以下，七层负载均衡在应用层及以下

2.性能 :四层负载均衡架构无需解析报文消息内容，在网络吞吐量与处理能力上较高:七层可支持解析应用层报文消息内容，识别URL、Cookie、HTTP header等信息

3.原理 :四层负载均衡是基于ip+port;七层是基于虚拟的URL或主机IP等

4.功能类比:四层负载均衡类似于路由器;七层类似于代理服务器

5.安全性:四层负载均衡无法识别DDoS攻击;七层可防御SYN Cookie/Flood攻击

二、HAProxy（High Availability Proxy）概述

1、HAProxy的概念

HAProxy是一款基于事件驱动、单进程模型设计的四层与七层负载均衡器，它能够在TCP/UDP层面以及HTTP(S)等应用层协议上实现高效的流量分发。HAProxy不仅适用于Web服务器负载均衡，还能应用于数据库、邮件服务器、缓存服务器等多种场景，支持高达数百万级别的并发连接，并具有极低的延迟

支持功能
TCP 和 HTTP 反向代理
SSL/TSL服务器
可以针对HTTP请求添加 cookie，进行路由后端服务器
可平衡负载至后端服务器，并支持持久连接
支持所有主服务器故障切换至备用服务器 keepalive
支持专用端口实现监控服务
支持停止接受新连接请求，而不影响现有连接
可以在双向添加，修改或删除HTTP报文首部字段
响应报文压缩
支持基于 pattern 实现连接请求的访问控制
通过特定的 URI（url）为授权用户提供详细的状态信息

2、HAProxy的主要特性

高性能负载均衡： HAProxy通过优化的事件驱动引擎，能够以最小的系统资源开销处理大量并发请求。它支持多种负载均衡算法，如轮询、最少连接、源IP哈希等，可根据实际业务需求灵活配置
健康检查与故障恢复： HAProxy具备完善的后端服务器健康检查机制，可以根据响应时间、错误率等因素自动剔除不健康的后端节点，并在节点恢复时重新将其加入到服务池中，确保服务连续性
会话保持与亲和性：为了保证用户的会话一致性，HAProxy支持基于cookie或源IP地址的会话保持功能，确保同一客户端的请求被转发到同一台后端服务器进行处理
安全性与SSL卸载： HAProxy支持SSL/TLS加密传输，可对HTTPS流量进行解密并透明地分发至后端服务器，同时也能终止SSL连接以减轻服务器的加密计算压力
高级路由与策略：根据HTTP请求头、URL路径、内容类型等条件，HAProxy可以执行复杂的路由规则和ACL策略，使得负载均衡更加智能化和精准化
日志记录与监控： HAProxy提供丰富的日志记录选项，可通过syslog、CSV格式输出等方式收集统计数据，便于运维人员实时监控系统状态和性能指标

3、HAProxy的优缺点

优点

高性能：HAProxy是一个高性能的负载均衡器，可以处理大量的并发连接
灵活性：HAProxy支持多种负载均衡算法，如轮询、加权轮询、最少连接等，可以根据实际需求选择合适的算法
高可用性：HAProxy可以检测服务器的健康状态，如果某个服务器出现故障，它可以自动将流量转移到其他健康的服务器，从而保证服务的高可用性
安全性：HAProxy可以作为反向代理，隐藏后端服务器的真实IP地址，提高系统的安全性

缺点

单点故障：如果HAProxy本身出现故障，可能会导致整个系统的服务不可用
配置复杂：HAProxy的配置相对复杂，需要一定的学习成本
性能瓶颈：虽然HAProxy的性能很高，但在处理大量并发连接时，可能会成为系统的性能瓶颈
功能单一：只支持做负载均衡的调度服务器，不支持正则处理，不能实现动静分离，也不能做web服务器

4、LVS、nginx、HAProxy的区别

LVS基于Linux操作系统实现软负载均衡，而Haproxy和Nginx是基于第三方应用实现的软负载均衡
LVS是可实现4层的IP负载均衡技术，无法实现基于目录、URL的转发。而Haproxy和Nginx都可以实现4层和7层技术，Haproxy可提供TCP和HTTP应用的负载均衡综合解决方案
LVS因为工作在TCP模型的第四层，其状态监测功能单一，而Haproxy在状态监测方面功能更丰富、强大，可支持端口、URI等多种状态检测方式
Haproxy功能强大，但整体性能低于4层模式的LVS负载均衡
Nginx主要用于web服务器或缓存服务器。Nginx的upstream模块虽然也支持群集功能，但是对群集节点健康检查功能不强，性能没有Haproxy好

5、软件安装

软件包下载地址

https://github.com/haproxy/wiki/wiki/Packages

企业9版本 redhat_9.4

yum install haproxy -y

查看版本

 haproxy -v

进入配置文件

vim /etc/haproxy/haproxy.cfg

三、haproxy的基本配置信息

官方地址配置文件官方帮助文档
http://cbonte.github.io/haproxy-dconv/
http://cbonte.github.io/haproxy-dconv/2.4/configuration.html
https://www.haproxy.org/download/2.5/doc/configuration.txt

HAProxy 的配置文件haproxy.cfg由两大部分组成，分别是：

global：全局配置段

进程及安全配置相关的参数
性能调整相关参数
Debug参数

proxies：代理配置段

defaults：为frontend, backend, listen提供默认配置
frontend：前端，相当于nginx中的server {}
backend：后端，相当于nginx中的upstream {}
listen：同时拥有前端和后端配置,配置简单,生产推荐使用

1. global配置

参数	类型	作用
chroot	全局	锁定运行目录
deamon	全局	以守护进程运行
user, group, uid, gid	全局	运行haproxy的用户身份
stats socket	全局	套接字文件
nbproc N	全局	开启的haproxy worker 进程数，默认进程数是一个
nbthread 1 （和nbproc 互斥）	全局	指定每个haproxy进程开启的线程数，默认为每个进程一个线程
cpu-map 1 0	全局	绑定haproxy worker 进程至指定CPU，将第1个work进程绑定至0号CPU
cpu-map 2 1	全局	绑定haproxy worker 进程至指定CPU，将第2个work进程绑定至1号CPU
maxconn N	全局	每个haproxy进程的最大并发连接数
maxsslconn N	全局	每个haproxy进程ssl最大连接数,用于haproxy配置了证书的场景下
maxconnrate N	全局	每个进程每秒创建的最大连接数量
spread-checks N	全局	后端server状态check随机提前或延迟百分比时间，建议2- 5(20%-50%)之间，默认值0
pidfile	全局	指定pid文件路径
log 127.0.0.1 local2 info	全局	定义全局的syslog服务器；日志服务器需要开启UDP协议，最多可以定义两个

    log         127.0.0.1 local2

    chroot      /var/lib/haproxy
    pidfile     /var/run/haproxy.pid
    maxconn     4000
    user        haproxy
    group       haproxy
    daemon

    # turn on stats unix socket
    stats socket /var/lib/haproxy/haproxy.sock1 mode 600 level admin process 1
    // 启用多个sock文件
    stats socket /var/lib/haproxy/haproxy.sock2 mode 600 level admin process 2

    nbproc 2        //启用多进程
    cpu-map 1 0     //进程和cpu核心绑定防止cpu抖动从而减少系统资源消耗
    cpu-map 2 1     //2 表示第二个进程，1表示第二个cpu核心
    
    nbthread 2      //启用多线程 注意：启用需注释掉多进程 不然会起冲突

    # utilize system-wide crypto-policies
    ssl-default-bind-ciphers PROFILE=SYSTEM
    ssl-default-server-ciphers PROFILE=SYSTEM

查看多进程信息

pstree -p | grep haproxy

注意：启用多线程需关闭多进程不然会起冲突

多线程对比

未开启多线程

haproxy ~]# cat /proc/xxxx(haproxy子进程id)/status

...内容省略...

Threads: 1

...内容省略...

开启后

haproxy ~]# cat /proc/xxxx(haproxy子进程id)/status

...上面内容省略...

Threads: 2

...下面内容省略...

2. proxies配置

参数	类型	作用
defaults []	proxies	默认配置项，针对以下的frontend、backend和listen生效，可以多个 name也可以没有name
frontend	proxies	前端servername，类似于Nginx的一个虚拟主机 server和LVS服务集群
backend	proxies	后端服务器组，等于nginx的upstream和LVS中的RS服务器
listen	proxies	将frontend和backend合并在一起配置，相对于frontend和backend 配置更简洁，生产常用

Note：name字段只能使用大小写字母，数字，‘-’(dash)，'_‘(underscore)，'.' (dot)和 ':'(colon)，并且严格区分大小写

2.1默认参数（default）

defaults
    mode                    http ----------------指定工作模式为 HTTP
    log                     global --------------使用全局的日志设置
    option                  httplog -------------启用详细的 HTTP 日志记录
    option                  dontlognull ---------不记录空的内容
    option http-server-close --------------------在 HTTP 请求完成后关闭服务器连接
    option forwardfor       except 127.0.0.0/8 --转发客户端真实 IP ，但排除 127.0.0.0/8 网段
    option                  redispatch ----------在服务器不可用时重新分配连接
    retries                 3 -------------------重试次数为 3 次
    timeout http-request    10s -----------------HTTP 请求的超时时间为 10 秒
    timeout queue           1m ------------------队列的超时时间为 1 分钟
    timeout connect         10s -----------------连接的超时时间为 10 秒
    timeout client          1m ------------------客户端的超时时间为 1 分钟
    timeout server          1m ------------------服务器的超时时间为 1 分钟
    timeout http-keep-alive 10s -----------------HTTP 保持活动连接的超时时间为 10 秒
    timeout check           10s -----------------健康检查的超时时间为 10 秒
    maxconn                 3000  ---------------最大连接数为 3000

2.2 frontend

frontend 配置参数：

bind：指定HAProxy的监听地址，可以是IPV4或IPV6，可以同时监听多个IP或端口，可同时用于listen字段中

#格式： bind [

]: [, ...] [param*] #注意：如果需要绑定在非本机的IP，需要开启内核参数：net.ipv4.ip_nonlocal_bind=1 backlog

backlog <backlog> #针对所有server配置,当前端服务器的连接数达到上限后的后援队列长度，注意：不支持backend

frontend webcluster
    bind *:80
    mode http
    use_backend webcluster-host   #调用backend的名称


backend webcluster-host
    mode http
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5

2.3 backend

定义一组后端服务器，backend服务器将被frontend进行调用。
注意: backend 的名称必须唯一,并且必须在listen或frontend中事先定义才可以使用,否则服务无法启动

mode http|tcp #指定负载协议类型,和对应的frontend必须一致

option #配置选项

server #定义后端real server,必须指定IP和端口

#option后面加 httpchk，smtpchk,mysql-check,pgsql-check，ssl-hello-chk方法，可用于实现更多应用层检测功能

server配置

check                 #对指定real进行健康状态检查，如果不加此设置，默认不开启检查,只有check后面没有其它配置也可以启用检查功能

#默认对相应的后端服务器IP和端口,利用TCP连接进行周期性健康性检查,注意必须指定端口才能实现健康性检查

addr <IP>      #可指定的健康状态监测IP，可以是专门的数据网段，减少业务网络的流量

port <num>   #指定的健康状态监测端口

inter <num>    #健康状态检查间隔时间，默认2000 ms

fall <num> #后端服务器从线上转为线下的检查的连续失效次数，默认为3

rise <num> #后端服务器从下线恢复上线的检查的连续有效次数，默认为2

weight <weight> #默认为1，最大值为256，0(状态为蓝色)表示不参与负载均衡，但仍接受持久连接

backup #将后端服务器标记为备份状态,只在所有非备份主机down机时提供服务，类似Sorry Server

disabled #将后端服务器标记为不可用状态，即维护状态，除了持久模式 #将不再接受连接,状态为深黄色,优雅下线,不再接受新用户的请求

redirect prefix http://www.baidu.com/ #将请求临时(302)重定向至其它URL，只适用于http模式

maxconn <maxconn> #当前后端server的最大并发连接数

2.4 listen 简化配置

使用listen替换 frontend和backend的配置方式，可以简化设置，通常只用于TCP协议的应用

listen webserver_80
   bind 172.25.250.100:80
   mode http
   option forwardfor
   server webserver1 172.25.250.10:80 check inter 3s fall 3 rise 5
   server webserver2 172.25.250.20:80 check inter 3s fall 3 rise 5

3. socat 工具

对服务器动态权重和其它状态可以利用 socat工具进行调整，Socat 是 Linux 下的一个多功能的网络工具，名字来由是Socket CAT，相当于netCAT的增强版.Socat 的主要特点就是在两个数据流之间建立双向通道，且支持众多协议和链接方式。如 IP、TCP、 UDP、IPv6、Socket文件等范例：利用工具socat 对服务器动态权重调整

#修改配置文件
[root@haproxy ~]# vim /etc/haproxy/haproxy.cfg
stats socket /var/lib/haproxy/stats mode 600 level admin

#查看帮助
haproxy ~]# socat -h
haproxy ~]# echo "help" | socat stdio /var/lib/haproxy/stats
The following commands are valid at this level:
help           : this message
prompt         : toggle interactive mode with prompt
quit           : disconnect

...

enable server : enable a disabled server (use 'set server' instead)   #启用服务器
set maxconn server : change a server's maxconn setting
set server     : change a server's state, weight or address           #设置服务器   
get weight     : report a server's current weight                     #查看权重
set weight     : change a server's weight (deprecated)                #设置权重
show startup-logs : report logs emitted during HAProxy startup
how peers [peers section]: dump some information about all the peers or this 
peers section
set maxconn global : change the per-process maxconn setting
set rate-limit : change a rate limiting value
set severity-output [none|number|string] : set presence of severity level in
feedback information
set timeout   : change a timeout setting
show env [var] : dump environment variables known to the process
show cli sockets : dump list of cli sockets
show cli level   : display the level of the current CLI session
show fd [num] : dump list of file descriptors in use
...

常用示例：

查看haproxy状态	echo "show info" \| socat stdio /var/lib/haproxy/stats
查看集群状态	echo "show servers state" \| socat stdio /var/lib/haproxy/stats 1
查看集群权重	echo get weight webcluster/web1 \| socat stdio echo get weight webcluster/web2 \| socat stdio
设置权重	echo "set weight webcluster/web1 1 " \| socat stdio /var/lib/haproxy/stats echo "set weight webcluster/web1 2 " \| socat stdio /var/lib/haproxy/stats
下线后端服务器	echo "disable server webcluster/web1 " \| socat stdio /var/lib/haproxy/stats
上线后端服务器	echo "enable server webcluster/web1 " \| socat stdio /var/lib/haproxy/stats

多进程处理方法--热处理

如果开启多进程那么我们在对进程的sock文件进行操作时其对进程的操作时随机的如果需要指定操作进程那么需要用多soct文件方式来完成

   stats socket /var/lib/haproxy/stats1 mode 600 level admin process 1
   stats socket /var/lib/haproxy/stats2 mode 600 level admin process 2
   nbproc 2
   cpu-map 1 0
   cpu-map 2 1

这样每个进程就会有单独的sock文件来进行单独管理

四、haproxy的算法

HAProxy通过固定参数 balance 指明对后端服务器的调度算法
balance参数可以配置在listen或backend选项中
HAProxy的调度算法分为静态和动态调度算法
有些算法可以根据参数在静态和动态算法中相互转换

1.静态算法

静态算法：按照事先定义好的规则轮询公平调度，不关心后端服务器的当前负载、连接数和响应速度等，且无法实时修改权重(只能为0和1,不支持其它值)，只能靠重启HAProxy生效

1.1 static-rr 基于权重的轮询调度

不支持运行时利用socat进行权重的动态调整(只支持0和1,不支持其它值)
不支持端服务器慢启动
其后端主机数量没有限制，相当于LVS中的 wrr

Note:慢启动是指在服务器刚刚启动上不会把他所应该承担的访问压力全部给它，而是先给一部分，当没问题后在给一部分

1.2 first

根据服务器在列表中的位置，自上而下进行调度
其只会当第一台服务器的连接数达到上限，新请求才会分配给下一台服务
其会忽略服务器的权重设置
不支持用socat进行动态修改权重,可以设置0和1,可以设置其它值但无效

2.动态算法

基于后端服务器状态进行调度适当调整
新请求将优先调度至当前负载较低的服务器
权重可以在haproxy运行时动态调整无需重启

2.1 roundrobin

1. 基于权重的轮询动态调度算法

2. 支持权重的运行时调整，不同于lvs中的rr轮训模式

3. HAProxy中的roundrobin支持慢启动(新加的服务器会逐渐增加转发数)

4. 其每个后端backend中最多支持4095个real server

5. 支持对real server权重动态调整

6. roundrobin为默认调度算法,此算法使用广泛

2.2 leastconn

1.leastconn加权的最少连接的动态

2.支持权重的运行时调整和慢启动，即:根据当前连接最少的后端服务器而非权重进行优先调度(新客户端连接)

3.比较适合长连接的场景使用，比如：MySQL等场景

3.其他算法

3.1 source

源地址hash，基于用户源地址hash并将请求转发到后端服务器，后续同一个源地址请求将被转发至同一个后端web服务器。此方式当后端服务器数据量发生变化时，会导致很多用户的请求转发至新的后端服务器，默认为静态方式，但是可以通过hash-type支持的选项更改这个算法一般是在不插入Cookie的TCP 模式下使用，也可给拒绝会话cookie的客户提供最好的会话粘性，适用于session会话保持但不支持 cookie和缓存的场景源地址有两种转发客户端请求到后端服务器的服务器选取计算方式，分别是取模法和一致性hash

3.1.1 map-base 取模法

将请求的源地址进行hash运算，并由后端服务器的权重总数相除后派发至某匹配的服务器；这可以使得同一个客户端IP的请求始终被派发至某特定的服务器；此方法是静态的，即不支持在线调整权重，不支持慢启动，可实现对后端服务器均衡调度。缺点是当服务器的总权重发生变化时，即有服务器上线或下线，都会因总权重发生变化而导致调度结果整体改变，hash-type 指定的默认值为此算法：A. 对原地址hash，第一次调度时使用WLC (所谓取模运算，就是计算两个数相除之后的余数，10%7=3, 7%4=3) 。B. 基于权重取模，hash(source_ip)%所有后端服务器相加的总权重
• consistent：一致性哈希，当服务器的总权重发生变化时，对调度结果影响是局部的，不会引起大的变动，hash（o）mod n ，该hash算法是动态的，支持使用 socat等工具进行在线权重调整，支持慢启动。

map-based：取模法，对source地址进行hash计算，再基于服务器总权重的取模，最终结果决定将此请求转发至对应的后端服务器。
此方法是静态的，即不支持在线调整权重，不支持慢启动，可实现对后端服务器均衡调度
缺点是当服务器的总权重发生变化时，即有服务器上线或下线，都会因总权重发生变化而导致调度结果整体改变
hash-type 指定的默值为此算法

Note：所谓取模运算，就是计算两个数相除之后的余数，10%7=3, 7%4=3 map-based算法：基于权重取模，hash(source_ip)%所有后端服务器相加的总权重

比如当源hash值时1111，1112，1113，三台服务器a b c的权重均为1，

即abc的调度标签分别会被设定为 0 1 2（1111%3=1，1112%3=2，1113%3=0）

1111 ----- > nodeb

1112 ------> nodec

1113 ------> nodea

如果a下线后，权重数量发生变化

1111%2=1，1112%2=0，1113%2=1

1112和1113被调度到的主机都发生变化，这样会导致会话丢失

#不支持动态调整权重值
[root@haproxy ~]# echo "set weight webserver_80/webserver1 2" | socat stdio 
/var/lib/haproxy/haproxy.sock
Backend is using a static LB algorithm and only accepts weights '0%' and '100%'.

#只能动态上线和下线
[root@haproxy ~]# echo "set weight webserver_80/webserver1 0" | socat stdio 
/var/lib/haproxy/haproxy.sock

[root@haproxy ~]# echo "get weight webserver_80/webserver1" | socat stdio 
/var/lib/haproxy/haproxy.sock
0 (initial 1)

3.1.2 一致性hash

一致性哈希，当服务器的总权重发生变化时，对调度结果影响是局部的，不会引起大的变动hash（o） mod n
该hash算法是动态的，支持使用 socat等工具进行在线权重调整，支持慢启动

1、后端服务器哈希环点keyA=hash(后端服务器虚拟ip)%(2^32)

2、客户机哈希环点key1=hash(client_ip)%(2^32) 得到的值在[0---4294967295]之间

3、将keyA和key1都放在hash环上，将用户请求调度到离key1最近的keyA对应的后端服务器

hash环偏斜问题

增加虚拟服务器IP数量，比如：一个后端服务器根据权重为1生成1000个虚拟IP，再hash。而后端服务器权重为2则生成2000的虚拟IP，再bash,最终在hash环上生成3000个节点，从而解决hash环偏斜问题

一致性hash

配置示例

listen webserver_80
   bind 172.25.250.100:80
   mode http
   balance source
   hash-type consistent       //hash
   server webserver1 172.25.250.10:80 weight 1 check inter 3s fall 3 rise 5 
   server webserver2 172.25.250.20:80 weight 1 check inter 3s fall 3 rise 5

3.2 uri

基于对用户请求的URI的左半部分或整个uri做hash，再将hash结果对总权重进行取模后
根据最终结果将请求转发到后端指定服务器
适用于后端是缓存服务器场景
默认是静态算法，也可以通过hash-type指定map-based和consistent，来定义使用取模法还是一致性 hash

注意：此算法基于应用层，所以只支持 mode http ，不支持 mode tcp

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
左半部分：/<path>;<params>
整个uri：/<path>;<params>?<query>#<frag>

配置示例

listen webserver_80
   bind 172.25.250.100:80
   mode http
   balance uri
   hash-type consistent
   server webserver1 172.25.250.10:80 weight 1 check inter 3s fall 3 rise 5 
   server webserver2 172.25.250.20:80 weight 1 check inter 3s fall 3 rise 5

访问测试

[root@rs1 ~]# echo RS1 172.25.250.10 index1 > /var/www/html/index1.html
[root@rs1 ~]# echo RS1 172.25.250.10 index2 > /var/www/html/index2.html
[root@rs1 ~]# echo RS1 172.25.250.10 index3 > /var/www/html/index3.html
[root@rs2 ~]# echo RS1 172.25.250.20 index1 > /var/www/html/index1.html
[root@rs2 ~]# echo RS1 172.25.250.20 index2 > /var/www/html/index2.html
[root@rs2 ~]# echo RS1 172.25.250.20 index3 > /var/www/html/index3.html

[root@client ~]# curl 172.25.250.100/index.html
RS2 server - 172.25.250.20
[root@client ~]# curl 172.25.250.100/index1.html
RS1 172.25.250.10 index1
[root@client ~]# curl 172.25.250.100/index2.html
RS1 172.25.250.20 index2
[root@client ~]# curl 172.25.250.100/index3.html
RS1 172.25.250.10 index3

3.3 url_param

1.url_param对用户请求的url中的 params 部分中的一个参数key对应的value值作hash计算，并由服务器总权重相除以后派发至某挑出的服务器,后端搜索同一个数据会被调度到同一个服务器，多用与电商

2.通常用于追踪用户，以确保来自同一个用户的请求始终发往同一个real server

3.如果无没key，将按roundrobin算法

经过<argument>为URL指定的参数在每一个HTTP GET请求中将会被检索；若是找到了指定的参数且其经过等于号“=”被赋予了一个值，那么此值将被执行hash运算并被服务器的总权重相除后派发至某匹配的服务器；此算法能够经过追踪请求中的用户标识进而确保同一个用户ID的请求将被送往同一个特定的服务器，除非服务器的总权重发生了变化；若是某请求中没有出现指定的参数或其没有有效值，则使用轮叫算法对相应请求进行调度；此算法默认为静态的，不过其也可使用hash-type修改此特性

3.4 hdr

针对用户每个http头部(header)请求中的指定信息做hash，此处由 name 指定的http首部将会被取出并做hash计算，然后由服务器总权重取模以后派发至某挑出的服务器，如果无有效值，则会使用默认的轮询调度。

对于每一个http请求，经过<name>指定的http首部将会被检索；若是相应的首部没有出现或其没有有效值，则使用轮叫算法对相应请求进行调度；其有一个可选选项“use_domain_only”，可在指定检索相似Host类的首部时仅计算域名部分(好比经过www.baidu.com来讲，仅计算baidu字符串的hash值)以下降hash算法的运算量；此算法默认为静态的，不过其也可使用hash-type修改此特性

rdp(windows 远程桌面协议)-cookie 用于对 windows 远程桌面的反向代理，主要是使用 cookie 保持来会话；此调度算法专门适用于 windows 远程桌面连接场景。当连接到后端服务器后，会生成一个cookie，下次相同的cookie连接时，还会被调度到同一台后端服务器，适用于后端多服务器场景

4.算法总结

#静态
static-rr------------->tcp/http
first------------------>tcp/http
#动态
roundrobin-------->tcp/http
leastconn---------->tcp/http
#以下静态和动态取决于hash_type是否consistent
source-------------->tcp/http
Uri------------------->http
url_param--------->http
hdr------------------>http

5.各算法使用场景

first                         #使用较少
static-rr #做了session共享的web集群
roundrobin
leastconn                #数据库
source

#基于客户端公网IP的会话保持
Uri------------------------>http         #缓存服务器，CDN服务商，蓝汛、百度、阿里云、腾讯
url_param-------------->http         #可以实现session保持
hdr #基于客户端请求报文头部做下一步处理

五.高级功能及配置

1. 基于cookie会话保持

cookie value：为当前server指定cookie值，实现基于cookie的会话黏性，相对于基于 source 地址hash调度算法对客户端的粒度更精准，但同时也加大了haproxy负载，目前此模式使用较少，已经被session共享服务器代替

Note：不支持 tcp mode，使用 http mode

1.1 配置选项

name：                 #cookie 的 key名称，用于实现持久连接
insert：                 #插入新的cookie,默认不插入cookie
indirect：              #如果客户端已经有cookie,则不会再发送cookie信息
nocache： #当client和hapoxy之间有缓存服务器（如：CDN）时，不允许中间缓存器缓存cookie，因为这会导致很多经过同一个CDN的请求都发送到同一台后端服务器

配置示例：

listen webcluster
    bind *:80
    mode http
    balance roundrobin
    cookie WEBCOOKIE insert nocache indirect

    server web1 172.25.250.10:80 cookie rs1 check inter 2 fall 2 rise 5
    server web2 172.25.250.20:80 cookie rs2 check inter 2 fall 2 rise 5

验证cookie信息

2. HAProxy状态页

通过web界面，显示当前HAProxy的运行状态

2.1 状态页配置项

stats enable #基于默认的参数启用stats page
stats hide-version #将状态页中haproxy版本隐藏
stats refresh <delay> #设定自动刷新时间间隔，默认不自动刷新
stats uri <prefix> #自定义stats page uri，默认值：/haproxy?stats
stats auth <user>:<passwd> #认证时的账号和密码，可定义多个用户,每行指定一个用户
#默认：no authentication
stats admin { if | unless } <cond> #启用stats page中的管理功能

2.2 启用状态页

vim/etc/haproxy/haproxy.cfg
 
listen stats
    mode http               ----模式
    bind *:443              ----- 监听端口
    stats enable            ---- 打开状态页
    stats refresh 5         ---- 设置刷新页面的时间
    stats uri /status  
    stats auth user:passwd  ---- 访问页面认证

3. IP透传

web服务器中需要记录客户端的真实IP地址，用于做访问统计、安全防护、行为分析、区域排行等场景。

四层IP透传

nginx 配置：在访问日志中通过变量$proxy_protocol_addr 记录透传过来的客户端IP

rs1提供nginx vim /etc/nginx/nginx.conf

#nginx 配置：在访问日志中通过变量$proxy_protocol_addr 记录透传过来的客户端IP

.......

http {
    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$proxy_protocol_addr"'
                      '"$http_user_agent" "$http_x_forwarded_for"';

......


    server {
        listen 80 proxy_protocol;  #启用此项，将无法直接访问此网站，只能通过四层代理
        listen       [::]:80;
        server_name  _;
        root         /usr/share/nginx/html;

        # Load configuration files for the default server block.
        include /etc/nginx/default.d/*.conf;

        error_page 404 /404.html;
        location = /404.html {
        }

        error_page 500 502 503 504 /50x.html;
        location = /50x.html {
        }
    }

.......

修改haproxy

listen webserver_80
     bind *:80
     mode tcp            #四层通过tcp
     balance roundrobin
     server web1 172.25.250.10:80 send-proxy weight 1 check inter 3 fall 3 rise 5
     server web2 172.25.250.20:80 weight 1 check inter 3 fall 3 rise 5

查看日志内容

SLBrowser/9.0.3.5211 SLBChan/10" "172.25.250.1"
172.25.250.10 - - [11/Aug/2024:13:47:15 +0800] "GET / HTTP/1.1" 200 27 "-" "curl/7.76.1" "-"

七层IP透传

当haproxy工作在七层的时候，也可以透传客户端真实IP至后端服务器

1 HAProxy配置

在全局中通过option forward for 实现IP透传

在由haproxy发往后端主机的请求报文中添加“X-Forwarded-For"首部，其值为前端客户端的地址；用于向后端主发送真实的客户端IP

2 web服务器日志格式配置 ——rs2 apache

配置web服务器，记录负载均衡透传的客户端IP地址

LogFormat "%{X-forwarded-For}i  %h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

curl 172.25.250.100 再查看日志

[root@rs2 ~]# tail -n 3 /etc/httpd/logs/access_log 
172.25.250.20  172.25.250.100 - - [11/Aug/2024:14:35:51 +0800] "GET / HTTP/1.1" 200 72990 "-" "curl/7.76.1"
172.25.250.20  172.25.250.100 - - [11/Aug/2024:14:35:52 +0800] "GET / HTTP/1.1" 200 72991 "-" "curl/7.76.1"
172.25.250.20  172.25.250.100 - - [11/Aug/2024:14:35:53 +0800] "GET / HTTP/1.1" 200 72992 "-" "curl/7.76.1"

4. ACL

访问控制列表ACL，Access Control Lists）

是一种基于包过滤的访问控制技术

它可以根据设定的条件对经过服务器传输的数据包进行过滤(条件匹配)即对接收到的报文进行匹配和过滤，基于请求报文头部中的源地址、源端口、目标地址、目标端口、请求方法、URL、文件后缀等信息内容进行匹配并执行进一步操作，比如允许其通过或丢弃。

ACL-Name 名称

acl     test     path_    end   -m     sub     /a
#ACL名称，可以使用大字母A-Z、小写字母a-z、数字0-9、冒号：、点.、中横线和下划线，并且严格区分大
小写，比如:my_acl和My_Acl就是两个完全不同的acl5.8.1.2 ACL-criterion

4.1 ACL-criterion 匹配规范

定义ACL匹配规范，即：判断条件

hdr string，提取在一个HTTP请求报文的首部
hdr（[<name> [，<occ>]]）：完全匹配字符串,header的指定信息，<occ> 表示在多值中使用的值的出
现次数
hdr_beg（[<name> [，<occ>]]）：前缀匹配，header中指定匹配内容的begin
hdr_end（[<name> [，<occ>]]）：后缀匹配，header中指定匹配内容end
hdr_dom（[<name> [，<occ>]]）：域匹配，header中的dom（host）
hdr_dir（[<name> [，<occ>]]）：路径匹配，header的uri路径
hdr_len（[<name> [，<occ>]]）：长度匹配，header的长度匹配
hdr_reg（[<name> [，<occ>]]）：正则表达式匹配，自定义表达式(regex)模糊匹配
hdr_sub（[<name> [，<occ>]]）：子串匹配，header中的uri模糊匹配 模糊匹配c 报文中a/b/c也会匹
配 

#示例：
hdr(<string>) 用于测试请求头部首部指定内容
hdr_dom(host) 请求的host名称，如 www.timinglee.org
hdr_beg(host) 请求的host开头，如 www.   img.   video.   download.   ftp.
hdr_end(host) 请求的host结尾，如 .com   .net   .cn

#示例：
acl bad_agent hdr_sub(User-Agent) -i curl wget
http-request deny if bad_agent

#有些功能是类似的，比如以下几个都是匹配用户请求报文中host的开头是不是www
acl short_form hdr_beg(host)       www.
acl alternate1 hdr_beg(host) -m beg www.
acl alternate2 hdr_dom(host) -m beg www.
acl alternate3 hdr(host)     -m beg www.

base : string
#返回第一个主机头和请求的路径部分的连接，该请求从主机名开始，并在问号之前结束,对虚拟主机有用
<scheme>://<user>:<password>@#<host>:<port>/<path>;<params>#?<query>#<frag>
 base     : exact string match
 base_beg : prefix match
 base_dir : subdir match
 base_dom : domain match
 base_end : suffix match
 base_len : length match
 base_reg : regex match
 base_sub : substring match

path : string
#提取请求的URL路径，该路径从第一个斜杠开始，并在问号之前结束（无主机部分）
<scheme>://<user>:<password>@<host>:<port>#/<path>;<params>#?<query>#<frag>
 path     : exact string match
 path_beg : prefix match  #请求的URL开头，如/static、/images、/img、/css
 path_end : suffix match  #请求的URL中资源的结尾，如 .gif .png .css .js .jpg .jpeg
 path_dom : domain match
 path_dir : subdir match
 path_len : length match
 path_reg : regex match
 path_sub : substring match

#提取请求中的整个URL。
 url ：exact string match
 url_beg : prefix match
 url_dir : subdir match
 url_dom : domain match
 url_end : suffix match
 url_len : length match
 url_reg : regex match
 url_sub : substring match
 dst       #目标IP
 dst_port  #目标PORT
 src       #源IP
 src_port  #源PORT

#示例：
acl invalid_src src 10.0.0.7 192.168.1.0/24
acl invalid_src src 172.16.0.0/24
acl invalid_port src_port 0:1023
status : integer  #返回在响应报文中的状态码


#七层协议
acl valid_method method GET HEAD
http-request deny if ! valid_method

4.2 ACL-flags 匹配模式

-i 不区分大小写

-m 使用指定的正则表达式匹配方法

-n 不做DNS解析

-u 禁止acl重名，否则多个同名ACL匹配或关系

4.3 ACL-operator 具体操作符

整数比较：eq、ge、gt、le、lt
字符比较：
- exact match     (-m str) :字符串必须完全匹配模式
- substring match (-m sub) :在提取的字符串中查找模式，如果其中任何一个被发现，ACL将匹配
- prefix match    (-m beg) :在提取的字符串首部中查找模式，如果其中任何一个被发现，ACL将匹配
- suffix match    (-m end) :将模式与提取字符串的尾部进行比较，如果其中任何一个匹配，则ACL进行匹配
- subdir match    (-m dir) :查看提取出来的用斜线分隔（“/"）的字符串，如其中任一个匹配，则ACL进行匹配 
- domain match    (-m dom) :查找提取的用点（“."）分隔字符串，如果其中任何一个匹配，则ACL进行匹配

4.4 ACL-value 操作对象

value的类型

The ACL engine can match these types against patterns of the following types :
- Boolean                             #布尔值
- integer or integer range            #整数或整数范围，比如用于匹配端口范围
- IP address / network                #IP地址或IP范围, 192.168.0.1 ,192.168.0.1/24
- string--> www.exam.org
 exact                             #精确比较
 substring                         #子串
 suffix                            #后缀比较
 prefix                            #前缀比较
 subdir                           #路径， /wp-includes/js/jquery/jquery.js
 domain                           #域名，www.exam.org
- regular expression              #正则表达式
- hex block                       #16进制

4.5 多个ACL的组合调用方式

多个ACL的逻辑处理

与：隐式（默认）使用

或：使用“or" 或 “||"表示

否定：使用 "!" 表示

多个ACL调用方式：

#示例：

if valid_src valid_port #与关系，ACL中A和B都要满足为true，默认为与

if invalid_src || invalid_port #或，ACL中A或者B满足一个为true

if ! invalid_src #非，取反，不满足ACL才为true

5 ACL示例

5.1 域名匹配

haproxy配置

在Windows下添加本地解析

在本地端测试

5.2 基于源IP或子网调度访问

haproxy配置

frontend webcluster
    bind *:80
    mode http
    acl ctrl_ip src 172.25.250.1 172.25.250.20 192.168.0.0/24
    use_backend webcluster-host if ctrl_ip
    default_backend default-host

backend webcluster-host
    mode http
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5
        
backend default-host
    mode http
    server web2 172.25.250.20:80 check inter 2 fall 2 rise 5

本地测试

拒绝指定IP或者IP范围访问

5.3 匹配浏览器类型

frontend webcluster
    bind *:80
    mode http
    acl badwebrowers hdr_sub(User-Agent) -i curl wget
    http-request deny if badwebrowers
    default_backend default-host

backend webcluster-host
    mode http
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5
        
backend default-host
    mode http
    server web2 172.25.250.20:80 check inter 2 fall 2 rise 5

5.4 基于文件后缀名实现动静分离

在server1上下载php软件并写入配置

[root@rs1 ~]# yum install php -y
[root@rs1 ~]# vim /var/www/html/index.php 
[root@rs1 ~]# cat /var/www/html/index.php 
<?php
		phpinfo();
?>
[root@rs1 ~]# systemctl restart httpd

haproxy配置

frontend webcluster
    bind *:80
    mode http
    acl static path_end -i .html .jpg .png .css .js 
    acl php path_end -i .php
    
    use_backend webcluster-host if php 
    default_backend default-host

    default_backend default-host

backend webcluster-host
    mode http
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5

backend default-host
    mode http
    server web2 172.25.250.20:80 check inter 2 fall 2 rise 5

5.5匹配访问路径实现动静分离

haproxy配置

frontend webcluster
    bind *:80
    mode http
    acl static path_sub   -m sub static
    acl php    path_sub   -m sub php 
    
    use_backend webcluster-host if php 
    default_backend default-host

    default_backend default-host

backend webcluster-host
    mode http
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5

backend default-host
    mode http
    server web2 172.25.250.20:80 check inter 2 fall 2 rise 5

Note:由于是文件夹要在末尾加上/

6. 自定义HAProxy 错误界面

先关闭两台server主机的web服务

6.1 基于自定义的错误页面文件

haproxy配置

[root@haproxy ~]# mkdir /etc/haproxy/errorpage -p

[root@haproxy ~]# vim /etc/haproxy/errorpage/503.http

[root@haproxy ~]# cat /etc/haproxy/errorpage/503.http 
HTTP/1.0 503 Service Unavailable 
Cache-Control: no-cache 
Connection: close 
Content-Type: text/html;charset=UTF-8 

<html><body><h1>什么动物生气最安静</h1>
暴龙！！
</body></html>
[root@haproxy ~]#

在defaults中添加文件路径

由于server web服务已经关闭，所以现在curl server端会出现503 但是已经实现自定义效果如下：

7. haproxy 四层负载

实验准备：在两台server上分别下载数据库mariadb

[root@rs1 ~]# dnf install mariadb-server -y

7.1 修改server机数据库id

[root@rs1 ~]# vim /etc/my.cnf.d/mariadb-server.cnf 
.....
[mysqld]
server-id=1
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
log-error=/var/log/mariadb/mariadb.log
pid-file=/run/mariadb/mariadb.pid
......
[root@rs1 ~]# systemctl restart mariadb


[root@rs2 ~]# vim /etc/my.cnf.d/mariadb-server.cnf 
.....
[mysqld]
server=2
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
log-error=/var/log/mariadb/mariadb.log
pid-file=/run/mariadb/mariadb.pid
.....
[root@rs2 ~]# systemctl restart mariadb

7.2 进入数据库通过select查看

[root@rs1 ~]# mysql
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection id is 4
Server version: 10.5.22-MariaDB MariaDB Server

Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

MariaDB [(none)]> select @@server_id;
+-------------+
| @@server_id |
+-------------+
|           1 |
+-------------+
1 row in set (0.000 sec)

MariaDB [(none)]>

[root@rs2 ~]# mysql
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection id is 3
Server version: 10.5.22-MariaDB MariaDB Server

Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

MariaDB [(none)]> select @@server_id;
+-------------+
| @@server_id |
+-------------+
|           2 |
+-------------+
1 row in set (0.000 sec)

MariaDB [(none)]>

7.3 在数据库中创建可从任意主机连接的用户并完全控制

#server1
MariaDB [(none)]> create USER howe@'%' identified by 'www';
Query OK, 0 rows affected (0.001 sec)

MariaDB [(none)]> grant ALL ON *.* TO howe@'%';
Query OK, 0 rows affected (0.001 sec)

MariaDB [(none)]> quit
Bye


#server2
MariaDB [(none)]> create USER howe@'%' identified by 'www';
Query OK, 0 rows affected (0.002 sec)

MariaDB [(none)]> grant ALL ON *.* TO howe@'%';
Query OK, 0 rows affected (0.001 sec)

MariaDB [(none)]> quit
Bye

7.4 修改haproxy配置

listen dbserver
    bind *:3306
    mode tcp 
    balance static-rr
    server db1 172.25.250.10:3306 check inter 2 fall 2 rise 5
    server db2 172.25.250.20:3306 check inter 2 fall 2 rise 5

7.5 因为是轮询找两台机子测试

[root@haproxy ~]# mysql -uhowe -pwww -h 172.25.250.100
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection id is 5
Server version: 10.5.22-MariaDB MariaDB Server

Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

MariaDB [(none)]> select @@server_id;
+-------------+
| @@server_id |
+-------------+
|           1 |
+-------------+
1 row in set (0.001 sec)

MariaDB [(none)]> quit
Bye

[root@rs1 ~]# mysql -uhowe -pwww -h 172.25.250.100
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection id is 4
Server version: 10.5.22-MariaDB MariaDB Server

Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

MariaDB [(none)]> select @@server_id;
+-------------+
| @@server_id |
+-------------+
|           2 |
+-------------+
1 row in set (0.001 sec)

MariaDB [(none)]> quit
Bye

8. HAProxy https 实现

haproxy可以实现https的证书安全,从用户到haproxy为https,从haproxy到后端服务器用http通信但基于性能考虑,生产中证书都是在后端服务器比如nginx上实现

#配置HAProxy支持https协议，支持ssl会话； bind *:443 ssl crt /PATH/TO/SOME_PEM_FILE
#指令 crt 后证书文件为PEM格式，需要同时包含证书和所有私钥 cat demo.key demo.crt > demo.pem
#把80端口的请求重向定443 bind *:80 redirect scheme https if !{ ssl_fc }

8.1 证书制作

[root@haproxy ~]# mkdir -p /etc/haproxy/certs
[root@haproxy ~]# openssl req -newkey rsa:2048 -nodes -sha256 -keyout /etc/haproxy/certs/exam.org.key -x509 -days 365 -out /etc/haproxy/certs/exam.org.crt

#配置证书密钥
[root@haproxy ~]# ls /etc/haproxy/certs/
exam.org.crt  exam.org.key
[root@haproxy ~]# cat /etc/haproxy/certs/exam.org.key /etc/haproxy/certs/exam.org.crt > /etc/haproxy/certs/exam.pem
[root@haproxy ~]# cat /etc/haproxy/certs/exam.pem

8.2 haproxy配置

listen web-https
    bind *:443 ssl crt /etc/haproxy/certs/exam.pem
    mode http
    balance roundrobin
    server web1 172.25.250.10:80 check inter 2 fall 2 rise 5
    server web2 172.25.250.20:80 check inter 2 fall 2 rise 5

8.3 测试

浏览器 https://172.25.250.100