目录

过多sidecar同时连接单个istiod实例——触发istiod限流

问题

集群中未做任何变化,在短时间内(秒级)部分client端sidecar报 NC,请求被转发到默认路由 PassthroughCluster中。

./_images/Pasted%20image%2020231212203745.png
access log 报错

数据面会报如下错误:

./_images/企业微信截图_b9a0d486-e3b9-48a4-89fd-cf09e6842bca.png
ACK超时

./_images/企业微信截图_f9bb9888-f97e-4170-a370-0049f56d392c.png
连接超时

问题分析

查看控制面,发现控制面 istiod pod在这个时间段内有重启,其启动后,日志中发现有大量的如下报错:

./_images/Pasted%20image%2020231212204203.png
context deadline

./_images/Pasted%20image%2020231212204213.png
context cancel

根据日志可以看出是限流错误。插件代码,发现在istiod源码中,sidecar连接控制面有限流逻辑。源码如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
func (s *DiscoveryServer) Stream(stream DiscoveryStream) error {
    ... ...
    
    if err := s.WaitForRequestLimit(stream.Context()); err != nil {
        log.Warnf("ADS: %q exceeded rate limit: %v", peerAddr, err)
        return status.Errorf(codes.ResourceExhausted, "request rate limit exceeded: %v", err)
    }
    ... ...
}

func (s *DiscoveryServer) WaitForRequestLimit(ctx context.Context) error {
    if s.RequestRateLimit.Limit() == 0 {
    // Allow opt out when rate limiting is set to 0qps
    return nil
    }
    // Give a bit of time for queue to clear out, but if not fail fast. Client will connect to another
    // instance in best case, or retry with backoff.
    wait, cancel := context.WithTimeout(ctx, time.Second)
    defer cancel()
    return s.RequestRateLimit.Wait(wait)
}

当控制面 pod 重建的时候,会触发数据面对控制面的重连,当数据面比较多时,istiod的日志中就会出现上图所示的报错。

当数据长时间无法连接控制面,且控制面在服务发现的时候,数据还不够完整。就会出现路由短缺的问题,从而出现NR的问题。(原因待定)

问题解决

查看xds相关限流器的设置,发现istiod中有个环境变量,可以设置该限流器:

1
2
3
4
5
RequestLimit = env.Register(
    "PILOT_MAX_REQUESTS_PER_SECOND",
    25.0,
    "Limits the number of incoming XDS requests per second. On larger machines this can be increased to handle more proxies concurrently.",
).Get()

我们只需要把该参数适当的调大一点,就会避免启动的时候出现限流报错的问题。