赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 容器服务 Kubernetes 版 ACK
  4. 产品概述
  5. 动态与公告
  6. 系统恢复
  7. 【系统恢复】容器服务关于2021年02月23日阿里云ECS管控API异常问题的公告

【系统恢复】容器服务关于2021年02月23日阿里云ECS管控API异常问题的公告

  • 系统恢复
  • 发布于 2025-04-18
  • 0 次阅读
文档编辑
文档编辑

背景

因02月23日ECS管控API发生异常,ACK及ACK Pro集群网络模式若为Terway(独占ENI或ENI多IP模式),部分用户在异常时间段所创建的Pod的IP会由于信息不一致而导致网络不通。我们建议相关用户核查此类Pod,如有问题需要加以修复,具体操作如下。

检查流程

步骤一:运行脚本检查节点

在每个节点上运行如下脚本。

#!/bin/bash
set -e
err(){
    echo "error at line $1"
}
trap 'err $LINENO' ERR
check(){
    cid=$1
    pid=$(docker inspect $cid -f '{{.State.Pid}}')
    if [ -z "$pid" ]; then
        echo 'cannot get pid from container $cid'
        return 1
    fi
    nsenter -t $pid -n curl -s --connect-timeout 4 100.100.100.200 -o /dev/null
}
for line in $(docker ps|grep -v k8s_POD|awk '$NF~/^k8s_/{print $1"_"$NF}'|awk -F_ '{print $1"_"$3"_"$4"_"$5}')
do
    IFS=_ read cid cname pod namespace <<< $line
    if ! check $cid; then
        echo "pod $namespace/$pod has connectivity issues"
    fi
    if [[ "$cname" == "terway" && "$namespace" == "kube-system"  && "$pod" =~ ^(terway-|terway-eniip-|terway-eni-) ]]; then
        terway_container=$cid
    fi
done
if [ -n "$terway_container" ]; then
   for pod in $(docker exec -it $terway_container terway-cli mapping|sed -r "s/\x1B\[([0-9]{1,3}(;[0-9]{1,2})?)?[mGK]//g"|awk '$3=="X"{print $1}')
   do
        echo "pod $pod on this host has connectivity issues"
   done
fi

预期输出:

pod *** has connectivity issues

如果输出以上信息,表示对应的Pod可能分配了一个有问题的IP。

步骤二:修复有问题的Pod

  1. 重建Terway Pod。

    kubectl -n kube-system delete pod -l app=terway 
    kubectl -n kube-system delete pod -l app=terway-eniip
    kubectl -n kube-system delete pod -l app=terway-eni
  2. 重建受影响的Pod。

    • 如果是通过Deployment或DaemonSet方式创建的Pod,您可以直接删除Pod,等待系统重新创建。

    • 如果是您直接创建的Pod,您需要删除Pod之后重新创建。

说明

以上脚本是对于网络通信异常的Pod节点进行网络插件重加载操作,运行完成之后,您可以再次运行检查流程中步骤一:运行脚本检查节点,以确认集群是否加固完成。如仍出现异常信息,请提交工单。

相关文章

【系统恢复】容器服务关于2021年02月23日阿里云ECS管控API异常问题的公告 2025-04-18 11:43

背景 因02月23日ECS管控API发生异常,ACK及ACK Pro集群网络模式若为Terway(独占ENI或ENI多IP模式),部分用户在异常时间段所创建的Pod的IP会由于信息不一致而导致网络不通。我们建议相关用户核查此类Pod,如有问题需要加以修复,具体操作如下。 <

【系统恢复】修复部分集群节点未成功挂载数据盘的公告 2025-04-18 11:43

我们发现近期有部分多可用区集群节点未能成功挂载数据盘,容器服务现已修复,新创建的集群将不再出现此问题。对于已经创建了的多可用区集群,如果您运行了较多的应用或者拉取镜像的数量不断增加时,可能会导致那些没有为Docker挂载数据盘的节点磁盘空间不足。如果您对修复有任何问题或者需要支持,请通过钉钉联系容器

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号