k8spod故障，k8s故障处理

原标题：k8spod故障，k8s故障处理

导读：

搭建一个k8s单机版,yaml已经创建好,但pod状态一直处于pend资源不足：原因：如果集群中的资源不足，Pod可能无法被调度到任何节点上，从而处于Pending状态。解决...

搭建 一个 k8s 单机版,yaml已经创建好,但Pod 状态 一直处于pend

资源不足：原因：如果集群中的资源不足，pod 可能无法被调度到任何节点上，从而处于Pending状态。解决方法：检查集群的资源使用情况，确保有足够的资源可供POD使用。可以考虑增加节点或调整Pod的资源请求和限制。调度问题：原因：调度器可能由于某些原因无法找到合适的节点来部署Pod。

假设一位机器学习研究人员想要在PyTorch环境中使用基于Python的GPU 进行测试，她请求她的工程团队提供一个带有两个GPU的Jupyter笔记本，以及她所有的库。然而，工程团队告诉她这需要三天时间，包括获取GPU、创建堆栈以及授予对JupyterHub的访问权限。

针对k8s 10版本中core dns一直处于pending状态的问题，本文提供了一系列解决方案。首先，需要注意的是，当使用kubeadm init后，关闭cni可以解决部分问题。在进行kubeadm init操作前，应该在其他节点上也执行此操作，确保整个系统的一致性。对于kube-flannel.yml文件的修改，是一种推荐的解决方案。

在Kubernetes（K8s）中，当pod状态显示为“CONTAINERCreating”，这意味着pod已经由调度器分配至特定节点，该节点的kubelet正在创建容器。在此阶段，系统会进行容器创建操作。一旦所有容器启动并运行，pod状态将从“ContainerCreating”转变为“Running”。

K8S故障检查-Pod处于ContainerCreating状态

常见导致pod长时间处于“ContainerCreating”状态的原因包括镜像拉取问题、资源不足、持久卷问题、网络问题以及安全上下文或docker/运行时问题。要排查镜像拉取问题，可使用kubectl describe pod命令检查pod事件，寻找“Failed to pull image”或“ImagePullBackoff”事件，表明镜像拉取存在问题。

面对k8s应用卡在ContainerCreating状态的困扰，我通过kubectl describe po命令获取到了关键的日志信息。

问题描述：Pod处于终止状态或状态未知，通常与节点故障或删除操作相关。解决办法：强制删除Pod；检查节点的健康状态，必要时重启节点组件；检查集群的删除操作是否正确执行。UnexpectedAdmissiONError：问题描述：Pod因节点磁盘空间不足而无法正常创建或运行。

ContainerCreating：这种情况表示容器正在创建中，常见于配置问题导致的容器创建失败。例如，当使用Docker 服务时，可能会遇到节点上的kube-proxy、kubelet或docker服务重启后容器仍无法创建的情况。解决这类问题，通常需要检查服务的运行状态，确认资源是否充足，或者是否存在网络、存储配置问题。

K8S问题排查-UDP频繁发包导致Pod重启后无法接收数据

原因： conntrack表项问题：在K8S环境中，通过NodePort暴露的UDP服务在接收到频繁请求时，由于UDP conntrack表项默认老化时间为30秒，频繁请求可能导致老化失效。当Pod重启后，conntrack表中记录的可能是节点IP而非Pod IP，导致后续请求被错误地转发到节点IP而非新的Pod IP。

首先，构建K8S集群，部署UDP服务并用nc命令模拟客户端频繁发送UDP请求。网络分析显示请求正常到达目标Pod和节点，但Pod重启后接收中断。通过删除Pod构造重启，发现在Pod重启后，流量未按预期到达Pod，而是节点IP。使用iptables跟踪请求路径，发现流量未经过预期路径，而是进入INPUT链，指向DNAT问题。

当 Pod 状态为 CrashLoopBackOff 时，表示容器在启动后立即崩溃或退出。这可能是容器配置错误、应用程序错误、内存不足或权限问题导致。排查此类问题时，需详细检查容器配置、应用程序日志、内存使用情况及权限设置。Pod 状态为 Failed 通常意味着容器已终止，并且至少一个容器以失败方式退出。

标签：节点问题 pod