pod保持在同一个node，pod指定node

原标题：pod保持在同一个node，pod指定node

导读：

Part4:Pod对象的管理管理Pod对象中的容器主要通过spec.containers字段进行定义，明确容器的属性和行为。标签及标签选择器用于资源对象的分组和查询，帮助进行...

PART4:Pod 对象的管理

管理pod对象中的容器主要通过spec.CONTAINERs字段进行定义，明确容器的属性和行为。标签及标签选择器用于资源对象的分组和查询，帮助进行精确的资源管理和调度。为了避免shell解释器解析叹号！，标签选择器表达式必须使用单引号。节点选择器NodeSelector用于指定POD被调度到具有特定标签的节点上，提供更精细的调度控制。

介绍：CNN10是专门为学生准备的英文学习网站，每份材料时长约10分钟，语速适中，内容广泛，与雅思听力考试的Part 2和Part 4非常相似。由于是新闻网站，所以内容更新迅速，形式多样，非常适合用来练习听力理解和信息提取能力。

k8s 网络 组件-Calico

Calico是一种高效的容器网络方案，专为k8s等容器化平台设计，旨在实现容器间的高效互通与隔离控制。设计思想与优势：三层路由转发：Calico不采用隧道或NAT技术，而是将所有二三层流量转换为三层流量，通过主机上的路由配置完成跨主机转发，从而避免了二层广播带来的复杂性和资源开销。

Calico 提出将主机视为互联网中的路由器，使用 BGP 同步路由，并结合 iptables 安全访问策略，设计出了一种新的方案。Calico 适用场景：在 k8s 环境中，pod 之间需要隔离。设计思想：Calico 不采用隧道或 NAT 来实现转发，而是将所有二三层流量转换为三层流量，并通过主机上的路由配置完成跨主机转发。

尽管存在挑战，Calico仍以其高效和灵活的优势，在k8s环境中成为容器网络管理的首选之一。其三层路由技术不仅优化了资源利用，还提高了网络的可扩展性和易调试性。通过合理的网络规划和设计，Calico能够克服其面临的挑战，为k8s集群提供稳定、高效的网络解决方案。

// calico有两种模式：ipip（默认）、bgp，bgp效率更高。如果宿主机在同一个网段，可以使用ipip模式；如果宿主机不在同一个网段，pod通过BGP的hostGW是不可能互相通讯的，此时需要使用ipip模式（如果仍想使用bgp模式，除非你在中间路由器上手动添加路由）。

kubectl APPly -f calico.yaml calico客户端命令工具-calicoctl，可用来查看，修改calico配置 calico支持三种网络模式，可通过修过calico.yaml进行配置：下面分别进行配置验证，并分析数据流向安装完calico，默认就是ipip模式。node之间是full MESh连接。进入calico pod，查看运行的进程。

使用Kubernetes常犯的一些 错误

1、使用建议：不要在deployment中的镜像使用：latest 标签，而是使用固定的版本。否则可能会导致部署时候，k8s node使用本地的旧版本的image，导致线上环境出现版本问题。

2、如果容器无法启动，则kubernetes将显示错误状态为：CrashLoopBackoff。通常，在以下情况下容器无法启动：应用程序中存在错误，导致无法启动你未正确配置容器 liveness探针失败太多次你应该尝试从该容器中检索日志以调查其失败的原因。

3、在使用Kubernetes过程中，可能会遇到Permission denied错误。这通常发生在配置fluentd时，由于SELinux安全策略未关闭，导致无法创建日志文件。关闭SElinux安全策略即可解决此问题。基于 ServiceAccount的配置中，首先生成所有必要的密钥文件，例如将k8s-master替换为master主机名。

4、原因：端口映射错误，服务正常工作但不能提供服务。解决方法：删除SVC，重新映射端口。KuberNETes集群服务暴露失败：原因：容器已暴露服务，但SVC配置有误。解决方法：删除SVC，重新映射端口。外网无法访问Kubernetes集群提供的服务：原因：集群的type为ClusterIP，未将服务暴露至外网。

5、面对 Kubernetes 的报错，以下是一些实用的排障方法：ImagePullBackOff：检查 Pod 列表：确认 Pod 是否正在尝试拉取镜像。使用 docker pull：在本地尝试拉取镜像，验证镜像是否存在以及权限设置是否正确。确认镜像权限：确保 Kubernetes 集群有权访问镜像仓库。

6、Kubernetes limits 是在 Pod 定义或 Deployment 定义中为每个容器设置的。所有现代 Unix 系统都有一种方法可以杀死进程，以此回收内存（当没有空闲内存时，只能杀进程了）。这个错误将被标记为 137 错误码或 OOMKilled。退出代码 137 表示该进程使用的内存超过允许的数量，必须被 OS 终止。

Pods和Nodes

Kubernetes Pods 当你在模块 2 中创建一个Deployment的时候，Kubernetes创建了一个 Pod 来放置你的应用实例。Pod是Kubernetes中的一个抽象概念，一个Pod包含了一组应用容器（比如 Docker 或者rkt）和这些容器共用的资源。

Persistent Volume和Persistent Volume Claim类似Pods和Nodes的关系，创建Pods需要消耗一定的Nodes的资源。而Persistent Volume则是提供了各种存储资源，而Persistent Volume Claim提出需要的存储标准，然后从现有存储资源中匹配或者动态建立新的资源，最后将两者进行绑定。上面已经提到了创建PV的配置文件。

以下是一些关键步骤和技巧： **检查集群状态**：首先，使用`kubectl get nodes`和`kubectl get pods --all-namespaces`等命令来查看节点和Pod的状态，确保所有组件都在正常运行。 **日志检索**：使用`kubectl logs`命令来检索Pod的日志，以了解应用程序的行为和可能的问题。

kubectl version：显示客户端和服务器的Kubernetes版本信息。kubectl get nodes：列出集群中的所有节点，包括节点的名称、状态、角色、版本等信息。kubectl describe node ：查看一个具体节点的详细信息，包括节点的状态、容量、事件、分配的Pods等。

Node工作负载 异常,一部分pod状态为Terminating

1、总结：当Node工作负载异常，一部分Pod状态为Terminating时，应首先检查节点状态和集群资源情况，然后尝试使用自动或手动方法删除Terminating状态的Pod。同时，考虑优化发布策略以减少服务中断的风险。

2、Pod删除过程中，如果节点异常，Kubernetes会通过kube-controller-manager和kubelet的驱逐机制调整工作负载。kube-controller-manager负责大范围驱逐，而kubelet则处理细粒度的资源管理。Terminating状态的Pod，可以通过kubectl命令删除，或在资源压力下，kubelet直接驱逐。

3、pod可能运行在因为某种原因发生故障的节点。

4、分析如下：Node状态与Pod调度：在Kubernetes中，如果运行Pod的Node节点（包括master节点，尽管通常master节点不运行Pod，但在某些配置下可能会）发生故障，如宕机、网络异常等，Kubernetes会将该Node标记为NotReady状态。此时，Kubernetes的调度器会尝试在其他可用的Node节点上重新调度这些Pod，以实现高可用性。

标签：节点 Kubernetes 容器