知行合一
Github
顺翔的技术驿站
顺翔的技术驿站
  • README
  • ABOUTME
  • Computer Science
    • 数据结构与算法
      • 位运算以及位图
      • 随机数
      • 递归
      • 经典排序算法
      • 经典查找算法
      • 数组和动态数组
      • 链表
      • 栈和队列
      • 树
      • 哈希表
    • 计算机网络
      • 物理层
      • 数据链路层
      • 网络层
        • TCP
      • 运输层
      • 应用层
      • HTTP
        • HTTPS的原理
        • DNS详解
        • file协议
        • 邮件协议
    • 设计模式
      • 单例模式
      • 建造者模式
      • 原型模式
      • 工厂模式
      • 享元模式
      • 代理模式
      • 装饰者模式
      • 桥接模式
      • 适配器模式
      • 外观模式
      • 组合模式
      • 事件驱动
      • 有限状态机
      • 备忘录模式
      • 模板方法模式
      • 策略模式
      • 迭代器模式
      • 命令模式
      • 解释器模式
    • 加密与解密
      • 数字证书原理
      • cfssl
  • Programming Language
    • 编程语言学习要素
    • Java
      • 集合
        • List
          • ArrayList
          • Vector
          • Stack
          • LinkedList
        • Iterator
        • Set
          • HashSet
          • TreeSet
        • Map
          • HashMap
          • HashTable
          • TreeMap
          • LinkedHashMap
      • 常用API
        • 日期时间处理
        • System
        • Random
        • Arrays
        • Scanner
        • 格式化输出
      • java特性
        • java5特性
        • java8特性
        • java9特性
        • java10特性
        • java11特性
      • 并发编程
        • 线程基础
        • 线程同步:synchronized及其原理
        • 线程同步: volatile
        • 锁机制
        • 锁的分类与对应的Java实现
        • JUC:同步辅助类
        • JUC: AtomicXXX
        • 线程池
        • ThreadLocal详解
      • 测试
        • 使用JMH进行基准测试
      • JVM
        • 强引用、软引用、弱引用、虚引用
        • jvm内存模型
        • jvm优化
        • GC算法与回收器
        • 静态绑定与动态绑定
      • ORM
        • Mybatis
          • IBatis常用操作
      • Web编程
        • Servlet详解(一)
        • Servlet详解(二):request和response对象
        • Servlet详解(三):会话技术与Cookie
        • JSP详解(一):页面构成、EL表达式
        • JSP详解(二):九大内置对象
        • JavaWeb的编码问题
        • Thymeleaf
      • Velocity
      • Java日志框架总结
      • Spring
        • SpringIOC
        • SpringMVC
        • SpringBoot源码
      • 其他
        • Apache Commons Lang使用总结
        • 使用FtpClient进行ftp操作
        • Java PDF操作总结
        • Java使用zip4j进行文件压缩
        • Java解析Excel总结
    • JVM Language
      • Groovy
      • Scala
    • Kotlin
      • 变量和常量
      • 数据类型
        • 基本数据类型
        • 容器类型
        • 函数类型
        • null和null安全
      • 流程控制
      • 包
      • 面向对象
    • Golang
      • 关键字与标识符
      • 变量和常量
      • 数据类型
      • 函数
      • 常用API
        • 时间日期处理
        • 字符串操作
        • 正则表达式
      • 控制语句
      • 包package
      • 面向对象
      • 错误处理
      • 命令行编程
        • Cobra
      • 文件操作
      • 测试
      • 并发编程
        • sync包详解
      • 数据格式与编码
        • 使用encoding包操作xml
        • 使用encoding包操作json
        • 使用magiconair操作properties
        • 使用go-ini操作ini
      • 反射
      • Build Tools
        • Go Module
        • Go Vendor
      • 日志框架
        • zap日志框架
      • Web编程
        • Gin
    • JavaScript
      • 数据类型
      • ECMAScript
        • ECMAScript6
      • NodeJS
    • TypeScript
      • 变量和常量
      • 数据类型
      • 函数
      • 面向对象
      • 泛型
      • Build Tools
        • tsc编译
        • 与webpack整合
    • Python
      • BuildTools
        • requirements.txt
        • Ananconda
    • Swift
      • 变量和常量
    • Script Language
      • Regex
      • BAT
      • Shell
    • Markup Language
      • Markdown
      • Yaml
  • Build Tools
    • CMake
    • Maven
      • 搭建Nexus私服
      • maven使用场景
    • Gradle
  • Version Control
    • Git
      • Git工作流
      • Git分支管理
      • Git Stash
      • Git Commit Message规范
      • .gitttributes文件
    • SVN
  • Distributed
    • 分布式基础理论
      • 互联网架构演变
      • 架构设计思想AKF拆分原则
      • CAP理论
      • BASE理论
    • 一致性
      • 一致性模型
      • 共识算法
        • Paxos
        • Raft
        • ZAB
      • 复制
        • 主从复制
        • Quorum机制
        • Nacos Distro协议
      • 缓存一致性
        • 双写一致性
        • 多级缓存一致性
    • 事务一致性
      • Seata
      • 本地消息表实现方案
      • 关于dpad的事务问题的分析
    • IO
    • RPC协议
    • 序列化
    • Session共享
    • 分布式协调
      • Zookeeper
        • zk集群4节点搭建
    • 服务治理
      • Dubbo分布式治理
    • 分布式ID
      • 分布式ID生成策略总结
    • 分布式锁
    • 应用服务器
      • Tomcat
    • Web服务器
      • Nginx
        • Nginx的基本配置
        • ab接口压力测试工具
        • nginx模块
        • 随机访问页面
        • 替换响应内容
        • 请求限制
        • 访问控制
        • 状态监测
        • nginx应用场景
        • 代理服务
        • 负载均衡
        • 缓存
        • 静态资源服务器和动静分离
        • 附录
      • Kong
    • 缓存中间件
      • Caffeine
      • memcached
      • Redis
        • Centos下安装Redis
        • RatHat下安装Redis
    • 数据库中间件
      • ShardingSphere
      • MyCat2
    • 消息中间件
      • Kafka
      • RocketMQ
  • Microservices
    • 服务发现
      • Nacos注册中心
      • Consul
    • 配置中心
      • Apollo
    • 消息总线
    • 客户端负载均衡
    • 熔断器
    • 服务网关
    • 链路追踪
      • Skywalking
  • Domain-Specific
    • Auth
      • 有关权限设计的思考
      • 认证方式
      • JWT
    • 任务调度
      • QuartzScheduler
      • Elastic-Job
      • XXL-Job
      • PowerJob
    • 工作流
      • BPM
      • Activiti
      • Flowable
    • 规则引擎
      • Drools
  • Architect
    • DDD领域驱动设计
      • 三层架构设计
      • 四层架构设计
    • Cola
    • 代码设计与代码重构
      • 重构改变既有代码设计
      • 枚举规范化
      • 接口幂等
      • 限流
      • 历史与版本
      • 逻辑删除和唯一索引
      • 业务对象设计
    • 单元测试
      • SpringBoot单元测试实践
    • 项目管理
    • APM
      • SkyWalking
      • Arthas
    • 性能优化
      • 接口性能优化
    • 系统设计
      • 流程中台
      • 短信中台
      • 权限中台
        • 智电运维平台组织架构改造二期
  • Database
    • Oracle
      • Docker下安装oracle11g
    • IBM DB2
    • Mysql
      • 安装Mysql
      • 用户与权限管理
      • MySQL的逻辑架构
      • 存储引擎
      • 索引详解
      • MySql的列类型
      • MySql中表和列的设计
      • MySql的SQL详解
      • 锁机制
      • 事务
      • Mysql函数总结
      • MySql存储过程详解
      • MySql触发器详解
      • Mysql视图详解
      • Mysql中Sql语句的执行顺序
      • 配置MySql主从和读写分离
      • MySql的备份策略
      • MySql分库分表解决方案
      • MySql优化总结
      • MySQL实战调优
        • schema与数据类型优化
    • Mongo
  • File System
    • README
    • HDFS
    • FastDFS
    • MinIO
  • Linux
    • 常用的Linux命令
    • vim
    • Linux磁盘管理
    • Linux系统编程
    • RedHat
      • rpm包管理器具体用法
    • Ubuntu
      • Ubuntu下录制屏幕并做成gif图片
      • Ubuntu20.05LiveServe版安装
  • DevOps
    • VM
      • 新建一个新的Linux虚拟机需要配置的东西
      • VMware桥接模式配置centos
      • VMwareFusion配置Nat静态IP
    • Ansible
    • Container
      • Docker
        • Dockerfile详解
        • DockerCompose详解
      • Containerd
    • Kubernetes
      • 安装k8s
        • 使用Minikube安装k8s
        • centos7.x下使用kubeadm安装k8s1.21
        • ubuntu20下使用kubeadm安装k8s1.21
        • centos7.x下使用二进制方式安装k8s1.20
        • 使用DockerDesktop安装K8s(适用M1芯片)
      • 切换容器引擎
      • 使用k8s部署项目的流程
      • 集群维护-备份升级排错
    • Gitlab
      • GitlabCI/CD
    • CI/CD
      • ArgoCD
  • Big-Data
    • Hadoop
    • MapReduce
    • HDFS
  • Front-End
    • Android
      • Log的使用、自定义Log工具类
      • Android倒计时功能实现
      • 解决ViewDrawableLeft左侧图片大小不可控的问题
      • AndroidSQLite基本用法
      • View的生命周期
      • 工具类
      • WebView详解
      • ViewTreeObserver类监听ViewTree
      • 在onCreate中获取控件的宽高等信息的几种方法
      • View的foreground属性
        • MaterialDesign
          • BottomNavigationBar
          • CardView
          • Elevation高度、shadows阴影、clipping裁剪、tint着色
          • TouchFeedbackRipple波纹动画
      • Volley完全解析——使用、源码
      • Android围住神经猫的实现
      • LookLook剖析,架构概述——MVP、Retrofit+RxJava
      • Android性能优化之渲染
    • Browser
      • 浏览器的工作原理
    • HTML
      • DOCTYPE标签、XHTML与HTML的区别
    • CSS
      • CSS的继承性、层叠性、权重
      • CSS浮动float详解(一):标准文档流
      • CSS浮动float详解(二):使用float
      • CSS浮动float详解(三):清除浮动方案
    • Tools Lib
      • JavaScript 文件下载解决方案-download.js
      • js-url 用于url的js开源库
      • jsuri 用于操作url的js开源库
      • window offset
    • React
      • 模块化和组件
      • 组件的三大核心属性
      • 事件处理
      • 表单数据收集
      • 生命周期
      • DOM的diff算法
      • 工程化
        • 脚手架create-react-app
        • 工程结构和模块化
      • 路由
  • Design
    • 产品设计
      • 交互设计
由 GitBook 提供支持
在本页
  • ETCD数据库备份和恢复
  • kubeadm部署方式的etcd的备份和恢复
  • 二进制部署方式的etcd的备份和恢复
  • velero 备份集群
  • kubeadm对k8s集群版本升级
  • Centos下
  • Ubuntu下
  • 下线某个节点的流程
  • 下线node
  • 恢复下线的Node
  • 永久下线故障Node
  • 故障排查
  • 应用部署故障排查
  • 集群故障排查
  • Service访问异常

这有帮助吗?

在GitHub上编辑
  1. DevOps
  2. Kubernetes

集群维护-备份升级排错

ETCD数据库备份和恢复

kubeadm部署方式的etcd的备份和恢复

如果k8s集群使用kubeadm方式部署,则代表etcd数据库是使用静态pod的方式启动的,且一半只有单台。所以静态pod的etcd的安装的yaml位于/etc/kubernetes/manifests/etcd.yaml。该文件内包含了etcd的所有配置信息,包含数据目录等。

apiVersion: v1
kind: Pod
metadata:
  annotations:
    kubeadm.kubernetes.io/etcd.advertise-client-urls: https://192.168.121.10:2379
  creationTimestamp: null
  labels:
    component: etcd
    tier: control-plane
  name: etcd
  namespace: kube-system
spec:
  containers:
  - command:
    - etcd
    - --advertise-client-urls=https://192.168.121.10:2379
    - --cert-file=/etc/kubernetes/pki/etcd/server.crt
    - --client-cert-auth=true
    - --data-dir=/var/lib/etcd    ######888888888 这里是数据目录
    - --initial-advertise-peer-urls=https://192.168.121.10:2380
    - --initial-cluster=k8s-master=https://192.168.121.10:2380
    - --key-file=/etc/kubernetes/pki/etcd/server.key
    - --listen-client-urls=https://127.0.0.1:2379,https://192.168.121.10:2379
    - --listen-metrics-urls=http://127.0.0.1:2381
    - --listen-peer-urls=https://192.168.121.10:2380
    - --name=k8s-master
    - --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt
    - --peer-client-cert-auth=true
    - --peer-key-file=/etc/kubernetes/pki/etcd/peer.key
    - --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
    - --snapshot-count=10000
    - --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
    image: registry.aliyuncs.com/google_containers/etcd:3.4.13-0
    imagePullPolicy: IfNotPresent
    livenessProbe:
      failureThreshold: 8
      httpGet:
        host: 127.0.0.1
        path: /health
        port: 2381
        scheme: HTTP
      initialDelaySeconds: 10
      periodSeconds: 10
      timeoutSeconds: 15
    name: etcd
    resources:
      requests:
        cpu: 100m
        ephemeral-storage: 100Mi
        memory: 100Mi
    startupProbe:
      failureThreshold: 24
      httpGet:
        host: 127.0.0.1
        path: /health
        port: 2381
        scheme: HTTP
      initialDelaySeconds: 10
      periodSeconds: 10
      timeoutSeconds: 15
    volumeMounts:
    - mountPath: /var/lib/etcd
      name: etcd-data
    - mountPath: /etc/kubernetes/pki/etcd
      name: etcd-certs
  hostNetwork: true
  priorityClassName: system-node-critical
  volumes:
  ###### 使用hostpath部署
  - hostPath:
      path: /etc/kubernetes/pki/etcd # 证书目录
      type: DirectoryOrCreate
    name: etcd-certs
  - hostPath:
      path: /var/lib/etcd # etcd数据目录
      type: DirectoryOrCreate
    name: etcd-data
status: {}

备份到snap.db文件:

ETCDCTL_API=3 etcdctl snapshot save snap.db \
--endpoints=https://192.168.121.10:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--cert=/etc/kubernetes/pki/etcd/server.crt \
--key=/etc/kubernetes/pki/etcd/server.key

三个参数信息均可在上述yaml中查询到,执行完毕后会将数据备份到snap.db文件。

etcdctl命令安装:

apt install etcd

恢复etcd:

# 先暂停kube-apiserver和etcd,因为是static pod 所以只要移除 /etc/kubernetes/manifests/ 下的所有yaml即可停止静态pod
mv /etc/kubernetes/manifests /etc/kubernetes/manifests.bak
# 使用etcdctl恢复备份文件snap.db
EtCDCTL_API etcdctl snapshot restore snap.db \
--data-dir=/var/lib/etcd
# 启动停止的api-server和etcd
mv /etc/kubernetes/manifests.bak /etc/kubernetes/manifests

二进制部署方式的etcd的备份和恢复

二进制部署方式的etcd一般至少有三个节点

备份到snap.db文件:

ETCDCTL_API=3 etcdctl snapshot save snap.db \
--endpoints=https://192.168.121.10:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--cert=/etc/kubernetes/pki/etcd/server.crt \
--key=/etc/kubernetes/pki/etcd/server.key

endpoints指定任意一个etcd节点的ip即可,执行完毕后会将数据备份到snap.db文件。

恢复:

# 暂停kube-apiserver 和 etcd
systemctl stop kube-apiserver
systemctl stop etcd

# 在每个节点上恢复(所有的etcd节点都要执行,注意修改--name和--initial-advertise-peer-urls参数)
ETCDCTL_API=3 etcdctl snapshort restore snap.db \
--name etcd-1 \ 
--initial-cluster="etcd-1=https://192.168.121.10:2380,etcd-2=https://192.168.121.11:2380,etcd-3=https://192.168.121.12:2380" \
--initial-cluster-token=etcd-cluster \
--initial-advertise-peer-urls=https://192.168.121.10:2380 \
--data-dir=/var/lib/etcd/default.etcd
# 启动kubeapiserver和etcd
systemctl start kube-apiserver
systemctl start etcd

上述参数具体查看etcd的配置文件。

velero 备份集群

备份你的k8s集群

kubeadm对k8s集群版本升级

针对k8s的升级共有三个策略:

  1. 始终保持最新

  2. 每半年升级一次,这样会落后社区1到2个小版本

  3. 一年升级一次,或者更长,(大部分公司选择一年升级一次),落后的版本较多 (推荐)

升级的基本流程:

注意:

  1. 升级之前必须备份所有组件及数据,例如etcd

  2. 不可以跨多个小版本进行升级,最好不要跨多个小版本,比如从1.16升级到1.19,有可能出现不兼容的问题(k8s官方保证两个小版本之间是兼容的)

Centos下

升级管理节点

  1. 升级kubeadm

    # 查看当前集群的版本
    kubectl version
    
    # 查找kubeadm最新的版本号列表,确认要升级的版本,这里选择  1.22.0-0
    yum list --showduplicates kubeadm
    
    # 升级kubeadm
    yum install -y kubeadm-1.22.0-0
  2. 准备、验证升级

    # 驱逐node上的pod,且不可调度
    kubectl drain k8s-master --ignore-daemonsets --delete-emptydir-data
    
    # 检查集群是否可以升级,并获取可以升级的版本
    # 输出将会打印出可升级的命令
    kubeadm upgrade plan
  3. 执行升级

    kubeadm upgrade apply v1.22.0
  4. 升级kubelete 以及 kubectl

    yum install -y kubelet-1.22.0-0 kubelet-1.22.0-0
    # 重启kubelet
    systemctl daemon-reload
    systemctl restart kubelet
  5. 取消不可调度

    kubectl uncordon k8s-master

升级工作节点

注意:生产单台单台升级node,防止资源不可用

  1. 节点上升级kubeadm

    yum install -y kubeadm-1.22.0-0
  2. 驱逐工作node上的pod,且不可调度(在有kubectl配置的节点上操作)

    kubectl drain k8s-node1 --ignore-daemonsets --delete-emptydir-data
  3. 工作节点执行升级kubelet配置:

    kubeadm upgrade node
  4. 工作节点执行升级kubelet和kubectl

    yum install -y kubelet-1.22.0-0 kubectl-1.22.0-0
  5. 节点重启kubelet

    systemctl daemon-reload
    systemctl restart kubelet
  6. 节点取消不可调度,节点重新上线 (在有kubectl配置的节点上操作)

    kubectl uncordon k8s-node1
  7. 上述命令在每个工作节点上执行

查看升级结果

$ kubectl get node
NAME         STATUS   ROLES                  AGE     VERSION
k8s-master   Ready    control-plane,master   5d22h   v1.22.0
k8s-node1    Ready    <none>                 5d21h   v1.22.0
k8s-node2    Ready    <none>                 5d21h   v1.22.0

Ubuntu下

升级管理节点

kubectl drain mk8s-master-0 --ignore-daemonsets
ssh mk8s-master-0
sudo -i
apt install kubeadm=1.20.1-00 –y
kubeadm upgrade plan
kubeadm upgrade apply v1.20.1 --etcd-upgrade=false # 题目要求不升级 etcd
# 升级 kubelet 和 kubectl
apt install kubelet=1.20.1-00 kubectl=1.20.1-00 -y
systemctl restart kubelet
# 设置为可调度
kubectl uncordon mk8s-master-0
# 查看升级结果
kubectl get node

下线某个节点的流程

下线node

  1. 获取节点列表

    kubectl get node
  2. 驱逐节点上的pod并设置不可调度(cordon)

    kubectl drain <node_name> --ignore-daemonsets

恢复下线的Node

设置可调度或者移除节点

kubectl uncordon <node_name>

永久下线故障Node

kubectl delete node <node_name>

故障排查

应用部署故障排查

  1. 查看部署的资源的详细信息,是否含有异常事件

    kubectl describe TYPE/NAME
  2. 查看Pod的日志

    kubectl logs TYPE/NAME [-c CONTAINER]
  3. 进入容器终端检查

    kubectl exec POD [-c CONTAINER] -- COMMAND [args]

集群故障排查

首先区分部署方式,使用kubectl get pod -n kube-system快速查看是哪儿一种类型,如果是含有etcd、apiserver等静态pod说明是kubeadm安装

  1. Kubeadm: 除了kubeadm外,其他组件均采用静态pod启动

  2. 二进制:所有组件均采用systemd管理

常见问题:

  1. 网络不通

  2. 启动失败,一般配置文件或者依赖服务有问题

    # 查看kubelet日志
    
  3. 操作系统,平台不兼容,版本性兼容

Service访问异常

Service访问不通,有以下几种情况:

  1. Service是否正确关联Pod?

    kubectl get ep
  2. Service指定的target-port端口是否正常?

    nginx的服务端口为80,但是service的target-port设置为88
  3. Pod是否正常工作?

    nginx压根没有正常提供服务,查看restart是否有重启
  4. Service是否通过DNS工作?

    如果是通过域名访问的service,一定会走coredns解析,确保coredns组件正常工作
    kubectl get pod -n kube-system
  5. kube-proxy是否正常工作?

    查看系统组件kube-proxy的状态,状态不正常是服务创建iptables/ipvs的规则的
    kubectl get pod -n kube-system
  6. kube-proxy是否正常写iptables规则?

  7. cni网络插件是否正常工作?

    kubectl get pod -n kube-system
上一页使用k8s部署项目的流程下一页Gitlab

最后更新于2年前

这有帮助吗?

Kubernetes每隔3个月发布一个小版本,比如 v1.21到v1.22需要三个月。可以在上查看版本。

GitHub Release
image-20220208112323534
image-20220205001331516