ETCD数据库备份和恢复
kubeadm部署方式的etcd的备份和恢复
如果k8s集群使用kubeadm方式部署,则代表etcd数据库是使用静态pod的方式启动的,且一半只有单台。所以静态pod的etcd的安装的yaml位于/etc/kubernetes/manifests/etcd.yaml
。该文件内包含了etcd的所有配置信息,包含数据目录等。
复制 apiVersion: v1
kind: Pod
metadata:
annotations:
kubeadm.kubernetes.io/etcd.advertise-client-urls: https://192.168.121.10:2379
creationTimestamp: null
labels:
component: etcd
tier: control-plane
name: etcd
namespace: kube-system
spec:
containers:
- command:
- etcd
- --advertise-client-urls=https://192.168.121.10:2379
- --cert-file=/etc/kubernetes/pki/etcd/server.crt
- --client-cert-auth=true
- --data-dir=/var/lib/etcd ######888888888 这里是数据目录
- --initial-advertise-peer-urls=https://192.168.121.10:2380
- --initial-cluster=k8s-master=https://192.168.121.10:2380
- --key-file=/etc/kubernetes/pki/etcd/server.key
- --listen-client-urls=https://127.0.0.1:2379,https://192.168.121.10:2379
- --listen-metrics-urls=http://127.0.0.1:2381
- --listen-peer-urls=https://192.168.121.10:2380
- --name=k8s-master
- --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt
- --peer-client-cert-auth=true
- --peer-key-file=/etc/kubernetes/pki/etcd/peer.key
- --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
- --snapshot-count=10000
- --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt
image: registry.aliyuncs.com/google_containers/etcd:3.4.13-0
imagePullPolicy: IfNotPresent
livenessProbe:
failureThreshold: 8
httpGet:
host: 127.0.0.1
path: /health
port: 2381
scheme: HTTP
initialDelaySeconds: 10
periodSeconds: 10
timeoutSeconds: 15
name: etcd
resources:
requests:
cpu: 100m
ephemeral-storage: 100Mi
memory: 100Mi
startupProbe:
failureThreshold: 24
httpGet:
host: 127.0.0.1
path: /health
port: 2381
scheme: HTTP
initialDelaySeconds: 10
periodSeconds: 10
timeoutSeconds: 15
volumeMounts:
- mountPath: /var/lib/etcd
name: etcd-data
- mountPath: /etc/kubernetes/pki/etcd
name: etcd-certs
hostNetwork: true
priorityClassName: system-node-critical
volumes:
###### 使用hostpath部署
- hostPath:
path: /etc/kubernetes/pki/etcd # 证书目录
type: DirectoryOrCreate
name: etcd-certs
- hostPath:
path: /var/lib/etcd # etcd数据目录
type: DirectoryOrCreate
name: etcd-data
status: {}
备份到snap.db文件:
复制 ETCDCTL_API=3 etcdctl snapshot save snap.db \
--endpoints=https://192.168.121.10:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--cert=/etc/kubernetes/pki/etcd/server.crt \
--key=/etc/kubernetes/pki/etcd/server.key
三个参数信息均可在上述yaml中查询到,执行完毕后会将数据备份到snap.db文件。
etcdctl命令安装:
恢复etcd:
复制 # 先暂停kube-apiserver和etcd,因为是static pod 所以只要移除 /etc/kubernetes/manifests/ 下的所有yaml即可停止静态pod
mv /etc/kubernetes/manifests /etc/kubernetes/manifests.bak
# 使用etcdctl恢复备份文件snap.db
EtCDCTL_API etcdctl snapshot restore snap.db \
--data-dir=/var/lib/etcd
# 启动停止的api-server和etcd
mv /etc/kubernetes/manifests.bak /etc/kubernetes/manifests
二进制部署方式的etcd的备份和恢复
二进制部署方式的etcd一般至少有三个节点
备份到snap.db文件:
复制 ETCDCTL_API=3 etcdctl snapshot save snap.db \
--endpoints=https://192.168.121.10:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--cert=/etc/kubernetes/pki/etcd/server.crt \
--key=/etc/kubernetes/pki/etcd/server.key
endpoints指定任意一个etcd节点的ip即可,执行完毕后会将数据备份到snap.db文件。
恢复:
复制 # 暂停kube-apiserver 和 etcd
systemctl stop kube-apiserver
systemctl stop etcd
# 在每个节点上恢复(所有的etcd节点都要执行,注意修改--name和--initial-advertise-peer-urls参数)
ETCDCTL_API=3 etcdctl snapshort restore snap.db \
--name etcd-1 \
--initial-cluster="etcd-1=https://192.168.121.10:2380,etcd-2=https://192.168.121.11:2380,etcd-3=https://192.168.121.12:2380" \
--initial-cluster-token=etcd-cluster \
--initial-advertise-peer-urls=https://192.168.121.10:2380 \
--data-dir=/var/lib/etcd/default.etcd
# 启动kubeapiserver和etcd
systemctl start kube-apiserver
systemctl start etcd
上述参数具体查看etcd的配置文件。
velero 备份集群
备份你的k8s集群
kubeadm对k8s集群版本升级
Kubernetes每隔3个月发布一个小版本,比如 v1.21
到v1.22
需要三个月。可以在GitHub Release 上查看版本。
针对k8s的升级共有三个策略:
一年升级一次,或者更长,(大部分公司选择一年升级一次),落后的版本较多 (推荐)
升级的基本流程:
注意:
不可以跨多个小版本进行升级,最好不要跨多个小版本,比如从1.16升级到1.19,有可能出现不兼容的问题(k8s官方保证两个小版本之间是兼容的)
Centos下
升级管理节点
升级kubeadm
复制 # 查看当前集群的版本
kubectl version
# 查找kubeadm最新的版本号列表,确认要升级的版本,这里选择 1.22.0-0
yum list --showduplicates kubeadm
# 升级kubeadm
yum install -y kubeadm-1.22.0-0
准备、验证升级
复制 # 驱逐node上的pod,且不可调度
kubectl drain k8s-master --ignore-daemonsets --delete-emptydir-data
# 检查集群是否可以升级,并获取可以升级的版本
# 输出将会打印出可升级的命令
kubeadm upgrade plan
执行升级
复制 kubeadm upgrade apply v1.22.0
升级kubelete 以及 kubectl
复制 yum install -y kubelet-1.22.0-0 kubelet-1.22.0-0
# 重启kubelet
systemctl daemon-reload
systemctl restart kubelet
取消不可调度
复制 kubectl uncordon k8s-master
升级工作节点
注意:生产单台单台升级node,防止资源不可用
节点上升级kubeadm
复制 yum install -y kubeadm-1.22.0-0
驱逐工作node上的pod,且不可调度(在有kubectl配置的节点上操作)
复制 kubectl drain k8s-node1 --ignore-daemonsets --delete-emptydir-data
工作节点执行升级kubelet和kubectl
复制 yum install -y kubelet-1.22.0-0 kubectl-1.22.0-0
节点重启kubelet
复制 systemctl daemon-reload
systemctl restart kubelet
节点取消不可调度,节点重新上线 (在有kubectl配置的节点上操作)
复制 kubectl uncordon k8s-node1
查看升级结果
复制 $ kubectl get node
NAME STATUS ROLES AGE VERSION
k8s-master Ready control-plane,master 5d22h v1.22.0
k8s-node1 Ready <none> 5d21h v1.22.0
k8s-node2 Ready <none> 5d21h v1.22.0
Ubuntu下
升级管理节点
复制 kubectl drain mk8s-master-0 --ignore-daemonsets
ssh mk8s-master-0
sudo -i
apt install kubeadm=1.20.1-00 –y
kubeadm upgrade plan
kubeadm upgrade apply v1.20.1 --etcd-upgrade=false # 题目要求不升级 etcd
# 升级 kubelet 和 kubectl
apt install kubelet=1.20.1-00 kubectl=1.20.1-00 -y
systemctl restart kubelet
# 设置为可调度
kubectl uncordon mk8s-master-0
# 查看升级结果
kubectl get node
下线某个节点的流程
下线node
驱逐节点上的pod并设置不可调度(cordon)
复制 kubectl drain <node_name> --ignore-daemonsets
恢复下线的Node
设置可调度或者移除节点
复制 kubectl uncordon <node_name>
永久下线故障Node
复制 kubectl delete node <node_name>
故障排查
应用部署故障排查
查看部署的资源的详细信息,是否含有异常事件
复制 kubectl describe TYPE/NAME
查看Pod的日志
复制 kubectl logs TYPE/NAME [-c CONTAINER]
进入容器终端检查
复制 kubectl exec POD [-c CONTAINER] -- COMMAND [args]
集群故障排查
首先区分部署方式,使用kubectl get pod -n kube-system
快速查看是哪儿一种类型,如果是含有etcd、apiserver等静态pod说明是kubeadm安装
Kubeadm: 除了kubeadm外,其他组件均采用静态pod启动
常见问题:
Service访问异常
Service访问不通,有以下几种情况:
Service指定的target-port端口是否正常?
复制 nginx的服务端口为80,但是service的target-port设置为88
Pod是否正常工作?
复制 nginx压根没有正常提供服务,查看restart是否有重启
Service是否通过DNS工作?
复制 如果是通过域名访问的service,一定会走coredns解析,确保coredns组件正常工作
kubectl get pod -n kube-system
kube-proxy是否正常工作?
复制 查看系统组件kube-proxy的状态,状态不正常是服务创建iptables/ipvs的规则的
kubectl get pod -n kube-system
kube-proxy是否正常写iptables规则?
cni网络插件是否正常工作?
复制 kubectl get pod -n kube-system