🎯 核心理念(写进制度)
- 可观测性优先(Observability First)
👉 核心一句话:
服务器 = 可替换资源,而不是手工维护对象
二、系统初始化标准(标准化 + 可批量)
1️⃣ 初始化脚本(企业统一版)
#!/bin/bashset-eecho">>> 基础初始化开始"# 主机名hostnamectl set-hostname $1# 时区timedatectl set-timezone Asia/Shanghai# 时间同步dnf install -y chronysystemctl enable --now chronyd# 基础工具dnf install -yvimwgetcurl net-tools lsof# 关闭不必要服务systemctl disable --now postfix# 打开SSHsystemctl enable --now sshdecho">>> 初始化完成"
2️⃣ 内核调优(高并发模板)
cat > /etc/sysctl.d/99-sre.conf <<EOFnet.core.somaxconn = 65535net.ipv4.tcp_max_syn_backlog = 262144net.ipv4.tcp_fin_timeout = 30net.ipv4.ip_local_port_range = 1024 65535net.ipv4.tcp_tw_reuse = 1vm.swappiness = 10fs.file-max = 1000000EOFsysctl --system
3️⃣ 资源限制
cat >> /etc/security/limits.conf <<EOF* soft nofile 1000000* hard nofile 1000000EOF
三、安全基线(必须强制执行)
1️⃣ SELinux(禁止关闭)
sed-i 's/^SELINUX=.*/SELINUX=enforcing/' /etc/selinux/config
2️⃣ SSH 安全策略
cat >> /etc/ssh/sshd_config <<EOFPermitRootLogin noPasswordAuthentication noMaxAuthTries 3EOFsystemctl restart sshd
3️⃣ 防火墙(nftables)
dnf install -y nftablessystemctl enable --now nftables
4️⃣ 自动补丁
dnf install -y dnf-automaticsystemctl enable --now dnf-automatic.timer
四、容器化标准(RHEL10核心🔥)
1️⃣ 容器运行时
dnf install -y podmanpodman run -d-p80:80 nginx
2️⃣ Rootless 容器(企业必须)
loginctl enable-linger appuser
👉 优势:
3️⃣ Kubernetes 支撑
cat > /etc/modules-load.d/k8s.conf <<EOFbr_netfilterEOFsysctl -w net.bridge.bridge-nf-call-iptables=1
五、系统服务管理标准
1️⃣ systemd 规范
systemctl daemon-reexecsystemctl enable nginxsystemctl status nginx
2️⃣ 自启动巡检(重点🔥)
echo">>> systemd 自启动"systemctl list-unit-files | grep enabledecho">>> rc.local"cat /etc/rc.localecho">>> crontab"crontab -l
👉 用于你之前做的:
六、可观测性体系(SRE核心)
1️⃣ 基础监控
dnf install -y sysstatsar -u15
2️⃣ eBPF(核心能力🔥)
👉 RHEL10重点
工具:
bpftraceperfdnf install -y bpftracebpftrace -e 'tracepoint:syscalls:sys_enter_execve { printf("%s\n", comm); }'
3️⃣ 日志管理
journalctl -xejournalctl -u nginx
七、网络与性能排障标准
1️⃣ 网络排查
ss -lntptcpdump -i eth0 port 80-w /tmp/capture.pcap
2️⃣ IO性能
3️⃣ CPU分析
八、自动化运维(企业核心能力🔥)
1️⃣ Ansible(推荐)
ansible all -m shell -a"uptime"
2️⃣ 镜像化部署(RHEL10关键)
👉 推荐:
👉 流程:
九、巡检与自动化整改
1️⃣ 巡检脚本示例
#!/bin/bashecho">>> CPU负载"uptimeecho">>> 内存"free -mecho">>> 磁盘"df -hecho">>> 端口监听"ss -lntp
2️⃣ 定时任务
crontab -e
0 * * * * /opt/sre_check.sh >> /var/log/sre_check.log
十、企业级最佳实践(重点总结🔥)
🎯 必须做到的 5 件事
1️⃣ 所有服务容器化
👉 不再直接跑在宿主机
2️⃣ 禁止手工改配置
👉 所有变更必须:
3️⃣ 节点可随时销毁重建
👉 才算真正云原生
4️⃣ 必须有监控 + 日志 + tracing
👉 三位一体
5️⃣ 故障优先“重建”而不是“修复”
👉 SRE核心思想
十一、面试/简历可用总结(直接背🔥)
👉 你可以这样说:
在 RHEL10 环境下,我构建了一套企业级运维体系:
- 使用 Podman + Kubernetes 实现服务容器化
最终实现:从“人工运维”向“SRE自动化体系”转型