宕机 的定义和应对方法

IT技术百科

宕机

/dàng jī/
计算机术语 运维概念

基本释义:指计算机系统或服务器因故障停止服务

词源:源自台湾IT行业用语,"宕"意为"停止"

📚 核心定义

技术定义

指服务器或系统因故障无法提供正常服务

宕机是指系统不可用状态
Downtime refers to system unavailability
运维术语

业务影响

导致网站或应用无法访问的状态

The downtime caused business losses
宕机造成了业务损失
商业影响

分类标准

根据持续时间分为部分/完全宕机

Partial downtime vs complete downtime
部分宕机与完全宕机
分类标准

"宕机"是IT运维领域专业术语,大陆地区也常用"当机"表示相同含义,在系统监控和SLA协议中尤为重要。

🔄 中英对照

英文术语

Server downtime

System crash

Service outage

中文对应

服务器宕机

系统崩溃

服务中断

🔍 常见原因

硬件故障
占比约35%

硬盘损坏/电源故障/网络中断

软件问题
占比约45%

系统漏洞/程序错误/配置错误

详细原因分析:

典型场景

  • 电商大促期间流量激增
  • 系统升级后兼容性问题
  • 未及时安装安全补丁

🛠️ 解决方法

应急处理

立即恢复服务的步骤

重启服务或服务器
切换备用服务器
紧急措施

故障排查

定位问题根源

检查系统日志
分析监控数据
技术分析

长期修复

彻底解决问题

硬件更换或升级
软件补丁或重构
系统优化

处理流程

1. 确认故障范围
2. 启动应急预案
3. 恢复基本服务
4. 彻底解决问题

⚠️ 注意事项

避免操作:

直接断电重启服务器 (风险)

建议:先尝试graceful shutdown

不记录故障现象就修复 (错误)

正确:先完整记录故障现象和日志

🛡️ 预防措施

硬件预防

1. 使用冗余电源和RAID阵列
2. 部署负载均衡集群
3. 定期硬件巡检

软件预防

1. 建立监控告警系统
2. 实施灰度发布机制
3. 定期数据备份

应急演练

1. 制定应急预案
2. 定期灾备演练
3. 建立快速响应团队