本系列文章将向您介绍 AIX 中用于增强操作系统可用性的功能和工具。其中将总结新的和现有的 AIX 可用性、可靠性和可服务性功能和工具。
当今的 IT 行业不再能够承受系统中断,无论是计划内还是计划外的中断。即使几分钟的应用程序中断也会导致重大的财务损失、客户信心降低、品牌形象受损,并带来公共关系问题。操作系统的主要作用是管理计算机系统的物理资源,以优化其应用程序的性能。此外,操作系统需要平稳并且无任何中断地处理分配给它的物理资源量的变化。为计算机系统赋予这种自我管理功能,通常转化为实现自我保护、自我修复、自我优化和自我配置工具和功能。
在组件和操作系统平稳适应环境变化的能力方面,客户正在期待自主计算。操作系统的一些最突出物理资源包括处理器、物理内存和 I/O 设备;系统处理这其中任何资源故障的能力,是构成持续可用的操作系统的一个重要功能。同时,添加和删除资源,以及在很少或不影响应用程序或数据库环境的情况下维护系统(从而维护业务)的需要,则是另一个重要的考虑事项。
AIX 的体系架构基础使服务器可以持续地自我优化,适应意外条件,帮助防止故障并从故障中恢复,以及为关键数据和系统提供一个安全的环境。这些 AIX 功能的特定示例包括首次故障数据捕获(First Failure Data Capture,FFDC)、自动系统恢复和 I/O 挂起检测及恢复、自我优化磁盘管理、动态分区以实现高效的资源利用,以及在预测要发生故障时自动进行服务拨号的能力。AIX 旨在自动化系统管理并最大化系统可用性。
![]() ![]() |
![]()
|
动态逻辑分区(Dynamic Logical Partitioning,DLPAR)功能针对正在运行的分区添加、删除或移动处理器、内存和 I/O 插槽资源,而不需要重新启动任何 AIX 实例。有关 DLPAR 的更多详细信息,请参阅 IBM 红皮书出版物 Advanced POWER Virtualization on IBM System p5:Introduction and Configuration,SG24-7940,该红皮书位于以下站点:
http://www.redbooks.ibm.com/redbooks/pdfs/sg247940.pdf
![]() ![]() |
![]()
|
对于动态处理器释放,服务处理器基于任何已记录的可恢复处理器错误,执行预测性故障分析。如果这些瞬时错误超出了某个已定义的阈值,则记录该事件,并从系统中释放该处理器,同时操作系统将继续运行。
原始的 CPU Guard 功能通过监视某些类型的瞬时错误来预测正在运行的 CPU 的故障,并动态地将 CPU 置于离线,但是不提供替代 CPU,从而降低了客户的计算能力。此外,旧的该功能不允许 SMP 系统使用两个以下的处理器进行操作。
AIX 5.2 中引入的动态 CPU Guard 功能是早期 AIX 版本中可用的原始 CPU Guard 的改进和动态版本。关键区别在于,新版本利用了 DLPAR 技术,并允许操作系统在仅使用一个处理器的情况下正常工作。从 AIX 5.2 开始引入的此功能缺省是启用的。示例 1 演示了如何检查此属性。
示例 1 动态 CPU Guard
briley# lsattr -El sys0 |grep cpuguard |
如果此功能已禁用,可以通过按如下方式执行 chdev 命令来启用它:
chdev -l sys0 -a cpuguard=enable |
![]() ![]() |
![]()
|
动态 CPU 备用功能允许透明地将可疑的缺陷 CPU 替换为正常的非授权处理器(“按需容量”处理器池的一部分)。该替代处理器无缝地置于在线,因此应用程序和内核扩展没有受到影响。
新的处理器自主地取代缺陷处理器。动态 CPU Gurad 和动态 CPU 备用协同工作,以通过客户的自我诊断和自我修复软件来保护他们的投资。更多信息可以在以下站点找到:
http://www.research.ibm.com/journal/sj/421/jann.html
本文转自IBM Developerworks中国