文章快速检索    
  深空探测学报  2018, Vol. 5 Issue (6): 575-581  DOI: 10.15982/j.issn.2095-7777.2018.06.011
0

引用本文 

李杰, 沈锐. 空间计算机冗余架构可靠性分析比较[J]. 深空探测学报, 2018, 5(6): 575-581. DOI: 10.15982/j.issn.2095-7777.2018.06.011.
LI J, SHEN R. Analysis and Comparison of Reliability of Computer Redundancy Architecture in Space[J]. Journal of Deep Space Exploration, 2018, 5(6): 575-581. DOI: 10.15982/j.issn.2095-7777.2018.06.011.

作者简介

李杰(1969– ),男,高工,主要研究方向:演化硬件、计算机系统结构。通信地址:山东省烟台市高新区航天路513号电子信息工程事业部(264003)电话:(0535)6928110 E-mail:jie_yi_ehw@163.com;
沈锐(1971– ),女,高工,主要研究方向:计算机应用。通信地址:山东省烟台市高新区航天路513号电子信息工程事业部(264003)。

文章历史

收稿日期:2017-11-16
修回日期:2018-02-22
空间计算机冗余架构可靠性分析比较
李杰, 沈锐    
山东航天电子技术研究所,烟台 264003
摘要: 采用冗余架构,是改善和提升空间计算机可靠性的一个重要途径。目前在工程中对不同架构可靠性的对比,尤其是相对复杂的架构,多仅限于形式上的粗略分析,缺乏定量比较。对6种典型空间计算机冗余架构(双机冷备、双机热备、TMR、动态重构TMR、2+1三机、四机)分别建立马尔可夫链数学模型,推导出上述各冗余架构可靠度的计算公式,并以一个虚拟的5年期任务为背景,对这些架构的可靠度进行了仿真计算、分析和比较。仿真结果表明:具有冷备资源的冗余方案可获得相对高的系统可靠性;让故障节点具有从故障中恢复正常功能的能力和短的修复时间,能大幅提升系统可靠性。
关键词: 空间计算机    冗余架构    可靠性分析    马尔可夫链    
Analysis and Comparison of Reliability of Computer Redundancy Architecture in Space
LI Jie, SHEN Rui     
Shandong Institute of Space Electronic Technology,Yantai 264003,China
Abstract: Applying redundant architecture is an important way to improve and promote the reliability of computer in space. The redundant architecture of space computer can be organized in different forms depending on the combination of software and hardware resources. Recently most comparisons among different redundant architectures in engineering are performed only by rough analysis, not in quantitative way, especially for the relatively complex architectures. In this study, six typical redundant architectures(dual-unit with cold standby, dual-unit with hot standby, TMR, re-configurable TMR, 2+1 triple-unit, and quad-unit)are investigated, the Markov chain models are established and the formulas of reliability are deduced respectively. Reliability of the architectures is calculated, analyzed and compared based on a virtual five-year space task. The simulation results indicate that a solution with cold standby resource can obtain higher reliability. Moreover, the ability of a fault unit to recover easily and quickly can greatly improve the system reliability.
Key words: space computer    redundant architecture    reliability analysis    Markov chain    

Hight lights:

  1. ● The reliability functions of re-configurable TMR,2+1 triple-unit and quad-unit architectures are deduced respectively,which can be applied in quantitative analysis.
  2. ● Providing a way that can be used in project practice for comparing reliability among the redundant architectures of re-configurable TMR,2+1 triple-unit,quad-unit and the traditional ones.
  3. ● Study results indicate that new approaches could be applied to improve system reliability,such as enabling components and units easy to be repaired.
概 述

空间计算机系统能否长时间稳定可靠地工作,对深空探测任务的成败起着关键作用。提升空间计算机系统可靠性的主要途径之一,是采用恰当的容错策略和系统架构,利用冗余资源来屏蔽故障对系统的影响,使系统正常发挥作用[1]。随着计算技术的发展,空间计算机冗余从原来常见的双机架构,发展出三机架构(Triple Modular Redundancy,TMR)[2]、四机架构[3]等,容错策略上既有采用静态的冷备[4]或热备[5],也有采用故障模块修复后动态重构(如动态重构TMR[6])。不同的架构和策略各有其特点,可面向不同的应用场景。

目前对空间计算机冗余架构可靠性的研究主要集中在两个方面:①从理论角度进行新的可靠性模型设计和软硬件容错策略设计与分析[7-8]等;②对空间电子设备进行可靠性预计评估,判断是否满足系统可靠性需求,为系统方案提供技术支撑[9-10]。但近年来在空间计算机架构可靠性相互间比较研究这方面相对比较欠缺。

本文利用马尔可夫链模型分析计算方法[11-12],以虚拟的5年任务为背景,对6种典型空间计算机冗余架构可靠性进行了比较分析。

1 数学模型 1.1 约束条件

仅考虑计算节点数量不超过4的系统,包括:双机冷备、双机热备、TMR、动态重构TMR、(2 + 1)三机、四机(4-3-2)共6种架构。其中,有备份的如双机冷备、双机热备、(2 + 1)三机,只考虑一个备份。随着软硬件容错技术的发展,可修复技术在高可靠空间电子系统中的应用也越来越多。具有可修复能力的电子设备进行可靠性分析时过程相对比较复杂。

本文以动态重构TMR作为可修复设备的代表进行可靠性分析。在各架构中,各节点失效率λ相同且不随时间变化,单个节点的可靠度p呈指数分布,即p = eλt。冷备份激活前可靠度为1,架构中切换开关、表决器及节点间信息交互通道等均认为可靠度为1。

1.2 冗余架构建模 1.2.1 双机冷备

正常状态下(S0),没有故障节点,主节点当班,备节点不加电,认为此时备节点不会发生故障。当1个节点(主节点)发生故障时(S1),备节点激活替换主机当班。当备节点再发生故障时(S2),系统失效,状态转移见图 1

图 1 双机冷备系统状态转移图 Fig. 1 State transition of dual cold standby systems

建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = - \lambda {p_{{\rm S}_0}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = \lambda {p_{{\rm S}_0}}(t) - \lambda {p_{{\rm S}_1}}(t)} \end{array}} \right.$ (1)

根据拉氏变换

$\frac{{{\rm{d}}f(t)}}{{{\rm{d}}t}} = sf(s) - f(0)$ (2)

初始条件 ${p_{{\rm S}_0}} $ (0)= 1, $ {p_{{\rm S}_1}}$ (0)= 0,解方程组式(1)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle\frac{1}{{s + \lambda }}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{\lambda }{{{{(s + \lambda )}^2}}}} \end{array}} \right.$ (3)

再由拉氏反变换得到

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(t) = {{\rm{e}}^{ - \lambda t}}} \\ {{p_{{\rm S}_1}}(t) = \lambda t{\rm{e}}{}^{ - \lambda t}} \end{array}} \right.$ (4)

可得双机冷备系统可靠度为

$R(t) = {p_{{\rm S}_0}}(t) + {p_{{\rm S}_1}}(t) = {{\rm{e}}^{ - \lambda t}} + \lambda t{{\rm{e}}^{ - \lambda t}}$ (5)
1.2.2 双机热备

正常状态下(S0),主节点当班,备节点处于加电但非当班,没有故障节点。与双机冷备不同,此状态下备节点也有发生故障的可能。当2个节点中的1个节点发生故障时(S1),另一节点继续当班,当2个节点都再发生故障时(S2),系统失效,状态转移见图 2

图 2 双机热备系统状态转移图 Fig. 2 State transition of dual hot standby systems

建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = - {\rm{2}}\lambda {p_{{\rm S}_0}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{2}}\lambda {p_{{\rm S}_0}}(t) - \lambda {p_{{\rm S}_1}}(t)} \end{array}} \right.$ (6)

根据拉氏变换

$\frac{{{\rm{d}}f(t)}}{{{\rm{d}}t}} = sf(s) - f(0)$ (7)

初始条件为ps0(0)= 1,ps1(0)= 0,解上述方程组式(6)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle\frac{1}{{s + {\rm{2}}\lambda }}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{{2\lambda }}{{(s + \lambda )(s + 2\lambda )}}} \end{array}} \right.$ (8)

再由拉氏反变换,得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(t) = {{\rm{e}}^{ - {\rm{2}}\lambda t}}} \\ {{p_{{\rm S}_1}}(t) = {\rm{2e}}{}^{ - \lambda t} - {\rm{2}}{{\rm{e}}^{ - 2\lambda t}}} \end{array}} \right.$ (9)

可得双机热备系统可靠度为

$R(t) = {p_{{\rm S}_0}}(t) + {p_{{\rm S}_1}}(t) = {\rm{2}}{{\rm{e}}^{ - \lambda t}} - {{\rm{e}}^{ - {\rm{2}}\lambda t}}$ (10)
1.2.3 TMR

常规TMR的正常状态下(S0),3个节点均正常工作,3个节点都有发生故障的可能。当3个节点中的1个节点发生故障,另2个节点正常工作时(S1),TMR的3取2机制屏蔽掉故障节点的影响,系统输出正确结果。当再次出现1个节点或2个节点故障(S2)时,无法再根据3取2机制判断哪个节点故障,系统失效,状态转移见图 3

图 3 TMR系统状态转移图 Fig. 3 State transition of TMR systems

根据图 3建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = - {\rm{3}}\lambda {p_{{\rm S}_0}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{3}}\lambda {p_{{\rm S}_0}}(t) - {\rm{2}}\lambda {p_{{\rm S}_1}}(t)} \end{array}} \right.$ (11)

通过拉氏变换

$\frac{{{\rm{d}}f(t)}}{{{\rm{d}}t}} = sf(s) - f(0)$ (12)

初始条件为 $ {p_{{\rm S}_0}}$ (0)= 1, $ {p_{{\rm S}_1}}$ (0)= 0,解方程组式(11)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle\frac{1}{{s + {\rm{3}}\lambda }}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{{{\rm{3}}\lambda }}{{(s + {\rm{2}}\lambda )(s + {\rm{3}}\lambda )}}} \end{array}} \right.$ (13)

再由拉氏变换,得到

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(t) = {{\rm{e}}^{ - {\rm{3}}\lambda t}}} \\ {{p_{{\rm S}_1}}(t) = {\rm{3e}}{}^{ - {\rm{2}}\lambda t} - {\rm{3}}{{\rm{e}}^{ - {\rm{3}}\lambda t}}} \end{array}} \right.$ (14)

可得TMR系统可靠度

$R(t) = {p_{{\rm S}0}}(t) + {p_{{\rm S}1}}(t) = {\rm{3}}{{\rm{e}}^{ - {\rm{2}}\lambda t}} - {\rm{2}}{{\rm{e}}^{ - {\rm{3}}\lambda t}}$ (15)
1.2.4 动态重构TMR

动态重构TMR发生一个节点故障时,系统通过内嵌故障诊断、故障识别及故障清除等手段让故障节点恢复正常,然后在不影响系统工作情况下,通过动态重构将修复后的节点重新接入系统,恢复到3节点正常工作状态。

正常状态下(S0),3个节点均无故障工作。当3个节点中的1个节点发生故障,另2个节点正常工作时(S1),3取2机制有效,系统输出正确结果。系统以概率µ修复故障节点并从S1恢复到S0状态。当再次出现1个节点或2个节点故障(S2)时,系统失效。状态转移见图 4

图 4 可修复TMR系统状态转移图 Fig. 4 State transition of repairable TMR systems

建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = \mu {p_{{\rm S}_1}}(t) - {\rm{3}}\lambda {p_{{\rm S}_0}}(t)}\\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{3}}\lambda {p_{{\rm S}_0}}(t) - \left( {{\rm{2}}\lambda + \mu } \right){p_{{\rm S}_1}}(t)} \end{array}} \right.$ (16)
$\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{3}}\lambda {p_{{\rm S}_0}}(t) - \left( {{\rm{2}}\lambda + \mu } \right){p_{{\rm S}_1}}(t)$ (17)

通过拉氏变换,及初始条件 $ {p_{{\rm S}_0}}$ (0)= 1, $ {p_{{\rm S}_1}}$ (0)= 0,解上述方程组式(16)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle \frac{{s + 2\lambda + \mu }}{{{s^2} + 5\lambda s + \mu s + 6{\lambda ^2}}}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{{3\lambda }}{{{s^2} + 5\lambda s + \mu s + 6{\lambda ^2}}}} \end{array}} \right.$ (18)

ab为方程 ${s^2} + 5\lambda s + \mu s + 6{\lambda ^2}$ 两个解,即

$\left\{ {\begin{array}{*{20}{c}} {a = \displaystyle\frac{{ - (5\lambda + \mu ) + \sqrt {{\lambda ^2} + 10\lambda \mu + {\mu ^2}} }}{2}} \\ {b = \displaystyle\frac{{ - (5\lambda + \mu ) - \sqrt {{\lambda ^2} + 10\lambda \mu + {\mu ^2}} }}{2}} \end{array}} \right.$ (19)

将式(19)代入 $ {p_{{\rm S}_0}}$ s)和 ${p_{{\rm S}_1}} $ s)表达式,再由反拉氏变换,得

$\left\{ {\begin{array}{*{20}{c}} {{p_{s0}}(t) = \displaystyle\frac{1}{{a - b}}[(2\lambda + \mu )({{\rm{e}}^{at}} - {{\rm{e}}^{bt}}) + a{{\rm{e}}^{at}} - b{{\rm{e}}^{bt}}]}\\ {{p_{s{\rm{1}}}}(t) = \displaystyle\frac{{{\rm{3}}\lambda }}{{a - b}}\left( {{{\rm{e}}^{at}} - {{\rm{e}}^{bt}}} \right)} \end{array}} \right.$ (20)

得到可修复TMR系统可靠度为

$\begin{split} &\qquad\,\,\, R(t) = {p_{{\rm S}_0}}(t) + {p_{{\rm S}_1}}(t) = \\ & \displaystyle\frac{{\rm{1}}}{{a - b}}[(5\lambda + \mu )({{\rm{e}}^{at}} - {{\rm{e}}^{bt}}) + a{{\rm{e}}^{at}} - b{{\rm{e}}^{bt}}] \end{split}$ (21)
1.2.5 (2 + 1)三机

此处(2 + 1)三机指1个双节点热备加上1个冷备节点架构。当热备双节点中的1个发生故障时,系统以(2λΔt)的概率从S0转移到S1,激活冷备节点,与正常节点重新构成双机热备。其后的行为就如同一个双机热备架构。状态变化如图 5所示。

图 5 (2 + 1)三机系统状态转移图 Fig. 5 State transition of(2 + 1)triple-unit systems

建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = - {\rm{2}}\lambda {p_{{\rm S}_0}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{2}}\lambda {p_{{\rm S}_0}}(t) - {\rm{2}}\lambda {p_{{\rm S}_1}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_2}}(t)}}{{{\rm{d}}t}} = {\rm{2}}\lambda {p_{{\rm S}_1}}(t) - \lambda {p_{{\rm S}_2}}(t)} \end{array}} \right.$ (22)

通过拉氏变换

$\frac{{{\rm{d}}f(t)}}{{{\rm{d}}t}} = sf(s) - f(0)$ (23)

初始条件为 $ {p_{{\rm S}_0}}$ (0)= 1, $ {p_{{\rm S}_1}}$ (0)= 0, $ {p_{{\rm S}_2}}$ (0)= 0,解上述方程组式(22)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle\frac{1}{{s + 2\lambda }}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{{{\rm{2}}\lambda }}{{{{(s + {\rm{2}}\lambda )}^{\rm{2}}}}}} \\ {{p_{{\rm S}_2}}(s) = \displaystyle\frac{{{\rm{4}}{\lambda ^{\rm{2}}}}}{{(s + \lambda ){{(s + {\rm{2}}\lambda )}^{\rm{2}}}}}} \end{array}} \right.$ (24)

再由拉氏反变换得到

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(t) = {{\rm{e}}^{ - {\rm{2}}\lambda t}}} \\ {{p_{{\rm S}_1}}(t) = {\rm{2}}\lambda t{{\rm{e}}^{ - {\rm{2}}\lambda t}}} \\ {{p_{{\rm S}_2}}(t) = {\rm{4}}{{\rm{e}}^{ - \lambda t}} - {\rm{4}}{{\rm{e}}^{ - 2\lambda t}} - 4\lambda t{{\rm{e}}^{ - 2\lambda t}}} \end{array}} \right.$ (25)

可得(2 + 1)三机系统可靠度为

$\begin{split} R(t) =& {p_{{\rm S}_0}}(t) + {p_{{\rm S}_1}}(t) + {p_{{\rm S}_2}}(t) = \\ & 4{{\rm{e}}^{ - \lambda t}} - (3 + 2\lambda t){{\rm{e}}^{ - 2\lambda t}} \end{split} $ (26)
1.2.6 四机(4-3-2)

四机(4-3-2)指可降级的四节点冗余架构。正常状态下(S0),系统4个节点无故障工作,此时系统采取4取3的机制。当有1个节点发生故障时(S1),系统剩余3个节点降级构成1个TMR,此时系统是3取2机制。后续行为与常规TMR一样,出现2个故障节点(S2)时,系统仍能正常输出。如果出现3个及以上节点故障时(S3),则系统失效。实际上,四机(4-3-2)可以等效为1个TMR+1架构,两者可靠度相同,状态转移如图 6所示。

图 6 四机(4-3-2)系统状态转移图 Fig. 6 State transition of(4-3-2)quad-unit systems

建立状态微分方程,得到

$\left\{ {\begin{array}{*{20}{c}} {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_0}}(t)}}{{{\rm{d}}t}} = - {\rm{4}}\lambda {p_{{\rm S}_0}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_1}}(t)}}{{{\rm{d}}t}} = {\rm{4}}\lambda {p_{{\rm S}_0}}(t) - {\rm{3}}\lambda {p_{{\rm S}_1}}(t)} \\ {\displaystyle\frac{{{\rm{d}}{p_{{\rm S}_2}}(t)}}{{{\rm{d}}t}} = {\rm{3}}\lambda {p_{{\rm S}_1}}(t) - {\rm{2}}\lambda {p_{{\rm S}_2}}(t)} \end{array}} \right.$ (27)

通过拉氏变换

$\frac{{{\rm{d}}f(t)}}{{{\rm{d}}t}} = sf(s) - f(0)$ (28)

初始条件设为 $ {p_{{\rm S}_0}}$ (0)= 1, $ {p_{{\rm S}_1}}$ (0)= 0, $ {p_{{\rm S}_2}}$ (0)= 0。

解上述方程组式(27)可得

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(s) = \displaystyle\frac{1}{{s + {\rm{4}}\lambda }}} \\ {{p_{{\rm S}_1}}(s) = \displaystyle\frac{{{\rm{4}}\lambda }}{{(s + {\rm{3}}\lambda )(s + 4\lambda )}}} \\ {{p_{{\rm S}_2}}(s) = \displaystyle\frac{{{\rm{12}}{\lambda ^{\rm{2}}}}}{{(s + 4\lambda )(s + {\rm{3}}\lambda )(s + {\rm{2}}\lambda )}}} \end{array}} \right.$ (29)

再由拉氏反变换得到

$\left\{ {\begin{array}{*{20}{c}} {{p_{{\rm S}_0}}(t) = {{\rm{e}}^{ - {\rm{4}}\lambda t}}} \\ {{p_{{\rm S}_1}}(t) = {\rm{4}}{{\rm{e}}^{ - {\rm{3}}\lambda t}} - {\rm{4}}{{\rm{e}}^{ - 4\lambda t}}} \\ {{p_{{\rm S}_2}}(t) = {\rm{6}}{{\rm{e}}^{ - {\rm{2}}\lambda t}} - {\rm{12}}{{\rm{e}}^{ - 3\lambda t}} + 6{{\rm{e}}^{ - 4\lambda t}}} \end{array}} \right.$ (30)

于是可得四机(4-3-2)系统可靠度为

$\begin{gathered} R(t) = {p_{{\rm S}_0}}(t) + {p_{{\rm S}_1}}(t) + {p_{{\rm S}_2}}(t) \\ = 6{{\rm{e}}^{ - 2\lambda t}} - 8{{\rm{e}}^{ - 3\lambda t}} + 3{{\rm{e}}^{ - 4\lambda t}} \\ \end{gathered} $ (31)
2 系统可靠度对比分析

假设单节点失效率λ = 10–5/h[13],动态重构TMR修复率为µ = 100λ = 10–3/h。根据公式(1)~(6),计算不同架构的系统可靠度随时间变化情况,所得曲线如图 7所示。

图 7 单节点失效率λ = 10–5/h,动态重构TMR修复率为µ = 100λ = 10–3/h,各架构可靠度变化曲线 Fig. 7 Reliability curves of different architectures. Failure rate of simplex unit is λ = 10–5/h. Repair rate of dynamic re-configurable TMR is µ = 100λ = 10–3/h

5年后(4.38万h)只有双机冷备、(2 + 1)三机和动态重构TMR这3种系统的可靠度还处于0.9之上。5年后的系统可靠度最终排序为动态重构TMR最高(0.975),其次(2 + 1)三机(0.965),然后是双机冷备(0.925),接下来是双机热备(0.869),四机(4-3-2)(0.861),最后是TMR(0.701)。其中,(2 + 1)三机一直高居首位,在3.6万h(约4.1年)后可靠度才低于动态重构TMR。在单节点失效率较低的情况下,冷备节点对系统可靠度提高的作用比较明显。四机(4-3-2)可靠度一直略高于双机热备,在4.1万h左右(约4.7年)低于双机热备可靠度。

同是TMR基本架构,具有单节点修复功能的动态重构TMR持续保持比较高的可靠度,而传统TMR架构则是所考察的架构中可靠度下降最快的,2.3万h (2.62年)后TMR系统可靠度就降到0.9以下,表明拥有单节点修复功能对提升系统可靠性具有较大作用。

为更清晰地对架构进行比较,将节点失效率提高为λ = 10–4/h,修复率分别取µ = 10λ = 10–3/h,和µ = 100λ = 10–2/h,并加入单节点可靠度变化曲线,如图 8所示。任务结束时,系统可靠度排序与图 7中基本一致。

图 8 单节点失效率λ = 10–4/h,动态重构TMR修复率分别为µ = 10λ = 10–3/h,和µ = 100λ = 10–2/h,各架构可靠度变化曲线 Fig. 8 Reliability curves of different architectures. Failure rate of simplex unit is λ= 10–4/h. Repair rates of dynamic re-configurable TMR are set to µ = 10λ = 10–3/h and µ = 100λ = 10–2/h, respectively.

图 8中,传统TMR架构在经过一段短暂时间后可靠度变得比单机还低。根据TMR及单节点可靠度表达式 $3{{\rm{e}}^{ - 2\lambda t}} - 2{{\rm{e}}^{ - 3\lambda t}} - {{\rm{e}}^{ - \lambda t}} = 0$ ,可得两可靠度曲线的交点为t = ln2/λ ≈ 0.7 / 0.000 1 = 7 000 h处。由方程解表达式可知,交点位置与λ大小成反比。本算例中,λ的值相对较大,所以交点位置比较靠前;前一例中,λ数值相对小,交点位置超出了任务时间范围。类似情况也可从四机(4-3-2)上看到(大约在1.5万h处),且本例中四机更快地变得比双机热备可靠度更低。从TMR的架构看,在TMR发生一个节点故障后,剩余的两个正常节点虽是并行运行着的,但此时在结构上等效于一个双机串联结构;如再发生一个节点故障则整个系统失效,两个节点的冗余并没有给系统可靠性带来益处,反而起到了副作用。四机(4-3-2)相当于一个TMR + 1结构,因有一个备份,所以低于单节点可靠度的时间发生得晚很多。

具有冷备的架构依然占据一点优势,但节点失效率的提高使得本例中的优势不如前一例中优势明显。由图 8可以看到,提高故障节点修复率对提升系统可靠性效果显著,动态重构TMR(µ = 0.01)的可靠度一直处于较高水平。图 9中可见,动态重构TMR(µ = 0.01)的可靠度一直高于双机冷备和(2 + 1)三机,而动态重构TMR(µ = 0.001)的可靠度在1.5万h后接近2万 h处才超过双机冷备和(2 + 1)三机。5年后,动态重构TMR(µ = 0.01)与双机冷备、(2 + 1)三机的可靠度差值,均超过动态重构TMR(µ = 0.01)相应可靠度差值的7倍。

图 9 第二例中具有不同修复率的动态重构TMR分别与双机冷备、(2 + 1)三机可靠度差值变化 Fig. 9 Difference reliability curves of comparing dynamic re-configurable TMR with different repair rates in the second case with dual cold standby system and(2 + 1)system,respectively
3 结 论

本文对6种典型空间计算机冗余架构建立了马尔可夫链模型,根据可靠性理论对各架构的可靠性进行了计算、分析和比较。在不考虑开关、表决、通信等影响的情况下,具有冷备的冗余架构可靠性占有一定优势。这表明,如果实时性要求不强,从降低成本和系统复杂度等角度考虑,采用冷备架构是一种相对合理的选择。TMR架构虽具有实时性强、发生一次故障系统工作不间断等优点,但从分析结果看,常规TMR架构不适合长时间任务(T > ln2/ λ)。同样的TMR架构,具有了单机故障修复能力就可获得高的系统可靠性,较高的修复率能使系统可靠性得到大幅提升。这意味着,除了单纯追求极低的单机失效率指标外,通过开发高效的自主故障识别、诊断和修复技术,让单机具有较强的从故障中恢复的能力,也是改善系统可靠性的有效途径。

参考文献
[1]
马秀娟,张秀珍,曹喜滨,等. 容错星载计算机系统结构设计[J]. 微处理机,2003(2):47-49
MA X J,ZHANG X Z,CAO X B,et al. Design of fault-tolerant on-board computer system construction[J]. Microprocessors,2003(2):47-49 DOI:10.3969/j.issn.1002-2279.2003.02.016 (0)
[2]
LYONS R,VANDERKULK W. The use of triple-modular redundancy to improve computer reliability[J]. Ibm Journal of Research & Development,1962,6(2):200-209   http://d.old.wanfangdata.com.cn/NSTLQK/10.1147-rd.62.0200/ (0)
[3]
韩炜,臧红伟,谢克嘉. 四余度容错计算机系统结构及其可靠性分析[J]. 计算机工程与科学,2003,25(1):98-100
HAN W,ZANG H W,XIE K J. Quad-redundant fault-tolerant computer architecture and reliability analysis[J]. Computer Engineering & Science,2003,25(1):98-100 DOI:10.3969/j.issn.1007-130X.2003.01.027 (0)
[4]
GANTOIS K, TESTON F, MONTENBRUCK O, et al. Proba-2: mission and technologies overview[C]//2006 Small satellite and system services – the 4S symposium. Chia Laguna Sardinia, Italy: ESA, 2006: 25-29 (0)
[5]
ALENA R, OSSENFORT J, LAWS K, et al. Communications for integrated modular avionics[C]//2007 IEEE Aerospace Conference. Big Sky, MT, USA: IEEE, 2007: 1-18. (0)
[6]
张伟功, 辛明瑞, 邱庆林, 等. 标准化嵌入式三模冗余容错计算机技术研究[C]//第十三届全国容错计算机学术会议. [S. l]: 中国计算机学会, 2009: 305-309.
ZHANG W G, XIN M R, QIU Q L, et al. Study on standard embedded TMR computer technology[C]//13th China Fault-Tolerant Computer Conference. [S. l]: China Computer Federation, 2009: 305-309. (0)
[7]
刘东. 空间信息处理系统可靠性设计与分析关键技术研究[D]. 长沙: 国防科技大学, 2008.
LIU D. Research on key technologies of space information processing systems reliability design and analysis[D]. Changsha: National Defense Technology University, 2008. (0)
[8]
仉俊峰,洪炳镕,袁成军. 一种基于Makov模型的星载计算机系统可靠性评估新方法[J]. 宇航学报,2007,28(4):1053-1058
ZHANG J F,HONG B R,YUAN C J. A new way of reliability estimation based on Makov model for onboard computer system[J]. Journal of Astronautics,2007,28(4):1053-1058 DOI:10.3321/j.issn:1000-1328.2007.04.055 (0)
[9]
KIM D S,LEE M S,JUNG H J,et al. Reliability and availability analysis of an onboard computer in a satellite system using standby redundancy and rejuvenation[J]. Journal of Mechanical Science and Technology,2012,26(7):2059-2063 DOI:10.1007/s12206-012-0512-6 (0)
[10]
MCLOUGHLIN I,BRETSCHNEIDER T. Reliability through redundant parallelism for micro-satellite computing[J]. ACM Transaction on Embedded Computing Systems(TECS),2010,9(3):1-25   http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=62ebb8a5cc1b9796cecc62ad7603d791 (0)
[11]
SHOOMAN M L. Reliability of computer systems and networks: fault tolerance, analysis and design[M]. USA: John Wiley & Son, Inc., 2002. (0)
[12]
程五一. 系统可靠性理论及其应用[M]. 北京: 北京航空航天大学出版社, 2012.
CHENG W Y. System reliability theory and applications[M]. Beijing: Beihang University Press, 2012. (0)
[13]
姜连祥,杨根庆,李华旺,等. 微小卫星星载计算机系统可靠性研究与设计[J]. 系统工程与电子技术,2009,31(1):238-240
JIANG L X,YANG G Q,LI H W,et al. Reliability research and design of on-board computers of micro-satellite[J]. Systems Engineering and Electronics,2009,31(1):238-240 DOI:10.3321/j.issn:1001-506X.2009.01.054 (0)