フォールト(故障)とは何か?その分類
システム)Diskの障害、誤操作、PROMが壊れた、ネットワークの障害
「原因」と「症状」に分ける
■原因;
・物理的なもの
故障、磨耗、電気的な雑音、サージ(雑音のより大きなもの・破壊力が高い)、宇宙 線、放射線(α線)、※メモリチップの場合はメモリ内の金属(放射性同位元素)か ら発生しているため、シールドできない 宇宙線の場合は地上と同じ大気状態を再現 するためにかさばるシールドがいる。なので非効率(打ち上げ)
・人為的なもの
誤操作(ヒューマンファクター)、誤設計(最後はこれが多い。物理的なものはかなり対策が施されているため、冗長系)→Nバージョンプログラミング
■持続時間;
・固定フォールト(永久フォールト)- 通常の「故障」
・間欠フォールト(間欠泉のように散発的)- 電気雑音(誤設計とも関連)、原因不明(再現性が低い)
・過渡フォールト(1回こっきり) - 宇宙線・放射線、原因不明(再現性が低い)
■フォールトの場所;
・ハードウェア(部品でのフォールト)
-オープン(配線の間)
-ショート(配線の間)
-Stuck-at(張り付き故障、要素中の中、コンデンサなど)
・ソフトウェア
・人間(新しい解釈??) - 操作ミスの場合はこれ
■(あと教科書にはフォールトの様子)
■フォールトトレランスの評価尺度(≠信頼性の評価尺度)
・信頼度=アイテムが正常である確率・時刻tの関数f(t)
R(t) = exp(-λt)
λは故障率(hour^-1)
実はバスタブ曲線になる(λは一定ではない)
幼年期・実用期・磨耗期
工場出荷時は実用期に合わせる.エイジング(安物は省略している事もある)
・可用性(Availability)- 使いたいときに使える
信頼度は故障があっても修理しないのが前提だが、これは修理するという前提
A=uptime/uptime+downtime=MTTF/MTTF+MTTR(Mean Time to Recover)
・MTBF(Mean Time Between Failure) - 平均故障間隔
・MTTF(Mean Time To Failure) - 故障までの平均時間=1/λ
1-λΔt=状態N(通常)への自己遷移
λΔt=状態nから状態F(故障)への遷移
1-mΔt=状態Fでの自己遷移
mΔt= 状態Fから状態Nへの遷移 mは修復率
t=∞だと平衡状態になる
dPn(t)/dt = mPf(t)-λPn(t) ...(1)
dPf(t)/dt = -mPf(t)+λPn(t) ...(2)
A=MTTF /MTTF+MTTR= (1/λ) / (1/λ)+(1/m)=m/λ+m
(1)(2)よりPn(t)=(m/λ)Pf(t)...(3)
Pn(t)+Pf(t)=1 Pf(t) = 1-Pn(t) ...(4)
(4)を(3)に代入
Pn(t)=(m/λ)1-`Pn(t)=(m/λ)-(m/λ)Pn(t)=(1+m/λ)pn(t)=m/λ
.... m/λ+m
ていうのがマルコフモデル。なんだが教科書読もう。この解説じゃわからん。
★ただ、マルコフモデルそのものはオートマトンによって表現している(としか思えない)ので、高信頼に関するモデリングおよび見積もりもオートマトンで行えばいいんだよね。勉強し直そう
後半は自動車について
「X-By-Wire」複数のBy-wireを高速通信バスで結合し統合制御
MTTFの多義の展開
MTTF...(修理系) こちらでは使わない場合がある
Mean Time To Failure
MTFF...(修理系) こちらでは絶対使わない
Mean Time to First Failure
MTBF...(修理系) こちらしか使わない
Mean Time Between Failure
MTBF=MTTF? MTBF=MTTF+MTTR(教科書ではこっち)
教科書P22(応用)
(a)高いA(Availability) 例)商用コンピューター("FTC")
(b)長いMTTF(MTFF) 例)非修理系、例えば人工衛星
(c)与えられた時間に高い信頼度 例)飛行機など
(d)広義のFT QoS(Quality of Service)重視のシステム
(e)安全性重視システム(フェイルセーフ。検出能力)
(まとめ)フォールトトレランスの基本原理
・分散
・冗長
併せて多様性(空間冗長、時間冗長、設計冗長)
誤りの検出
フォールトの局限化(分離)
フォールトのマスク
再試行
診断
システム再構成
システム回復・修理
再起動
第2章 誤り検出方式
オンライン検出(動作させたままで検出する)
オフライン検出(システムを一度停止して検出する)
オフライン検出
本来の入力ではないテスト入力に対し、期待値を一致しているかテストする
オンライン検出
本来の入力をそのまま
ただし、本来検出対象である回路とは別の参照回路を用意する
相補論理を使用(論理的に反転した回路)