高信頼システム特論Ⅰ(第3回)

 フォールト(故障)とは何か?その分類
  システム)Diskの障害、誤操作、PROMが壊れた、ネットワークの障害
   「原因」と「症状」に分ける
  ■原因;
  ・物理的なもの
	故障、磨耗、電気的な雑音、サージ(雑音のより大きなもの・破壊力が高い)、宇宙	線、放射線α線)、※メモリチップの場合はメモリ内の金属(放射性同位元素)か	ら発生しているため、シールドできない 宇宙線の場合は地上と同じ大気状態を再現	するためにかさばるシールドがいる。なので非効率(打ち上げ)
  ・人為的なもの
	誤操作(ヒューマンファクター)、誤設計(最後はこれが多い。物理的なものはかなり対策が施されているため、冗長系)→Nバージョンプログラミング
  ■持続時間;
	・固定フォールト(永久フォールト)- 通常の「故障」
  ・間欠フォールト(間欠泉のように散発的)- 電気雑音(誤設計とも関連)、原因不明(再現性が低い)
  ・過渡フォールト(1回こっきり) - 宇宙線放射線、原因不明(再現性が低い)
  ■フォールトの場所;
	・ハードウェア(部品でのフォールト)
   -オープン(配線の間)
   -ショート(配線の間)
   -Stuck-at(張り付き故障、要素中の中、コンデンサなど)
  ・ソフトウェア
  ・人間(新しい解釈??) - 操作ミスの場合はこれ
  ■(あと教科書にはフォールトの様子)
  
  ■フォールトトレランスの評価尺度(≠信頼性の評価尺度)
  ・信頼度=アイテムが正常である確率・時刻tの関数f(t)    
		R(t) = exp(-λt)
		λは故障率(hour^-1)
        実はバスタブ曲線になる(λは一定ではない)
			幼年期・実用期・磨耗期
			工場出荷時は実用期に合わせる.エイジング(安物は省略している事もある)
  ・可用性(Availability)- 使いたいときに使える
		信頼度は故障があっても修理しないのが前提だが、これは修理するという前提
		A=uptime/uptime+downtime=MTTF/MTTF+MTTR(Mean Time to Recover)
  ・MTBF(Mean Time Between Failure) - 平均故障間隔
  ・MTTF(Mean Time To Failure) - 故障までの平均時間=1/λ
  
   
  1-λΔt=状態N(通常)への自己遷移
   λΔt=状態nから状態F(故障)への遷移
   1-mΔt=状態Fでの自己遷移
   mΔt= 状態Fから状態Nへの遷移 mは修復率

	 t=∞だと平衡状態になる

   dPn(t)/dt =  mPf(t)-λPn(t) ...(1)
      dPf(t)/dt = -mPf(t)+λPn(t) ...(2)

      A=MTTF /MTTF+MTTR= (1/λ) / (1/λ)+(1/m)=m/λ+m
 
 	  (1)(2)よりPn(t)=(m/λ)Pf(t)...(3)
      Pn(t)+Pf(t)=1  Pf(t) = 1-Pn(t) ...(4)
   
      (4)を(3)に代入
   Pn(t)=(m/λ)1-`Pn(t)=(m/λ)-(m/λ)Pn(t)=(1+m/λ)pn(t)=m/λ
		....   m/λ+m
 
      ていうのがマルコフモデル。なんだが教科書読もう。この解説じゃわからん。
 ★ただ、マルコフモデルそのものはオートマトンによって表現している(としか思えない)ので、高信頼に関するモデリングおよび見積もりもオートマトンで行えばいいんだよね。勉強し直そう

 後半は自動車について
  「X-By-Wire」複数のBy-wireを高速通信バスで結合し統合制御

 MTTFの多義の展開
  MTTF...(修理系) こちらでは使わない場合がある
	 Mean Time To Failure
  MTFF...(修理系) こちらでは絶対使わない
     Mean Time to First Failure
    MTBF...(修理系) こちらしか使わない
   Mean Time Between Failure

   MTBF=MTTF? MTBF=MTTF+MTTR(教科書ではこっち)

 教科書P22(応用)
  (a)高いA(Availability) 例)商用コンピューター("FTC")
  (b)長いMTTF(MTFF)		  例)非修理系、例えば人工衛星
  (c)与えられた時間に高い信頼度 例)飛行機など
   (d)広義のFT  QoS(Quality of Service)重視のシステム
  (e)安全性重視システム(フェイルセーフ。検出能力)

 (まとめ)フォールトトレランスの基本原理
  ・分散
  ・冗長
  併せて多様性(空間冗長、時間冗長、設計冗長)

  誤りの検出
  フォールトの局限化(分離)
  フォールトのマスク
  再試行
  診断
  システム再構成
  システム回復・修理
  再起動

 第2章 誤り検出方式
  オンライン検出(動作させたままで検出する)
  オフライン検出(システムを一度停止して検出する)

 オフライン検出 
  本来の入力ではないテスト入力に対し、期待値を一致しているかテストする
 オンライン検出
  本来の入力をそのまま
  ただし、本来検出対象である回路とは別の参照回路を用意する 
  相補論理を使用(論理的に反転した回路)