根本原因分析(RCA)とは

根本原因分析/根本問題分析

 根本原因分析(RCA(Root Cause Analysis):ルート・コーズ・アナリシス)あるいは根本問題分析とは、障害や問題の症状に着目するのではなく根本的な原因を特定することに焦点を定めた原因解決プロセスです。
 事象において単に明確な兆候に単純に対処するのではなく、物事の本質的かつ根本的な原因を明確し除去することにより問題の解決と再発を防ぐプロセスです。

  • 問題経緯の把握
  • 根本原因の明確化と対策
  • 再発防止策の定義


一般的な対処手順

ITシステムを例に、システム障害、レスポンスタイム遅延やアラート等の問題や事象の分析や解決を行う一般的な対処手順を記述します。

 IT担当スタッフは、原因と結果との因果関係とテストと再現方法を組合わせての試行錯誤を繰返し、IT環境での問題を特定し解決を試みようとします。

  • ユーザからのクレームで問題を認識
  • ITチームの調査開始
  • 問題発生の原因らしき箇所の担当責任者に連絡
  • 担当責任者は問題原因を否定
  • 問題の原因箇所の特定可能となるまで調査の繰返す
  • 解決策を適応しテストを繰返す
  • 問題が解決されるまで本プロセス全体ないし一部を繰返す
  • 問題に対する原因と解決策をドキュメント化

問題解決に到達まで前記のステップを経験することに費やされる多くの時間と労力は、まるで干草の山の中から一本の針を探し出すがごとく浪費されているのが現実です。

リソース利用やサービス混乱によりコスト負担となるだけではなく、システム障害あるいはアプリケーション不具合による問題によりシステムダウンが発生しサービス提供が停止した場合、そのコストと損害は途方もない金額になる可能性を否定できません。

なぜ問題が発生したのか、
最初に何処で発生したのか、
なぜ早期に発見できなかったのか、
本質的かつ根本的な問題解決に到達までに費やされる多くの時間と労力は、まるで干草の山の中から一本の針を探し出すがごとく浪費されているのが現実です。

干草の山の中から一本の針を探し出す

大規模かつ複雑化するシステムインフラストラクチャ

近年、我々の社会は企業活動や組織運営は、経営戦略を実現するITシステムとその基盤であるITインフラストラクチャ(ITシステム基盤)や、高品質な製品を生産する製造基盤、発電設備等の社会基盤に大きく依存しています。そのためシステム・オペレーション(システム運用管理)は24時間365日(24×365)のITシステム可用性を維持し続けることが必要不可欠な命題となっています。

絶間なく変化する市場ニーズへの対応
収益性の確保と継続的な成功を保証
安定かつ信頼性が担保されたサービスレベルの継続的提供

問題解決に多くの時間と労力が必要

企業や組織が成長/拡大するに伴い、増加かつ複雑化するITインフラストラクチャ(サーバー、クラウド、ネットワーク、ストレージ等)や生産/製造システム基盤における要素間の相互作用を的確に把握し効率的にマネジメントし続けることは困難です。

インフラストラクチャが大規模かつ複雑度が増すに伴い、発生した問題を早期に発見/特定することや短時間に解決/修正することはより困難となり、たとえば特定サーバー上の問題が別サーバー上のアプリケーションへ影響を伝播することや、局所的ネットワーク障害がシステム全体を停止させるケースなど問題の波及する影響度が大きくかつ深刻になっていることも事実です。

これらの現象は、問題に対して早期発見と根本的な対処を行わずに、連鎖発生的に新たな問題を発生させることが起因となる場合に数多く見られます。