データセンター崩壊につながる理由

データセンター崩壊につながる理由

データ オペレーターは、データ センター全体の停止につながる可能性のある間違いを犯すことがあります。しかし、これらの問題のほとんどは、保守措置や検査手順、システム運用者の常識と経験によって回避できます。

「計画外のデータセンター停止」とは、ダウンタイムにつながる問題がデータセンターに発生していることを丁寧に表現したものです。根本原因がハードウェア エラー、ソフトウェア エラー、人的エラーのいずれであっても、これらのエラーのほとんどは事前に防ぐことができ、また予防する必要があります。今日のデータセンターでは高レベルのリスク冗長性が導入されているため、インシデントを事前に防ぐことは完全に可能です。

興味深いのは、データセンターでは大小のエラーが常に発生する可能性があり、たとえ短時間であってもデータセンターの稼働が停止した場合に生じる損害は小さくないことです。 Data Center Knowledge の調査によると、データセンターのダウンタイムにより企業は 1 分あたり約 7,900 ドルの損失が発生する可能性があります。実際、データセンターのダウンタイムが 10 日以上になった企業の 93% は 1 年以内に倒産し、40% は即時倒産しました。また、評価された 41 のデータセンターに関する別の調査では、計画外停止による平均コストには、業務中断で 17 万 9,000 ドル以上、収益損失で約 11 万 8,000 ドル、生産性で約 4 万 2,000 ドルが含まれていることがわかりました。データセンター管理者が一般的なエラーの主な原因の調査と修正にもっと重点を置くだけであれば、潜在的なリスクは大幅に軽減されるでしょう。

データセンター崩壊につながる理由

問題は、多くのデータセンター運営者や運営者が、既存のものの維持や強化ではなく、成長や収益に重点を置くことが多いことです。現在、多くの公共および民間のデータ センターの管理者に注目すると、管理者がほぼ独占的にストレージ容量の増加、サーバー密度の向上、およびサーバー密度の向上に関心を持っていることがわかります。たとえば、冷却システム。これらはすべて素晴らしく、非常に必要とされており、データ ストレージ業界の驚異的な成長を示していますが、データ センターの失敗がますます一般的に発生している理由も示しています。

この記事では、データセンターが無効になる一般的な理由を調査し、それらの問題を最小限に抑えるか排除するために管理者ができることを強調し、これらの問題を完全に解決し、システムの安定性を向上させます。

データセンター崩壊につながる理由

人間が引き起こしたエラー

これらは最も単純な原因であると同時に、回避することが最も難しい原因の 1 つでもあります。簡単に言えば、誰もが間違いを犯す可能性があります。停止の 22% は人為的エラーによって引き起こされており、この原因は慎重に検討する価値があり、重要なことに、比較的簡単に防ぐことができます。

不適切なシステム認証

データセンター崩壊につながる理由

実際には、データセンター内のすべてのシステムに完全かつ無制限にアクセスできる管理者はほとんどいません。この権限をより多くの人に付与するのではなく、アクセスを厳密に管理する必要があります。そうしないと、システムに重大なエラーが発生する可能性が十分にあります。たとえば、2014 年の Joyent 事件では、経験豊富な管理者が誤って数回クリックするだけで会社の東データ センターにあるすべての仮想マシンを再起動してしまいました。

バックアップ手順が不十分

データセンター崩壊につながる理由

メンテナンス タスクを計画するとき、重要ですが忘れられがちなステップはバックアップ プロセスです。多くの場合、プロセスは文書化されていますが、徹底的にレビューされておらず、メンテナンス後に物事が元の形に完全に復元されていないこともよくあります。

変更が多すぎる

データセンター崩壊につながる理由

メンテナンス中に、管理者が一度に多くの変更を加えようとすると、問題が発生する可能性があります。まず、管理者は短期間に多数のタスクを完了する必要があるため、焦る傾向にあり、ミスが発生することがよくあります。第 2 に、非常に多くの変更が同じ時間枠で発生するため、変更後のトラブルシューティングがはるかに困難な作業になります。

人事管理の甘さ

データセンター崩壊につながる理由

少し厳しい言い方に聞こえますが、従業員はセンター内のルールを厳格に遵守する方法を知っておく必要があり、ルールに違反した場合は厳しく懲戒されなければなりません。たとえば、従業員が勤務中に飲食することを許可するデータ センターはありません。また、緊急スイッチには明確なラベルが付けられ、安全に保護されている必要があります。これらは小さなことのように見えますが、重大な事故につながる可能性があるため、ルールは常に厳守してください。

システムエラー

バックアップ電源が保証されていません。機器が古いか、設定が間違っています。

データセンター崩壊につながる理由

データセンターがダウンする最も一般的な理由は、停電によるものです。停電はいつでも起こる可能性があります。したがって、データセンターは、主電源が故障した場合に備えてバックアップ電源を備えた設計になっています。多くの場合、バッテリーまたは発電機システムがバックアップ電源として使用されます。問題は、バッテリーの交換が間に合わず、発電機の点検・整備が行われない可能性があり、停電時に問題が発生する可能性があることです。これらすべては、バックアップ機能が最も必要なときに利用できない可能性があることを意味します。

停電が発生した場合、UPS システムはバックアップ電源としてバッテリーを使用するため、データセンターの稼働時間を維持するために不可欠な部分となっています。ただし、バッテリーが常に正常に動作するとは限りません。メーカー自身が推奨するメンテナンスを実行して、バッテリーの状態を確認してください。少なくとも四半期に一度、バッテリーが適切に取り付けられ、放電し、充電されているかどうかを検査する必要があります。これには、目視検査、容量チェック、ソフトウェアまたは UPS サプライヤー自体による定期的な監視が含まれます。

さらに、高温によりシステムのバッテリー寿命が短くなる可能性があります。専用の UPS ルームを構築すると、バッテリー寿命の消耗を軽減できます。また、バッテリーを頻繁に放電することを避け、接続の緩みや摩耗したコネクターに十分注意する必要があります。つまり、UPS は特に重要なシステムであり、合理的な設計、適切な使用、および厳格なメンテナンスが必要です。

冷却システムの故障

データセンター崩壊につながる理由

データセンターの機械システムは大量の電力を消費するため、動作中に大量の熱を放出します。データセンターは 1 分間の稼働後に火葬場になる可能性があります。だからこそ、冷却システムは非常に重要なのです。また、温度センサーが測定し、管理者にアラートが送信されている場合でも、すべてが溶ける前にセンターのバックアップ冷却手順を実行するのに十分な時間を確保する必要があります。実行してください。」

さらに、多くの冷却システムは、最新の大容量データセンターの熱レベルの上昇に対応できるように実際には設計されていません。繰り返しになりますが、データセンターが 100% の容量で稼働する状況を計画することは、将来のより優れた冷却システムの計画に役立ちます。システムの温度変動に対する警告システムを設定することも必要です。いくつかの熱モデリング ソフトウェアといくつかの DCIM システムを使用できます。さらに、化学冷媒は水ベースのシステムよりも優れた選択肢です。

自動変換プロセスが正しく機能していません

データセンター崩壊につながる理由

ほとんどのサービス プロバイダー、組織、企業は、運用データ センターとして使用されるバックアップ データ センターを備えています。プライマリ データ センターで停電が発生した場合、バックアップ データ センターが自動的に起動し、すべてのトラフィックがそのバックアップ施設にルーティングされます。適切に実行されれば、プロセスはエンド ユーザーに至るまでシームレスになるはずです。残念ながら、自動フェイルオーバーは期待どおりに機能しないことがよくあります。この問題の通常の原因は、定期的なテストの欠如です。実稼働インフラストラクチャの小さな変更でも、自動フェイルオーバーに大きな影響を与える可能性があります。したがって、インフラストラクチャに変更を加える場合は、自動フェイルオーバー手順をテストして、プロセスから何も逸脱していないことを確認する必要があります。

時代遅れのハードウェア

データセンター崩壊につながる理由

各システムのすべてのハードウェアには一定の寿命があります。また、ハードウェアを長く使用すると、問題が発生する可能性が高くなります。これは誰もが知っていますが、重要なアプリケーションが 10 年前のハードウェアで実行されているという理由だけでクラッシュすることはよくあります。これらの問題は、新しいハードウェアまたはソフトウェア プラットフォームの包括的な交換およびアップグレード計画が欠如していること、または予算が不足していることが原因で発生することがよくあります。お金の問題ならどうすることもできない。しかし、単にできるだけ長く利用しようとするだけでは、いつでも問題が発生する可能性があり、問題が発生した場合には、問題によって引き起こされる損害がはるかに大きくなる可能性があります。

消火システムに水漏れの問題がある

データセンター崩壊につながる理由

最新のデータセンターのほとんどは、意図的または誤って作動した場合でも機器に損傷を与えないように、水を使わない防火システムを使用しています。しかし、多くの古い施設では依然としてデータセンターで従来の防火システムが使用されています。多くの水漏れが大規模な停電を引き起こしました。

緊急電源オフが誤って作動した場合

データセンター崩壊につながる理由

ほとんどのデータセンターに導入されている高レベルの物理セキュリティは、単に窃盗を阻止するだけではありません。また、データセンターの仕組みを理解していない従業員を避けるためにも設けられています。たとえば、アプリケーション管理者がデータセンターに入り、誤って緊急電源オフ (EPO) をトリガーしてしまうとします。 EPO は大きな赤いボタンで、システム全体の電源を遮断します。そして明らかに、理解していない人や専門知識がない人にとっては、そのような混乱が生じる可能性は十分にあります。

サイバー攻撃を受けると、DDO

データセンター崩壊につながる理由

長年にわたり、サイバー攻撃はデータセンター障害の主な原因の 1 つとなり、2010 年のわずか 2% から 2016 年の 22% まで増加しています。データセンター運営者は、攻撃のリスクを早期に検出して軽減するシステムを確立するための措置を講じる必要があります。

データセンターを大規模なDDoS 攻撃から防御することは困難です。ほとんどの ISP はネットワークのレイヤー 3 とレイヤー 4 である程度の保護を提供しますが、サービスにはレイヤー 7 での追加の保護が必要であり、特に HTTP GET または呼び出しを介して同様の攻撃をターゲットにすることができます。ファイアウォール、IPS/IDS、DDoS などの緩和サービスを組み合わせてトラフィックを再ルーティングできます。

自然災害

最近の嵐や洪水の増加により、データセンターに重大な混乱が生じる可能性があります。 2010 年に米国では 250 件以上の自然災害が発生しました。統計によると、米国ニュージャージー州は2012年に超暴風雨サンディによる事業中断により639億ドルの損失を被った。

データセンターの「倒壊」事故による被害を制限するための手順

定期メンテナンスのためのダウンタイムが慎重に計画され、特にトラフィックが少ない時間帯にセンターのダウンタイムについて事前に顧客に警告されていれば、顧客はより同情的になり、被害は大幅に軽減されます。最大の損害は、それが予期せず発生した場合、特にそれが長期間続いた場合に発生し、さらなる問題が発生します。会社全体のリソース システムを安定した状態に保ち、従業員が効率的に仕事を遂行できるようにし、IT 部門の負担を軽減します。

具体的には:

  • データのバックアップ: データセンターの停止に備えて、開始時にデータ (そしてさらに重要なことに、顧客のデータ) が準備できている必要があります。トラブルシューティングを開始して、再度実行してください。定期的にバックアップを実行すると、実際のメルトダウンのリスクが制限されます。会社に余裕がある場合は、EMC の VPLEX 製品ラインや VEEAM のバックアップおよびレプリケーション ソフトウェアなどの一部の製品を使用すると、バックアップの場所に自動的に切り替わり、ダウンタイムを最小限に抑えることができます。
  • サーバー システムの定期的な監視を維持する: 監視は定期的に実行できるサービスであり、通常はそれほど費用はかかりません。サードパーティの監視サービスはサーバーのダウンタイムの可能性を通知するため、問題にすぐに対処できます。
  • 人的エラーを最小限に抑える: サーバー システムや電気配線を作業したり、その周囲を歩いたりするときは、誤って損傷を与えたり、専門知識なしに謎のスイッチに触れたりしないように注意してください。液体を機械システムに近づけないでください。サーバーのアップグレードやメンテナンスが必要な場合は、いつでもデータ保護専門家に連絡し、センターの規則に従ってください。

小規模センターから企業規模の施設やサービスプロバイダーに至るまで、すべてのデータセンターは、ユーザーに信頼できるサービスを提供するために 100% 努力する必要があります。メンテナンスと人的要因の原則に従って、時間をかけて将来の計画を立てることにより、データセンターは、障害の最も一般的な原因のいくつかを回避できます。

続きを見る


Windows 10で欠落しているデフォルトの電源プランを復元する方法

Windows 10で欠落しているデフォルトの電源プランを復元する方法

このガイドでは、Windows 10でデフォルトの電源プラン(バランス、高パフォーマンス、省電力)を復元する方法を詳しく解説します。

Windows 10 で BlueStacks 5 の仮想化 (VT) を有効にする方法

Windows 10 で BlueStacks 5 の仮想化 (VT) を有効にする方法

仮想化を有効にするには、まず BIOS に移動し、BIOS 設定内から仮想化を有効にする必要があります。仮想化を使用することで、BlueStacks 5 のパフォーマンスが大幅に向上します。

WiFi接続に接続する際のドライバーの切断を修正

WiFi接続に接続する際のドライバーの切断を修正

WiFi 接続に接続するときにドライバーが切断されるエラーを修正する方法を解説します。

Windows での DIR コマンドの使用方法

Windows での DIR コマンドの使用方法

DIR コマンドは、特定のフォルダーに含まれるすべてのファイルとサブフォルダーを一覧表示する強力なコマンド プロンプト コマンドです。 Windows での DIR コマンドの使用方法を詳しく見てみましょう。

ソフトウェアを使わずに Windows 10 アプリをバックアップおよび復元する方法

ソフトウェアを使わずに Windows 10 アプリをバックアップおよび復元する方法

ソフトウェアなしで Windows 10 アプリをバックアップし、データを保護する方法を説明します。

Windows でローカル グループ ポリシー エディターを開くための 11 のヒント

Windows でローカル グループ ポリシー エディターを開くための 11 のヒント

Windows のローカル グループ ポリシー エディターを使用して、通知履歴の削除やアカウントロックの設定を行う方法を説明します。

最高の IP 監視ツール 10 選

最高の IP 監視ツール 10 選

重要なリソースを簡単に監視及び管理できる<strong>IP監視</strong>ソフトウェアがあります。これらのツールは、ネットワーク、インターフェイス、アプリケーションのトラフィックをシームレスに確認、分析、管理します。

AxCrypt ソフトウェアを使用してデータを暗号化する方法

AxCrypt ソフトウェアを使用してデータを暗号化する方法

AxCrypt は、データの暗号化に特化した優れたソフトウェアであり、特にデータ セキュリティに優れています。

Windows 10 Creators Updateのアップデート後にシステムフォントを変更する方法

Windows 10 Creators Updateのアップデート後にシステムフォントを変更する方法

システムフォントのサイズを変更する方法は、Windows 10のユーザーにとって非常に便利です。

Windows 10で機内モードをオフにできないエラーを修正する方法

Windows 10で機内モードをオフにできないエラーを修正する方法

最近、Windows 10にアップデートした後、機内モードをオフにできない問題について多くのユーザーから苦情が寄せられています。この記事では、Windows 10で機内モードをオフにできない問題を解決する方法を説明します。