会社の話だし、セキュリティにも関わることなので詳しいことはかけませんが、そういう仕事もあるのだなということで。
休みの日のシステム監視
世の中には様々なシステムがあります。例えば、ご覧いただいている当ブログもWordPressというアプリを使って情報をお伝えするためのシステムの一つです。このインターネットという仕組みだて一つのシステムですよね。
こうした様々なシステムは用途にもよりますが、生活や経済活動のインフラ基盤になりました。ソフトウェアとハードウェアの違いはありますが、電気水道や道路などの公共インフラと同等で、使えなくなると困る人も出てきますよね。
なので、休日とか関係なく、昼夜も問わず、止まっては困るシステムを監視する人たちがいるんです。
通常はマニュアルどおり
システム監視はどういうことをするのか。今はかなりの部分は自動化・無人化が進みました。それでも予算の都合から自動化まで至らないシステムなどもありますし、復旧には人手が必要なケースもまだまだ多い。
通常運用時の大半は、「正常であることを確認する」作業がほとんどになります。ですので、そういう作業専用の部隊にアウトソースしてしまいます。しっかりシステム運用設計ができていれば、これで十分です。
怖いのは、異常が発生したとき。特にマニュアルにはない異常が発生したときです。
休日の電話は恐怖
さて、私の立場は、そういったマニュアルにはない異常が発生したときの電話窓口です。基本的にリモートからシステムを参照できる権限を持ち、ログなどから異常の内容を判断し、的確に指示する、というのが役割です。
リモートの権限を持つってのは、かなり強い権限。最近はテレワークも普及したので、リモートで会社ネットワークに入りやすくなりましたが、更にシステムの根幹のセグメントまで入り込んで作業できる権限です。相当やべぇやつ。
障害なので、放置すれば困る人が出る。そう考えると対応はせざるを得ない。でもね、これが結構ストレスです。電話が鳴る辞典でマニュアルにも記載のない予想外の状況ですから。。。
それでも放置すればして怒られちゃいますしね。使えない状況が続こうものなら、お客様にとってみれば、機会損失ですから。お客からみれば、怒る・怒られるのはなしではなく、商売の死活問題なのです。怒ってくれるだけましかな。
そしてつぶれる休日
マニュアル外の事象であれば電話がなる。そして電話越しから症状を聞くわけですが、正直わからんってことの方が多い。しかたない、リモートでつなぐか、、ってなるのよね。とほほ。
原因不明の状況からの復旧は、かなりきついです。多くの場合、推理ミステリーのように、ちょっとした状況から減少を推測し障害の原因を取り除かなければなりません。
しかし、休日ですと、細かい部分の専門家は休んでるし、OSや商用アプリのサポートも休んでいます。システム設計が酷いと、問題個所を切り離しておくこともできません。
なので、状況によっては下記の2つが頭を駆け巡ります。
- どうやって障害を切り分けて部分復旧するか
- どうやって謝罪するか
そして一日が終わった時には、解決してもしなくてもどっと疲れる。そして冷静に振り返ると、休日がつぶれていて…
やりがい
でもね、これがやりがいあるという側面もある。マニュアルに記載できるような内容なんて、要するに新規性もないルーチンワーク。それに対して障害対応は、よほど設計が甘くない限り、新しい課題の発生となる。
課題については分析してカイゼンすれば、そこに価値があって商売になる。原因と結論は実は価値の一部に過ぎない。原因にたどり着く技術、原因から結論を導き出す技術、その価値が大きい。それらはデジタルな話ではない。培ってきた人の持つ技量、障害に対する経験値、そこで育った人材、そういった諸々が価値なのだ。
最近、大きめの会社では、技術調査能力の低下が目立ってきたように思う。
- 障害が減ってきたこと
- 障害へのアプローチが「統制」の名のもと自由にできなくなってきたこと
こうした要因によって障害が人を育成するという側面は弱くなってきている。
もし技術者を目指すなら、その点は勿体ない時代になって来た。
そこでだ。個人でもシステムは作れる時代になってきている。自分で何かシステム作って24時間365日の安定運用を目指してみるのはいかがだろう。技術力向上にも良さそうだ。チャレンジしてみたいところだ。
あ、、、個人でシステム作れるって言っても普通はとっかかりもないか。そういったことも今後時間があれば記事起こせないかな。自分の勉強にもなるし挑戦したいな。
コメント