2008年10月21日 星期二

工作煩忙

昨天一回到公司便收到有機器死亡的消息, 早餐也沒時間買, 先看看傷勢如何再作打算. 一查之下, 發現主儲存器有兩部機死了, 其中一部還是磁碟擁有者, 幸好兩者的服務都已被後備侍服器取代. 我滿以為沒甚麼大礙, 還想著先把那部只負責檔案分享的機器復原, 再去買個早餐邊吃邊繼續拯救行動. 那料在我啟動了復原程序後, 卻發現檯面側邊有一張便條, 內容是由星期日晚開始, 便有一些主儲存器內的路徑無法進入. 噢! 那就麻煩了, 如果壞了的機器被接管後還會有資料存取的困難, 問題就一點都不簡單. 細看之下, 發現即使在生的侍服器也是異常忙碌, 而且有極高的負載. 登入機器查看, 則發現有資源封鎖的問題, 差不多所有的分享檔案行程都在等待資源狀態, 再沒有空餘接收使用者的要求了. 由於一時間無法查明資源被封鎖的原因, 但必須先解決使用者對存取的訴求, 我只好把整批機器逐一重開, 先解開被鎖的資源再說吧. 要命的是, 重新開機後不久, 行程又再次進入等待狀態. 在無可奈何之下, 我唯有先把所有機器改為唯讀模式, 先讓大家讀取想要的資料, 晚上再回復所有設定吧.

為免影響使用者, 結果我要在放工後才繼續修復的工作. 我得先把所有還封鎖著資源的機器找出來與以隔離, 然後把侍服器回復原有設定再重新啟動. 當所有工作完成, 都已經是另一天了, 早上還得準時上班以備系統再死時可即時處理, 真要命. 但也沒法子, 我認為這是工種的問題, 相信沒有使用者會喜歡我們在辦公時間進行系統維修吧? 但是上班時遇到問題也不可以沒有維修人員啊! 對於這點我倒是認命, 由我入行的第一天開始我便知道這工作的性質, 所以我從沒要求過甚麼超時補貼, 因為很多工作本就是要等大家下了班才可以做. 我會認為這就是工作內容的一部份, 就好像有人要輪班工作, 自然也有人是要負責處理突發事件.

其實今次的問題可以早點解決, 減少對使用者的影響, 要是留字條的同事當時立即致給我的話, 我便可以即時作出拯救. 不過也沒法子, 對問題嚴重性的判斷並不是這麼容易, 也實在沒可能是無大小都找一找我吧. 幹這一行, 經驗和反應真的很重要.

沒有留言: