昨天一回到公司便收到有機器死亡的消息, 早餐也沒時間買, 先看看傷勢如何再作打算. 一查之下, 發現主儲存器有兩部機死了, 其中一部還是磁碟擁有者, 幸好兩者的服務都已被後備侍服器取代. 我滿以為沒甚麼大礙, 還想著先把那部只負責檔案分享的機器復原, 再去買個早餐邊吃邊繼續拯救行動. 那料在我啟動了復原程序後, 卻發現檯面側邊有一張便條, 內容是由星期日晚開始, 便有一些主儲存器內的路徑無法進入. 噢! 那就麻煩了, 如果壞了的機器被接管後還會有資料存取的困難, 問題就一點都不簡單. 細看之下, 發現即使在生的侍服器也是異常忙碌, 而且有極高的負載. 登入機器查看, 則發現有資源封鎖的問題, 差不多所有的分享檔案行程都在等待資源狀態, 再沒有空餘接收使用者的要求了. 由於一時間無法查明資源被封鎖的原因, 但必須先解決使用者對存取的訴求, 我只好把整批機器逐一重開, 先解開被鎖的資源再說吧. 要命的是, 重新開機後不久, 行程又再次進入等待狀態. 在無可奈何之下, 我唯有先把所有機器改為唯讀模式, 先讓大家讀取想要的資料, 晚上再回復所有設定吧.
為免影響使用者, 結果我要在放工後才繼續修復的工作. 我得先把所有還封鎖著資源的機器找出來與以隔離, 然後把侍服器回復原有設定再重新啟動. 當所有工作完成, 都已經是另一天了, 早上還得準時上班以備系統再死時可即時處理, 真要命. 但也沒法子, 我認為這是工種的問題, 相信沒有使用者會喜歡我們在辦公時間進行系統維修吧? 但是上班時遇到問題也不可以沒有維修人員啊! 對於這點我倒是認命, 由我入行的第一天開始我便知道這工作的性質, 所以我從沒要求過甚麼超時補貼, 因為很多工作本就是要等大家下了班才可以做. 我會認為這就是工作內容的一部份, 就好像有人要輪班工作, 自然也有人是要負責處理突發事件.
其實今次的問題可以早點解決, 減少對使用者的影響, 要是留字條的同事當時立即致給我的話, 我便可以即時作出拯救. 不過也沒法子, 對問題嚴重性的判斷並不是這麼容易, 也實在沒可能是無大小都找一找我吧. 幹這一行, 經驗和反應真的很重要.
沒有留言:
張貼留言