辛苦了三天, 日以繼夜, 由組別隔離, 機組分工, 到全天候監視, 終於有了點頭緒. 首先我們發現問題主要由一批負責圖像計算的機器引發, 再在侍服器重新開機後等待系統資源被封鎖的首次發生, 從而追蹤至相關的電腦. 找到有問題的電腦後, 我們便可以根據當時執行中的行程狀態來判斸那一個程式封鎖了資源. 最後, 按著有關程式所開啟的檔案次序, 總算找到了出事的原因. 原來, 檔案系統內有某處地方不容許存取, 甚至不容許檢視或偵查. 每當有任何程序嘗試存取便會進入等待狀態, 並且無法繼續執行或被殺掉, 結果系統資源便會被耗盡, 無法再提供服務.
現在可以做的是先避免程式再接觸這個範圍, 維持系統的正常服務. 另一方面, 我們已經聯絡有關的檔案系統公司, 看看究竟是那裡出了錯, 然後著手解決, 並設定預防措施以防止同類問題再次發生. 希望一切順順利利, 問題得以就此解決, 因為我已經累到不能再捱下去了.
至少, 先讓我睡一個好覺吧!
沒有留言:
張貼留言