MTBF

MTBF

衡量産品的可靠性指标
MTBF,即平均故障間隔時間,英文全稱是“MeanTimeBetweenFailure”。是衡量一個産品(尤其是電器産品)的可靠性指标。單位為“小時”。它反映了産品的時間質量,是體現産品在規定時間内保持功能的一種能力。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔,它僅适用于可維修産品,同時也規定産品在總的使用階段累計工作時間與故障次數的比值為MTBF。[1]磁盤陣列産品一般MTBF不能低于50000小時。MTBF值是産品設計時要考慮的重要參數,可靠度工程師或設計師經常使用各種不同的方法與标準來估計産品的MTBF值。
    中文名:平均故障間隔時間 外文名:Mean Time Between Failure 所屬學科: 簡稱:MTBF 作用:衡量産品可靠性的指标 單位:小時 反映:産品的時間質量

故障時間

随着服務器的廣泛應用,對服務器的可靠性提出了更高的要求。所謂“可靠性”,就是産品在規定條件下和規定時間内完成規定功能的能力;反之,産品或其一部分不能或将不能完成規定的功能是出故障。概括地說,産品故障少的就是可靠性高,産品的故障總數與壽命單位總數之比叫“故障率”(Failurerate),常用λ表示。例如正在運行中的100隻硬盤,一年之内出了2次故障,則每個硬盤的故障率為0.02次/年。當産品的壽命服從指數分布時,其故障率的倒數就叫做平均故障間隔時間(MeanTimeBetweenFailures),簡稱MTBF。即:MTBF=1/λ。

筆者看到一款可用于服務器的WDCaviarRE27200RPM硬盤,MTBF高達120萬小時,保修5年。120萬小時約為137年,并不是說該種硬盤每隻均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即該硬盤的平均年故障率約為0.7%,一年内,平均1000隻硬盤有7隻會出故障。

下圖所示為著名的浴盆曲線,左邊斜線部分為早期故障率,其故障率一般較高且随着時間推移很快下降。曲線中部為使用壽命期,其故障率一般很低且基本固定。最右部為耗損期,失效率急速升高。電子産品制造商一般通過測試、老煉、篩選等手段将早期故障盡量剔除,然後提供給客戶使用。當使用壽命期将盡,産品也即将進入故障高發期,需要報廢或更新換代了。

由來

右圖為浴盆曲線,那麼浴盆曲線與産品壽命有什麼關系呢?

電子産品的壽命一般都符合浴盆曲線,可分為三個階段:

早夭期:由于設計,原材料,生産等可能出現的原因而導緻一個較高失效率的階段,也稱失效率遞減階段,可通過環境應力篩選加以剔除,保證産品的可靠性。

穩定器:這一階段産品失效率近似一個常數,隻有随機失效産生,MTBF即要得到這一階段的壽命。

耗損期:硬件故障期,産品這時已達到設計壽命,進入報廢階段。

壽命

明白了MTBF和“浴盆”曲線的基本概念,我們對評估産品的使用壽命有了一定的掌握。在合适工作條件下器件使用壽命期内的故障率很低。廣大電子愛好者都知道電子元器件的壽命,與工作溫度是有密切關系的。以電腦主闆上常用的也常出故障的電解電容器為例,其壽命會受到溫度的影響。因此,應盡可能使電容器在較低的溫度之下工作,如果電容器的實際工作溫度超過了其規格範圍,不僅其壽命會縮短,而且電容器會受到嚴重的損毀(例如電解液洩漏)。

因此,在分析電腦主闆上電容器的工作溫度時,不僅要考慮機箱内整體環境溫度及電容器自身的發熱,還要考慮機箱内其他發熱元件的熱輻射(特别是CPU、穩壓器、電源供應器等)。

根據測試,通常2.0G的CPU消耗功率達56.7W,生成溫度達70℃;而當頻率提高至3.0G時,CPU溫度往往超過90℃。在這樣的高溫烘烤下,主闆上的電容器壽命會發生什麼變化?

為簡化起見,不考慮紋波、頻率、ESR等因素,電容器的估計壽命可用下述公式表示:

其中,L0表示最高工作溫度下的壽命,Tmax表示最高工作溫度,Ta表示實際環境溫度。由此可見,如果環境溫度每升高10℃,電容器壽命将下降一倍!

由上圖右面的曲線可明顯看出,随着電容器工作環境溫度的上升,其有效壽命急劇縮短。其中有效壽命(Usefullife)是指該種電容器達到給定故障率的時間。

關系

溫度與電腦的可靠性

電源供應器對電腦來說,重要性不言而喻。影響電源供應器壽命的因素很多,如負載大小、振動和周邊的環境溫度等。其中,環境溫度很重要,所以選擇合适的風扇,排放出由電源供應器内部的熱量非常關鍵。電源供應器的MTBF,在很大程度上是由其内部的電解電容器MTBF值所決定的。因随着溫度的上升,電容器的壽命急劇縮短,所以電源供應器的工作溫度如能得到降低,其壽命就會更長一些。

當評價電源供應器所标稱壽命時,電源供應器是否運行在額定的滿負載狀況是另一重要考慮因素。如果電源供應器裝有合适的散熱器而散熱風扇風量足夠大,在低于滿負載的情況下連續工作,電源供應器就能有更長的壽命。一般電腦電源供應器壽命按照3-5年計算元件的可能失效周期,MTBF在80,000-100,000小時之間。

不同的電源供應器廠家,其産品設計、用料也往往差别很大,工作壽命自然不同。

除電源供應器外,硬碟的溫度也不可小視。現在的硬碟動不動就7200rpm-15000rpm,想想看硬碟内的馬達每天轉24小時,平均工作溫度在四、五十度的高熱是免不了。筆者曾測量過一台散熱不夠好的伺服器硬碟,溫度超過40℃。對硬碟來說,如果機殼内部的溫度降低了,這将意味着減少主軸馬達液态軸承的軸承潤滑劑以及磁碟潤滑劑的蒸發,這将大大降低其損壞的機率。據Seagate公司公開的某型号硬碟數據,在34℃時的MTBF為150,000小時,但在25℃時,會達到230,000小時。

風扇與散熱效果

為降低硬碟溫度,可增加散熱風扇。市面上是有賣硬碟專用的散熱模組,有的則是一顆風扇再加上一塊硬碟大小的鋁制散熱片,其實沒有必要這麼複雜。

如采用小型風鼓(BLOWER),風量增加,散熱效果更好。但是,增加風扇或風鼓一定要考慮振動的問題。要知道風扇較高的轉速才能達到一定的風量,但如采用較劣質的風扇,轉速雖高,但壽命短且振動厲害,對硬碟壽命會帶來不利影響,安裝硬碟時加吸震軟墊、機箱機殼底部的吸震片都有一定效用。

優質的電源供應器當然要搭配高品質的風扇,如HG2-6400P選用的是NMB鋼珠軸承風扇,比傳統油封軸承風扇壽命高出2倍。這款電源供應器還加入了風扇轉速控制線路,可以根據電源内部的溫度調節風扇轉速,在延長使用壽命的同時,也更好的控制了風扇噪音和震動。

灰塵對伺服器的影響

如何保養和維護好伺服器,最大限度的延長其使用壽命,是大家都非常關心的話題。灰塵對伺服器構成的威脅不容忽視。按筆者的電子産品維修經驗,在灰塵比較大的環境中工作,由于PCB吸附灰塵,而灰塵的沉積會影響電子元器件的熱量散發,這将導緻元件溫度上升,進而出現熱穩定性下降甚至産生漏電,嚴重時導緻燒毀。另外,灰塵也會吸收水分,腐蝕電子線路,造成一些莫名其妙的短路問題。所以灰塵體積雖小,但對伺服器的危害不可低估。

盡管伺服器機房有相對較好的環境,但灰塵仍會不斷累積。所以,有必要定期進行清理,可使用上圖美國生産CRC牌防塵噴劑、也可用有防靜電(ESD)功能的小毛刷小心進行清掃,或使用吹風球清潔灰塵,減少出故障的機率。在清理機箱内部的灰塵時,切記斷開電源,小心操作,特别是面闆進風口和電源(排風口)的附近,以及闆卡的插接部位灰塵最多。清理電源裡的灰塵最好将電源供應器拆下,用防塵噴劑、吹氣球仔細清掃幹淨後再裝回。

MTBF,即平均無故障時間,英文全稱是“MeanTimeBetweenFailure”。是衡量一個産品(尤其是電器産品)的可靠性指标。單位為“小時”。它反映了産品的時間質量,是體現産品在規定時間内保持功能的一種能力。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。它僅适用于可維修産品。同時也規定産品在總的使用階段累計工作時間與故障次數的比值為MTBF。磁帶機産品的MTBF值不應低于200000小時。

通常,我們在産品的手冊或包裝上能夠看到這個MTBF值,如8000小時,2萬小時,那麼,MTBF的數值是怎樣算出來的呢,假設一台電腦的MTBF為3萬小時,是不是把這台電腦連續運行3萬小時檢測出來的呢?答案是否定的,如果是那樣的話,我們有那麼多産品要用幾十年都檢測不完的。其實,關于MTBF值的計算方法,目前最通用的權威性标準是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于軍工産品和民用産品。

其中,MIL-HDBK-217是由美國國防部可靠性分析中心及Rome實驗室提出并成為行業标準,專門用于軍工産品MTBF值計算,GJB/Z299B是我國軍用标準;而Bellcore是由AT&TBell實驗室提出并成為商用電子産品MTBF值計算的行業标準。

MTBF計算中主要考慮的是産品中每個器件的失效率。但由于器件在不同的環境、不同的使用條件下其失效率會有很大的區别,例如,同一産品在不同的環境下,如在實驗室和海洋平台上,其可靠性值肯定是不同的;又如一個額定電壓為16V的電容在實際電壓為25V和5V下的失效率肯定是不同的。所以,在計算可靠性指标時,必須考慮上述多種因素。所有上述這些因素,幾乎無法通過人工進行計算,但借助于軟件如MTBFcal軟件和其龐大的參數庫,我們就能夠輕松的得出MTBF值。

其實,MTBF值如何算出并不是我們所關心的問題,我們應該把重點放在一個産品的MTBF的值到底有多少上,對于用戶來講,應該選用MTBF值高的産品。

目的

1、針對高頻率故障零件的重點對策及零件壽命延長的技術改造依據。

2、進行零件壽命周期的推算及最佳維修計劃編制。

3、有關點檢對象、項目的選擇與點檢基準的設定、改善。

4、用于指導内外部維修工作分配。根據公司内設備修複能力的評價,以設備類型、作業種類的不同來決定内部分别承擔工作的維修質量與設備效率方面的風險,作為維修外包的重要參考。

5、設定備品備件基準。機械、電氣零件的各儲備項目及基本庫存數量,應根據MTBF的記錄分析來判斷,使其庫存水平達到最經濟的狀況。

6、作為選擇維修技術方法改善重點的參考依據。為了提高設備開動率,必須縮短與設備停機相關的長時間維修作業及工程調整、切換的時間。因此,有必要對維護作業方法進行檢驗,而其檢驗的項目、優先順序的選擇等基本情況,均需要依據MTBF的分析記錄表。

7、用于設備對象設定預估運行時間标準,及其維護作業的選定與維護時間标準的研究。維修計劃預估時間标準的設定及維護作業的選定,必須考慮設備維護重複周期或标準時間值與實際維護時間的差異及相應維護作業特性等因素,因此,MTBF分析表是非常必要的。

8、圖樣整理及重新選定重點設備或零件時的參考。MTBF的分析記錄表所記錄的設備零件改造項目或摩擦劣化等信息,以及設備圖樣修改或前期制作等情況,通過能經常作分析檢驗及重要性排序管理,可以使工程圖樣管理變得更容易。

9、運行操作标準的設定、修訂及決定設備維護業務的責任分派。

10、提供設備的可靠性、可維修性設計的技術資料。維護技術最重要的是以MTBF分析表為基礎,收集有關設備的可靠性、可維修性設計的技術信息,以便提供給設計部門在設計設備時參考。

相關詞條

相關搜索

其它詞條