一,、有關(guān)故障監(jiān)控與告警的基礎(chǔ)知識
智能貨柜同一般的軟件有較大的區(qū)別,,軟件只涉及服務(wù)應(yīng)用層面的交互,而智能貨柜則既涉及到軟件應(yīng)用的交互,,還涉及到硬件和軟件的交互,,因此智能貨柜的故障和監(jiān)控要比普通的APP以及系統(tǒng)要更加復(fù)雜,,下面就故障監(jiān)控與告警相關(guān)的背景和知識做相應(yīng)的介紹。
1. 什么是故障,?
百度百科對于故障的解釋如下:
故障是系統(tǒng)不能執(zhí)行規(guī)定功能的狀態(tài),。通常而言,故障是指系統(tǒng)中部分元器件功能失效而導(dǎo)致整個系統(tǒng)功能惡化的事件,。
而對于智能貨柜來說,,故障即是任何會影響設(shè)備正常售賣的事件,包括硬件上的故障,,也包括軟件上的故障,。
故障的種類有可能是非常多的,,對于產(chǎn)品而言只能在最開始系統(tǒng)設(shè)計的時候,盡可能的窮舉出越多的故障,,只有明確了故障的種類,,才能監(jiān)控到這些故障。
那我們?yōu)槭裁匆龉收媳O(jiān)控與告警系統(tǒng)呢,?
對于智能貨柜來說,,每一個運營都需要負責(zé)非常多的設(shè)備,而不能時時刻刻守在設(shè)備旁邊,,也就無法及時知道設(shè)備發(fā)生了故障,,因此故障監(jiān)控與告警系統(tǒng)將會產(chǎn)生如下價值:
監(jiān)控與告警的區(qū)別:其實本質(zhì)上監(jiān)控是告警的基礎(chǔ),,只有具備了監(jiān)控的信息,,才能針對監(jiān)控的信息去指定相應(yīng)的規(guī)則和策略來進行告警。監(jiān)控的信息是非常全和雜的,,但是對于接受故障的用戶來說,,雜和全的信息會干擾用戶的判斷和決策,因此只有在監(jiān)控信息基礎(chǔ)上,,針對相應(yīng)的規(guī)則篩選出需要告警的信息來進行觸達和展示,,才能最大效率和準確的解決相應(yīng)的故障。
監(jiān)控和告警的目標(biāo)則是一致的,,即:
既然是從0到1的系統(tǒng),,那自然不免會涉及到非常多的工作需要去找,。前期用戶調(diào)研、競品調(diào)研以及市場背景都要去了解,。
用戶調(diào)研:因為系統(tǒng)做出來不是給產(chǎn)品用的,,因此必須要了解該系統(tǒng)使用對象的想法。一般來說針對公司自己軟硬件的故障監(jiān)控系統(tǒng),,都是給公司內(nèi)部相關(guān)部門的人使用的,,因此用戶調(diào)研上相對來說會比較容易,需要了解使用對象的使用習(xí)慣,、對于哪些故障類型比較關(guān)注,,盡可能多的收集故障類型,。
競品調(diào)研:一般來說對于陌生的產(chǎn)品和系統(tǒng),為了避免更少的踩坑,,還是需要多多體驗市場上存在的產(chǎn)品,,包括成熟和不成熟的系統(tǒng)都可以去參考,能夠產(chǎn)生許多的靈感,。
以上2點是做該系統(tǒng)比較簡單的工作,,以下內(nèi)容則涉及到故障監(jiān)控與告警系統(tǒng)具體的產(chǎn)品設(shè)計方案。
1. 故障監(jiān)控與告警系統(tǒng)的基礎(chǔ)
首先要做故障的監(jiān)控,,就必須要了解和清楚怎么去監(jiān)控設(shè)備硬件和軟件的相關(guān)信息,,主要通過如下方式去監(jiān)控故障:
只有以上工作做到位后,才能具備監(jiān)控和告警的基礎(chǔ),,不然沒有這些信息,,后面也沒辦法實現(xiàn)故障的監(jiān)控和告警。
2. 故障監(jiān)控的類型
前期在故障類型較少的時候,,有可能是通過開發(fā)代碼定義故障類型,,但是為了后續(xù)系統(tǒng)的拓展和兼容性,建議還是通過頁面配置的方式來實現(xiàn)故障類型定義,。
以下通過智能硬件的故障類型來給大家詳細說明,,故障類型的編輯可能涉及到如下字段來區(qū)分故障:
以上字段是對一個故障最基礎(chǔ)的編輯和定義,,當(dāng)上報一個故障id時,則可以通過故障id去拉取該故障的其他信息,。不同的業(yè)務(wù)可能對于故障的定義字段都不盡相同,,需要根據(jù)業(yè)務(wù)去靈活制定。
3. 故障告警的規(guī)則和策略
正如上文提到的,,故障監(jiān)控和告警是兩個不同的事情,監(jiān)控是把所有上報的信息都會記錄下來,,所以信息一定是多而雜的,,這些過多的信息如果都推送給相應(yīng)的人員,那很可能是大大提高了用戶處理錯誤信息的工作量,,所以是需要規(guī)則和策略去篩選準確的故障信息進行推送,。
那么告警規(guī)則和策略包含哪些信息呢?簡單粗暴的來說,,一個告警規(guī)則和策略需要包含告警的統(tǒng)計指標(biāo),,告警推送的條件、告警的收斂規(guī)則,。
舉例如下:
比方說針對網(wǎng)絡(luò)故障的告警,,則對應(yīng)的監(jiān)控項為網(wǎng)絡(luò)速度,那么創(chuàng)建一個告警規(guī)則需要定義如下信息:
那么當(dāng)某臺設(shè)備30分鐘內(nèi)上報網(wǎng)速小于20kb/s大于等于3次時,,就需要通過告警推送到對應(yīng)的人員,。告警規(guī)則也是可以通過前端頁面去靈活配置的,這也大大提高了系統(tǒng)的拓展性和廣泛使用性,,可以及時跟進數(shù)據(jù)情況修改和新增相應(yīng)的告警規(guī)則,。
4. 故障告警的方式和渠道
當(dāng)系統(tǒng)監(jiān)控到需要推送告警信息時,需要通過什么渠道推送告警信息呢,?這里也涉及到前期用戶調(diào)研的一些內(nèi)容,,一定是需要通過最簡單,、高效的渠道去推送到運維人員手中,主要有以下方式和渠道來進行推送告警信息:
以上列了主要的幾種告警推送的方式和渠道,,其實還包括一些其他的方式,比方說釘釘群,、微信群,、短信等,至于需要通過哪種方式去推送告警信息,,一般都是需要根據(jù)業(yè)務(wù)來確定,,也不一定是只通過一種方式去觸達。為了保證告警的效果,,可以多種方式同時推送,,但是前期也需要平衡開發(fā)的成本和收益,選擇一種最高效,、開發(fā)難度最小的進行觸達,。
三、故障監(jiān)控和告警系統(tǒng)總結(jié)
故障監(jiān)控和告警系統(tǒng)其實相對來說還是一個比較簡單的系統(tǒng),,但是如果需要從0到1的去搭建這樣一個系統(tǒng)也是需要注意比較多的情況,,盡可能系統(tǒng)化、模塊化的去設(shè)計這樣一個系統(tǒng)。
來源:機房動力環(huán)境監(jiān)控 http://rupm.cn 本文采集于網(wǎng)絡(luò),,如有問題有聯(lián)系刪除
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板,、轉(zhuǎn)載本站內(nèi)容等行為者,,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗