機房監(jiān)控系統(tǒng)是企業(yè)機房內(nèi)不可或缺的重要輔助工具,,是機房內(nèi)各設(shè)備的守護使者。對于企業(yè)來說,,了解機房監(jiān)控就是對自身機房增加一層安全保障,,要想機房問題少,機房監(jiān)控少不了,。
監(jiān)控目標
我們先來了解什么是監(jiān)控,,監(jiān)控的重要性以及監(jiān)控的目標,當然每個人所在的行業(yè)不同,、公司不同,、業(yè)務(wù)不同、崗位不同,、對監(jiān)控的理解也不同,,但是我們需要注意,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,,而不是針對某個監(jiān)控技術(shù)的使用,。
1、 對系統(tǒng)不間斷實時監(jiān)控:實際上是對系統(tǒng)不間斷的實時監(jiān)控(這就是監(jiān)控) ,。
2,、 實時反饋系統(tǒng)當前狀態(tài):我們監(jiān)控某個硬件,、或者某個系統(tǒng),,都是需要能實時看到當前系統(tǒng)的狀態(tài),,是正常、異常,、或者故障,。
3、 保證服務(wù)可靠性安全性:我們監(jiān)控的目的就是要保證系統(tǒng),、服務(wù),、業(yè)務(wù)正常運行。
4,、 保證業(yè)務(wù)持續(xù)穩(wěn)定運行:如果我們的監(jiān)控做得很完善,,即使出現(xiàn)故障,能第一時間接收到故障報警,,在第一時間處理解決,,從而保證業(yè)務(wù)持續(xù)性的穩(wěn)定運行。
監(jiān)控方法
既然我們了解到了監(jiān)控的重要性,、以及監(jiān)控的目的,,那么下面我們需要了解下監(jiān)控有哪些方法。
1,、 了解監(jiān)控對象:我們要監(jiān)控的對象你是否了解呢,?比如 CPU 到底是如何工作的?
2,、 性能基準指標:我們要監(jiān)控這個東西的什么屬性,?比如 CPU 的使用率、負載,、用戶態(tài),、內(nèi)核態(tài)、上下文切換,。
3,、 報警閾值定義:怎么樣才算是故障,要報警呢,?比如 CPU 的負載到底多少算高,,用戶態(tài)、內(nèi)核態(tài)分別跑多少算高,?
4,、 故障處理流程:收到了故障報警,那么我們怎么處理呢,?有什么更高效的處理流程嗎,?
監(jiān)控核心
我們了解了監(jiān)控的方法,、監(jiān)控對象、性能指標,、報警閾值定義,、以及故障處理流程幾步驟,當然我們更需要知道監(jiān)控的核心是什么,?
1,、 發(fā)現(xiàn)問題:當系統(tǒng)發(fā)生故障報警,我們會收到故障報警的信息,。
2,、 定位問題:故障郵件一般都會寫某某主機故障、具體故障的內(nèi)容,,我們需要對報警內(nèi)容進行分析,,比如一臺服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問題、還是負載太高導致長時間無法連接,,又或者某開發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,,我們就需要去分析故障具體原因。
3,、 解決問題:當然我們了解到故障的原因后,,就需要通過故障解決的優(yōu)先級去解決該故障。
4,、 總結(jié)問題:當我們解決完重大故障后,,需要對故障原因以及防范進行總結(jié)歸納,避免以后重復出現(xiàn),。
監(jiān)控工具
一款好的監(jiān)控系統(tǒng)一定是最切合用戶使用習慣的,,在眾多企業(yè)級機房監(jiān)控中選出最完美的監(jiān)控系統(tǒng)幾乎不現(xiàn)實,由于每款機房監(jiān)控系統(tǒng)都各有各的優(yōu)點,,導致用戶在選擇上時常面臨新的挑戰(zhàn)(尤其是選擇恐懼癥患者),。
北京金恒智能CREATE機房環(huán)境及能效管理系統(tǒng)綜合應用計算機網(wǎng)絡(luò)技術(shù)、移動通信技術(shù),、自動控制技術(shù),、新型傳感技術(shù)、數(shù)據(jù)庫技術(shù)等,,面向機房動力能效,、機房場地環(huán)境和機房安全保障,通過信息實時采集,、數(shù)據(jù)智能分析,、預警、場景化數(shù)據(jù)展現(xiàn)、移動查詢,、遠程操控等手段,,實現(xiàn)對機房環(huán)境的便捷、高效管理,。
大家在選擇合適的機房監(jiān)控時要著重對比價格,、產(chǎn)品功能以及用戶體驗等信息,尤其是用戶體驗方面,。在后期的監(jiān)控運維管理工作中,,監(jiān)控系統(tǒng)要做到能簡潔呈現(xiàn)絕不拖泥帶水,,需要著重介紹不可一筆帶過,。優(yōu)化系統(tǒng)功能,為用戶提供更優(yōu)質(zhì)的服務(wù),。
提供多種智能基線報警策略,,基于趨勢提前預警,有效規(guī)避機房事故發(fā)生,。
CREATE科技機房監(jiān)控系統(tǒng)支持多種數(shù)據(jù)采集方式,,支持混合組網(wǎng)結(jié)構(gòu),可以逐級靈活組網(wǎng),。系統(tǒng)容量大,,可平滑擴容,數(shù)據(jù)處理能力強,。
CREATE機房監(jiān)控系統(tǒng)面向業(yè)務(wù)和管理提供豐富的數(shù)據(jù)模塊和自定義功能,,用戶可將不同數(shù)據(jù)模塊進行組合,建立適合本崗位的私有桌面,;同時提供重點設(shè)備關(guān)注功能,,使不同人員可以有針對性的對指定設(shè)備進行實時關(guān)注、跟蹤,。
提供獨有的能效分析機制以及能效拓撲,、電力拓撲等展現(xiàn)方式,為用戶提供PUE值和能效狀況專業(yè)視圖,,實現(xiàn)實時展示與管理,。
面向科技部門常規(guī)崗位和運維職能,系統(tǒng)提供針對性的工作場景(運維場景,、報警場景,、巡檢場景等)和數(shù)據(jù)支持,滿足客戶分類需求,。
監(jiān)控流程
CREATE機房監(jiān)控系統(tǒng)為客戶提供了完整的監(jiān)控流程,,確保機房內(nèi)各設(shè)備穩(wěn)定運行。
1、 數(shù)據(jù)采集: 支持SNMP,、WMI,、SYSLOG、AGENT,、JDBC,、ODBC、TELNET,、SSH,、PING、DNS,、IPMI等各種監(jiān)控方式 ,。
2、 數(shù)據(jù)存儲: CREATE機房監(jiān)控所獲得的數(shù)據(jù) 存儲在MySQL上,,也可以存儲在其他數(shù)據(jù)庫服務(wù),。
3、 數(shù)據(jù)分析:系統(tǒng)提供所有監(jiān)控對象的監(jiān)控指標,、缺省閥值,、報警策略等,支持系統(tǒng)快速實施和監(jiān)控調(diào)整 ,。
4,、 數(shù)據(jù)展示:web界面 以及 移動APP 展示,提供整體 IT環(huán)境總覽,,多個不同告警,、監(jiān)測、配置,、統(tǒng)計等功能提供多種不同視圖展示,。
5、 監(jiān)控報警:可選聲,、光,、現(xiàn)場語音、短信,、Email,、電話轉(zhuǎn)移、視頻聯(lián)動,、控制聯(lián)動,、投大屏幕等告警,也可實現(xiàn)分類,、分時段告警抑制 ,。
6、 報警處理: 當接收到報警,我們需要根據(jù)故障的級別進行處理,,比如 : 重要緊急,、重要不緊急等。 同時 屏蔽掉無用從屬報警,,實現(xiàn)故障精準定位,,解決告警風暴對運維人員的困擾。
此外CREATE機房監(jiān)控系統(tǒng)還支持shell腳本和SQL語句自定義擴展,,方便用戶隨時增加監(jiān)控項,。
監(jiān)控指標
我們上面了解了監(jiān)控方法、目標,、流程,、也了解了監(jiān)控工具,可能有人會疑惑,,我們具體要監(jiān)控寫什么東西,,那么我在這里進行了分類整理,。
主要監(jiān)控內(nèi)容列舉:「 硬件監(jiān)控 」 - 「 系統(tǒng)監(jiān)控 」 - 「 應用監(jiān)控 」 - 「 網(wǎng)絡(luò)監(jiān)控 」 - 「 流量分析 」 - 「 日志監(jiān)控 」 - 「 安全監(jiān)控」 - 「 API監(jiān)控 」 - 「 性能監(jiān)控 」 - 「 業(yè)務(wù)監(jiān)控 」,。
1、 硬件監(jiān)控
早期我們通過機房巡檢的方式,,查看硬件設(shè)備燈光閃爍情況判斷是否故障,,這樣非常浪費人力,并且是重復性無技術(shù)含量的工作,,大家懂得,。
當然我們現(xiàn)在可以通過 IPMI 對硬件詳細情況進行監(jiān)控,并對 CPU,、內(nèi)存,、磁盤、溫度,、風扇,、電壓等設(shè)置報警設(shè)置報警閾值(自行對監(jiān)控報警內(nèi)容編寫合理的報警范圍)。
2,、 系統(tǒng)監(jiān)控
中小型企業(yè)基本全是 Linux 服務(wù)器,,那么我們肯定是要監(jiān)控起系統(tǒng)資源的使用情況,系統(tǒng)監(jiān)控是監(jiān)控體系的基礎(chǔ),。
— CPU
CPU 有幾個重要的概念:上下文切換,、運行隊列和使用率。這也是我們CPU監(jiān)控的幾個重點指標,。通常情況,,每個處理器的運行隊列不要高于 3,CPU 利用率中 “用戶態(tài)/內(nèi)核態(tài)” 比例維持在 70/30,空閑狀態(tài)維持在 50%,,上下文切換要根據(jù)系統(tǒng)繁忙程度來綜合考量,。針對 CPU 常用的工具有:htop、top,、vmstat,、mpstat、dstat,、glances 等,。
— 內(nèi)存
通常我們需要監(jiān)控內(nèi)存的使用率、SWAP 使用率,、同時可以通過 Zabbix 描繪內(nèi)存使用率的曲線圖形發(fā)現(xiàn)某服務(wù)內(nèi)存溢出等,。針對內(nèi)存常用的工具有: free、top,、vmstat,、glances 等。
— IO
IO 分為磁盤 IO 和網(wǎng)絡(luò) IO ,。除了在做性能調(diào)優(yōu)我們要監(jiān)控更詳細的數(shù)據(jù)外,,那么日常監(jiān)控,只關(guān)注磁盤使用率,、磁盤吞吐量,、磁盤寫入繁忙程度,網(wǎng)絡(luò)也是監(jiān)控網(wǎng)卡流量即可,。常用工具有 : iostat,、iotop、df,、iftop,、sar、glances 等,。
3,、 應用監(jiān)控
把硬件監(jiān)控和系統(tǒng)監(jiān)控研究明白后,我們進一步操作是需要登陸到服務(wù)器上查看服務(wù)器運行了哪些服務(wù),,都需要監(jiān)控起來,。
應用服務(wù)監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容,例如:LVS,、Haproxy,、Docker、Nginx,、PHP,、Memcached,、Redis、MySQL,、Rabbitmq等等,,相關(guān)的服務(wù)都需要監(jiān)控起來。
4,、 網(wǎng)絡(luò)監(jiān)控
網(wǎng)絡(luò)監(jiān)控是我們構(gòu)建監(jiān)控平臺是必須要考慮的,,尤其是針對有多個機房的場景,各個機房之間的網(wǎng)絡(luò)狀態(tài),,機房和全國各地的網(wǎng)絡(luò)狀態(tài)都是我們需要重點關(guān)注的對象,,那么如何掌握這些狀態(tài)信息呢?我們需要借助于網(wǎng)絡(luò)監(jiān)控工具 Smokeping,。
Smokeping 是 RRDTool 的作者 Tobi Oetiker 的作品,,是用 Perl 寫的,主要是監(jiān)視網(wǎng)絡(luò)性能,,WWW 服務(wù)器性能,,DNS 查詢性能等,使用 RRDTool 繪圖,,而且支持分布式,,直接從多個 Agent 進行數(shù)據(jù)的匯總。
5,、 流量分析
網(wǎng)站流量分析對于運維人員來說,,更是一門必須掌握的知識了。比如對于一家電商公司來說:通過對訂單來源的統(tǒng)計和分析,,可以了解我們在某個網(wǎng)站上的廣告投入有沒有收到預期的效果??梢詤^(qū)分不同地區(qū)的訪問人數(shù),、甚至商品交易額等。百度統(tǒng)計,、Google分析,、站長工具等等,只需要在頁面嵌入一個js即可,。但是,,數(shù)據(jù)始終是在對方手中,個性化定制不方便,,于是 Google 出一個叫 PiWik 的開源分析工具,。
6、 日志監(jiān)控
通常情況下,,隨著系統(tǒng)的運行,,操作系統(tǒng)會產(chǎn)生系統(tǒng)日志,。應用程序會產(chǎn)生應用程序的訪問日志、錯誤日志,、運行日志,、網(wǎng)絡(luò)日志,我們可以使用 ELK 來進行日志監(jiān)控,。
對于日志監(jiān)控來說,,最見的需求就是收集、存儲,、查詢,、展示,開源社區(qū)正好有相對應的開源項目:logstash(收集)+ elasticsearch(存儲+搜索)+ kibana(展示),。
我們將這三個組合起來的技術(shù)稱之為 ELK Stack,,所以說 ELK Stack指的是Elasticsearch、Logstash,、Kibana 技術(shù)棧的結(jié)合,。
如果收集了日志信息,那么如果部署更新有異常出現(xiàn),,可以立即在 Kibana上看到,。
7、 安全監(jiān)控
雖然 Linux 開源的安全產(chǎn)品不少,,比如:四層 Iptables,,七層 WEB 防護Nginx+Lua實現(xiàn)的 WAF,最后將相關(guān)的日志都收至 ELK Stack,,通過圖形化進行不同的攻擊類型展示,。但是始終是一件比較耗費時間,并且個人效果并不是很好,。這個時候我們可以選擇接入第三方服務(wù)廠商,。
三方廠商提供全面的漏洞庫,涵蓋服務(wù),、后門,、數(shù)據(jù)庫、配置檢測,、CGI,、SMTP 等多種類型全面檢測主機、Web 應用漏洞自主挖掘和行業(yè)共享相結(jié)合第一時間更新 0day 漏洞,,杜絕最新安全隱患,。
8、 API 監(jiān)控
由于 API 變得越來越重要,,很顯然我們也需要這樣的數(shù)據(jù)來分辨我們提供的 API 是否能夠正常運作,。監(jiān)控API接口 GET,、POST、PUT,、DELETE,、HEAD、OPTIONS 的請求可用性,、正確性,、響應時間為三大重性能指標。
9,、 性能監(jiān)控
全面監(jiān)控網(wǎng)頁性能,,DNS 響應時間、HTTP 建立連接時間,、頁面性能指數(shù),、響應時間、可用率,、元素大小等,。
10、 業(yè)務(wù)監(jiān)控
沒有業(yè)務(wù)指標監(jiān)控的監(jiān)控平臺,,不是一個完善的監(jiān)控平臺,,通常在我們的監(jiān)控系統(tǒng)中,必須將我們重要的業(yè)務(wù)指標進行監(jiān)控,,并設(shè)置閾值進行告警通知,。
監(jiān)控報警
故障報警通知的方式有很多種,當然我們最常用的還是短信,,郵件,。
報警處理
一般報警后我們故障如何處理呢?首先,,我們可以通過告警升級機制先自動處理,,比如Nginx服務(wù)Down了,可以設(shè)置告警升級自動啟動Nginx,。
但是如果一般業(yè)務(wù)出現(xiàn)了嚴重故障,我們通常根據(jù)故障的級別,,故障的業(yè)務(wù),,來指派不同的運維人員進行處理。
當然不同業(yè)務(wù)形態(tài),、不同架構(gòu),、不同服務(wù)可能采用的方式都不同,這個沒有一個固定的模式套用,。
來源:機房動力環(huán)境監(jiān)控系統(tǒng) http://rupm.cn 本文采集于網(wǎng)絡(luò),,如有問題有聯(lián)系刪除
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板,、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責任的權(quán)利,!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗