
現在運維監控工具非常多,哪個好,哪個不好,哪個適合你,哪個不適合你,其實只有你了解了他們的特性后,才知道,接下來咱們從這里開始講常見的運維資源監控工具。
一. 常見的運維(wei)監控工具(ju)
現在運維(wei)監(jian)控工(gong)具(ju)非(fei)常多(duo),哪(na)(na)個(ge)好(hao),哪(na)(na)個(ge)不好(hao),哪(na)(na)個(ge)適(shi)合(he)你(ni),哪(na)(na)個(ge)不適(shi)合(he)你(ni),其(qi)實(shi)只有你(ni)了解了他們的特性(xing)后,才(cai)知道,所以從這里(li)開始講起。
1. Cacti
Cacti是一套(tao)基于PHP,MySQL,SNMP及RRDTool開發(fa)的(de)網絡(luo)流量監測圖形分析工具。
簡單的說Cacti就是一個PHP程(cheng)序(xu)。它通(tong)過使(shi)(shi)用(yong)(yong)SNMP協(xie)議獲取遠端網絡設(she)備和相關信息,(其實就是使(shi)(shi)用(yong)(yong)Net-SNMP 軟件包的snmpget 和snmpwalk 命令獲取)并通(tong)過RRDTOOL工具(ju)繪圖(tu),通(tong)過PHP程(cheng)序(xu)展現出(chu)來。我(wo)們使(shi)(shi)用(yong)(yong)它可以(yi)展現出(chu)監(jian)控對象一段時(shi)間內的狀態(tai)或者性能趨勢圖(tu)。
Cacti是很老的(de)一款(kuan)(kuan)監(jian)控(kong)工具(ju)了,其實說它是一款(kuan)(kuan)流量監(jian)控(kong)工具(ju)更(geng)合適(shi),對流量監(jian)控(kong)比較精(jing)準,但缺點很多,出(chu)圖(tu)不好看(kan),不支持分(fen)布式(shi),也沒(mei)有告(gao)警功能,所以使用的(de)人(ren)會越(yue)來越(yue)少(shao)。
2. Zabbix
Zabbix是一個基于WEB界面的(de)(de)(de)提(ti)(ti)供(gong)分布式系統(tong)監(jian)視以及網絡監(jian)視功能的(de)(de)(de)企業(ye)級(ji)的(de)(de)(de)開(kai)源解(jie)決(jue)方(fang)案(an)。zabbix能監(jian)視各種網絡參數(shu),保證服務器系統(tong)的(de)(de)(de)安全運營(ying);并(bing)提(ti)(ti)供(gong)強(qiang)大的(de)(de)(de)通知機制以讓系統(tong)運維人員快速定位/解(jie)決(jue)存在的(de)(de)(de)各種問題。
Zabbix由2部分構成(cheng),zabbix server與可選(xuan)組件zabbix agent。zabbix server可以(yi)通(tong)過SNMP,zabbix agent,ping,端(duan)口監(jian)視等(deng)(deng)方法提供(gong)對遠程(cheng)服務器(qi)/網絡狀態的監(jian)視,數據收集等(deng)(deng)功能(neng),它可以(yi)運行(xing)在(zai)Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等(deng)(deng)平臺(tai)上。
Zabbix解決了cacti沒有告警的(de)不(bu)足,也解決了nagios不(bu)能通(tong)過web配置的(de)缺(que)點,同時還支持分布式部署,這使得(de)它(ta)迅速流行起來,zabbix也成為(wei)目前中小企業監控最流行的(de)運維監控平臺(tai)。
3. Prometheus
Prometheus是一套(tao)開(kai)源(yuan)的(de)系統監(jian)(jian)控報警框架(jia),它既適(shi)(shi)用于(yu)面向服務器等硬(ying)件指標的(de)監(jian)(jian)控,也適(shi)(shi)用于(yu)高動態的(de)面向服務架(jia)構的(de)監(jian)(jian)控。
4. Nagios
Nagios是一款開源(yuan)的(de)(de)免(mian)費網(wang)(wang)絡監視工具,能(neng)有效監控Windows、Linux和(he)Unix的(de)(de)主機(ji)狀態,交換機(ji)路(lu)由器等網(wang)(wang)絡設(she)置(zhi),打印機(ji)等。在系(xi)統或(huo)服務狀態異常(chang)時發(fa)出(chu)郵件(jian)或(huo)短信報警(jing)第(di)一時間通知網(wang)(wang)站運維人員,在狀態恢復后發(fa)出(chu)正常(chang)的(de)(de)郵件(jian)或(huo)短信通知。
Nagios主要的(de)(de)特(te)征是監(jian)控(kong)告(gao)警,最強大(da)(da)的(de)(de)就(jiu)是告(gao)警功能,可支持多(duo)種(zhong)告(gao)警方式(shi),但缺點是沒有(you)強大(da)(da)的(de)(de)數據收集機(ji)制,并且數據出圖也(ye)很(hen)簡陋,當監(jian)控(kong)的(de)(de)主機(ji)越來越多(duo)時,添(tian)加主機(ji)也(ye)非(fei)常麻(ma)煩,配(pei)(pei)置(zhi)文(wen)件都是基于文(wen)本配(pei)(pei)置(zhi)的(de)(de),不支持web方式(shi)管理(li)和配(pei)(pei)置(zhi),這(zhe)樣很(hen)容(rong)易出錯,不宜(yi)維護。
5. Ganglia
Ganglia是一(yi)款為HPC(高性能(neng)計算)集(ji)群(qun)而設計的(de)可擴展的(de)分(fen)布式監控系統,它可以監視(shi)和(he)顯示集(ji)群(qun)中的(de)節(jie)點的(de)各種(zhong)狀態信息,它由運行在各個節(jie)點上(shang)的(de)gmond守(shou)護進(jin)程來采集(ji)CPU 、內存、硬盤利用率(lv)、I/O負載、網(wang)絡流量情況等(deng)方(fang)面的(de)數(shu)據(ju),然后匯總到gmetad守(shou)護進(jin)程下,使用rrdtool存儲數(shu)據(ju),最后將歷(li)史數(shu)據(ju)以曲線方(fang)式通過PHP頁面呈現。
Ganglia監控(kong)系統有三部(bu)分組成,分別是gmond、gmetad、webfrontend。gmond安裝在需要收集數據(ju)的(de)客戶端,gmetad是服(fu)務端,webfrontend是一個(ge)php的(de)web ui界面,ganglia通(tong)過gmond收集數據(ju),然后在webfrontend進行展示。
Ganglia的主(zhu)要特征(zheng)是收(shou)集(ji)數(shu)據(ju)(ju),并(bing)集(ji)中展示(shi)數(shu)據(ju)(ju),這是ganglia的優勢和特色,ganglia可(ke)以(yi)將所有數(shu)據(ju)(ju)匯總(zong)到一個界面(mian)集(ji)中展示(shi),并(bing)且(qie)支持(chi)多種數(shu)據(ju)(ju)接口,可(ke)以(yi)很方便(bian)的擴展監控,同時,最為重要的是,ganglia收(shou)集(ji)數(shu)據(ju)(ju)非(fei)常輕量級(ji),客戶端的gmond程序基本不耗費(fei)系統資(zi)源,而這個特點(dian)剛好彌(mi)補了(le)zabbix消耗性能的不足。
最(zui)后,Ganglia在對大數據平臺(tai)的(de)監(jian)控(kong)(kong)更為智(zhi)能,只需(xu)要(yao)一個配置(zhi)文件,即可(ke)開通Ganglia對hadoop、spark的(de)監(jian)控(kong)(kong),監(jian)控(kong)(kong)指標(biao)有近千個,完全滿足了對大數據平臺(tai)的(de)監(jian)控(kong)(kong)需(xu)求。
對于現在流(liu)行的微(wei)服務,Prometheus的多維度數(shu)據收集和(he)數(shu)據篩(shai)選查(cha)詢語言也是(shi)非常的強大。Prometheus是(shi)為服務的可靠性而設(she)計的,當服務出現故障時,它可以使你(ni)快速定位和(he)診斷問題(ti)。
6. Grafana
Grafana是一個開源的度量分析與可(ke)(ke)視化套件,通俗的說,Grafana就(jiu)是一個圖(tu)形可(ke)(ke)視化展示平臺,它通過各種炫酷(ku)的界面效果(guo)展示我們的監控數據(ju),如果(guo)你覺得zabbix的出圖(tu)界面不夠好(hao)看(kan),逼(bi)格不夠高,就(jiu)可(ke)(ke)以(yi)使用Grafana的可(ke)(ke)視化展示,同時(shi),Grafana支持許多不同的數據(ju)源,Graphite,InfluxDB,OpenTSDB,Prometheus,Elasticsearch,CloudWatch和KairosDB都(dou)可(ke)(ke)以(yi)完美支持。
文章推薦:合肥自動化運維是什么?
