Monitoring, çoğu IT ekiplerinin konuştuğu ama çoğu zaman yanlış uyguladığı bir konu. Çoğu zaman monitoring denildiğinde akla bir yazılım, bir dashboard ya da kırmızı–yeşil alarm ekranları gelir. Oysa monitoring, tek başına bir araç ya da grafikler bütünü değildir. Monitoring’in gerçek değeri, sorunları kullanıcı fark etmeden görüp önlem almaktır.

IT altyapıları büyüdükçe ve çeşitlendikçe, “her şey çalışıyor mu?” sorusu giderek anlamsızlaşır. Çünkü modern altyapılarda aynı anda fiziksel sunucular, sanallaştırma platformları, network cihazları, firewall’lar, access point’ler ve bunların üzerinde çalışan onlarca farklı yazılım bulunur. Mail server’lar, dosya sunucuları, kamera sistemleri, web uygulamaları, sektöre özel iş yazılımları… Hepsi aynı anda ayakta durmak zorundadır. Monitoring tam olarak bu noktada devreye girer: Bir şey bozulmadan önce onu fark edebilmek.

Monitoring konusunu sağlıklı ele alabilmek için önce iki temel katmanı ayırmak gerekir: fiziksel altyapı ve yazılım / servis katmanı. Bu ayrım net yapılmadığında, monitoring ya eksik kalır ya da gürültü üretir. Fiziksel altyapı dediğimizde; sunucular, network cihazları, firewall’lar, storage sistemleri, access point’ler ve bunları ayakta tutan enerji ve soğutma bileşenleri akla gelir. Bu katmanda yaşanan problemler genellikle sessiz başlar. Bir fan yavaşlar, bir güç kaynağı dalgalanır, bir CPU uzun süre yüksek kullanımda kalır. Sistem çalışıyordur ama sağlıklı değildir. Monitoring’in burada görevi, “çalışıyor” durumunu değil, sağlık durumunu takip etmektir. örneğin CPU uzun süre yüksek kullanımda veya fan yavaş çalışıyorsa, sistem teknik olarak aktif ama risk altındadır.

Bu bölümden akılda kalması gereken:

  • Fiziksel altyapı problemleri genelde sessiz başlar
  • Monitoring sağlık göstergelerine odaklanmalıdır

Fiziksel altyapının monitör edilmesi, çoğu zaman donanım seviyesindeki metriklerle başlar. CPU ve bellek kullanımı, disk doluluk oranları, güç kaynaklarının durumu, fan hızları, sıcaklık değerleri ve benzeri parametreler bu katmanın temelini oluşturur. Ancak burada kritik bir nokta vardır: Bu metriklerin anlamlı olabilmesi için cihazların işletim sistemlerinin stabil çalışması ve doğru yapılandırılmış olması gerekir. Örneğin SNMP üzerinden monitoring yapılacaksa, SNMP konfigürasyonlarının doğru tanımlanmış olması, erişim yetkilerinin düzgün ayarlanması ve network tarafında gerekli izinlerin verilmiş olması şarttır. Aksi halde monitoring sistemi vardır ama veri güvenilmezdir. Ücretsiz çözümler (örneğin Zabbix gibi) bu konuda oldukça güçlüdür; ticari çözümler (SolarWinds, PRTG vb.) ise genellikle kurulum ve kullanım kolaylığı sağlar. Ancak hangi araç kullanılırsa kullanılsın, aracın kendisi problemi çözmez. Problemi çözen, doğru metriklerin doğru eşiklerle izlenmesidir. Bu katmanın kilidi:

  • Araçtan önce yapılandırma gelir
  • Yanlış veri, yanlış alarm üretir

Yazılım ve servis katmanına geldiğimizde, monitoring çok daha karmaşık hale gelir. Çünkü her yazılımın davranışı, yük profili ve kritik eşikleri farklıdır. Bir web servisi için önemli olan response time iken, bir mail server için kuyruklar ve servis durumları daha kritiktir. Bir dosya sunucusunda disk I/O öne çıkarken, bir kamera sistemi için stream sürekliliği ve bağlantı stabilitesi belirleyici olur. Buna ek olarak, şirketin faaliyet gösterdiği sektöre özgü yazılımlar devreye girer. Otelcilik sektöründe rezervasyon sistemleri, sağlık sektöründe randevu ve hasta yönetim sistemleri, sanayi tarafında üretim veya otomasyon yazılımları… Bu yazılımların her biri, iş sürekliliği açısından kritiktir ve her biri için farklı monitoring yaklaşımları gerekir. Bu yüzden yazılım tarafında “tek tip monitoring” mümkün değildir. Monitoring, yazılımın işlevine göre şekillendirilmelidir. Bir web servisi, bir dosya sunucusu veya bir sektör uygulaması için farklı göstergeler kritik olabilir.

Bu bölümün özeti:

  • Yazılım monitoring’i genelleştirilemez
  • İş kritikliğine göre tasarlanmalıdır

Monitoring’in çoğu şirkette başarısız olmasının temel sebeplerinden biri, bu konunun operasyonel rutinin bir parçası haline getirilmemesidir. Sistemler kurulur, monitoring aracı devreye alınır, birkaç alarm tanımlanır ve sonra günlük operasyonun yoğunluğu içinde bu yapı arka plana düşer. Alarmlar ya fazla olduğu için görmezden gelinir ya da hiç üretilmediği için sorunlar kullanıcı şikayetleriyle fark edilir. Oysa monitoring, düzenli olarak kontrol edilmesi gereken bir süreçtir. Günlük kontroller basit bir checklist ile veya ITSM sistemindeki task’lar aracılığıyla otomatik yapılabilir. IT ekiplerinin günlük ya da haftalık iş rutinleri vardır. Bu rutinlerin içine monitoring kontrolleri de bilinçli olarak eklenmelidir. Eğer şirket bir ITSM veya task yönetim sistemi kullanıyorsa, monitoring kontrolleri periyodik task’lar halinde otomatik oluşturulmalı ve ilgili kişilere atanmalıdır. Böylece monitoring, “bakarsak bakarız” yaklaşımından çıkar, ölçülebilir bir iş kalemi haline gelir. Buradaki temel fikir:

  • Monitoring kontrol edilmezse anlamını yitirir
  • Süreç, rutinin parçası olmalıdır

Bu yaklaşımın önemli bir yan etkisi daha vardır: harcanan zaman görünür hale gelir. Günlük bir saat ya da haftalık birkaç saat monitoring’e ayrıldığında, bu süre boşa gitmiş olmaz. Aksine, IT operasyonlarının proaktif çalıştığını gösteren somut bir kayıt oluşur. Problemler çıkmadan fark edilir, kullanıcıya yansımadan çözülür ve bu da IT ekibinin reaktif değil, önleyici çalıştığını kanıtlar. Ayrıca merkezi monitoring sayesinde problemler tek bir noktadan analiz edilebilir. Bu, hem sorun çözüm süresini kısaltır hem de kök neden analizini mümkün kılar. Aynı tip problemler tekrarlandığında, artık “ne olduğunu” değil, “neden olduğunu” konuşmaya başlanır. İşte monitoring’in gerçek değeri, sorunları kullanıcı fark etmeden görebilmekte ve önlem almaktadır. Bu bölümün kilidi:

  • Monitoring reaktif değil, proaktif çalışmayı sağlar
  • Zaman ve efor görünür hale gelir

Günün sonunda monitoring; network, sunucu, firewall, wireless ve yazılım katmanlarının birbirinden kopuk değil, birlikte izlenmesini gerektirir. Sadece cihazları izlemek yeterli değildir; bu cihazların ürettiği servislerin iş tarafına etkisi de gözlemlenmelidir. Bir firewall çalışıyor olabilir ama kullanıcı mail atamıyorsa, monitoring başarısızdır. Bir switch ayakta olabilir ama access point’ler sürekli bağlantı kaybediyorsa, yine başarısızdır. Monitoring’in gerçek değeri, IT altyapısının “nasıl çalıştığını” görünür kılmasındadır. Bu görünürlük sağlandığında, kapasite planlaması daha sağlıklı yapılır, değişiklikler daha az riskli olur ve operasyonlar daha öngörülebilir hale gelir. Son kilit:

  • Monitoring bütüncül olmak zorundadır
  • Servis davranışı cihazdan daha önemlidir

Sonuç Monitoring; dashboard’lar, alarmlar ya da grafikler değildir.Monitoring; altyapının nabzını tutmaktır. Doğru kurgulanmış bir monitoring yapısı sayesinde IT ekipleri sorunları kullanıcıdan önce fark eder, müdahaleleri planlı yapar ve altyapıyı reaktif değil, bilinçli şekilde yönetir. Bu da monitoring’i teknik bir detay olmaktan çıkarır; doğrudan operasyonel ve stratejik bir yetkinlik haline getirir. Bu yüzden monitoring, “kuralım dursun” denilecek bir sistem değil; tasarlanacak, işletilecek ve sürekli iyileştirilecek bir süreçtir.