Komplexní pohled na monitoring od A do Z
Log
16.10.2023 09:11 - Spustili jsme registrace na konferenci
Připravili jsme pro Vás komplexní pohled na monitoring:
Real-time monitoring
Škálovatelnost
Umbrela monitoring
Automatizované upozornění
Analýza a reporting
Škálovatelnost
Mapování datových toků
Komplexní pohled na výkon
Integrace s nástroji pro správu incidentů
Aplikační monitoring
Testování a monitorování stability aplikace (Chaos Testing)
Definování klíčových ukazatelů výkonnosti (KPIs)
SLA sledování
Info
* Cena konference je uvedena bez DPH
Získejte Wild Cards na 55. a 151. židli a užijte si konferenci zdarma (pozice se počítá dle došlých registrací).
Občerstvení - pokud potřebujete zajistit bezlepkové občerstvení, prosíme uveďte to do "Poznámky" v registračním formuláři. Rádi Vám jídlo na jméno zajistíme.
Změna programu a místa konání konference je vyhrazena.
Konference se bude konat prezenčně.
Program
Real-time monitoring, Škálovatelnost monitoringu, Umbrela monitoring
Real-time monitoring
Jedním z klíčových aspektů monitoringu služeb je schopnost sledovat systém v reálném čase. To umožňuje rychle identifikovat a řešit problémy, které by ovlivňují výkon nebo dostupnost. V ideální případě dokážeme problémům i předcházet. “Bez situačního povědomí nedokážeme řídit vůbec nic”.
Proč vlastně provozujeme IT systémy?
- poskytujeme SaaS
- IT podporuje core business firmy
- výpadek stojí peníze
Motivace: Proč chceme sledovat
- IT administrátor - chci mít přehled v reálném čase o zdrojích a výpadcích
- Aplikační administrátor - chci vědět, jak jsou ovlivnění uživatelé
- Uživatelská podpora - chci vědět, jestli aplikace funguje
- IT manažer - chci mít přehled, chci plánovat kapacity
- Manažer - chci vědět, jak poskytujeme uživatelům službu
Jak můžeme sledovat
- Black box monitoring - Icinga, Zabbix
- Sběr souhrnných metrik - Prometheus, VictoriaMetrics
- Sběr a analýza logů - ElasticStack, Loki, …
- Sběr individuálních metrik - OpenTelemetry, APMs, apod.
Reakce na metriky
Škálovatelnost monitoringu
Shodli jsme se, že nejspíš chceme monitorovat a sledovat naše procesy, aplikace nebo dostupné IT prostředky. IT prostředí je obvykle velmi dynamické, při nasazení nové služby obvykle přibývají další objekty ke sledování. Často je potřeba monitorovat i různé lokality, které ne vždy bývají propojeny kvalitní linkou. Dobrý monitorovací systém by měl být navržen tak, aby byl schopen růst s vaší organizací a jejími potřebami.
Škálování Icinga
- Distribuce zátěže monitoringu - Icinga cluster
- Centrální správa a instalace pomocí Directoru
- Autodiscovery nových zdrojů - Automation
Škálování Zabbix
Škálování Prometheus
- je výkonný out of the box
- VictoriaMetrics cluster
- TSDB remote databáze
Umbrela monitoring
V ideálním případě bychom měli k dispozici jeden centrální systém pro dohled, přehled a řízení incidentů. Realita světa je úplně jiná a obvykle potřebujeme nástroje mezi sebou propojovat - koncept se někdy označuje jako Umbrella monitoring.
Proč chceme propojovat monitorovací nástroje mezi sebou
- Různá oddělení mají různé nástroje na sledování
- Chceme centrální dashboard
- Výpadek systému a zakládání tiketu v tiketovacím nástroji
- Z monitorovacího nástroje chceme odkaz do Knowledge Base
- Chceme řídit notifikace na jednom místě
Jak se mezi sebou propojují různé monitorovací nástroje
- Icinga - má API
- Prometheus - má API
Věroš Kaplan
Věroš je správce systémů a IT konzultant na volné noze, zabývá se primárně open-source nástroji pro webové aplikace, v poslední době pak řeší provoz aplikací v cloudovém prostředí. První monitorovací systém nasadil v minulém století, aby si zjednodušil práci při dohledávání výpadků. Postupem času si oblíbil monitorovací nástroj Icinga, v současné době ho doplňuje o Prometheus a VictoriaMetrics.
Automatizace monitoringu, analýza a reporting
Tato prezentace se hlouběji věnuje automatizovaným upozorněním a představuje moderní přístupy k monitoringu, eskalacím, vzdáleným notifikacím a efektivní správě informací od instalace po opravy.
Začneme zkoumáním, jak automatizace monitoringu přesahuje tradiční hranice a zaměřuje se na zásadní komponenty aplikací. Ukážeme si, jak tato technologie nejen identifikuje potenciální problémy, ale také optimalizuje časovou odezvu a minimalizuje dopady neočekávaných událostí.
Dále se budeme zabývat vzdálenými notifikacemi a procesy eskalace. Ukážeme si, jak tyto nástroje podporují efektivní komunikaci a řízení týmů na dálku. Představíme si konkrétní příklady úspěšných implementací a sdílení zkušeností z praxe, abychom ilustrovali výhody automatizovaných upozornění.
Nakonec se podíváme na širší kontext, povíme si o bezpečnostních aspektech a strategiích, jak zabránit zneužití automatizace. Během této prezentace získáte hlubší pohled na to, jak automatizované upozornění nejen zrychluje každodenní procesy od instalace po opravy, ale také zvyšuje efektivitu a zlepšuje celkový výkon vašich systémů. Připojte se k nám a objevte, jak tyto inovace mohou posunout váš přístup k monitoringu na novou úroveň.
Automatizované upozornění
Automatizace monitoringu
- Implementace moderních nástrojů pro sledování a monitorování systémů.
- Efektivní shromažďování a analýza dat pro rychlé rozeznání potenciálních problémů.
Eskalace a řízení Incidentů
- Automatizované procesy eskalace od identifikace až po řešení incidentu.
- Optimalizace času odezvy a minimalizace dopadů při vzniku neočekávaných událostí.
Vzdálené notifikace
- Implementace efektivních mechanismů pro vzdálené notifikace a správu.
- Zlepšení komunikace a informačního toku mezi týmy na dálku.
Příklady z praxe
- Představení úspěšných implementací automatizovaných upozornění.
- Sdílení zkušeností a výsledků z reálných projektů.
Omezení a bezpečnost
- Diskuse o bezpečnostních aspektech automatizace a možných omezeních.
- Strategie pro ochranu systémů před zneužitím automatizovaných notifikací.
Od Instalace po opravu
- Jak automatizované upozornění může urychlit každý krok v životním cyklu systému, od instalace až po opravy.
- Příklady osvědčených postupů a úspěšných příběhů.
Analýza a reporting
Úvod
- Úvod k důležitosti analýzy a reportingu v kontextu monitoringu.
- Shrnutí klíčových výzev a přínosů pro správu systémů a aplikací.
Analýza monitorovaných dat
- Moderní metody analýzy - Přehled pokročilých technik analýzy dat v oblasti monitoringu. Výhody využití strojového učení a statistických modelů.
- Extrahování klíčových informací - Strategie pro extrakci klíčových informací z velkých datových souborů. Jak identifikovat a reagovat na anomálie a neobvyklé vzory.
Reporting monitorovaných dat
- Vytváření informativních reportů - Principy vytváření jasných a srozumitelných reportů pro různé účely. Přizpůsobení obsahu reportů podle potřeb různých stakeholderů.
- Prezentace pro různé úrovně zainteresovaných stran - Jak prezentovat výsledky analýzy monitorovaných dat pro IT manažery, vývojáře a operační týmy. Vytváření dashboardů a vizualizací pro snadné sledování klíčových metrik.
Příklady úspěšné praxe
- Případové studie – Konkrétní příklady implementace analýzy a reportingu v oblasti monitoringu. Osvědčené postupy a lekce naučené z reálných projektů.
- Praktické tipy a postupy - Tipy pro efektivní implementaci analýzy a reportingu v rámci monitoringu. Jak maximalizovat hodnotu monitorovaných dat pro podporu rozhodovacích procesů.
Tomáš Heřmánek
Tomáš se řadí mezi největší fanoušky OpenSource, kam patří i Zabbix. Specializuje se na aplikační servery, automatizaci a samozřejmě monitoring. Konkrétně za posledních deset let měl to štěstí podílet se na realizaci několika rozsáhlých projektů, které měly nesmírně pozitivní ohlasy. Tomáš získal nejvyšší stupeň certifikace od Red Hat (Red Hat Certified Architect) v roce 2016.
Škálovatelnost, komplexní pohled na výkon, mapování datových toků a integrace
Škálovatelnost
Moderní informační systémy musí být schopné růst s organizací a jejími potřebami. To platí i v monitorovacích systémech, které mají za úkol efektivně monitorovat stále rostoucí počet uživatelů a transakcí, služeb a výpočetních zdrojů. V této přednášce si ukážeme, jaké jsou možnosti škálování monitorovacího systému, aby byl schopen růst spolu s monitorovanými systémy.
Škálování sběru dat
- Konfigurace serverů a aplikačních služeb
- Konfigurace Prometheus služeb
- Agenti pro sběr kompletní telemetrie
Škálování datových uložišť
- Architektura mimir/loki/tempo aplikací
- Optimalizace ukládaných dat
- Škálování a HA celého monitorovacího prostředí
Komplexní pohled na výkon
Aby měli operátoři systémů skutečně plný přehled o situaci, monitoring musí zahrnovat jak pohled na infrastrukturu, např. výkon serverů, síťový provoz, diskovou aktivitu, tak samotné aplikace, např. míra chybovosti a počty dotazů na aplikaci, časy odezvy, atd. Ukážeme si jak využití USE a RED metod pro zjednodušení.
Monitoring infrastruktury
- Servery, datové uložiště, síťové prvky
- Cloudová infrastruktura a zdroje
- Využití USE metody
Aplikační monitoring
- Monitoring aplikací
- Monitoring podpůrných služeb (databáze, proxy servery)
- Využití RED metody
Mapování datových toků
Moderní aplikace mají často podobu distribuovaných systémů, kde spolu komunikuje velký počet služeb. Je proto důležité mít k dispozici diagram datových toků a dotazů mezi jednotlivými komponenty systému. V přednášce si ukážeme, jaké jsou možnosti mapování pomocí metrik a jaké výhody přináší použití distribuovaného tracingu.
Mapování datových toků pomocí metrik
- Instrumentace monitoringu
- Omezení použití metrik pro mapování datových toků
Distribuovaný tracing
- Architektura sběru a použití
- Vytvoření mapy systému
Integrace s nástroji pro správu incidentů
Monitoring řešení upozorňuje operátory na problémy. Tyto problémy mohou být různého charakteru, proto je důležitá integrace s nástroji pro správu incidentů, které dovolují problémy jednoduše třídit. Operátorům také přináší možnosti, jak rychle reagovat, jak problémy řešit automatizovaně nebo i delegovat identifikované problémy.
Prometheus Alertmanager
- Alertování pomocí Prometheus Alertmanager
- Integrace s notifikačními handlery
- Automatizace řešení incidentů
Grafana OnCall
- Správa incidentů pomocí Grafana OnCall
Aleš Komárek
Aleš Komárek pracuje ve firmě F5 Networks jako SRE inženýr, má na starost monitoring části globalního systému založeného na Kubernetes platformě. Dříve pracoval ve společnosti tcp-cloud a Mirantis, kde se podílel na nástroji pro správu a konfiguraci platformy OpenStack. Monitoringu se věnuje přes 10 let a má zkušenost s širokou škálou OpenSource monitoring technologií jako Graphite, InfluxDB, Prometheus, ElasticSearch, Loki, Parca, Nagios nebo Sensu. V rámci definice monitoringu se věnuje také modernímu konfiguračnímu managementu, který je třeba pro hladké nasazení potřebných komponent.
Aplikační monitoring, testování a monitorování stability aplikace, KPIs, SLA
Aplikační monitoring, testování a monitorování stability aplikace
Tato přednáška má za cíl poskytnout vám komplexní pohled na aplikační monitoring, testování a monitorování stability aplikace. Současně také ukáže, jak tyto aspekty hrají klíčovou roli ve vývoji a provozování aplikací v dnešním digitálním světě. Tradiční monitoring se často zaměřuje na pouhé sledování hardware, operačních systémů a běžících služeb. Pokročilejší monitoring navíc zahrnuje sledování základních komponent aplikace, které často sleduje zvlášť. Já se vám pokusím vysvětlit, jak jít ještě dál a proč to za to stojí.
V první části přednášky si řekneme, proč je dobré zapojit ještě monitoring pomocí workflow. Jakým způsobem se dá porovnávat výkon v čase a proč pravděpodobně budete znát odpověď na stížnosti vašich uživatelů „Naše aplikace je strašně pomalá.“ nebo „Jak je možné, že tato komponenta neběžela tak dlouho, aniž by si toho někdo všiml?“.
Ve druhé části probereme, jak všechny metriky poskládat do monitoringu, jaké informace jsou relevantní pro konkrétní role v teamech kolem aplikace a jak se na stav aplikace podívat komplexně. Zjistíme, co to znamená implementovat aplikační monitoring.
Jak monitorovat aplikace
- Základní metriky jednotlivých komponent aplikace
- Monitoring pomocí nativních prostředků aplikace
- Využití workflow pro monitoring aplikace
Monitorování stability aplikace
- Co znamená stabilita aplikace
- Identifikace a vyhodnocení chyb
- Monitoring zátěže a výkonnosti
Jak efektivně využít naměřená data
- Různá data pro různé role
- Komplexní pohled na aplikaci
- Co znamená vše výše uvedené nasadit
Definování klíčových ukazatelů výkonnosti (KPIs) aplikace z pohledu monitoringu
V dnešním digitálním světě jsou aplikace nepostradatelnou součástí našeho každodenního života. Jak ale měřit jejich parametry jako je výkon nebo spolehlivost?Podíváme se na Key Performance Indicators, často nazývaných KPI, a jejich roli v aplikacích. Proč nejsou naším nepřítelem? A v čem nám naopak mohou pomoci?
Co jsou KPI a proč jsou důležité?
- Proč potřebujeme KPI?
Vztah mezi KPI a aplikací
Návrh a výběr správných KPI
- Technická KPI
- SMART kritéria
- Specifická KPI pro různé typy aplikací
Optimalizace a zlepšování na základě KPI
- Analýza dat
- Testování a iterace
- Dopady na produktový vývoj
Měření SLA vaší infrastruktury a aplikace
Mnoho z vás si určitě někdy položilo následující otázku. Na základě čeho a jakým způsobem lze hodnotit dostupnosti aplikací? S největší pravděpodobností vám ji položil nadřízený nebo zákazník.
Odpověď se vám pokusím dát v této přednášce a spolu s tím i vysvětlit: Jak a proč hodnotit dostupnost vašich aplikací, infrastruktury a vůbec kritických komponent? Co ve skutečnosti znamenají všechny ty devítky a jak souvisí s cenou služby? Jaké skrývá výzvy měření SLA a proč nezapomenout na údržbu? Jak souvisí četnost sledování a vhodně zvolené nastavení thresholdů na SLA? A proč není sledování SLA tak černobílé, jak se může na první pohled zdát? Jak vnímají dostupnost různí lidé ve vaší organizaci a co všechno může definici SLA ovlivnit?
Co je SLA a proč je důležité?
- Definice Service Level Agreement (SLA)
- Role SLA ve vztahu mezi poskytovatelem a zákazníkem
- Vliv SLA na spokojenost zákazníků (interních i externích)
- Stanovování SLA pro infrastrukturu a aplikace
Klíčové komponenty SLA
- Přizpůsobení SLA konkrétním potřebám
- Zohlednění různých typů služeb a aplikací
- Měření dostupnosti a výkonu
Metriky a KPI pro měření dostupnosti
- Měření rychlosti a odezvy
- Zpracování a vizualizace dat
- Monitoring a sledování SLA
Sledování v reálném čase
- Upozornění a reakce na porušení SLA
- Analýza historických dat
Tomáš Zajpt
Tomáš proplouvá vodami IT již 18 let. První polovinu kariéry pracoval na straně zákazníka jako administrátor s orientací na open-source. V roce 2013 začal působit jako konzultant a systémový integrátor. Od roku 2017 je v Data Force, kde pomáhá zákazníkům především s monitoringem a automatizací. Jeho specialitou je aplikační monitoring.
Panelová diskuse
A nakonec jsme si pro vás připravili panelovou diskusi se zástupci znalostí technologií Zabbix, Icinga a Prometheus. Buďte připraveni je rozstřílet vašimi dotazy, kde se můžete dozvědět informace napříč jednotlivými monitorovacími technologiemi a přístupy od opravdu kvalifikovaných lidiček.
Registrační formulář
Proč se přijít podívat?
- Připravili jsme pro Vás komplexní pohled na monitoring.
- Na přednáškách jsme se domluvili se špičkami v oboru.
- Budete mít k dispozici pohled speakerů zastupující nejpoužívanější technologie monitoringu.
- Kde jinde prodiskutovat nasazení některých features, než na panelové diskusi se zástupci zabbixu, icingy a promethea.
Storno podmínky
Registrace na konferenci je závazná a její storno je možné "bezplatně" pouze písemnou formou prostřednictvím e-mailu a to nejpozději 14 kalendářních dní před zahájením konference.
Odstoupí-li/stornuje-li účastník konference registraci v termínu kratším než 14 kalendářních dní před zahájením konference, vyhrazuje si organizátor vůči účastníkovi právo na zaplacení storno poplatku v plné výši hodnoty vstupenky.
Děkujeme za pochopení
Jak se k nám dostanete
Institut klinické a experimentální medicíny (IKEM) se nachází na adrese Vídeňská 1958/9, 140 21 Praha 4. Kongresové centrum se nachází v 5. patře hlavní budovy.
Nejrychleji z centra Prahy: Metrem do stanice Budějovická (trasa C). Pak autobusem č. 193 na zastávku IKEM (v autobuse hlášena jako „Institut klinické a experimentální medicíny“).
Autem
Parkovat můžete ve dvou nadzemních podlažích garážové budovy u hotelu Rezidence EMMY v okolí. Využít můžete i parkoviště pro návštěvníky a pacienty IKEM, které je zhruba 100 m od hlavního vchodu do budovy IKEM (kapacita 200 míst).
Bus
Autobusové linky 193, 138, 203 zastavující na zastávce IKEM.
Regionální linky: 332, 335, 337, 339, 362
Tram
Tento oblíbený spoj není k dispozici.