Prometheus - agilní monitoring moderní infrastruktury
Log
04.08.2022 14:35 - Spustili jsme registrace na konferenci
Info
* Cena konference je uvedena bez DPH
Získejte Wild Cards na 56. a 133. židli a užijte si konferenci zdarma (pozice se počítá dle došlých registrací).
Občerstvení - pokud potřebujete zajistit bezlepkové občerstvení, prosíme uvěďte to do "Poznámky" v registračním formuláři. Rádi Vám jídlo na jméno zajistíme.
Změna programu a místa konání konference je vyhrazena.
Konference se bude konat prezenčně.
Program
Prometheus - světlo v cloudovém světě
Prometheus má v dnešním cloudovém světě své pevné místo a spolu s Kubernetes tvoří komplementární dvojici. Procesů, které se v orchestrátoru mikroservis dějí, jsou stovky až tisíce za vteřinu. První rolí Promethea je vědět o všech těchto procesech, umět si je vyfiltrovat a zobrazit a za pomocí alertů být informován o všech, které jsou relevantní pro provoz. Druhá role je často svázaná s komponentou starající se o persistentní uložení metrik a Prometheus je pak možné využít jako analytický nástroj zobrazující chování daných procesů v delším čase. Typicky je pak možné si zobrazit např. spotřebované zdroje v Kubernetes v závislosti na počtů aplikací za rok zpět. S touto rolí je svázaný Thanos, který ukládá, zpracovává a zpřístupňuje metriky a o němž tu bude rovněž řeč.
V první části mé přednášky se nejdříve zaměříme na popis Promethea a Thanose. Vyzkoušíme si tyto komponenty spustit v rámci demíčka a ukázat si jednotlivé komponenty naživo. V druhé části se budu věnovat reálným zkušenostem s provozem Promethea a Thanose.
Agenda
- Prometheus - k čemu jej potřebujeme a popis jeho komponent
- Thanos - nastupuje tam, kde končí Prometheus
- Demo - pomocí dockeru vytočíme jednotlivé komponenty a popíšeme si jejich funkčnost
- Reálné zkušenosti s provozem Promethea a Thanose - popis 3+ leté zkušenosti a na co si dávat pozor
- Kvíz - když zbyde čas, tak vás trochu "squeeznu"
Jiří Valnoha
Jirka pracuje v IT světě již přes 10 let. Jeho ajťáckou evoluci můžeme shrnout několika pozicemi od Linuxového Administrátora v menší hostingové firmě, přes aplikačního engineera a následně DevOps engineera v bankovní sféře, až po teamleadra DevOps engineerů ve firmě Internet Mall a.s., kde působí doposud. Jeho specializací je provoz privatního cloudu a zajištění vysoké dostupnosti celého řešení.
LinkedIn: https://www.linkedin.com/in/valnohajiri/
Stručná historie ekosystému okolo Promethea, kam se ubírá a na co se těšit
Přednáška bude složena ze tří částí. V první proletíme hostorii, proč vlastně Prometheus vzniknul a jak se postupně rozvíjel celý ekosystém okolo něj. Z historie se přesuneme k novinkám v tomto prostředí a kam vývoj a trendy směřují.
Druhá část se zaměří na možnosti testování konfigurace a všeho okolo Promethea. Od dob prvních releasů se Prometheí ekosystém hodně rozrostl a ruku v ruce s tím i potřeba lépe kontrolovat a testovat všechnu tuto infrastrukturu. Ukážeme si, co všechno lze testovat a jaké nástroje k tomu použít.
Ve třetí části si více přiblížíme tématiku Service Level Objectives, jak je měřit, co nám přináší a proč je dobré nad nimi alertovat.
Agenda
Historie a směr kam se ubírá ekosystém okolo Promethea
- Příchod Promethea a pull based monitoringu založeného na aplikačních metrikách
- Limitace HA a větších setupů a nástup clusterových řešení
- Kam dál Prometheus směřuje (exemplars, agnet mód atd)
Testování konfigurace a infrastruktury Promethea a nástroje, které k tomu použít
- Kontrola konfigurace Promethea
- Unit testování alertů a jejich syntaxe
- Validate metadat alertů
- Testování routování alertů Alertmanageru
- Testování renderování template alertů
Service Level Objectives o co jde a k čemu to je
- Co to SLO je a proč by vás to mělo zajímat
- Jak ho počítat a na co si dát pozor
- Jak nad ním alertovat
Martin Chodúr
Martin je bývalý vývojář, který se nadchl pro observabilitu a obecně monitoring poté, co se poprvé setkal s Prometheem. S tím aktivně pracuje už od verze 1.0.0 a podílel se na jeho adopci v Seznamu, kde pracuje od roku 2016 aktuálně na pozici vedoucího týmu DevOps. Je kontributorem do Promethea, Alertmanageru a dalších přidružených projektů a aktivně se podílel na projektu Thanos od prvních verzí, kde figuruje také jako triage maintainer.
Github https://github.com/FUSAKLA
LinkedIn: https://www.linkedin.com/in/fusakla/
Web https://fusakla.cz/
Management a vizualizace monitoringu
S příchodem cloudových a kontejnerových technologií můžeme pozorovat rostoucí nároky na monitoring vlastních aplikací a prostředí. Staré modely aplikací přestávají platit, aplikace se dneska skládají z více komponent, mnoho komponent lze horizontálně škálovat a instance komponent mohou vznikat dynamicky na základě aktuálních požadavků. Tyto potřeby se promítají i do definice monitoringu, kde stávající statické konfigurace již nejsou udržitelné. Větší důraz je kladen i na vlastní kvalitu obsahu monitoringu, protože nalézt problém v moderní, komplexní a dynamické architektuře je pro klasický přístup téměř neřešitelný problém.
Moje přednáška je zaměřena na definici monitoringu, jak definice vlastních aplikací, ze kterých se monitorovací systém skládá, tak a vlastní definice monitorovacích pravidel. Ukážeme si, jakým způsobem se konfiguruje moderní monitoring, aby dokázal pružně reagovat na měnící se infrastrukturu. V druhé části prezentace si ukážeme, jak je možné využít tyto definice k vytvoření vizualizací a alertů, kde můžeme korelovat data z různých zdrojů a usnadnit-zrychlit tak detekci a analýzu problémů ve sledovaných systémech.
Ukázky jsou postavené na prostředí Kubernetes, ale postupy jsou obecné a aplikovatelné na libovolnou platformu.
Agenda
SRE principy v praxi
- Komponenty monitoring systému
- Monitoring-as-a-code
- Použití a výhody Monitoring mixinů
Dynamický monitoring
- Výhody Service discovery
- Integrace stávajících nástrojů
- Použití a výhody operátorů
- Nasazení USE a RED metod
Vizualizace systémů
- Sjednocení metrik a událostí
- Kvantitativní vizualizace
- elační vizualizace
Živé ukázky
Aleš Komárek
Aleš Komárek pracuje ve firmě F5 Networks jako SRE inženýr, má na starost monitoring části globalního systému založeného na Kubernetes platformě. Dříve pracoval ve společnosti tcp-cloud a Mirantis, kde se podílel na nástroji pro správu a konfiguraci plaformy OpenStack. Monitoringu se věnuje přes 10 let a má zkušenost s širokou škálou OpenSource monitoring technologií jako Graphite, InfluxDB, Prometheus, ElasticSearch, Loki, Parca, Nagios nebo Sensu. V rámci definice monitoringu se věnuje také modernímu konfiguračnímu managementu, který je třeba pro hladké nasazení potřebných komponent.
LinkedIn: https://www.linkedin.com/in/cznewt/
Falco - cloud native security a observability monitoring
Security monitoring byl donedávna obvykle jen o sběru všech možných logů a událostí z infrastruktury a jejich zpětné, často nepoužitelné, analýze. Implementace eBPF v linuxovém jádře ovšem otevřela platformu pro zcela jiný přístup. Observability a tracing v reálném čase při rozumných nárocích na zdroje a minimální footprint v systému. Současně se v cloud a kontejnerovém světě podstatně zvyšují nároky na zabezpečení a audit systémů.
Přednáška je postavena na zkušenostech z implementace Falco, hardening a testování security compliance cloud systémů. Dozvíte se něco málo o základních technologiích a prostředcích security monitoringu, auditu serverů, kontejnerů a kubernetes s Falco. Konfigurace, deployment, Falco rules a vytváření vlastních pravidel. Integrace s Prometheus alertmanager. Testování a compliance fyzických i cloud serverů. Nakonec se podíváme na analytické možnosti SysFlow.io a alerting.
Agenda
- Security monitoring a audit nástroje, historie
- eBPF historie a implementace
- Host a kontejner security monitoring s Falco
- Integrace s Prometheus
- UI, Dashboardy a alerting
- Host compliance reporting
- SysFlow.io analýza a možnosti
Petr Michalec
Petr pracuje jako SRE / DEV v F5 Czech Republic s.r.o. (dříve volterra.io, Mirantis, IBM), ve správě má vývoj a instalace fyzické a cloud infrastruktury, SRE služby a CI/CD pro F5 Distributed Cloud, rozložený přes více jak 20 globálních datacenter. Dříve pracoval jako services team lead, architekt, devops specialist. Dvacet let se pohybuje v IT a 10 let zkušeností z provozu large-scale infrastruktury s Kubernetes a OpenStack. Obvykle relaxuje se svými třemi dětmi, už neběhá, ale sedlá bike a létá s FPV drony.
Github: https://github.com/epcim
Twitter: https://twitter.com/epcim
Web: http://apealive.net/about_petr/
LinkedIn: https://cz.linkedin.com/in/epcim
ElasticSearch jako centrální sklad pro logy?
Úvodní část přednášky se pokouší odpovědět na otázku “Proč vůbec zvážit technologii ElasticSearch pro použití jako centrální sklad pro logy aplikací a infrastruktury?” a uvedu objektivně-subjektivní důvody pro a proti. V navazující části popisuji projekt, na kterém jsem se aktivně podílel v roli architekta a engineera, implementující řešení centrálního logování v jedné nejmenované firmě postavené právě
na technologii ElasticSearch, jakých úspěchů jsme dosáhli a jaké pády zažili. A v neposlední řadě co jsem si z toho odnesl do dalšího života. Závěr přednášky věnuji několika lessons learned a na co si dát skutečně pozor, pokud se rozhodnu i přes vše, co v přednášce zaznělo, ElasticSearch nasadit. Na co pamatovat a co zvažovat při definici takového projektu. Skutečný závěr přednášky pak věnuji alternativě, kterou má smysl v dnešní době prozkoumat.
Agenda
Proč ElasticSearch?
- Elastic co?
- Výhody řešení
- Nevýhody řešení
- Cena
Skutečně se stalo
- Obecný popis zadání projektu
- Obecný popis implementovaného řešení
- WOW efekt - kam až jsme se dostali
Here be dragons
- Co nepodcenit
- Co očekávat
- To je život
Alternativy
- Grafana Loki
Jan Šimák
Honza si s IT technologiemi hraje už od školních lavic a zažil éru punkového budování “wifi isp” v Hradci Králové, kde je k Internetu přes wifi připojen dodnes. Během období administrátorských a engineerských pozic se nadchl pro vedení projektů a svých kolegů natolik, že částečně opustil temná zákoutí konzole a nyní se plně raduje z barevných tabulek, vymazlených dashboardů a nekonečných meetingů.
LinkedIn: https://www.linkedin.com/in/jan-%C5%A1im%C3%A1k-29319668/
Registrační formulář
Proč se přijít podívat?
- Máme pro Vás připravené praktické zkušenosti z nasazení Promethea a use cases z praxe.
- Ukážeme Vám reálné zkušenosti s provozem Promethea a Thanose.
- Projdeme si, jakým způsobem se konfiguruje moderní monitoring, aby dokázal pružně reagovat na měnící se infrastrukturu.
- Představíme Vám možnosti testování konfigurace a všeho potřebného okolo Prométhea.
- Dozvíte se o základních technologiích a prostředcích security monitoringu, auditu serverů, kontejnerů a kubernetes s Falco.
- Vysvětlíme Vám, proč zvážit technologii ElasticSearch pro použití jako centrální sklad pro logy.
Storno podmínky
Registrace na konferenci je závazná a její storno je možné "bezplatně" pouze písemnou formou prostřednictvím e-mailu a to nejpozději 14 kalendářních dní před zahájením konference.
Odstoupí-li/stornuje-li účastník konference registraci v termínu kratším než 14 kalendářních dní před zahájením konference, vyhrazuje si organizátor vůči účastníkovi právo na zaplacení storno poplatku v plné výši hodnoty vstupenky.
Děkujeme za pochopení
Jak se k nám dostanete
Institut klinické a experimentální medicíny (IKEM) se nachází na adrese Vídeňská 1958/9, 140 21 Praha 4. Kongresové centrum se nachází v 5. patře hlavní budovy.
Nejrychleji z centra Prahy: Metrem do stanice Budějovická (trasa C). Pak autobusem č. 193 na zastávku IKEM (v autobuse hlášena jako „Institut klinické a experimentální medicíny“).
Autem
Parkovat můžete ve dvou nadzemních podlažích garážové budovy u hotelu Rezidence EMMY v okolí. Využít můžete i parkoviště pro návštěvníky a pacienty IKEM, které je zhruba 100 m od hlavního vchodu do budovy IKEM (kapacita 200 míst).
Bus
Autobusové linky 193, 138, 203 zastavující na zastávce IKEM.
Regionální linky: 332, 335, 337, 339, 362
Tram
Tento oblíbený spoj není k dispozici.