June 8, 2026
Site Reliability Engineer
Senior • Remote
140 - 180 PLN
Warsaw, Poland
SRE (k/m)
Miejsce pracy: 100% zdalnie
Start: kwiecień/maj 2026
Forma współpracy: B2B
Dołącz do zespołu pracującego nad globalną infrastrukturą streamingową!
Poszukujemy doświadczonego Site Reliability Engineer (SRE), który wesprze rozwój i utrzymanie międzynarodowych platform CDN — zarówno on‑prem, jak i w chmurze. Na tym stanowisku będziesz mieć realny wpływ na niezawodność i jakość usług OTT dostarczanych użytkownikom na wielu kontynentach.
Twoja rola
Jako część zespołu CDN Operations będziesz odpowiadać za niezawodność, skalowalność oraz operacyjne doskonałe działanie platform CDN, automatyzację procesów oraz rozwój narzędzi wspierających monitoring i analizę.
Zakres obowiązków
CDN Reliability & Operations
Zapewnianie dostępności, odporności i wysokiej wydajności platform CDN (cloud, baremetal, sieci międzynarodowe, IX‑y, cache po stronie ISP).
Regularna analiza pojemności CDN, wydajności i prognoz ruchu.
Udział w wdrożeniach, rolloutach produkcyjnych i analizie konsumpcji OTT w wielu regionach.
Monitorowanie kluczowych wskaźników (latency, throughput, cache hit ratio, error rate) i wdrażanie optymalizacji.
Udział w obsłudze incydentów, RCA oraz wdrażaniu planów poprawy niezawodności.
Okazjonalne wsparcie zespołów DevOps w zadaniach operacyjnych.
Observability & Monitoring
Budowa i utrzymanie warstwy obserwowalności dla wszystkich środowisk CDN (Datadog).
Tworzenie i utrzymywanie zestandaryzowanych dashboardów, alertów, SLO/SLA oraz pipeline’ów logów.
Projektowanie skalowalnych rozwiązań monitoringowych zdolnych obsłużyć duże wolumeny ruchu.
Implementacja automatycznych health‑checków, wykrywania anomalii i workflowów alertowania.
Usprawnianie procesów zbierania i wizualizacji danych dla zespołów technicznych i biznesowych.
Development of Tools & Automation
Tworzenie skryptów i workflowów (Python/Bash/API) do zbierania metryk, analizy kosztów i danych operacyjnych.
-
Budowa narzędzi wewnętrznych do:
analizy logów,
wizualizacji audience i ruchu,
walidacji konfiguracji CDN,
diagnostyki i troubleshooting’u,
testów cache.
Wsparcie automatyzacji w oparciu o Terraform, CI/CD i automatyczne rollouty konfiguracji.
Collaboration & CDN Governance
Współpraca z zespołami OTT engineering, DevOps, Network, Security, Data i jednostkami międzynarodowymi.
Tworzenie i rozwój globalnych standardów (latency, TTL, caching, obserwowalność, bezpieczeństwo, koszty).
Dzielenie się wiedzą z zespołami w wielu regionach (Europa, Afryka, Azja).
Przygotowywanie dokumentacji technicznej i materiałów wdrożeniowych.
Współpraca z ISP, dostawcami chmury i zespołami operacyjnymi w rozwiązywaniu problemów dystrybucyjnych.
Wsparcie podczas dużych wydarzeń (sport, live, peak traffic) — przygotowanie, monitoring i analiza po wydarzeniu.
Wymagania
Doświadczenie i wykształcenie
Wyższe wykształcenie techniczne (Informatyka, Sieci/Telekomunikacja).
Min. 4–5 lat doświadczenia w rolach SysOps / DevOps / SRE.
Kompetencje techniczne
Solidne podstawy sieciowe: DNS, TCP, HTTP, routing (BGP), caching, proxy.
Znajomość narzędzi: Terraform, Ansible, AWS Lambda, GitLab CI/CD.
Bardzo dobra znajomość systemów Unix/Linux.
Doświadczenie z narzędziami monitoringu (Datadog, Grafana).
Mile widziana znajomość CDN/OTT oraz zagadnień QoS.
Umiejętności miękkie
Analityczne myślenie, samodzielność i dobra organizacja pracy.
Umiejętność współpracy z zespołami technicznymi i nietechnicznymi.
Biegła znajomość języka angielskiego; francuski mile widziany.
Motywacja
Chęć pracy nad systemami dużej skali i wysokiej dostępności.
Zainteresowanie automatyzacją, obserwowalnością i performance engineering.
Warunki współpracy
Start: kwiecień/maj 2026
Forma: B2B
Docelowo: współpraca długoterminowa
Tryb pracy: w 100% zdalny
Benefity: Karta Multisport oraz Luxmed
Co zyskasz dzięki aplikacji na ofertę Antal?
Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział.
Kim jesteśmy?
Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska.
Similar jobs you might like
Technology
Antal Sp. z o.o.
Senior Application Reliability Engineer
Senior
Hybrid
Krakow, Poland
🏢 Summary: Site Reliability Engineer role in a global financial environment focused on ensuring 24/7 reliability, automation, and scalability of critical production systems. The position involves incident management, architectural input, observability development, and continuous platform improvement within an international DevOps team. Hybrid work model with rotational on-call duties. 🗂️ Requirements: Minimum 7 years of experience in SRE or production application support, Experience maintaining 24/7 production systems, Strong troubleshooting and incident management skills, Experience with Ansible, Jenkins, Prometheus, Grafana, Programming skills in Java, Python, or JavaScript, Experience with Node.js or React, Knowledge of SQL, Practical knowledge of SDLC, Experience defining and monitoring SLI/SLO, Experience with migrations, upgrades, and disaster recovery, Willingness to participate in on-call rotation 📃 Skills: SRE, Ansible, Jenkins, Prometheus, Grafana, Java, Python, JavaScript, Node.js, React, SQL, SDLC 🏢 Description: Site Reliability Engineer (SRE) Kraków (hybryda – 6 dni/miesiąc z biura) O projekcie Nasz Klient wspiera globalną organizację finansową przy rozwoju i utrzymaniu krytycznych systemów działających 24/7. To rola w międzynarodowym zespole DevOps, gdzie niezawodność, automatyzacja i skalowalność są kluczowe. Będziesz mieć realny wpływ na stabilność usług, decyzje architektoniczne oraz kierunek rozwoju platform technologicznych. Twoja rola Zapewnienie wysokiej dostępności i niezawodności systemów produkcyjnych (24/7) Wdrażanie rozwiązań zgodnych z praktykami SRE (monitoring, automatyzacja, optymalizacja) Analiza i rozwiązywanie incydentów + root cause analysis Udział w projektowaniu architektury systemów Definiowanie i monitorowanie SLI/SLO oraz rozwój observability Planowanie i realizacja migracji, upgrade’ów oraz testów disaster recovery Automatyzacja procesów i rozwój self-service dla użytkowników Wsparcie użytkowników i ciągłe ulepszanie doświadczenia końcowego Udział w dyżurach on-call (rotacyjnie) Udział w zaplanowanych pracach utrzymaniowych Wymagania Min. 7 lat doświadczenia w SRE lub wsparciu aplikacji produkcyjnych Bardzo dobre umiejętności troubleshootingu i pracy pod presją Doświadczenie z narzędziami: Ansible Jenkins Prometheus Grafana Umiejętności programistyczne (full-stack), np.: Java / Python / JavaScript Node.js / React SQL Praktyczna znajomość SDLC Bardzo dobre umiejętności komunikacyjne i doświadczenie w pracy w środowisku międzynarodowym Mile widziane Doświadczenie z Jira i Confluence (Data Center) Szybka adaptacja do nowych technologii i środowisk Co zyskasz dzięki aplikacji na ofertę Antal? Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział. Kim jesteśmy? Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska. Sprawdź inne aktualne oferty pracy na: https://antal.pl/dla-kandydata Zaobserwuj nasz profil na LinkedIn: https://www.linkedin.com/company/antalpoland
Technology
Antal Sp. z o.o.
Senior Engineer - SRE Lead
Senior
Hybrid
Krakow, Poland
🏢 Summary: Leadership role responsible for managing and developing an SRE team supporting critical global IT services and business platforms. The position focuses on driving reliability, scalability, performance, and security through automation, observability, and engineering best practices. The role includes ownership of SRE processes, technical direction, and collaboration across product and architecture teams. 🗂️ Requirements: Minimum 3 years of experience managing engineering teams, Experience building or transforming high-performing SRE or Engineering teams, Strong knowledge of automation and scripting/programming, Experience with CI/CD processes, Practical experience with monitoring and observability tools, Experience maintaining high-availability, low-latency systems, Experience working in regulated environments, Experience working in Agile methodologies, Very good command of English 📃 Skills: Python, Go, Bash, CI/CD, Grafana, Splunk, AppDynamics, OpenTelemetry, SRE, Agile 🏢 Description: Team Lead Site Reliability Engineering (SRE) Kraków | Model hybrydowy O stanowisku Poszukujemy doświadczonego Team Leada Site Reliability Engineering, który obejmie odpowiedzialność za rozwój i prowadzenie zespołu SRE wspierającego krytyczne usługi IT oraz platformy biznesowe o globalnym zasięgu. Osoba na tym stanowisku będzie odpowiadać za zarządzanie całym cyklem realizacji zadań zespołu – od przyjmowania i priorytetyzacji zgłoszeń, przez planowanie i realizację prac, aż po raportowanie wyników. Będzie również wyznaczać kierunek techniczny, wdrażać najlepsze praktyki inżynierskie oraz budować kulturę ciągłego doskonalenia. Stanowisko wymaga ścisłej współpracy z architektami, Product Ownerami, zespołami produktowymi oraz operacyjnymi w celu zwiększania niezawodności, wydajności, skalowalności i bezpieczeństwa kluczowych usług IT. Zakres obowiązków Zarządzanie zespołem Site Reliability Engineering odpowiedzialnym za utrzymanie i rozwój krytycznych usług oraz platform wspieranych przez dostawców zewnętrznych. Odpowiedzialność za pełny proces realizacji prac zespołu: od przyjmowania zgłoszeń, przez ich priorytetyzację, po dostarczenie rezultatów i raportowanie. Współpraca z Product Ownerami przy definiowaniu i wdrażaniu wskaźników niezawodności (SLO, SLI, SLA). Wspieranie zespołów produktowych we wdrażaniu najlepszych praktyk SRE i niezawodności w całym cyklu życia oprogramowania. Rozwijanie obszaru monitoringu i obserwowalności systemów oraz wdrażanie narzędzi zwiększających niezawodność i efektywność operacyjną. Definiowanie oraz egzekwowanie standardów inżynierskich i operacyjnych, obejmujących dokumentację, code review, kontrolę jakości i procedury operacyjne. Mentoring, coaching i rozwój kompetencji członków zespołu. Budowanie kultury ciągłego doskonalenia oraz wysokiej jakości dostarczanych rozwiązań. Analiza wyników i wdrażanie usprawnień wpływających na efektywność zespołu i stabilność środowisk produkcyjnych. Wymagania Must have Minimum 3 lata doświadczenia w zarządzaniu zespołami inżynierskimi oraz wyznaczaniu kierunku technicznego w środowisku korporacyjnym. Udokumentowane doświadczenie w budowaniu lub transformacji zespołów w wysokowydajne organizacje SRE lub Engineering. Bardzo dobra znajomość automatyzacji oraz języków skryptowych/programistycznych (Python, Go, Bash lub podobnych). Doświadczenie z procesami CI/CD. Praktyczna znajomość narzędzi monitoringu i observability, takich jak Grafana, Splunk, AppDynamics, OpenTelemetry lub podobnych. Doświadczenie w utrzymaniu systemów o wysokiej dostępności i niskich opóźnieniach w środowiskach regulowanych (np. sektor finansowy, fintech, ubezpieczenia). Silne umiejętności analityczne i rozwiązywania problemów. Bardzo dobra znajomość języka angielskiego w mowie i piśmie. Doświadczenie w pracy zgodnie z metodykami Agile. Umiejętność samodzielnej pracy oraz efektywnej współpracy w międzynarodowym środowisku. Wysoko rozwinięte umiejętności komunikacyjne, dokumentacyjne oraz poczucie odpowiedzialności za dostarczane rozwiązania. Mile widziane Doświadczenie w utrzymaniu i rozwoju usług IT opartych o rozwiązania dostawców zewnętrznych. Znajomość zagadnień związanych z compliance, zarządzaniem ryzykiem oraz regulacjami obowiązującymi w sektorze usług finansowych. Co oferujemy Możliwość realnego wpływu na rozwój i strategię obszaru Site Reliability Engineering. Pracę przy krytycznych systemach o dużej skali i wysokich wymaganiach dotyczących dostępności. Współpracę z międzynarodowymi zespołami ekspertów. Środowisko nastawione na rozwój technologiczny, automatyzację i ciągłe doskonalenie. Atrakcyjne warunki zatrudnienia oraz możliwość rozwoju kariery w organizacji o globalnym zasięgu. Benefity: LuxMed, MyBenefit Co zyskasz dzięki aplikacji na ofertę Antal? Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział. Kim jesteśmy? Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska. Sprawdź inne aktualne oferty pracy na: https://antal.pl/dla-kandydata Zaobserwuj nasz profil na LinkedIn: https://www.linkedin.com/company/antalpoland
Technology
Antal Sp. z o.o.
Cloud & Platform Engineer (m/f)
Senior
Hybrid
Opole, Poland
🏢 Summary: Cloud & Platform Reliability Engineer responsible for designing, building and maintaining highly available cloud-native infrastructure with a focus on reliability, security and observability. The role combines Platform Engineering, SRE and DevOps practices, supporting scalable Kubernetes environments in public cloud. You will drive automation, CI/CD, IaC and monitoring standards while ensuring system performance and resilience. 🗂️ Requirements: Minimum 3–4 years experience with cloud-native solutions, Hands-on experience with Docker and Kubernetes, Experience with public cloud (preferably Azure / AKS), Strong knowledge of CI/CD tools, Experience with observability tools (monitoring, logging, tracing), Experience with Infrastructure as Code tools, Knowledge of networking, security and troubleshooting, Automation skills using Python, Bash or PowerShell, English level B2 or higher 📃 Skills: Kubernetes, Docker, Azure, AKS, Terraform, Helm, Prometheus, Grafana, ELK, GitHub, CI/CD, Python, Bash, PowerShell, IaC, Monitoring, Logging, Tracing 🏢 Description: Dla naszego Klienta – międzynarodowej organizacji realizującej zaawansowane projekty transformacji cyfrowej w środowiskach produkcyjnych – poszukujemy doświadczonego Cloud & Platform Reliability Engineer (m/f). Osoba na tym stanowisku będzie odpowiedzialna za projektowanie, rozwój i utrzymanie nowoczesnej infrastruktury chmurowej wspierającej aplikacje o wysokiej dostępności, ze szczególnym naciskiem na niezawodność, bezpieczeństwo oraz obserwowalność systemów. Rola łączy elementy Platform Engineering, SRE oraz DevOps. Zakres obowiązków Projektowanie i wdrażanie rozwiązań z obszaru observability (monitoring, metryki, logowanie, distributed tracing) w środowiskach kontenerowych Budowa, konfiguracja i utrzymanie platform Kubernetes w chmurze publicznej, Automatyzacja procesów dostarczania oprogramowania poprzez rozwój i utrzymanie pipeline’ów CI/CD Tworzenie, utrzymanie i optymalizacja obrazów kontenerowych Docker Stosowanie podejścia Infrastructure as Code (IaC) Monitorowanie wydajności infrastruktury, identyfikacja oraz proaktywne rozwiązywanie problemów Współpraca z zespołami developerskimi w zakresie definiowania SLI/SLO oraz skutecznych mechanizmów alertowania Udział w analizie incydentów, zapewnienie ciągłości działania systemów oraz wdrażanie usprawnień zapobiegawczych Tworzenie i aktualizacja dokumentacji technicznej, procedur operacyjnych Wymagania Minimum 3/4 lata doświadczenia w pracy z rozwiązaniami cloud‑native Praktyczne doświadczenie z Dockerem i Kubernetesem Doświadczenie w pracy z chmurą publiczną (preferowane Azure / AKS) Bardzo dobra znajomość narzędzi CI/CD (np. GitHub Actions) Doświadczenie z narzędziami observability (np. Prometheus, Grafana, ELK) Znajomość narzędzi Infrastructure as Code (Terraform, Helm) Dobra znajomość zagadnień sieciowych, bezpieczeństwa oraz troubleshootingu Umiejętność automatyzacji z wykorzystaniem Python, Bash lub PowerShell Język angielski na poziomie komunikatywnym (min. B2) Oferta Praca przy nowoczesnych, skalowalnych platformach chmurowych Realny wpływ na architekturę i standardy technologiczne Stabilna współpraca w międzynarodowym środowisku Nastawienie na długoterminową współpracę Zatrudnienie na umowę o pracę bezpośrednio przez Klienta Antal Atrakcyjne wynagrodzenie oraz pakiet benefitów Lokalizacja: Opole (on-site/hybryd) Co zyskasz dzięki aplikacji na ofertę Antal? Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział. Kim jesteśmy? Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska. Sprawdź inne aktualne oferty pracy na: https://antal.pl/dla-kandydata Zaobserwuj nasz profil na LinkedIn: https://www.linkedin.com/company/antalpoland
Technology
Antal Sp. z o.o.
Linux Site Reliability Engineer
Senior
Hybrid
Krakow, Poland
🏢 Summary: Hybrid Linux Site Reliability Engineer role focused on developing, maintaining, and securing infrastructure supporting global cybersecurity services across on-premise and cloud environments. The position involves automation, incident management, and ensuring high availability of Linux-based and containerized systems within an Agile environment. The engineer will work with DevSecOps tools and participate in on-call rotations. 🗂️ Requirements: Minimum 5 years experience as DevOps / DevSecOps / SRE, Strong knowledge of Linux (RHEL), Experience with Bash and Python, Experience with Ansible (automation, playbooks), Experience in server and application management, Knowledge of IP networks (routing, firewall, troubleshooting), Knowledge of Incident and Change Management processes, Experience with CI/CD tools, Basic knowledge of PostgreSQL, Ability to work in Agile environment, Willingness to participate in on-call rotation 📃 Skills: Linux, RHEL, Bash, Python, Ansible, Kubernetes, Docker, GCP, Terraform, Vault, Git, Jenkins, GitHub, JIRA, PostgreSQL, Splunk, AppDynamics, Tenable, Nessus, CI/CD, IP, Firewall 🏢 Description: Linux Site Reliability Engineer Tryb pracy: hybrydowy - 6dni/miesiąc w biurze Klienta w Krakowie O roli Dołącz do zespołu naszego Klienta, pracującego nad nowoczesnymi rozwiązaniami w obszarze cyberbezpieczeństwa w skali globalnej. Poszukujemy doświadczonego Site Reliability Engineera, który będzie odpowiedzialny za rozwój, utrzymanie i zabezpieczenie infrastruktury wspierającej zaawansowane usługi bezpieczeństwa IT. Będziesz pracować w środowisku Agile, współtworząc rozwiązania, które zapewniają bezpieczeństwo systemów, aplikacji i danych w środowiskach on-premise oraz chmurowych. Zakres obowiązków Utrzymanie i rozwój infrastruktury wspierającej narzędzia cyberbezpieczeństwa Wsparcie środowiska produkcyjnego (incident management, troubleshooting, wsparcie użytkowników) Automatyzacja procesów i rozwój narzędzi DevSecOps Zarządzanie środowiskami opartymi o Linux (RHEL), Kubernetes i rozwiązania chmurowe Monitorowanie systemów oraz zapewnienie ich wysokiej dostępności Zarządzanie podatnościami i wdrażanie poprawek bezpieczeństwa Tworzenie i utrzymywanie dokumentacji technicznej Współpraca z zespołami IT i bezpieczeństwa na poziomie globalnym Udział w dyżurach on-call (rotacyjnie) Wymagania Min. 5 lat doświadczenia w roli DevOps / DevSecOps/ SRE Bardzo dobra znajomość systemów Linux (RHEL) Doświadczenie w: Bash i Python Ansible (automatyzacja, playbooki) zarządzaniu serwerami i aplikacjami sieciach IP (routing, firewall, troubleshooting) Znajomość procesów Incident & Change Management Doświadczenie z CI/CD (np. GitHub, Jenkins, JIRA) Podstawowa znajomość baz danych (PostgreSQL) Umiejętność pracy w środowisku Agile Mile widziane Doświadczenie z chmurą (szczególnie GCP) Znajomość Docker / Kubernetes Narzędzia: Terraform, HashiCorp Vault, Git Rozwiązania do monitoringu (np. Splunk, AppDynamics) Narzędzia bezpieczeństwa (np. Tenable, Nessus) Doświadczenie w pracy z dużą, rozproszoną infrastrukturą Oferujemy Udział w globalnych projektach z obszaru cyberbezpieczeństwa Możliwość pracy z nowoczesnym stackiem technologicznym Elastyczny model pracy (hybrydowy / zdalny) Konkurencyjne wynagrodzenie i pakiet benefitów Dostęp do szkoleń i programów rozwoju zawodowego Realny wpływ na rozwój rozwiązań i architektury Benefity: opieka medyczna LuxMed, kafeteria MyBenefit Co zyskasz dzięki aplikacji na ofertę Antal? Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział. Kim jesteśmy? Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska.
Technology
Connectis
DevOps/SRE
Senior
Remote
Warsaw, Poland
143 - 209 PLN
🏢 Summary: DevOps / SRE role focused on scaling and standardizing observability across a large enterprise environment with over 160 applications. The position involves integrating systems with a central observability model, defining SRE standards, and supporting teams in monitoring, logging, and metrics across cloud and enterprise platforms. The role is horizontal and advisory, emphasizing enablement, architecture guidance, and end-to-end visibility. 🗂️ Requirements: Minimum 5 years experience as SRE or DevOps Engineer in enterprise environments, Strong knowledge of Microsoft Azure core services and cloud architecture, Hands-on experience with Prometheus and Grafana, Practical knowledge of distributed tracing, centralized logging, metrics and visualization, Basic experience with Kubernetes deployment and container management, Practical experience with OpenTelemetry instrumentation, Experience defining and monitoring SLO and SLI, Fluent English 📃 Skills: Azure, Prometheus, Grafana, Kubernetes, OpenTelemetry, SLO, SLI, Loki, Dynatrace, Datadog, NewRelic, AppDynamics, ServiceNow, Logscale, LQL, GCP, Python, PowerShell, SAP, Oracle, Salesforce 🏢 Description: Do zespołu Observability poszukujemy doświadczonej osoby na stanowisko DevOps / SRE , który odegra kluczową rolę w skalowaniu i standaryzacji rozwiązań observability w dużej organizacji o złożonym krajobrazie technologicznym. Projekt koncentruje się na ujednoliceniu monitoringu, logowania i metryk dla ponad 160 aplikacji działających w wielu obszarach technologicznych (kilka niezależnych domen / „towerów”), obejmujących zarówno środowiska chmurowe, jak i rozbudowane systemy klasy enterprise. Rola ma charakter horyzontalny i enablementowy, jej celem jest wspieranie zespołów produktowych i utrzymaniowych w integracji systemów z centralnym modelem observability oraz współtworzenie i promowanie wspólnych standardów SRE / DevOps w skali całej organizacji. 💡 TWOJA ROLA: Analiza lokalnych rozwiązań monitoringowych i mapowanie ich do wspólnego modelu SRE. Definiowanie i promowanie standardów observability (naming, schematy danych, konwencje). Udział w PoC / pilotach (zbieranie metryk, konfiguracja, testy wysyłki danych do Azure). Wsparcie zespołów w interpretacji danych observability (RCA, SLO/SLA, diagnostyka). Współpraca z zespołami produktowymi, zespołami utrzymaniowymi oraz vendorami. Budowanie widoczności end-to-end dla krytycznych procesów biznesowych. Integracja systemów dziedzinowych z centralnym modelem observability. Doradztwo architektoniczne. 🔍 CZEGO OCZEKUJEMY OD CIEBIE? Minimum 5-letnie doświadczenie w roli SRE / DevOps Engineer w środowiskach enterprise. Znajomość platformy Microsoft Azure w zakresie core services oraz podstaw architektury chmurowej. Bardzo dobra znajomość narzędzi monitoringu i observability, w szczególności Prometheus i Grafana. Praktyczna znajomość observability : distributed tracing, centralne logowanie, metryki i wizualizacja. Podstawowa znajomość Kubernetes w zakresie deploymentu oraz zarządzania kontenerami. Praktyczna znajomość OpenTelemetry (OTel) w zakresie instrumentacji aplikacji. Doświadczenie w definiowaniu, wdrażaniu oraz monitorowaniu SLO / SLI. Biegła znajomość języka angielskiego. Mile widziane: Doświadczenie w pracy z rozbudowanymi systemami vendorowymi (takimi jak SAP , Oracle , Salesforce lub innymi platformami klasy enterprise). Doświadczenie z narzędziami klasy enterprise observability: Dynatrace, Datadog, New Relic, AppDynamics. Podstawowa znajomość ServiceNow w zakresie zarządzania incydentami i zmianami. Doświadczenie z Logscale zarządzanie logami, zapytania i analiza (LQL). Praktyczne doświadczenie z Loki - centralne logowanie. Podstawowa znajomość GCP, Python i Powershell . ✨ OFERUJEMY: 🤖 Nowoczesny proces rekrutacji z AI Rekruterem (AIR) - podczas aplikacji możesz odbyć rozmowę z wirtualnym rekruterem 24/7, bez czekania na telefon, z natychmiastowym feedbackiem i możliwością powtórzenia rozmowy (liczy się ostatnia wersja). Finalną decyzję zawsze podejmuje Rekruter Connectis. Uczestnictwo w spotkaniach integracyjnych oraz meetupach technologicznych, umożliwiających dzielenie się wiedzą i doświadczeniem. Wsparcie dedykowanej osoby kontaktowej z Connectis, dostępnej w celu pomocy w sprawach związanych z projektem. Stabilne i długoterminowe zatrudnienie w firmie o ugruntowanej pozycji na rynku. 100% zdalnie. Pełna praca zdalna, bez konieczności dojazdów. Możliwość rozwoju w nowoczesnym, dynamicznym środowisku IT. 5000 PLN za polecenie znajomych do naszych projektów. Szybki, zdalny proces rekrutacyjny. Dziękujemy za wszystkie zgłoszenia. Pragniemy poinformować, że skontaktujemy się z wybranymi osobami. 12821/NS
Technology
Antal Sp. z o.o.
Software Engineer (DevOps / Platform Engineering / SRE)
Senior
Hybrid
Krakow, Poland
🏢 Summary: Senior Software Engineer role focused on DevOps, Platform Engineering and SRE, responsible for designing, developing and maintaining scalable microservices and platform solutions supporting development teams. The position covers full software lifecycle, production support, incident management and platform reliability. The role also involves technical mentoring and continuous platform improvement. 🗂️ Requirements: Higher education in Computer Science or related field, Minimum 8 years of experience in software development, Strong experience in DevOps, Platform Engineering or SRE, Strong knowledge of web services and HTTP, Knowledge of DNS, Knowledge of TLS, Knowledge of load balancers, Knowledge of reverse proxy, Knowledge of service mesh, Knowledge of API Gateway, Proficiency in at least one: Java, JavaScript, Python or Clojure, Experience with monitoring and observability tools, Experience handling critical production incidents, Ability to optimize performance and troubleshoot issues 📃 Skills: Java, JavaScript, Python, Clojure, HTTP, DNS, TLS, Grafana, InfluxDB, Linux, Unix, KVM, VMware, AWS, GCP, Azure, Docker, Kubernetes 🏢 Description: Software Engineer (DevOps / Platform Engineering / SRE) Poszukujemy doświadczonego Software Engineera , który dołączy do zespołu naszego klienta DHP. To rola dla osoby, która swobodnie porusza się na styku tworzenia oprogramowania, inżynierii platformowej oraz DevOps. Będziesz odpowiadać za projektowanie i rozwój rozwiązań wspierających zespoły deweloperskie, usprawniając ich codzienną pracę oraz zapewniając niezawodność i skalowalność platformy. Zakres obowiązków Współpraca z Product Ownerami w zakresie analizy wymagań i przekładania ich na konkretne zadania projektowe. Projektowanie, rozwój i utrzymanie skalowalnych mikroserwisów zgodnie z najlepszymi praktykami DevOps i Agile. Realizacja powierzonych zadań w pełnym cyklu życia oprogramowania – od projektu, przez implementację, po wdrożenie produkcyjne. Wsparcie środowisk produkcyjnych, analiza przyczyn incydentów oraz wdrażanie skutecznych rozwiązań eliminujących źródła problemów. Doradztwo techniczne dla użytkowników platformy oraz szybkie rozwiązywanie zgłaszanych problemów. Współpraca z zespołami IT i interesariuszami w celu ciągłego rozwoju platformy. Zarządzanie długiem technologicznym oraz dbanie o bezpieczeństwo i aktualność wykorzystywanych technologii. Mentoring mniej doświadczonych członków zespołu i aktywne dzielenie się wiedzą. Wymagania Wykształcenie wyższe informatyczne lub pokrewne. Minimum 8 lat doświadczenia w tworzeniu oprogramowania, ze szczególnym uwzględnieniem obszarów DevOps, Platform Engineering lub Site Reliability Engineering (SRE). Bardzo dobra znajomość działania usług internetowych i protokołu HTTP, w tym DNS, TLS, load balancerów, reverse proxy, service mesh oraz API Gateway. Bardzo dobra znajomość co najmniej jednego z języków programowania: Java, JavaScript, Python lub Clojure. Doświadczenie w pracy z narzędziami monitoringu i obserwowalności, takimi jak Grafana i InfluxDB. Umiejętność identyfikowania problemów, optymalizacji wydajności oraz proponowania usprawnień. Doświadczenie w obsłudze i rozwiązywaniu krytycznych incydentów produkcyjnych. Bardzo dobre umiejętności komunikacyjne oraz doświadczenie we współpracy z rozproszonymi zespołami. Gotowość do ciągłego rozwoju i poznawania nowych technologii. Mile widziane Znajomość systemów Linux/Unix oraz zagadnień sieciowych. Doświadczenie w pracy z technologiami wirtualizacji KVM lub VMware. Znajomość platform chmurowych AWS, GCP lub Azure. Doświadczenie z Dockerem i Kubernetesem. Oferujemy Współpracę z ekspertami z różnych regionów świata Stabilne zatrudnienie oraz atrakcyjne warunki wynagrodzenia Możliwości rozwoju kariery i udział w inicjatywach międzynarodowych Benefity: LuxMed, kafeteria MyBenefit Co zyskasz dzięki aplikacji na ofertę Antal? Gdy Twoja aplikacja zostanie rozpatrzona pozytywnie (zostaniesz zaproszony/a do procesu), otrzymasz wsparcie Konsultanta/Konsultantki, który/a utrzyma z Tobą stały kontakt (mailowo lub telefonicznie), pomoże Ci przygotować się do rozmowy rekrutacyjnej z przyszłym pracodawcą oraz zatroszczy się o jakość procesu rekrutacyjnego, w którym aktualnie bierzesz udział. Kim jesteśmy? Jesteśmy liderem rekrutacji specjalistów i menedżerów oraz doradztwa w obszarze HR. Marka obecna jest w 35 krajach, w Polsce działa od 1996 roku. Przez ten czas zbudowaliśmy wiele karier kandydatów, dzięki elastycznemu i kompleksowemu podejściu do wszystkich rekrutacji. Antal tworzy ponad 130 profesjonalnych konsultantów ds. rekrutacji, którzy są oni nie tylko skutecznymi rekruterami, ale także wykwalifikowanymi doradcami, specjalizującymi się zarówno w zakresie wybranego sektora, jak i stanowiska. Sprawdź inne aktualne oferty pracy na: https://antal.pl/dla-kandydata Zaobserwuj nasz profil na LinkedIn: https://www.linkedin.com/company/antalpoland
Technology
EPAM Systems
Senior Site Reliability Engineer (SRE)
Senior
Remote
🏢 Summary: The offer is for a Site Reliability Engineer responsible for ensuring high reliability, scalability, and performance of cloud-based systems. The role focuses on implementing SRE practices, automating infrastructure, managing incidents, and enhancing monitoring and CI/CD processes. You will collaborate with cross-functional teams to optimize operations and maintain service excellence. 🗂️ Requirements: Bachelor’s degree in Computer Science, Engineering, or related field, 3+ years of experience in Site Reliability Engineering or similar role, Experience with cloud platforms (AWS, GCP, or Azure), Hands-on experience with SRE practices (SLO, SLI, error budgets, postmortems, toil reduction, capacity planning, incident management), Proficiency in Python or other scripting/programming language, Experience with monitoring tools, Experience with CI/CD tools, Experience with infrastructure as code, Experience with configuration management, Knowledge of Kubernetes and Docker, English proficiency B2 or higher 📃 Skills: AWS, GCP, Azure, Python, Kubernetes, Docker, CI/CD, Terraform, Ansible, Monitoring, SLO, SLI, Git, Bash 🏢 Description: We are seeking a highly skilled and motivated Site Reliability Engineer (SRE) to join our team. In this critical role, you will collaborate closely with software developers and operations teams to ensure high reliability, scalability, and efficiency of our systems, with a strong focus on meeting and exceeding customer expectations. Your expertise will be crucial in deploying, maintaining, and automating our infrastructure and application environments to ensure seamless user experiences. Your proactive involvement will be key to enhancing system reliability, optimizing resource utilization, and ensuring continuous improvement in our operational practices. Your responsibilities will include defining and tracking Service Level Objectives (SLOs), managing error budgets, and reducing toil through automation. You will play a pivotal role in driving the success of technology initiatives, maximizing their impact across the organization, and ensuring that solutions consistently meet the high standards our customers expect. Responsibilities Collaborate with development, security, quality, and operation teams to implement SRE practices and ensure system reliability Define and support required level of reliability, availability, and performance for services and applications Design and deliver Cloud-based solutions tailored to client needs Troubleshoot, mitigate, and support fixing of the infrastructure and application issues in a timely manner Implement a monitoring system for the infrastructure and application reliability Communicate technical concepts clearly to both engineering teams and management stakeholders Requirements Bachelor’s degree in Computer Science, Engineering, or a related field 3+ years of hands-on experience in Site Reliability Engineering or related roles Proven experience in any cloud (AWS/GCP/Azure) Experience with implementing SRE practices such as SLO/SLI, Error budgets, Postmortems, Reducing Toil, capacity planning, and Incident Management Python or other scripting/programming language Strong background in monitoring tools Proficiency in CI/CD tools, infrastructure as code, and configuration management Solid knowledge of container orchestration technologies (Kubernetes, Docker) English language proficiency at an Upper-Intermediate level (B2) or higher Nice to have Expertise in deployment and management of LLMs, including technologies like RAG Certification in Kubernetes, AWS/GCP/Azure, or similar technologies Proven experience in DevOps Knowledge of managing and optimizing AI/ML models in production environments, including basic deployment, monitoring, and maintenance We offer/Benefits We gather like-minded people: Engineering community of industry professionals Friendly team and enjoyable working environment Flexible schedule and opportunity to work remotely within Poland Chance to work abroad for up to 60 days annually Business-driven relocation opportunities We provide growth opportunities: Outstanding career roadmap Leadership development, career advising, soft skills, and well-being programs Certification (GCP, Azure, AWS) Unlimited access to LinkedIn Learning, Get Abstract, Cloud Guru English classes We cover it all: Stable income (Employment Contract or B2B) Participation in the Employee Stock Purchase Plan Benefits package (health insurance, multisport, shopping vouchers) Strategically located offices featuring entertainment and relaxation zones, table tennis and football, free snacks, fantastic coffee, and more Referral bonuses Corporate, social and well-being events Please, note: The set of bonuses might vary based on the role you apply for – specifics will be discussed with our recruiter during the general interview. We will reach out to selected candidates exclusively. EPAM is a leading global provider of digital platform engineering and development services. We are committed to having a positive impact on our customers, our employees, and our communities. We embrace a dynamic and inclusive culture. Here you will collaborate with multi-national teams, contribute to a myriad of innovative projects that deliver the most creative and cutting-edge solutions, and have an opportunity to continuously learn and grow. No matter where you are located, you will join a dedicated, creative, and diverse community that will help you discover your fullest potential.
Technology
Yard Corporate
Site Reliability Engineer (SRE)
Senior
Hybrid
Warsaw, Poland
40,000 - 55,000 PLN
🏢 Summary: Senior Site Reliability Engineer role focused on building and standardizing SRE practices across a hybrid AWS and on-prem infrastructure. The position centers on ensuring scalability, resilience, and high availability of high-frequency, data-intensive platforms through observability, automation, and Kubernetes optimization. You will define SLOs, enhance monitoring architecture, and drive reliability culture across engineering teams. 🗂️ Requirements: 5+ years experience in SRE, DevOps, or Infrastructure Engineering supporting distributed production systems, Bachelor’s degree in Computer Science, Computer Engineering, or related field (or equivalent experience), Deep expertise in Grafana, Prometheus, Loki, and Tempo (OpenTelemetry), Strong production experience with Docker and Kubernetes, Experience managing hybrid infrastructure (AWS and on-premises), Proficiency in at least one language: Python, Go, or Bash, Hands-on experience with CI/CD pipelines and Infrastructure-as-Code, Experience defining and managing SLOs and SLAs, Willingness to participate in on-call rotation 📃 Skills: AWS, Kubernetes, Docker, Prometheus, Grafana, Loki, Tempo, OpenTelemetry, Python, Go, Bash, CI/CD, IaC, Git, Hypervisors 🏢 Description: About the Client Our client is a premier, global investment management firm operating at the intersection of finance and technology. Known for their sophisticated, data-intensive systems, they build and maintain high-performance platforms that process massive volumes of market and operational data. To support their expanding footprint, they are looking for a senior-level Site Reliability Engineer (SRE) who will take ownership of shaping, standardizing, and scaling their SRE frameworks and reliability culture from the ground up. The Role In this role, you will serve as a foundational force for SRE practices, partnering directly with Cloud, Infrastructure, and Software Engineering squads. You will work across a hybrid infrastructure (combining advanced AWS cloud environments and physical on-premises servers) to guarantee the scalability, resilience, and maximum uptime of critical, high-frequency transactional platforms. Core Responsibilities SRE Evangelism: Design, implement, and champion core reliability principles, helping technology teams adopt sustainable scaling practices. Observability Architecture: Implement, scale, and maintain end-to-end monitoring, telemetry, and distributed tracing systems utilizing Prometheus, Grafana, Loki, and Tempo (OpenTelemetry framework). Kubernetes Optimization: Establish best-practice configurations for containerized workloads, ensuring applications running on Kubernetes are highly resilient, cost-effective, and performant. Incident Management & Culture: Participate in a balanced, shared on-call rotation (averaging one week per month). Automation & Engineering: Build custom tooling and CI/CD pipelines to automate routine tasks, system health checks, and rapid disaster recovery workflows. SLO/SLA Definition: Partner with product and engineering teams to define, monitor, and enforce Service Level Objectives (SLOs) and Error Budgets. What We Look For Experience: 5+ years of hands-on experience in a dedicated SRE, DevOps, or Infrastructure Engineering role supporting complex, distributed production systems. Education: A Bachelor’s degree in Computer Science, Computer Engineering, or a related technical discipline (or equivalent practical experience). Observability Expertise: Deep, subject-matter knowledge of modern monitoring stacks, specifically Grafana, Prometheus, Loki, and Tempo (OTel). Orchestration & Containers: Strong, production-grade expertise in containerization (Docker) and orchestration (Kubernetes). Hybrid Infrastructure: Experience navigating hybrid models—managing both cloud services (AWS preferred) and physical on-premise hardware resources. Scripting/Coding: Proficiency in writing clean, maintainable code in at least one scripting or programming language (e.g., Python, Bash, or Go) to build reliable automation. Methodologies: Solid grounding in CI/CD concepts, infrastructure-as-code (IaC), and agile development processes. Soft Skills: Excellent verbal and written communication skills, with a proven ability to convey complex infrastructure and reliability concepts to both technical and non-technical stakeholders. What We Offer Stable Employment: Full-time employment contract ( Umowa o Pracę - UoP ). Tax Optimization: Eligibility for creative tax-deductible costs ( KUP - Koszty Uzyskania Przychodu). Financial Reward: Highly competitive base salary accompanied by a generous annual performance bonus . Comprehensive Health: Premium private medical care package that fully includes dental coverage (stomatologia) . Wellness & Lifestyle: MultiSport card to keep you active and healthy. Daily Perks: Pre-funded lunch card for your daily meals. Tech Stack at a Glance Cloud & Virtualization: AWS, Kubernetes, Docker, On-Premises Hypervisors Observability: Prometheus, Grafana, Loki, Tempo, OpenTelemetry (OTel) Languages: Python, Go, Bash CI/CD & Automation: Git-based pipelines, Configuration Management, IaC
Technology
Humanit
DevOps / SRE Engineer
Mid
Remote
Wroclaw, Poland
16,000 - 22,000 PLN
🏢 Summary: Role responsible for building, securing and maintaining AWS-based infrastructure and Kubernetes environments to ensure high availability and reliability of the platform. The position focuses on CI/CD automation, infrastructure as code, monitoring, and secure connectivity with client installations. The engineer will own infrastructure operations, incident response, and system reliability. 🗂️ Requirements: Minimum 3 years experience as DevOps or SRE, Strong knowledge of AWS services including EKS, EC2, IAM, VPC, ALB, NLB, S3, CloudWatch, RDS, Aurora, Hands-on experience with Kubernetes including deployments, ingress, RBAC, network policies, autoscaling, Practical experience with Docker including multi-stage builds and security scanning, Experience with CI/CD using Jenkins and GitHub Actions, Experience with Ansible including roles, inventories, vault, molecule tests, Experience with HashiCorp Vault including dynamic secrets and RBAC policies, Experience with mesh VPN or zero-trust solutions such as Tailscale, Very good knowledge of Linux and Bash, Knowledge of security best practices including least privilege and secrets rotation 📃 Skills: AWS, EKS, EC2, IAM, VPC, ALB, NLB, S3, CloudWatch, RDS, Aurora, Kubernetes, Docker, Jenkins, GitHub, Ansible, Vault, Tailscale, Linux, Bash, RBAC, OIDC 🏢 Description: DevOps / SRE Engineer – Efectivo Efectivo to platforma wspierająca zarządzanie pracą magazynów i produkcji w oparciu o dane. Szukamy osoby, która przejmie odpowiedzialność za infrastrukturę, niezawodność i bezpieczeństwo systemu . Twoje zadania Budowa i utrzymanie infrastruktury w AWS oraz środowisk Kubernetes (EKS / k3s) Tworzenie i utrzymanie obrazów Docker oraz zarządzanie rejestrami Rozwój i utrzymanie procesów CI/CD (Jenkins + GitHub Actions) Automatyzacja konfiguracji z wykorzystaniem Ansible Zarządzanie sekretami i politykami bezpieczeństwa w HashiCorp Vault Zapewnienie bezpiecznej łączności z instalacjami klientów ( Tailscale / zero-trust ) Monitoring, alerting i observability ( Prometheus, Grafana, CloudWatch ) Optymalizacja kosztów infrastruktury, skalowanie i dbanie o wysoką dostępność Tworzenie runbooków, udział w on-call i reagowanie na incydenty Czego oczekujemy Min. 3 lata doświadczenia jako DevOps / SRE Bardzo dobra znajomość AWS (EKS, EC2, IAM, VPC, ALB/NLB, S3, CloudWatch, RDS/Aurora) Doświadczenie z Kubernetes (deploymenty, ingress, RBAC, network policies, autoscaling) Praktyczna znajomość Docker (multi-stage builds, optymalizacja, security scanning) CI/CD: Jenkins (pipeline’y, shared libraries) oraz GitHub Actions (reusable workflows, OIDC) Ansible – role, inventories, vault, testy molecule HashiCorp Vault – dynamic secrets, integracja z CI/K8s, polityki RBAC Doświadczenie z mesh VPN / zero-trust (np. Tailscale) Bardzo dobra znajomość Linux / Bash , mile widziany Python lub Go do automatyzacji Znajomość dobrych praktyk bezpieczeństwa (least privilege, rotacja sekretów, podpisy kontenerów) Mile widziane Doświadczenie z Terraform / IaC Service mesh (Istio / Linkerd), OpenTelemetry EFK/ELK, Loki, ArgoCD / Flux, OPA Gatekeeper Doświadczenie w pracy z instalacjami systemów u klientów Znajomość Datadog
Technology
Awareson Sp. z o.o.
Customer Success Engineer
Senior
Remote
Warsaw, Poland
140 - 180 PLN/hr
🏢 Summary: Long-term remote B2B role combining DevOps/SRE expertise with product and customer success responsibilities for an internal observability platform used globally. The position involves managing requirements and backlog while handling incidents, onboarding, and reliability improvements in a shift-based support model. Focused on production systems, monitoring quality, and platform usability for engineering teams. 🗂️ Requirements: Minimum 5 years in SRE / DevOps / Platform Engineering roles, Experience with production systems and incident handling, Experience gathering technical requirements and writing user stories, Very good knowledge of Agile and Scrum, Hands-on experience with observability (metrics, logs, tracing, alerting), Experience with Azure, Ability to work in shift-based and on-call model, Fluent Polish and English (B2/C1) 📃 Skills: Azure, GCP, Agile, Scrum, SRE, DevOps, Observability, Metrics, Logs, Tracing, Alerting, Backlog, UserStories, Dashboards, Monitoring 🏢 Description: Devops Engineer / Customer Success Engineer 📍 100% remote | B2B | 140–180 PLN/h | long-term Do zespołu budującego wewnętrzną platformę observability szukamy osoby łączącej kompetencje techniczne, produktowe i operacyjne. Platforma jest wykorzystywana przez setki zespołów developerskich i SRE w globalnej organizacji. Rola łączy dwa obszary: Product / Platform Ownership (wymagania, backlog, user stories) Customer Success / Reliability Engineering (incydenty, onboarding, operacje, self-observability) Zakres roli 1. Warstwa produktowa / analityczna zbieranie i analiza wymagań technicznych od wewnętrznych klientów (SRE, platform engineering, zespoły developerskie) przekładanie potrzeb na precyzyjne user stories i acceptance criteria zarządzanie backlogiem i priorytetyzacja pracy zespołu tworzenie i utrzymywanie dokumentacji technicznej i user-facing współpraca z engineeringiem nad roadmapą i implementacją 2. Customer Success / Platform Reliability Engineering realizacja zgłoszeń i request fulfillment (L1/L2) triage i rozwiązywanie incydentów (L1) wsparcie onboardingu nowych zespołów i integracji z platformą tworzenie i obsługa incydentów związanych z obserwowalnością systemów i ich poprawą budowa i utrzymanie standardowych dashboardów operacyjnych („golden dashboards”) definiowanie i utrzymanie kluczowych alertów („golden alerts”) tuning i poprawa self-observability oraz jakości sygnałów monitoringu udział w operacyjnych działaniach SRE (np. rotacje kluczy, działania maintenance) poprawa użyteczności integracji i przepływu danych między systemami współtworzenie dokumentacji i materiałów dla użytkowników platformy Tryb pracy / dyżury 100% remote praca w trybie zmianowym w godzinach 6:00–22:00 pn-pt praca w modelu dyżurów (on-call / shift-based support w ramach zespołu) rotacyjna odpowiedzialność za obsługę incydentów i requestów w czasie godzin operacyjnych Wymagania min. 5 lat doświadczenia w rolach technicznych (SRE / DevOps / Platform Engineering lub podobnych) doświadczenie w pracy z systemami produkcyjnymi i incydentami praktyka w zbieraniu wymagań i pisaniu user stories / acceptance criteria bardzo dobra znajomość Agile / Scrum doświadczenie w obszarze observability (metrics, logs, tracing, alerting) znajomość Azure (GCP mile widziane) bardzo dobra komunikacja po polsku i angielsku (min. B2/C1) samodzielność i proaktywność komfort pracy w środowisku globalnym i wielozespołowym gotowość do pracy w modelu zmianowym i dyżurowym Mile widziane doświadczenie w pracy na platformach wewnętrznych (internal developer platforms) budowa dashboardów operacyjnych i systemów alertingowych wcześniejsza współpraca z SRE / production support umiejętność upraszczania złożonych systemów dla użytkownika końcowego Oferujemy 100% remote B2B, długofalowa współpraca 140–180 PLN/h praca nad krytyczną platformą observability używaną globalnie realny wpływ na sposób pracy setek zespołów developerskich i SRE połączenie pracy produktowej, technicznej i operacyjnej w jednej roli