Senior Site Reliability Engineer

K2 SolutionsBrazil1 day ago

Full-timeEngineering, Information Technology

Track This Job

Add this job to your tracking list to:

Monitor application status and updates
Change status (Applied, Interview, Offer, etc.)
Add personal notes and comments
Set reminders for follow-ups
Track your entire application journey

Save This Job

Add this job to your saved collection to:

Access easily from your saved jobs dashboard
Review job details later without searching again
Compare with other saved opportunities
Keep a collection of interesting positions
Receive notifications about saved jobs before they expire

AI-Powered Job Summary

Get a concise overview of key job requirements, responsibilities, and qualifications in seconds.

Pro Tip: Use this feature to quickly decide if a job matches your skills before reading the full description.

Trabalho híbrido na região de Pinheiros/ SP - 3x por semana no escritório

Estamos selecionando um Senior Site Reliability Engineer - SRE para se juntar ao nosso time e desempenhar um papel essencial na manutenção, automação e melhoria da confiabilidade dos sistemas que impulsionam a rede logística da empresa em múltiplas regiões. Essa pessoa garantirá que a plataforma permaneça resiliente, observável e de alto desempenho, ao mesmo tempo em que possibilita inovação rápida e entregas seguras em larga escala.

Responsabilidades:

Definir, implementar e monitorar Service Level Objectives (SLOs), SLIs e error budgets em serviços principais.

Construir e manter stacks de observabilidade usando NewRelic (ou outras ferramentas) para garantir visibilidade completa da saúde dos sistemas.

Automatizar tarefas operacionais por meio de infraestrutura como código (IaC) e pipelines de CI/CD.

Colaborar com os times de Infraestrutura e DBA para otimizar desempenho e melhorar a tolerância a falhas.

Desenvolver processos de resposta a

incidentes, runbooks e postmortems para aprimorar a confiabilidade dos sistemas.

Gerenciar e ajustar sistemas baseados em Kafka, garantindo alta taxa de transferência e baixa latência.

Participar de planejamento de capacidade, testes de carga e estratégias de escalabilidade para cenários de alta demanda.

Melhorar continuamente os pipelines de

deploy, monitoramento e procedimentos de recuperação.

Fornecer mentoria técnica e orientar os times de engenharia nas melhores práticas de confiabilidade.

Requisitos:

Graduação em Ciência da Computação, Engenharia ou experiência equivalente.

5+ anos de experiência em funções de Site Reliability, DevOps ou Engenharia de Produção.

Conhecimento sólido em AWS (EC2, ECS, S3, RDS, CloudWatch, Lambda, VPC).

Forte domínio de ferramentas de observabilidade (NewRelic, Grafana, Prometheus, ElasticSearch, Kibana).

Experiência na manutenção de sistemas orientados a eventos com Kafka.

Familiaridade com Terraform, Docker e/ou Kubernetes para automação e deploy.

Experiência na construção e manutenção de pipelines de CI/CD.

Sólida compreensão de sistemas distribuídos, redes e otimização de desempenho.

Disponibilidade para trabalhar em turnos noturnos (escala de plantão).

Disponibilidade para cobrir turnos de trabalho durante períodos de alta demanda e suporte técnico (escalas de plantão).

Disponibilidade para trabalhar horas extras remuneradas, caso seja necessário resolver um problema técnico.

Diferenciais:

Experiência com frameworks de gerenciamento de incidentes.

Conhecimento em práticas de confiabilidade de banco de dados e colaboração com times de DBA.

Familiaridade com segurança, compliance e auditoria em ambientes em nuvem.

Entendimento de otimização de custos e engenharia de performance na AWS.

Inglês

***

Empresa de Tecnologia

Contratação via cooperativa

Key Skills

Ranked by relevance

Ready to apply?

Join K2 Solutions and take your career to the next level!

Application takes less than 5 minutes

Apply