Track This Job
Add this job to your tracking list to:
- Monitor application status and updates
- Change status (Applied, Interview, Offer, etc.)
- Add personal notes and comments
- Set reminders for follow-ups
- Track your entire application journey
Save This Job
Add this job to your saved collection to:
- Access easily from your saved jobs dashboard
- Review job details later without searching again
- Compare with other saved opportunities
- Keep a collection of interesting positions
- Receive notifications about saved jobs before they expire
AI-Powered Job Summary
Get a concise overview of key job requirements, responsibilities, and qualifications in seconds.
Pro Tip: Use this feature to quickly decide if a job matches your skills before reading the full description.
Trabalho híbrido na região de Pinheiros/ SP - 3x por semana no escritório
Estamos selecionando um Senior Site Reliability Engineer - SRE para se juntar ao nosso time e desempenhar um papel essencial na manutenção, automação e melhoria da confiabilidade dos sistemas que impulsionam a rede logística da empresa em múltiplas regiões. Essa pessoa garantirá que a plataforma permaneça resiliente, observável e de alto desempenho, ao mesmo tempo em que possibilita inovação rápida e entregas seguras em larga escala.
Responsabilidades:
Definir, implementar e monitorar Service Level Objectives (SLOs), SLIs e error budgets em serviços principais.
Construir e manter stacks de observabilidade usando NewRelic (ou outras ferramentas) para garantir visibilidade completa da saúde dos sistemas.
Automatizar tarefas operacionais por meio de infraestrutura como código (IaC) e pipelines de CI/CD.
Colaborar com os times de Infraestrutura e DBA para otimizar desempenho e melhorar a tolerância a falhas.
Desenvolver processos de resposta a
incidentes, runbooks e postmortems para aprimorar a confiabilidade dos sistemas.
Gerenciar e ajustar sistemas baseados em Kafka, garantindo alta taxa de transferência e baixa latência.
Participar de planejamento de capacidade, testes de carga e estratégias de escalabilidade para cenários de alta demanda.
Melhorar continuamente os pipelines de
deploy, monitoramento e procedimentos de recuperação.
Fornecer mentoria técnica e orientar os times de engenharia nas melhores práticas de confiabilidade.
Requisitos:
Graduação em Ciência da Computação, Engenharia ou experiência equivalente.
5+ anos de experiência em funções de Site Reliability, DevOps ou Engenharia de Produção.
Conhecimento sólido em AWS (EC2, ECS, S3, RDS, CloudWatch, Lambda, VPC).
Forte domínio de ferramentas de observabilidade (NewRelic, Grafana, Prometheus, ElasticSearch, Kibana).
Experiência na manutenção de sistemas orientados a eventos com Kafka.
Familiaridade com Terraform, Docker e/ou Kubernetes para automação e deploy.
Experiência na construção e manutenção de pipelines de CI/CD.
Sólida compreensão de sistemas distribuídos, redes e otimização de desempenho.
Disponibilidade para trabalhar em turnos noturnos (escala de plantão).
Disponibilidade para cobrir turnos de trabalho durante períodos de alta demanda e suporte técnico (escalas de plantão).
Disponibilidade para trabalhar horas extras remuneradas, caso seja necessário resolver um problema técnico.
Diferenciais:
Experiência com frameworks de gerenciamento de incidentes.
Conhecimento em práticas de confiabilidade de banco de dados e colaboração com times de DBA.
Familiaridade com segurança, compliance e auditoria em ambientes em nuvem.
Entendimento de otimização de custos e engenharia de performance na AWS.
Inglês
***
Empresa de Tecnologia
Contratação via cooperativa
Key Skills
Ranked by relevanceReady to apply?
Join K2 Solutions and take your career to the next level!
Application takes less than 5 minutes

