Senior Site Reliability Engineer

DevOps EngineerDevOps EngineerFull TimeRemoteSeniorTeam 5,001-10,000H1B SponsorCompany SiteLinkedIn

Location

Canada

Posted

1 day ago

Salary

$120.4K - $216.6K / year

Seniority

Senior

Job Description

Senior Site Reliability Engineer

Akamai Technologies

• Owning the SRE infrastructure lifecycle from design reviews and pre-rollout readiness assessments through production sign-off and ongoing reliability management • Designing and implementing frameworks that reflect customer experience for load balancing services and driving action when error budgets are at risk • Building and maintaining observability pipelines from load-balancing components and system-level sources to dashboards that enable rapid incident triage • Leading technical incident response for complex NB/NLB failures, acting as the technical commander and driving root cause analysis and preventive follow-through • Developing and automating safe deployment workflows for phased releases, including bake-period monitoring, feature flag management, and validation across global datacenter rollouts • Reviewing design documents, product-requirement documents and producing actionable SRE input on operational risks, capacity implications, Day-2 concerns, and product strategy gaps • Building automation and tooling using Python or Go that reduces operational toil and improves team-wide operational capability

Job Requirements

  • 8+ years of experience in SRE, infrastructure engineering, or platform engineering, working with large-scale distributed systems
  • Demonstrate deep expertise with Linux networking fundamentals and diagnosing at the packet level using tcpdump, netstat, and similar tools
  • Have hands-on experience with L4/L7 load balancing technologies covering configuration, health checking, high availability, and failure modes at scale
  • Show a track record of defining SLO/SLI frameworks, building observability platforms from scratch, and running incident management processes at scale
  • Demonstrate expertise in Kubernetes and containerization at scale including workload scheduling, networking, resource management, and operating stateful or network-intensive workloads in a cluster environment
  • Build automation and tooling using Python or Go, with infrastructure-as-code experience (SaltStack, Ansible, or Terraform) and deployment safety instincts.

Benefits

  • healthcare
  • RRSP
  • company holidays
  • vacation (in the form of PTO)
  • sick time
  • family friendly benefits including employee assistance program including a focus on mental and financial wellness

Related Categories

Related Job Pages

More DevOps Engineer Jobs

Datavail logo

Senior Site Reliability Engineer

Datavail

We help clients turn data into decisions no matter where it lives-in apps, on-prem, in a hybrid model, or in the cloud.

Full TimeRemoteTeam 1,001-5,000Since 2007H1B Sponsor

• Define and maintain SLIs/SLOs, monitor alignment and error budget usage • Lead incident response and postmortems, implement corrective measures • Automate operations tasks via tooling (e.g. auto-remediation, scaling rules) • Build, improve, and maintain CI/CD pipelines, canary deployments, blue/green strategies • Lead technical discussions with customers to align on reliability, scalability, and performance requirements • Drive continuous platform improvements across the service lifecycle, including architecture, monitoring, and operational processes • Implement and extend observability systems (metrics, tracing, log aggregation) • Optimize performance and cost by tuning cloud services, autoscaling, resource rightsizing • Design, deploy, and operate containerized workloads using Docker and Kubernetes in production environments • Collaborate with dev teams to integrate resilience patterns (circuit breakers, bulkheading) • Participate in architecture discussions around high availability, disaster recovery • Mentor mid and junior SREs; conduct reliability design reviews

Colombia

Role Description Nous sommes à la recherche d'un·e développeur·se DevSecOps pour joindre notre équipe et intégrer la sécurité dans les pipelines de développement, l'infrastructure infonuagique et les pratiques d'ingénierie de nos clients. Dans ce rôle, vous concevrez et implémenterez des contrôles de sécurité directement dans les pipelines CI/CD, automatiserez les analyses de vulnérabilités, durcirez l'infrastructure infonuagique et collaborerez avec les équipes de développement et d'opérations pour ancrer la sécurité dès les premières étapes du cycle de développement. Vos responsabilités quotidiennes incluent : - Sécurité des pipelines CI/CD — Intégrer des outils d'analyse statique (SAST), d'analyse de composition logicielle (SCA) et de scan d'images de conteneurs dans les pipelines de déploiement; automatiser les vérifications de sécurité dans GitHub Actions, ArgoCD ou équivalents. - Sécurité de l'infrastructure infonuagique — Implémenter et maintenir des contrôles de sécurité dans les environnements AWS ou Azure à l'aide d'outils d'infrastructure-as-code (Terraform, CloudFormation ou équivalents), incluant la gestion des politiques IAM, le durcissement réseau et la gestion des vulnérabilités. - Gestion des identités et des accès — Concevoir et administrer des architectures IAM sécurisées, incluant le SSO, le MFA, le provisionnement SCIM et la gouvernance des accès, en travaillant avec des fournisseurs d'identité tels qu'Okta et Azure AD. - Automatisation de la sécurité et conformité — Développer des automatisations pour la détection de dérives de configuration, la remédiation et la surveillance de la conformité; contribuer aux programmes SOC 2, HIPAA et ISO 27001. - Sur certains mandats, leadership technique — Piloter des volets spécifiques en sécurité ou prendre en charge des livrables clients avec une autonomie croissante. - Soutien à l'équipe — Documenter les architectures et procédures de sécurité, contribuer aux outils et standards internes, participer aux activités de partage des connaissances et aux entrevues. Qualifications - 5 ans ou plus d'expérience en développement logiciel, DevOps ou sécurité applicative. - Expérience pratique avec des infrastructures AWS ou Azure et des outils d'infrastructure-as-code (Terraform, CloudFormation ou équivalents). - Solide expérience avec les pipelines CI/CD (GitHub Actions, ArgoCD, Jenkins ou équivalents) et l'intégration d'outils de sécurité dans les processus de déploiement. - Déployé et administré Okta ou des fournisseurs d'identité similaires (Azure AD, Google Workspace), incluant le SSO, le MFA, le provisionnement SCIM et la gouvernance des accès. - Familiarité avec les bonnes pratiques de sécurité pour l'infrastructure infonuagique, incluant la sécurité réseau, l'IAM, le chiffrement et la gestion des vulnérabilités. - Familiarité avec des cadres de conformité tels que SOC 2, HIPAA, ISO 27001 ou équivalents. - Excellentes compétences en communication et capacité d'expliquer des concepts de sécurité et d'infrastructure à des publics variés. - Adaptabilité, autonomie et aisance dans des environnements clients dynamiques. Requirements - Expérience dans des rôles orientés client (consultation, ingénierie d'implantation, services-conseils). - Expérience dans le secteur de la santé ou d'autres industries fortement réglementées. - Expérience avec la sécurité des conteneurs, Kubernetes ou des outils de sécurité cloud-native (Falco, OPA, Trivy ou équivalents). - Expérience en automatisation de la sécurité à l'aide de scripts (Python, Bash) ou d'outils de workflow (Okta Workflows, Tray.io, Workato). - Expérience avec des solutions MDM / de gestion des postes de travail et des politiques de sécurité des appareils. - Détention de certifications pertinentes (AWS Security Specialty, CKS, CISSP ou équivalentes). Benefits - Budget pour le bureau à domicile et la technologie. - Budget annuel de développement professionnel. - REER avec contribution de l'employeur après 1 an. - Dès le premier jour : Assurance santé et dentaire payée à 100 % par l'employeur, incluant un montant annuel pour les soins complémentaires (acupuncture, ostéopathie, massothérapie, naturopathie, psychologie, etc.). - Assurance vie et assurance invalidité de courte et de longue durée. - Complément de congé parental (8 semaines), disponible pour les employés ayant plus d'un an d'ancienneté, quel que soit le chemin vers la parentalité.

Canada
Precision eControl logo

Senior DevOps Engineer

Precision eControl

Precision eControl combines leading-edge analytics and technology to help effectively minimize eCommerce disruption.

Full TimeRemoteTeam 11-50Since 2022H1B No Sponsor

• Design, build, and operate cloud infrastructure and platform services in Azure; plan and execute migration patterns to AWS. • Own CI/CD and environment automation (build, test, deploy, release) to enable safe, repeatable delivery. • Implement and evolve observability (metrics, logs, traces, alerting) to improve reliability, performance, and incident response. • Troubleshoot and resolve production issues across cloud, networking, CI/CD, and platform services; contribute to on-call/incident practices. • Partner cross-functionally (application, data, platform) through sprint ceremonies to define standards and uplift delivery practices.

Ohio
$150K - $160K / year
NEORIS logo

Junior Cloud Operations & SRE Engineer

NEORIS

NEORIS is a Digital Accelerator that helps companies step into the future.

Full TimeRemoteTeam 1,001-5,000H1B No Sponsor

Role Description Estamos en búsqueda de: Ingeniero/a Junior de Operaciones Cloud AWS / SRE - Monitorizar entornos AWS y dar soporte en la respuesta a incidencias bajo supervisión. - Colaborar en la gestión y mejora de infraestructuras mediante Infrastructure as Code (Terraform, CloudFormation). - Apoyar en la aplicación de parches y actualizaciones para garantizar seguridad y estabilidad. - Mantener y actualizar documentación técnica, runbooks y bases de conocimiento. - Participar en la elaboración de reportes operativos periódicos (diarios, semanales y mensuales). Qualifications - Experiencia inicial (1-3 años) en entornos cloud AWS o en roles de operaciones / SRE. - Conocimientos de AWS (Landing Zone, AWS Organizations, SCPs, Direct Connect). - Conocimientos de EKS, Kubernetes y pipelines CI/CD. - Experiencia o conocimientos en Infrastructure as Code (Terraform, CloudFormation). - Nivel de inglés mínimo B2 (recomendable C1). - Disponibilidad para guardias: 1 semana completa al mes. - Disponibilidad para intervenciones puntuales: 4–8 horas/mes. - Capacidad de aprendizaje, trabajo en equipo y orientación a la calidad. Requirements - Conocimientos en observabilidad, monitorización y logging. - Familiaridad con herramientas de gestión de incidencias (ServiceNow, JIRA). - Certificaciones básicas en AWS. - Interés en desarrollo de carrera en SRE y automatización. Benefits - Contrato indefinido con salario competitivo. - Modalidad flexible y posibilidad de trabajo remoto. - Plan de carrera personalizado y formación continua. - Participación en proyectos estables con alto componente técnico. - Flexibilidad horaria y enfoque en la conciliación. - Beneficios sociales adaptados a tus necesidades. Company Description Te invitamos a conocernos en http://www.neoris.com, Facebook, LinkedIn, Twitter o Instagram: @NEORIS.

Spain