The all-in-one community platform for creators and brands. https://circle.so/
Senior Site Reliability Engineer
Location
North America
Posted
4 days ago
Salary
$130K - $140K / year
Seniority
Senior
Job Description
Senior Site Reliability Engineer
Circle
• Act as a first responder for system incidents and outages, helping Circle stay highly available and performant • Own and evolve our monitoring, alerting, and log management systems • Manage and optimize our database infrastructure (including MySQL, Postgres, Clickhouse, and Redis) • Maintain and improve our server infrastructure and deployment pipelines • Collaborate closely with engineering teams to build scalable, resilient systems • Contribute to internal SRE tooling and automation efforts
Job Requirements
- Strong alignment with our values (find our values on our career page if you haven’t read up on them yet)
- You are proficient in English (spoken, written, and reading) at a CEFR Level C2 / ILR Level 5
- Deep expertise with AWS and Kubernetes
- 5+ years of experience in a Site Reliability, DevOps, or Infrastructure Engineering role
- Proven experience scaling production systems in a high-growth environment (startup or similar)
- Practical, day-to-day experience using AI tools to improve engineering productivity and outcomes (e.g., copilots, LLM-based debugging, automation, or documentation workflows)
- You’ve helped scale an early-stage product to 1M+ monthly active users
- Experience managing incident response and production system outages
- Hands-on experience with database operations and optimization
- Familiarity with observability tooling, monitoring, and logging best practices
- Based in North or South America (AMER region) — this is a requirement for timezone alignment with our team
Benefits
- Fully remote: work from anywhere in the world!
- Autonomy and trust to do your job: we care about outcomes over everything else.
- Paid time away: all employees are given 35 days of PTO annually. We also offer a paid sabbatical after 5 years.
- Generous U.S. benchmarked compensation and startup equity no matter where you are in the world.*
- Awesome medical coverage with 100% coverage for you and your family, or medical reimbursement options where applicable!*
- Parental leave for parents expanding their family, or just starting one.
- Home office stipend to help you get up and running.
- Learning & development stipend to help you level up your professional skills.
- Annual bonus potential for roles that don't already receive variable income or commission.
- Company retreats: Twice a year, the Circle team gets together for a fully paid company retreat in incredible places around the world! We’ve had past retreats in Colombia, Portugal, and Mexico, with more planned on the horizon.
Related Guides
Related Categories
Related Job Pages
More DevOps Engineer Jobs
DevOps Engineer, Fluent Ukrainian
SupportYourAppSupportYourApp is an industry leader in premium outsourced customer support that provides tech companies with reliable, cost-effective services. A multinational
• Будувати, підтримувати та оптимізувати CI/CD pipelines для веб-продуктів, сайтів та внутрішніх сервісів компанії у Jenkins та GitLab CI/CD • Підтримувати поступову міграцію deployment processes з Jenkins на GitLab CI • Забезпечувати стабільні, repeatable та predictable deployments з rollback-механізмами і мінімальною кількістю manual steps • Налаштовувати та підтримувати Docker-based runtime environments для web applications та сервісів • Стандартизувати Docker, docker-compose, deployment scripts та runtime-конфігурації, щоб рішення не потребували регулярного rework • Адмініструвати Linux-сервери у production-середовищі: налаштування, patch management, troubleshooting, performance analysis • Автоматизовувати infrastructure setup, configuration management та maintenance-процеси через Ansible і Bash • Підтримувати web infrastructure: Nginx, SSL/TLS, reverse proxy, routing, Cloudflare, DNS, caching та базові security rules • Налаштовувати, підтримувати та покращувати monitoring, logging та alerting для production systems • Аналізувати deployment failures та production incidents, визначати root cause і пропонувати preventive actions • Підтримувати backup/restore, monitoring та базове troubleshooting для MySQL/PostgreSQL • Забезпечення reliability та stability production systems • Аналіз production incidents, проведення root cause analysis та впровадження preventive actions • Участь у post-incident reviews та підготовка технічних висновків після інцидентів • Впроваджувати та підтримувати security practices для Linux і web infrastructure: hardening, контроль доступів, оновлення, закриття вразливостей • Документувати інфраструктурні рішення, deployment workflows, конфігурації та важливі зміни • Узгоджувати production changes з командою, попереджати про ризики та не вносити критичні зміни без прозорої комунікації • Проактивно виявляти слабкі місця в deployment, infrastructure та application architecture, які можуть призвести до нестабільності, та ініціювати їх усунення.
Role Description Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit. Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité. Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle. Responsibilities - Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performance - Analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutions - Collaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilité - Concevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribués - Établir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrents - Participer à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistre - Optimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réel - Développer et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en production - Collaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les priorités - Mentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résiliente Qualifications - 5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similaires - Expérience pratique solide avec Node.js et TypeScript dans des environnements de production - Expérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservices - Expérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API Gateway - Expérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événements - Compréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidents - Expérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseau - Compréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelle - Expérience avec MongoDB et Redis dans des environnements de production à grande échelle - Capacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes - Fortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et support - Expérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelle Nice to Have - Expérience avec Kubernetes et l'orchestration de conteneurs en production - Expérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts) - Expérience avec les bases de données relationnelles telles que PostgreSQL - Expérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineering - Expérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métier Benefits - Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile. - Travaillez à distance avec des horaires flexibles et une forte autonomie. - Contribuez à une entreprise en croissance où votre voix et votre impact comptent. - Rémunération compétitive et opportunités d'avancement. Salary Range 130-150k selon l'expérience
• Work on a strategic cloud modernization and migration program, supporting the evolution of the Client's Platform; • Plan and execute workload migrations from Azure to AWS in production and non-production environments; • Design, implement and maintain Infrastructure as Code (IaC) using Terraform and/or CloudFormation; • Structure and evolve CI/CD pipelines, ensuring automation, standardization and efficiency in deployment processes; • Configure, manage and optimize AWS services such as VPC, IAM, EC2, S3, Lambda, RDS, among others; • Implement secure deployment strategies, including Blue/Green Deployment, Canary Release and rollback plans; • Ensure platform observability through monitoring, metrics, centralized logging, distributed tracing and alerts; • Monitor performance, availability and stability of environments during migration windows; • Identify and resolve critical incidents, supporting troubleshooting actions in production environments; • Collaborate with Data Engineering, Development and Architecture teams to ensure workload compatibility and continuity; • Ensure the application of best practices in security, compliance and governance throughout the cloud transition process; • Contribute to building a modern, scalable, resilient and data-driven architecture.
Site Reliability Engineer
Veeam SoftwareYour Single Backup and Data Management Platform for Cloud, Virtual and Physical
• Get up to speed on VDC workloads, dependencies, and operational workflows by reading code, docs, and working with SMEs. • Write and maintain runbooks, incident guides, and operational documentation. • Support knowledge transfer and contribute to onboarding materials for the team. • Participate in incident response including triage, investigation, mitigation, and postmortems. • Help implement and maintain SLIs, SLOs, and error budgets defined by the team. • Identify reliability issues during incidents or reviews and propose concrete improvements. • Support high availability and fault tolerance work on Azure, including Azure Government. • Close monitoring gaps by implementing instrumentation, alerting, and dashboards based on team standards. • Contribute to toil reduction through automation and tooling improvements. • Participate in on-call rotations. • Work with IaC, CI/CD pipelines, and deployment tooling in compliance-restricted environments. • Support testing, canary deployments, and release validation workflows. • Implement changes to infrastructure and configuration following established patterns and review processes. • Work with engineering, security, compliance, and operations teams to execute on reliability improvements. • Communicate clearly about system behavior, risk, and status — in writing and in meetings. • Raise blockers and gaps proactively; don't wait for problems to escalate.



