Ingénieur SRE - Exploitation Systèmes - H/F

L'entreprise

Au cœur des enjeux de la planète, CLS, Tech4Good company, filiale du CNES et de la CNP, est une société à mission internationale, pionnière dans la fourniture de solutions d’observation et de surveillance de la Terre.

Opérateur historique des balises Argos, CLS, depuis 1986, avec plus de 1000 salariés dans 30 pays, figure parmi les spécialistes des services satellitaires en utilisant les technologies spatiales les plus avancées, couplées au génie logiciel et à la data-sciences.

Vous souhaitez rejoindre des équipes agiles et dynamiques sur des projets innovants et ambitieux ? Explorer de nouvelles technologies ? Evoluer sur des projets transverses et variés autour des 5 secteurs d’activité de CLS ?

Ceci est possible au sein de notre Direction Systèmes d'Informations (DSI), dont le défi, pour soutenir la croissance de CLS, est de bâtir un socle solide et partagé au sein du groupe pour l’ensemble de ses systèmes et services actuels et futurs !

Au sein de la DSI, le département OPERATIONS assure le maintien en conditions opérationnelles, la fiabilité, la disponibilité et la performance des logiciels et des systèmes fournissant l'ensemble des services de CLS.

Le poste

Dans ce contexte, nous recherchons pour renforcer nos équipes un :


Ingénieur SRE - Exploitation Systèmes (F/H)

Vous jouerez un rôle central dans la fiabilité, la disponibilité et les performances d’un ou plusieurs services opérationnels.

Vous allierez les pratiques SRE, l’ingénierie d’exploitation et la maitrise des systèmes afin d’assurer la résilience des services dans un contexte critique 24/7 et dans un environnement hybride (cloud et on-premise).

Ce rôle, tout en étant hautement technique, se trouve au cœur de nombreux métiers et requiert une forte capacité de coordination interdisciplinaire.

Dans ce cadres, vos missions principales seront :


Gestion des incidents

  • Piloter les incidents majeurs, organiser la réponse opérationnelle et coordonner les équipes techniques jusqu’au rétablissement du service.
  • Réaliser les analyses post-incident, identifier les causes racines et définir les actions préventives.
  • Formaliser et améliorer les procédures opérationnelles.

Observabiltié et monitoring

  • Maintenir et faire évoluer la supervision, l’observabilité et l’alerting
  • Développer des tableaux de bord, métriques, logs et traces permettant une vision claire et temps réel de l’état de santé des services.
  • Identifier les faiblesses d’architecture, les dépendances clés, et les risques opérationnels pour améliorer la visibilité sur les services et optimiser les délais de détection et de rémédiation.
  • Définir et suivre les SLI/SLO en lien avec les équipes produits et les responsables business.

Automatisation et Industrialisation

  • Automatiser les tâches répétitives et réduire le toil opérationnel.
  • Industrialiser les déploiements via CI/CD et Infrastructure as Code.
  • Collaborer avec les équipes de développement pour intégrer les bonnes pratiques SRE dans le cycle de vie des applications
  • Standardiser les configurations et processus opérationnels pour améliorer la fiabilité et la maintenabilité des services.

Coordination pluridisciplinaire

  • Assurer un rôle de support opérationnel de niveau 2 et 3, en travaillant en étroite collaboration avec les opérateurs H24, qui assurent la supervision et les premières analyses d’alertes.
  • Collaborer avec les équipes IT et les développeurs pour identifier les causes profondes des incidents et mettre en place des actions correctives et préventives.
  • Garantir l'adéquation des solutions opérationnelles avec les spécifications contractuelles, économiques et calendaires des équipes commerciales.
  • Assurer l’application des standards de sécurité et le maintien en condition de sécurité des services en coordination avec le responsable de la politique de sécurité de l’entreprise.

Profil recherché

De formation supérieure en informatique, ingénierie système ou équivalent, vous détenez une première expérience réussie de 3 à 5 ans en exploitation, fiabilisation ou ingénierie système/SRE.


Compétences Techniques

    • Compétences Linux, Bash, Scripting
    • Conteneurs et orchestration : Docker, Kubernetes
    • Logiciel de déploiement et versionning : Git/GitLab, Ansible
    • Connaissances Cloud : AWS, Azure
    • Connaissances générales en systèmes IT: stockage, virtualisation, base de données, protocoles réseaux
    • Supervision, observabilité et alerting : Zabbix, Grafana, CloudWatch, Prometeus, ELK, OpenSearch

Compétences Transverses et de Coordination

  • Capacité d’analyse et de résolution de problèmes dans un environnement critique.
  • Rigueur, proactivité et sens aigu des responsabilités.
  • Esprit d’équipe, travail collaboratif, partage de connaissances et communication fluide avec les équipes techniques et métiers.

Nous sommes impatients de vous rencontrer pour discuter de votre avenir chez CLS ! Rejoignez-nous pour construire des systèmes fiables et performants au service d’opérations critiques en 24/7.

Éléments nécessaires pour postuler

Pour valider votre candidature, nous vous demandons de fournir les éléments suivants, vous devrez télécharger les pièces demandées directement lors de votre inscription.

Toute candidature incomplète ne sera pas traitée par nos services.

Document(s) :

  • Curriculum Vitæ
  • Lettre de motivation

Candidature facile