Senior SRE/Site Reliability Engineer
Bazon- от 350 000 руб.
Описание
Bazon специализированная учетная система для продавцов б/у автозапчастей. Сейчас мы обслуживаем сотни компаний от Калининграда до Владивостока, и являемся лидером в своей сфере.
Мы в поисках инженера, который возьмёт на себя архитектуру надёжности и приведёт всю платформу к предсказуемой отказоустойчивости, наблюдаемости и минимальному MTTR.
У нас уже есть зрелая инфраструктура и работающий стек мониторинга задача не строить всё с нуля, а провести аудит, стандартизировать практики и повысить предсказуемость поведения системы.
Это шанс построить архитектуру, которая не просто выглядит устойчивой на схемах, а реально выдерживает сбои и держит продукт в строю.
Какие задачи предстоит решать:
Архитектура отказоустойчивости
- Проектирование целевой инфраструктурной архитектуры с SLA уровня банковских стандартов.
- Выстраивание отказоустойчивого входного контура и схем маршрутизации внешнего трафика
- Выявление и устранение существующих SPOF, проектирование резервирования всех критичных компонентов.
- Стандартизация сетевых политик, маршрутизации, схем deployment/failover. Настройка сетевой изоляции и схем доступа.
Observability и диагностика
- Проведение аудита текущего Prometheus/Grafana/Tracing/Sentry-стека.
- Упорядочивание метрик, алертов и дашбордов удаление лишнего, добавление недостающих, стандартизация подходов.
- Сокращение времени диагностики инцидентов.
Инцидент-менеджмент
- Участие и лидирование postmortem ов, построение RCA-процессов.
- Обучение L2 и DevOps методам диагностики и работы с observability.
Security
- Аудит инфраструктуры, поиск misconfiguration ов и уязвимостей.
- Рекомендации по hardening (сетевые политики, доступы, Kubernetes).
- Выявление слабых мест в архитектуре и предложение решений по их устранению.
Наши ожидания от кандидата:
- Глубокое понимание Kubernetes на уровне архитектуры (network, storage, failover).
- Уверенная работа с архитектурами отказоустойчивости (multi-region, active-passive).
- Сильная сетевая компетенция:
- маршрутизация, балансировка, сетевые протоколы;
- опыт работы с BGP (или смежными технологиями);
- понимание L4/L7, ingress-контроллеров, схем распределения трафика.
- Опыт построения единой Observability-системы: Prometheus, Grafana
- Опыт выявления узких мест архитектуры и построения масштабируемых решений.
- Опыт аудита безопасности, выявления misconfiguration ов, будет преимуществом.
Что мы ожидаем от этой роли:
- Предсказуемое поведение платформы под нагрузкой снижение количества инцидентов, вызванных архитектурными и сетевыми особенностями.
- Сокращение MTTR за счёт стандартизации диагностики, прозрачной наблюдаемости и улучшения процессов реагирования.
- Прозрачная Observability-модель , в которой у сервисов есть корректные метрики, алерты и дашборды, а шум и дубли устранены.
- Повышение качества постмортемов и архитектурной обратной связи от фиксации фактов до предписаний изменений.
- Устранение ключевых SPOF и построение схем резервирования для критичных компонентов инфраструктуры.
- Стабильный входной трафик-слой , корректно переживающий сбои отдельных узлов и нарушений маршрутизации.
Что мы предлагаем:
- У нас амбициозные и интересные задачи, возможность внести свои инициативы и увидеть результат своей работы.
- А так же, адекватное руководство, компетентный коллектив, низкий уровень бюрократии.
-
Гибкий график, ДМС, официальное трудоустройство в аккредитованную IT-компанию.
-
Достойная "белая" заработная плата, растущая вслед за вашим профессионализмом.
-
Современный офис с прекрасным видом на реку, релакс-зоной, оборудованной кофейней и плюшками (в 5 минутах от м. Речной вокзал).
-
Гибридный или удаленный формат работы.
Описание
Эн+ Диджитал - молодая, активно развивающаяся ИТ-компания. Входим в реестр организаций, аккредитованных Министерством цифрового развития РФ.
...
Описание
Привет!
Мы команда Infrastructure & Operations. Создаем PaaS платформу для работы с "Data services" (DS): PostgreSQL, Redis, Kafka, ClickHouse и другими хранилищами. ...