Что такое SLA

Соглашение об уровне обслуживания (SLA) – это документ, в котором подробно описывается ожидаемый уровень обслуживания, гарантированный поставщиком или продуктом. В этом документе обычно указываются такие показатели, как ожидаемое время безотказной работы, а также размер вознаграждения, если эти показатели не будут достигнуты.

Например, если провайдер рекламирует 99,9% времени безотказной работы, а время простоя превышает 43 минуты и 50 секунд, технически соглашение об уровне обслуживания было нарушено, и клиент может иметь право на определенную форму вознаграждения в соответствии с соглашением.

Для чего нам нужны SLA

Соглашение об уровне обслуживания (SLA) служит для определения качества услуги. Это способ определения предела отказов или времени, при котором измеряется реакция на услугу. Каждая служба измеряет свое качество по-разному, но во всех случаях оно относится ко времени и поэтому может быть измерено.

Например, если бы мы работали в ресторане, мы бы определили SLA по обслуживанию клиентов с несколькими параметрами:

  • Максимальное время с момента усаживания клиента за стол и обслуживания официантом.
  • Максимальное время с момента заказа напитка до момента его подачи.
  • Максимальное время с момента заказа блюда до момента его подачи.
  • Максимальное время с момента запроса счета и до оплаты.

Предположим, что в нашем ресторане мы считаем, что самое важное – это первоначальное внимание, и что с момента, когда вы садитесь за стол, до того, как вас обслужат, должно пройти не более 60 секунд. Если бы у нас был полностью сенсоризированный бизнес с технологией IoT, мы могли бы измерять время от момента, когда клиент садится за столик, до того, как к нему подойдет официант.

Таким образом, мы могли бы измерить каждого официанта по количеству раз, когда он успевает обслужить клиента за установленное время. Способ сделать это может быть более или менее простым, но давайте будем считать, что каждый раз, когда они делают это менее чем за 60 секунд, они выполняют требования, а когда нет, то нет. Таким образом, если из десяти клиентов, которых вы обслуживаете в течение часа, только двое не справляются, вы достигаете 80 %. Мы можем усреднить данные за весь их рабочий день и затем легко сравнить разных сотрудников, чтобы увидеть, у кого из них больше “качества” в метрике “обслуживание клиента, когда он садится за стол”.

Если бы мы использовали систему мониторинга, мы могли бы уведомлять вашего менеджера каждый раз, когда общее качество обслуживания падает ниже 80%, и, создавая автоматические отчеты, мы могли бы каждый месяц поощрять тех, кто имеет лучший % соответствия обслуживания, и наказывать (или увольнять) тех, кто работает хуже всех.

Одной из важнейших функций систем мониторинга является измерение. И измерение качества услуг имеет большое значение, если мы заботимся о качестве. Независимо от того, находимся ли мы на стороне поставщика или на стороне клиента.

Если вы платите за услугу, разве вы не хотели бы проверить, получаете ли вы то, за что платите?

Иногда мы правы, не полагаясь на чужие измерения, и необходимо проверить это с “нашей стороны”. Для этого необходимы такие инструменты мониторинга, как Pandora FMS.

Что такое время безотказной работы?

Время безотказной работы – это время, в течение которого услуга доступна и работает. Обычно это самый важный показатель для веб-сайта, онлайн-сервиса или веб-провайдера. Иногда uptime путают с SLA, но uptime – это очень распространенная метрика в онлайн-сервисах, которая используется для измерения SLA, а не SLA, которое, как мы уже видели, является чем-то гораздо более широким.

Компромиссом является время простоя: количество времени, в течение которого услуга недоступна.

Время безотказной работы обычно выражается в процентах, например, “99,9%”, за определенный период времени (обычно один месяц). Например, 99,9% времени безотказной работы эквивалентно 43 минутам и 50 секундам бездействия.

Каковы обычные показатели поставщиков?

Те, которые согласованы между поставщиком и клиентом. У каждой службы будут свои метрики и показатели. Таким образом, в нашей услуге ” Мониторинг как услуга” (MAAS) мы устанавливаем несколько параметров для измерения, давайте рассмотрим некоторые из них, чтобы лучше понять, как “измерить качество услуги” с помощью SLA:

  • Минимальное время реагирования на новый инцидент – 1 час в стандартной службе.
  • Время разрешения критических инцидентов: 6 часов при стандартном обслуживании.
  • Время доступности услуги 99,932% при стандартном обслуживании.

Когда мы говорим о % времени, это обычно относится к годовому расчету, поэтому 99,932% соответствует 5ч 57м 38с простоя за год. Мы можем использовать наш SLA-калькулятор (ниже для проверки других процентов).

И наоборот, 1 час – это обратный расчет, и для этого мы можем использовать онлайн-инструменты, такие как uptime.is. Используя его, мы получим, что 6 часов, которые соответствуют:

  • Еженедельная отчетность: 99,405 %.
  • Ежемесячная отчетность: 99,863 %.
  • Квартальная отчетность: 99,954 %.
  • Годовая отчетность: 99,989 %.

Как и в примере с официантом, мы можем измерить соответствие SLA поддержки путем измерения суммы нескольких факторов, если все они соблюдены, то мы соответствуем SLA, в противном случае – нет. Вот как это измеряет Pandora ITSM, компонент службы поддержки, интегрированный в Pandora FMS. Клиенты Pandora FMS используют Pandora ITSM для поддержки, и благодаря этому мы можем быть уверены, что клиенты всегда обслуживаются вовремя.

Как рассчитать время SLA услуги?

Используйте наш онлайн-калькулятор для расчета времени простоя услуги. Например, попробуйте 99,99%, чтобы увидеть максимальное время падения за день, месяц или целый год.

Ошибка: Не удалось отобразить встроенные данные.

Как Pandora FMS может помочь с SLA?

Pandora FMS имеет различные инструменты для исчерпывающего контроля SLA вашего клиента/поставщика. Доступны отчеты SLA, сегментированные по часам, дням или неделям. Таким образом, вы сможете визуально оценить, где есть несоответствия.

Это пример отчета SLA в настраиваемом временном диапазоне (один месяц) с временными интервалами в несколько минут.

Существуют отчеты, подготовленные для демонстрации случаев резервного копирования источников данных, чтобы мы могли знать о доступности услуги с точки зрения клиента и с внутренней точки зрения:

Это пример представления SLA за месяц с почасовой и ежедневной детализацией:

Это пример представления ежемесячного отчета SLA с еженедельным просмотром и ежедневной детализацией:

Это пример просмотра отчета SLA по месяцам с простым просмотром по дням:

Услуги мониторинга

Одной из наиболее продвинутых функций Pandora FMS является мониторинг услуг с помощью Pandora FMS. Он используется для постоянного мониторинга состояния сервиса, который, как мы видели в начале, состоит из набора показателей или метрик. Такая услуга часто имеет ряд зависимостей и весовых коэффициентов (некоторые вещи важнее других), и все услуги имеют определенный допуск или маржу, особенно если они состоят из многих элементов и некоторые из них являются избыточными.

Лучший пример – это кластер, где если у нас есть десять серверов, мы знаем, что система отлично работает с семью из них. Таким образом, сервис как таковой может работать при одной, двух или даже трех неработающих машинах.

В других случаях у услуги могут быть некритичные элементы, которые являются частью услуги и которые мы хотим контролировать, хотя на услугу это не влияет:

Одним из преимуществ услуг мониторинга является то, что мы можем легко получить маршрут к сбою, буквально имея возможность найти иголку в стоге сена, когда речь идет о технологии, источник проблемы может быть крошечным по сравнению с количеством данных, которые мы получаем. Услуги помогают нам определить источник проблемы и изолироваться от информационного шума. Они также позволяют нам отслеживать степень соответствия услуг в режиме реального времени и действовать до того, как качество обслуживания клиента пострадает.

Shares