Интенсивность отказов сантехнического оборудования справочник. Надежность и живучесть бортовых вычислительных систем (бцвс). Назначение и область применения методики

Типичная зависимость интенсивности отказов от времени: I - период приработки и отказов некачественных изделий; II - период нормальной эксплуатации; III - период старения (отказы вызваны износом деталей или старением материалов). Интенсивность отказов некоторых изделий (например, полупроводниковых приборов) не нарастает за всё время эксплуатации то есть, не имеет период старения, поэтому, иногда говорят, что их срок службы вечен.

Интенси́вность отка́зов - отношение числа отказавших объектов (образцов аппаратуры, изделий, деталей, механизмов, устройств, узлов и т. п.) в единицу времени к среднему числу объектов, исправно работающих в данный отрезок времени при условии, что отказавшие объекты не восстанавливаются и не заменяются исправными. Другими словами, интенсивность отказов численно равна числу отказов в единицу времени, отнесенное к числу узлов, безотказно проработавших до этого времени. Следующие определения интенсивности отказов эквивалентны:

λ (t) = n (t) N c p Δ t = n (t) [ N − n (t) ] Δ t = f (t) P (t) {\displaystyle \lambda (t)={\frac {n(t)}{N_{cp}\Delta t}}={\frac {n(t)}{\left\Delta t}}={\frac {f(t)}{P(t)}}}

где N {\displaystyle N} - общее число рассматриваемых изделий;
f (t) {\displaystyle f(t)} - скорость отказов - количество изделий, отказавших к моменту времени t {\displaystyle t} в единицу времени;
P (t) {\displaystyle P(t)} - количество изделий, не отказавших к моменту времени t {\displaystyle t} ;
n (t) {\displaystyle n(t)} - число отказавших образцов в интервале времени от t − (Δ t / 2) {\displaystyle t-(\Delta t/2)} до t + (Δ t / 2) {\displaystyle t+(\Delta t/2)} ;
- интервал времени;
N c p {\displaystyle {N_{cp}}} - среднее число исправно работающих образцов в интервале Δ t {\displaystyle \Delta t} : N c p = N i + N i + 1 2 {\displaystyle {N_{cp}}={\frac {N_{i}+N_{i+1}}{2}}}

где N i {\displaystyle N_{i}} - число исправно работающих образцов в начале интервала Δ t {\displaystyle \Delta t} ;
N i + 1 {\displaystyle N_{i+1}} - число исправно работающих образцов в конце интервала Δ t {\displaystyle \Delta t} .

Размерность интенсивности отказов обратна времени, обычно измеряется в 1/час.

Примеры

При испытании длительностью 3000 часов из 1000 изделий отказало 150. тогда интенсивность отказов этих изделий:

λ (3000) = 150 (1000 − 150) ⋅ (3000 − 0) ≈ 5 , 8824 ⋅ 10 − 5 {\displaystyle \lambda (3000)={\frac {150}{(1000-150)\cdot (3000-0)}}\approx 5,8824\cdot 10^{-5}} 1/час.

Например, средние значения интенсивностей отказов в период нормальной эксплуатации составляют:

Наиболее статистически надёжные данные по интенсивности отказов собраны для электронных компонентов.

  • Дискретные резисторы: от 1 ⋅ 10 − 9 {\displaystyle 1\cdot 10^{-9}} до 1/час.
  • Дискретные неэлектролитические конденсаторы : от до 1 ⋅ 10 − 8 {\displaystyle 1\cdot 10^{-8}} 1/час.
  • Электролитические конденсаторы : от 1 ⋅ 10 − 3 {\displaystyle 1\cdot 10^{-3}} до 1/час.
  • Полупроводниковые маломощные приборы (диоды, транзисторы) после приработки: от 1 ⋅ 10 − 6 {\displaystyle 1\cdot 10^{-6}} до 1/час.
  • Интегральные микросхемы в период нормальной эксплуатации: от 1 ⋅ 10 − 5 {\displaystyle 1\cdot 10^{-5}} до 1 ⋅ 10 − 7 {\displaystyle 1\cdot 10^{-7}} 1/час.

Интенсивность отказов () называется вероятность отказа не ремонтируемого изделия в единицу времени при условии, что отказ до этого момента не возникал. Предположим, что некоторый элемент проработал в течение интервала времени от 0 до t. Какова вероятность того, что этот элемент откажет на интервале .

А-событие безотказной работы от 0 до t. В-событие безотказной работы от t до t 1 .

Для того чтобы элемент смог безотказно работать на интервале он должен безотказно проработать на интервале 0 до t.

Р(АВ)=Р(А)*Р(В/А) (1)

Р(А) =Р(0,t) – вероятность безотказной работы элемента на интервале от 0 до t.

Р(В/А) = Р(t,t 1) – условная вероятность события В, что условие А имело место.

Р(В/А)= Р(t,t 1)=Р(АВ)/Р(А); Р(АВ)= Р(0,t 1).

0, t= 0,t+ t, t 1 ,

Р(t,t 1)= Р(0,t 1)/ Р(0,t) (2)

Р(t,t 1)= Р(t 1)/ Р(t) (2а)

Вероятность отказа элемента на интервале (t, t 1):

Равенство (3) может быть переписано в виде: . Умножим числитель и знаменатель (4) на при .

Введем обозначение - интенсивность отказа.

Из равенства (5) с учетом (6) получим: , .

Из (7) следует что интенсивность отказа есть отношение вероятности отказа на интервал () при . Интенсивность отказов определяемая (7) стремится к интенсивности отказа определяемая равенством (6). В соответствии (6) величина может быть определена из графика функции надежности как отношение численного значения тангенса угла наклона касательной к кривой к численной ординаты функции надежности.

Если известна интенсивность отказа элементов, то можно рассчитать вероятность работы любой сколь угодно сложной системы. Незнание функции для составляющих элементов исключает возможность определить вероятность безотказной работы.

Чем менее точно известно для элементов тем больше ошибки в расчете безотказности изделия.

Интенсивность отказов может быть определена опытным путем на основе испытаний изделий.

Предположим Р(t) – есть отношение: , - число элементов, оставшихся безотказными. Тогда на малом отрезке и большом числе испытуемых образцов N.

где -число отказавших элементов на интервале времени, n(t)-число неотказавших элементов.

Экспериментальная кривая заменяется плавной кривой. Чем больше N и меньше интервал времени , тем точнее экспериментальная характеристика и заменяющая её плавная кривая, которая отражает действительную картину интенсивности отказов.

Эргодическая теория. На основании известной из теории вероятности эргодической теории среднее значение (мат. ожидание) при совокупном наблюдении ……….равна среднему значению по времени, определенной за одной системой (элементов).


В данном случае это означает, что изменение интенсивности отказа по времени для 1-го отдельно взятого элемента может быть описано тем же самым законом что и интенсивность, полученная при испытании однотипных элементов большой группы.

Вид функции показан 3 характерных участка:

I – участок приработки; II – нормальной эксплуатации; III – участок износовых отказов, могут возникать внезапные отказы.

Деление на участки является условным но оно позволяет рассмотреть работу элементов по участкам и для каждого участка применять свой закон распределения.

Общая формула безотказной работы позволяет определить Р если известна интенсивность отказа.

Если требуется определить вероятность безотказной работы . Равенство (12) справедливо при условии, что в момент времени t 1 элемент находился в работоспособном состоянии.

Часть 1.

Введение
Развитие современной аппаратуры характеризуется значительным увеличением ее сложности. Усложнение обуславливает повышение гарантии своевременности и правильности решения задач.
Проблема надежности возникла в 50-х годах, когда начался процесс быстрого усложнения систем, и стали вводиться в действие новые объекты. В это время появились первые публикации, определяющие понятия и определения, относящиеся к надежности [ 1 ] и была создана методика оценки и расчета надежности устройств вероятностно-статистическими методами.
Исследование поведения аппаратуры (объекта) во время эксплуатации и оценка ее качества определяет его надежность. Термин "эксплуатация" происходит от французского слова "exploitation", что означает получение пользы или выгоды из чего-либо.
Надежность - свойство объекта выполнять заданные функции, сохраняя во времени значения установленных эксплуатационных показателей в заданных пределах.
Для количественного выражения надежности объекта и для планирования эксплуатации используются специальные характеристики - показатели надежности. Они позволяют оценивать надежность объекта или его элементов в различных условиях и на разных этапах эксплуатации.
Более подробно с показателями надежности можно ознакомиться в ГОСТ 16503-70 - "Промышленные изделия. Номенклатура и характеристика основных показателей надежности.", ГОСТ 18322-73 - "Системы технического обслуживания и ремонта техники. Термины и определения.", ГОСТ 13377-75 - "Надежность в технике. Термины и определения".

Определения
Надежность - свойство [далее - (сво-во)] объекта [далее - (ОБ)] выполнять требуемые функции, сохраняя свои эксплуатационные показатели в течение заданного периода времени.
Надежность представляет собой комплексное сво-во, сочетающее в себе понятие работоспособности, безотказности, долговечности, ремонтопригодности и сохранности.
Работоспособность - представляет собой состояние ОБ, при котором он способен выполнять свои функции.
Безотказность - сво-во ОБ сохранять свою работоспособность в течение определенного времени. Событие, нарушающее работоспособность ОБ, называется отказом. Самоустраняющийся отказ называется сбоем.
Долговечность - сво-во ОБ сохранять свою работоспособность до предельного состояния, когда его эксплуатация становится невозможной по техническим, экономическим причинам, условиям техники безопасности или необходимости капитального ремонта.
Ремонтопригодность - определяет приспособляемость ОБ к предупреждению и обнаружению неисправностей и отказов и устранению их путем проведения ремонтов и технического обслуживания.
Сохраняемость - сво-во ОБ непрерывно поддерживать свою работоспособность в течение и после хранения и технического обслуживания.

Основные показатели надежности
Основными качественными показателями надежности является вероятность безотказной работы, интенсивность отказов и средняя наработка до отказа.
Вероятность безотказной работы P(t) представляет собой вероятность того, что в пределах указанного периода времени t , отказ ОБ не возникнет. Этот показатель определяется отношение числа элементов ОБ, безотказно проработавших до момента времени t к общему числу элементов ОБ, работоспособных в начальный момент.
Интенсивность отказов l (t) - это число отказов n(t) элементов ОБ в единицу времени, отнесенное к среднему числу элементов Nt ОБ, работоспособных к моменту времени D t :
l (t )= n (t )/(Nt * D t ) , где
D t - заданный отрезок времени.
Например : 1000 элементов ОБ работали 500 часов. За это время отказали 2 элемента. Отсюда, l (t )= n (t )/(Nt * D t )=2/(1000*500)=4*10 -6 1/ч, т.е. за 1 час может отказать 4-е элемента из миллиона.
Показатели интенсивности отказов комплектующих берутся на основании справочных данных [ 1, 6, 8 ]. Для примера в приведена интенсивность отказов l (t) некоторых элементов.

Наименование элемента

Интенсивность отказов, *10 -5, 1/ч

Резисторы

Конденсаторы

Трансформаторы

Катушки индуктивности

Коммутационные устройства

Соединения пайкой

Провода, кабели

Электродвигатели


Надежность ОБ, как системы, характеризуется потоком отказов L , численно равное сумме интенсивности отказов отдельных устройств:
L = ål i
По формуле рассчитывается поток отказов и отдельных устройств ОБ, состоящих, в свою очередь, из различных узлов и элементов, характеризующихся своей интенсивностью отказов. Формула справедлива для расчета потока отказов системы из n элементов в случае, когда отказ любого из них приводит к отказу всей системы в целом. Такое соединение элементов называется логически последовательным или основным. Кроме, того, существует логически параллельное соединение элементов, когда выход их строя одного из них не приводит к отказу системы в целом. Связь вероятности безотказной работы P(t) и потока отказов L определяется:
P (t )= exp (- D t ) , очевидно, что 0И 0< P (t )<1 и p (0)=1, а p (¥ )=0
Средняя наработка до отказа To - это математическое ожидание наработки ОБ до первого отказа:
To=1/ L =1/(ål i) , или , отсюда : L =1/To
Время безотказной работы равно обратной величине интенсивности отказов.
Например : технология элементов обеспечивает среднюю интенсивность отказов l i =1*10 -5 1/ч . При использовании в ОБ N=1*10 4 элементарных деталей суммарная интенсивность отказов l о= N * l i =10 -1 1/ч . Тогда среднее время безотказной работы ОБ To =1/ l о=10 ч. Если выполнить ОБ на основе 4-х больших интегральных схем (БИС), то среднее время безотказной работы ОБ увеличится в N/4=2500 раз и составит 25000 ч. или 34 месяца или около 3 лет.

Расчет надежности
Формулы позволяют выполнить расчет надежности ОБ, если известны исходные данные - состав ОБ, режим и условия его работы, интенсивности отказов его компонент (элементов). Однако при практических расчетах надежности есть трудности из-за отсутствия достоверных данных о интенсивности отказов для номенклатуры элементов, узлов и устройств ОБ. Выход из этого положения дает применение коэффициентного метода. Cущность коэффициентного метода состоит в том, что при расчете надежности ОБ используют не абсолютные значения интенсивности отказов l i , а коэффициент надежности ki , связывающий значения l i с интенсивностью отказов l b какого-либо базового элемента:
ki = l i / l b
Коэффициент надежности ki практически не зависит от условий эксплуатации и для данного элемента является константой, а различие условий эксплуатации ku учитывается соответствующими изменениями l b . В качестве базового элемента в теории и практике выбран резистор. Показатели надежности комплектующих берутся на основании справочных данных [ 1, 6, 8 ]. Для примера в приведен коэффициенты надежности ki некоторых элементов. В табл. 3 приведены коэффициенты условий эксплуатации ku работы для некоторых типов аппаратуры.
Влияние на надежность элементов основных дестабилизирующих факторов - электрических нагрузок, температуры окружающей среды - учитывается введением в расчет поправочных коэффициентов a . В табл. 4 приведены коэффициенты условий a работы для некоторых типов элементов. Учет влияния других факторов - запыленности, влажности и т.д. - выполняется коррекцией интенсивности отказов базового элемента с помощью поправочных коэффициентов.
Результирующий коэффициент надежности элементов ОБ с учетом поправочных коэффициентов:
ki"=a1*a2*a3*a4*ki*ku, где
ku - номинальное значение коэффициента условий эксплуатации
ki - номинальное значение коэффициент надежности
a1 - коэффициент учитывающий влияние электрической нагрузки по U, I или P
a2 - коэффициент учитывающий влияние температуры среды
a3 - коэффициент снижения нагрузки от номинальной по U, I или P
a4 - коэффициент использования данного элемента, к работе ОБ в целом

Условия эксплуатации

Коэффициент условий

Лабораторные условия

Аппаратура стационарная:

В помещениях

Вне помещений

Подвижная аппаратура:

Корабельная

Автомобильная

Поездная

Наименование элемента и его параметры

Коэффициент нагрузки

Резисторы:

По напряжению

По мощности

Конденсаторы

По напряжению

По реактивной мощности

По прямому току

По обратному напряжению

По температуре перехода

По току коллектора

По напряж. коллектор-эмиттер

По рассеиваемой мощности

Порядок расчета состоит в следующем:
1. Определяют количественные значения параметров, характеризующие нормальную работу ОБ.
2. Составляют поэлементную принципиальную схему ОБ, определяющую соединение элементов при выполнении ими заданной функции. Вспомогательные элементы, использующиеся при выполнении функции ОБ, не учитываются.
3. Определяются исходные данные для расчета надежности:

  • тип, количество, номинальные данные элементов
  • режим работы, температура среды и другие параметры
  • коэффициент использования элементов
  • коэффициент условий эксплуатации системы
  • определяется базовый элемент l b и интенсивность отказов l b "
  • по формуле: ki "= a 1* a 2* a 3* a 4* ki * ku определяется коэффициент надежности

4. Определяются основные показатели надежности ОБ, при логически последовательном (основном) соединении элементов, узлов и устройств:

  • вероятность безотказной работы : P(t)=exp{- l b*To*} , где
    Ni - число одинаковых элементов в ОБ
    n - общее число элементов в ОБ, имеющих основное соединение
  • наработка на отказ :
    To=1/{ l b*}

Если в схеме ОБ есть участки с параллельным соединением элементов, то сначала делается расчет показателей надежности отдельно для этих элементов, а затем для ОБ в целом.
5. Найденные показатели надежности сравниваются с требуемыми. Если не соответствуют, то принимаются меры к повышению надежности ОБ ().
6. Средствами повышения надежности ОБ являются:
- введение избыточности, которая бывает:

  • внутриэлементная - применение более надежных элементов
  • структурная - резервирование - общее или раздельное

Пример расчета:
Рассчитаем основные показатели надежности для вентилятора на асинхронном электродвигателе. Схема приведена на . Для пуска М замыкают QF, а затем SB1. KM1 получает питание, срабатывает и своими контактами КМ2 подключает М к источнику питания, а вспомогательным контактом шунтирует SB1. Для отключения М служит SB2.

В защите М используются FA и тепловое реле KK1 с КК2. Вентилятор работает в закрытом помещении при T=50 C в длительном режиме. Для расчета применим коэффициентный метод, используя коэффициенты надежности компонент схемы. Принимаем интенсивность отказов базового элемента l b =3*10 -8 . На основании принципиальной схемы и ее анализа, составим основную схему для расчета надежности (). В расчетную схему включены компоненты, отказ которых приводит к полному отказу устройства. Исходные данные сведем в .

Базовый элемент, 1/ч

l б

3*10 -8

Коэф. условий эксплуатации

Интенсивность отказов

l б ’

l б* ku =7,5*10 -8

Время работы, ч

Элемент принципиальной схемы

Элемент расчетной схемы

Число элементов

Коэф. надежности

Коэф. нагрузки

Коэф. электрической нагрузки

Коэф. температуры

Коэф. нагрузки по мощности

Коэф. использования

Произведение коэф. a

Коэф. надежности

S (Ni * ki ’)

Наработка до отказа, ч

1/[ l б ’* S (Ni*ki’)]=3523,7

Вероятность

е [- l б ’*To* S (Ni*ki’)] =0,24

По результатам расчета можно сделать выводы:
1. Наработка до отказа устройства: To=3524 ч.
2. Вероятность безотказной работы: p(t)=0,24. Вероятность того, что в пределах заданного времени работы t в заданных условиях работы не возникнет отказа.

Частные случай расчета надежности.

1. Объект (далее ОБ) состоит из n блоков, соединенных последовательно (). Вероятность безотказной работы каждого блока p. Найти вероятность безотказной работы P системы в целом.

Решение: P = p n
2. ОБ состоит из n блоков, соединенных параллельно (). Вероятность безотказной работы каждого блока p. Найти вероятность безотказной работы P системы в целом.

Решение: P =1-(1- p ) 2
3. ОБ состоит из n блоков, соединенных параллельно (). Вероятность безотказной работы каждого блока p. Вероятность безотказной работы переключателя (П) p1. Найти вероятность безотказной работы P системы в целом.

Решение: P=1-(1-p)*(1-p1*p)
4. ОБ состоит из n блоков (), с вероятность безотказной работы каждого блока p. С целью повышения надежности ОБ произведено дублирование, еще такими-же блоками. Найти вероятность безотказной работы системы: с дублированием каждого блока Pa, с дублированием всей системы Pb.

Решение: Pa = n Pb = 2
5. ОБ состоит из n блоков (см. рис. 10). При исправном C вероятность безотказной работы U1=p1, U2=p2. При неисправном C вероятность безотказной работы U1=p1", U2=p2". Вероятность безотказной работы C=ps. Найти вероятность безотказной работы P системы в целом.

Решение: P = ps *+(1- ps )*
9. ОБ состоит из 2-х узлов U1 и U2. Вероятность безотказной работы за время t узлов: U1 p1=0.8, U2 p2=0.9. По истечении времени t ОБ несправен. Найти вероятность, что:
- H1 - неисправен узел U1
- H2 - неисправен узел U2
- H3 - неисправны узлы U1 и U2
Решение: Очевидно, имело место H0, когда оба узла исправны.
Событие A=H1+H2+H3
Априорные (первоначальные) вероятности:
- P(H1)=(1-p1)*p2 =(1-0.8)*0.9=0.2*0.9=0.18
- P(H2)=(1-p2)*p1 =(1-0.9)*0.8=0.1*0.8=0.08
- P(H3)=(1-p1)*(1-p2) =(1-0.8)*0.9=0.2*0.1=0.02
- A= i=1 å 3 *P(Hi)=P(H1)+P(H2)+P(H3) =0.18+0.08+0.02=0.28
Апостерионые (конечные) вероятности:
- P(H1/A)=P(H1)/A=0.18/0.28=0.643
- P(H2/A)=P(H2)/A=0.08/0.28=0.286
- P(H3/A)=P(H3)/A=0.02/0.28=0.071
10. ОБ состоит из m блоков типа U1 и n блоков типа U2. Вероятность безотказной работы за время t каждого блока U1=p1, каждого блока U2=p2. Для работы ОБ достаточно, чтобы в течение t работали безотказно любые 2-а блока типа U1 и одновременно с этим любые 2-а блока типа U2. Найти вероятность безотказной работы ОБ.
Решение: Событие A (безотказная работа ОБ) есть произведение 2-х событий:
- A1 - (не менее 2-х из m блоков типа U1 работают)
- A2 - (не менее 2-х из n блоков типа U2 работают)
Число X1 работающих безотказно блоков типа U1 есть случайная величина, распределенная по биномиальному закону с параметрами m, p1. Событие A1 состоит в том, что X1 примет значение не менее 2, поэтому:

P(A1 )=P{X1>2}=1-P(X1<2)=1-P(X1=0)-P(X1=1)=1-(g1 m +m*g2 m-1 *p1) , где g1=1-p1

аналогично: P(A2)=1-(g2 n +n*g2 n-1 *p2) , где g2=1-p2

Вероятность безотказной работы ОБ:

R =P(A)=P(A1)*P(A2)=* , где g1=1-p1, g2=1-p2

11. ОБ состоит из 3-х узлов (). В узле U1 n1 элементов с интенсивностью отказов l1. В узле U2 n2 элементов с интенсивностью отказов l2. В узле U3 n3 элементов с интенсивностью отказов l2, т.к. U2 и U3 дублируют друг друга. U1 выходит из строя если в нем отказало не менее 2-х элементов. U2 или U3, т.к. дублируются, выходят из строя если в них отказал хотя бы один элемент. ОБ выходит из строя если отказал U1 или U2 и U3 вместе. Вероятность безотказной работы каждого элемента p. Найти вероятность того, что за время t ОБ не выйдет из строя.
Вероятности выхода из строя U 2 и U 3 равны:

R2=1-(1-p2) n2 R3=1-(1-p3) n3

Вероятности выхода из строя всего ОБ:
R=R1+(1-R1)*R2*R3

Литература:

  • Малинский В.Д. и др. Испытания радиоаппаратуры, "Энергия", 1965 г.
  • ГОСТ 16503-70 - "Промышленные изделия. Номенклатура и характеристика основных показателей надежности".
  • Широков А.М. Надежность радиоэлектронных устройств, М, Высшая школа, 1972 г.
  • ГОСТ 18322-73 - "Системы технического обслуживания и ремонта техники. Термины и определения".
  • ГОСТ 13377-75 - "Надежность в технике. Термины и определения".
  • Козлов Б.А., Ушаков И.А. Справочник по расчету надежности аппаратуры радиоэлектроники и автоматики, М, Сов. Радио, 1975 г.
  • Перроте А.И., Сторчак М.А. Вопросы надежности РЭА, М, Сов. Радио, 1976 г.
  • Левин Б.Р. Теория надежности радиотехнических систем, М, Сов. Радио, 1978 г.
  • ГОСТ 16593-79 - "Электроприводы. Термины и определения".

И. Брагин 08.2003 г.

Аннотация: Рассматриваются два вида средств поддержания высокой доступности: обеспечение отказоустойчивости (нейтрализация отказов, живучесть) и обеспечение безопасного и быстрого восстановления после отказов (обслуживаемость).

Доступность

Основные понятия

Информационная система предоставляет своим пользователям определенный набор услуг (сервисов). Говорят, что обеспечен нужный уровень доступности этих сервисов, если следующие показатели находятся в заданных пределах:

  • Эффективность услуг . Эффективность услуги определяется в терминах максимального времени обслуживания запроса, количества поддерживаемых пользователей и т.п. Требуется, чтобы эффективность не опускалась ниже заранее установленного порога.
  • Время недоступности . Если эффективность информационной услуги не удовлетворяет наложенным ограничениям, услуга считается недоступной. Требуется, чтобы максимальная продолжительность периода недоступности и суммарное время недоступности за некоторый период (месяц, год) не превышали заранее заданных пределов.

В сущности, требуется, чтобы информационная система почти всегда работала с нужной эффективностью. Для некоторых критически важных систем (например, систем управления) время недоступности должно быть нулевым, без всяких "почти". В таком случае говорят о вероятности возникновения ситуации недоступности и требуют, чтобы эта вероятность не превышала заданной величины. Для решения данной задачи создавались и создаются специальные отказоустойчивые системы , стоимость которых, как правило, весьма высока.

К подавляющему большинству коммерческих систем предъявляются менее жесткие требования, однако современная деловая жизнь и здесь накладывает достаточно суровые ограничения, когда число обслуживаемых пользователей может измеряться тысячами, время ответа не должно превышать нескольких секунд, а время недоступности – нескольких часов в год.

Задачу обеспечения высокой доступности необходимо решать для современных конфигураций, построенных в технологии клиент/сервер. Это означает, что в защите нуждается вся цепочка – от пользователей (возможно, удаленных) до критически важных серверов (в том числе серверов безопасности).

Основные угрозы доступности были рассмотрены нами ранее.

В соответствии с ГОСТ 27.002, под отказом понимается событие, которое заключается в нарушении работоспособности изделия. В контексте данной работы изделие – это информационная система или ее компонент.

В простейшем случае можно считать, что отказы любого компонента составного изделия ведут к общему отказу , а распределение отказов во времени представляет собой простой пуассоновский поток событий. В таком случае вводят понятие интенсивности отказов и , которые связаны между собой соотношением

где – номер компонента,

интенсивность отказов ,

– .

Интенсивности отказов независимых компонентов складываются:

а среднее время наработки на отказ для составного изделия задается соотношением

Уже эти простейшие выкладки показывают, что если существует компонент, интенсивность отказов которого много больше, чем у остальных, то именно он определяет среднее время наработки на отказ всей информационной системы. Это является теоретическим обоснованием принципа первоочередного укрепления самого слабого звена .

Пуассоновская модель позволяет обосновать еще одно очень важное положение, состоящее в том, что эмпирический подход к построению систем высокой доступности не может быть реализован за приемлемое время. При традиционном цикле тестирования/отладки программной системы по оптимистическим оценкам каждое исправление ошибки приводит к экспоненциальному убыванию (примерно на половину десятичного порядка) интенсивности отказов . Отсюда следует, что для того, чтобы на опыте убедиться в достижении необходимого уровня доступности, независимо от применяемой технологии тестирования и отладки, придется потратить время, практически равное среднему времени наработки на отказ . Например, для достижения среднего времени наработки на отказ 10 5 часов потребуется более 10 4,5 часов, что составляет более трех лет. Значит, нужны иные методы построения систем высокой доступности , методы, эффективность которых доказана аналитически или практически за более чем пятьдесят лет развития вычислительной техники и программирования.

Пуассоновская модель применима в тех случаях, когда информационная система содержит одиночные точки отказа , то есть компоненты, выход которых из строя ведет к отказу всей системы. Для исследования систем с резервированием применяется иной формализм .

В соответствии с постановкой задачи будем считать, что существует количественная мера эффективности предоставляемых изделием информационных услуг. В таком случае вводятся понятия показателей эффективности отдельных элементов и эффективности функционирования всей сложной системы.

В качестве меры доступности можно принять вероятность приемлемости эффективности услуг, предоставляемых информационной системой, на всем протяжении рассматриваемого отрезка времени. Чем большим запасом эффективности располагает система, тем выше ее доступность.

При наличии избыточности в конфигурации системы вероятность того, что в рассматриваемый промежуток времени эффективность информационных сервисов не опустится ниже допустимого предела, зависит не только от вероятности отказа компонентов, но и от времени, в течение которого они остаются неработоспособными, поскольку при этом суммарная эффективность падает, и каждый следующий отказ может стать фатальным. Чтобы максимально увеличить доступность системы, необходимо минимизировать время неработоспособности каждого компонента. Кроме того, следует учитывать, что, вообще говоря, ремонтные работы могут потребовать понижения эффективности или даже временного отключения работоспособных компонентов; такого рода влияние также необходимо минимизировать.

Несколько терминологических замечаний. Обычно в литературе по теории надежности вместо доступности говорят о готовности (в том числе о высокой готовности ). Мы предпочли термин "доступность", чтобы подчеркнуть, что информационный сервис должен быть не просто "готов" сам по себе, но доступен для своих пользователей в условиях, когда ситуации недоступности могут вызываться причинами, на первый взгляд не имеющими прямого отношения к сервису (пример – отсутствие консультационного обслуживания).

Далее, вместо времени недоступности обычно говорят о коэффициенте готовности . Нам хотелось обратить внимание на два показателя – длительность однократного простоя и суммарную продолжительность простоев, поэтому мы предпочли термин " время недоступности " как более емкий.

Основы мер обеспечения высокой доступности

Основой мер повышения доступности является применение структурированного подхода, нашедшего воплощение в объектно-ориентированной методологии. Структуризация необходима по отношению ко всем аспектам и составным частям информационной системы – от архитектуры до административных баз данных, на всех этапах ее жизненного цикла – от инициации до выведения из эксплуатации. Структуризация , важная сама по себе, является одновременно необходимым условием практической реализуемости прочих мер повышения доступности. Только маленькие системы можно строить и эксплуатировать как угодно. У больших систем свои законы, которые, как мы уже указывали, программисты впервые осознали более 30 лет назад.

При разработке мер обеспечения высокой доступности

При рассмотрении вопросов надежности часто бывает удобно представить себе дело так, словно на элемент действует поток отказов с некоторой интенсивностью l(t); элемент отказывает в тот момент, когда происходит первое событие этого потока.

Образ "потока отказов" приобретает реальный смысл, если отказавший элемент немедленно заменя­ется новым (восстанавливается). Последовательность случайных моментов времени, в которое проис­ходят отказы (рис.3.10), представляет собой некоторый поток событий, а интервалы между событиями - независимые случайные величины, распределенные по соответствующему закону распределения.

Понятие "интенсивности отказов" может быть введено для любого закона надежности с плотностью f(t); в общем случае интенсивность отказов l будет переменной величиной.

Интенсивностью (или иначе "опасностью") отказов называется отношение плотности распределения времени безотказной работы элемента к его надежности:

Поясним физический смысл этой характеристики. Пусть одновременно испытывается большое число N однородных элементов, каждый - до момента своего отказа. Обозначим n(t) - число элементов, оказавшихся исправными к моменту t, а m(t, t+Dt), как и раньше, - число элементов, отказавших на ма­лом участке времени (t, t+Dt). На единицу времени придется среднее число отказов

Разделим эту величину не на общее число испытываемых элементов N, а на число исправных к мо­менту t элементов n(t). Нетрудно убедиться, что при большом N отношение будет приближенно равно интенсивности отказов l (t):

Действительно, при большом N n(t)»Np(t)

Но согласно формуле (3.4) ,

В работах по надежности приближенное выражение (3.8) часто рассматривают как определение ин­тенсивности отказов, т.е. её определяют как среднее число отказов в единицу времени, приходящееся на один работающий элемент .

Характеристике l(t) можно дать еще одно истолкование: это есть условная плотность вероятности отказа элемента в данный момент времени t, при условии, что до момента t он работал безотказно . Действительно, рассмотрим элемент вероятности l(t)dt - вероятность того, что за время (t, t+dt) эле­мент перейдет из состояния "работает" в состояние "не работает", при условии, что до момента t он ра­ботал. В самом деле, безусловная вероятность отказа элемента на участке (t, t+dt) равна f(t)dt. Это - вероятность совмещения двух событий:

А - элемент работал исправно до момента t;

В - элемент отказал на участке времени (t, t+dt).

По правилу умножения вероятностей: f(t)dt = P(АВ) = Р(А) Р(В/А).



Учитывая, что Р(А)=р(t), получим: ;

а величина l(t) есть не что иное, как условная плотность вероятности перехода от состояния "работает" в состояние "отказал" для момента t.

Если известна интенсивность отказов l(t), то можно выразить через нее надежность р(t). Учитывая, что f(t)=-p"(t), запишем формулу (3.7) в виде:

Интегрируя, получим: ,

Таким образом, надежность выражается через интенсивность отказов.

В частном случае, когда l(t)=l=const, формула (3.9) дает:

p(t)=e - l t , (3.10)

т.е. так называемый экспоненциальный закон надежности.

Пользуясь образом "потока отказов", можно истолковать не только формулу (3.10), но и более об­щую формулу (3.9). Представим себе (совершенно условно!), что на элемент с произвольным законом надежности p(t) действует поток отказов с переменной интенсивностью l(t). Тогда формула (3.9) для р(t) выражает вероятность того, что на участке времени (0, t) не появиться не одного отказа.

Таким образом, как при экспоненциальном, так и при любом другом законе надежности, работу эле­мента, начиная с момента включения t=0, можно представлять себе так, что на элемент действует пуас­соновский закон отказов; для экспоненциального закона надежности этот поток будет с постоянной ин­тенсивностью l, а для неэкспоненциального - с переменной интенсивностью l(t).

Заметим, что этот образ годится только в том случае, когда отказавший элемент не заменяется но­вым . Если, как мы это делали раньше, немедленно заменять отказавший элемент новым, поток отказов уже не будет пуассоновским . Действительно, интенсивность его будет зависеть не просто от времени t, прошедшего с начала всего процесса, а и от времени t, прошедшего со случайного момента включения именно данного элемента; значит, поток событий имеет последствие и пуассоновским не является.

Если же на протяжении всего исследуемого процесса данный элемент не заменяется и может отка­зать не более одного раза, то при описании процесса, зависящего от его функционирования, можно пользоваться схемой марковского случайного процесса. но при переменной, а не при постоянной интен­сивности потока отказов.

Если неэкспоненциальный закон надежности сравнительно мало отличается от экспоненциаль­ного, то можно, в целях упрощения, приближенно заменить его экспоненциальным (рис. 3.11).

Параметр l этого закона выбирается так, чтобы сохранить неизменным математическое ожидание времени безотказной работы, равное, как мы знаем, площади, ограниченной кривой p(t) и осями коор­динат. Для этого нужно положить параметр l показательного закона равным

где - площадь, ограниченная кривой надежности p(t). Таким образом, если мы хотим характеризо­вать надежность элемента некоторой средней интенсивностью отказов, нужно в качестве этой интен­сивности взять величину, обратную среднему времени безотказной работы элемента.

Выше мы определили величину как площадь, ограниченную кривой р(t). Однако, если требуется знать только среднее время безотказной работы элемента, проще найти его непосредственно по стати­стическому материалу как среднее арифметическое всех наблюдённых значений случайной величины T - времени работы элемента до его отказа. Такой способ может быть применен и в случае, когда число опытов невелико и не позволяет достаточно точно построить кривую р(t).

Пример 1. Надежность элемента р(t) убывает со временем по линейному закону (рис. 3.12). Найти интенсивность отказов l(t) и среднее время безотказной работы элемента .

Решение. По формуле (3.7) на участке (0, t o) имеем:

Согласно заданному закону надежности

(0

Второй интеграл здесь равен .

Что касается первого, то он вычислен приближённо (численно): ,

откуда » 0,37+0,135=0,505.

Пример 3. Плотность распределения времени безотказной работы элемента постоянна на участке (t 0 , t 1) и равна нулю вне этого участка (рис. 3.16). Найти интенсивность отказов l(t).

Решение. Имеем: , (t o

График интенсивности отказов показан на рис. 3.17; при t® t 1, l(t)® ¥ .