L'affidabilità di un insieme (un apparato elettronico, una macchina, ecc.), di un sistema comunque complesso o di un semplice componente (ad esempio una resistenza elettrica) è la misura della probabilità che l'assieme (o il componente) considerato non si guasti (ovvero non presenti deviazioni dal comportamento descritto nella specifica) in un determinato lasso di tempo. Per semplicità, in seguito (se non diversamente indicato) si parlerà di "componente" riferendosi sia ad un assieme o sistema complesso sia ad un componente elementare.
L'importanza del concetto di affidabilità è tale che, in ambito applicativo, esiste una disciplina ad essa dedicata: l'ingegneria dell'affidabilità. In tale contesto, per superare le difficoltà in termini di affidabilità di un sistema, è stato introdotto il concetto di ridondanza nell'ambito del dimensionamento dei sistemi fisici realizzati.
In senso esteso, il termine "affidabilità" può riferirsi anche alla validità o meno delle teoriescientifiche e delle loro intrinseche previsioni.
Definizioni correlate
Avaria (o fallimento)
Un 'avaria (o fallimento, in inglese failure), è un difetto (cioè una non conformità strutturale o algoritmica alla specifica) di un componente di un sistema. Un'avaria può causare uno o più errori.
Errore
Un errore (in inglese error) è una transizione dello stato globale del sistema, che non è conforme alla specifica di funzionamento del sistema.
Per stato globale di un sistema si intende in questo contesto l'insieme degli stati dei moduli di cui è composto, mentre per funzione di transizione globale si intende l'insieme dei cambiamenti allo stato globale che sono definiti dalle specifiche di funzionamento del sistema.
Un guasto (in inglese fault) è un evento per cui un sistema viola definitivamente le specifiche di funzionamento, interrompendo la disponibilità dei servizi che fornisce.
Descrizione
Aspetto statistico
Definita la probabilità che il guasto si verifichi fra l'istante e l'istante , la probabilità di un guasto fra l'istante iniziale e l'istante è definita dalla relazione
ove ed inoltre ed
Se si considera un componente elementare, ad esempio una resistenza elettrica in condizioni di lavoro ben determinate, l'affidabilità è evidentemente dovuta unicamente a tale componente. È diverso il caso in cui un assieme sia costituito da più componenti: il valore di affidabilità dipenderà dalle affidabilità di ciascun singolo componente.
Per la proprietà dell'assenza di memoria, l'affidabilità di un componente elettronico è calcolata con la legge esponenziale negativa, che approssima anche componenti meccanici che nel ciclo di vita (progettuale) del prodotto non hanno ancora iniziato la fase di degrado: la frequenza dei guasti è ancora dovuta a variabili non correlate all'età del componente[1].
Ogni volta che la probabilità di guasto è indipendente dall'età (e dal tempo di servizio) dei componenti del sistema, si ipotizza che il tempo del primo guasto e (il tempo di attesa) dei successivi seguano una distribuzione esponenziale negativa, e che il numero di guasti (tasso di guasto λ) segua una distribuzione di Poisson. Le due ipotesi di distribuzione, ore dette, si implicano a vicenda[1]
Il tempo di attesa tra due guasti successivi può essere stimato dal MTBF noto, mentre il tasso di guasto è ricostruito da un'analisi delle serie storiche di componenti dello stesso tipo ovvero simili dal punto di vista della tecnologia sottostante e della funzionalità dell'utente finale: si calcola la frequenza cumulata dei guasti in funzione delle ore di servizio.
La distribuzione esponenziale negativa è anche una buona approssimazione-limite per sistemi complessi composti da un alto numero di componenti collegati in parallelo[1]: in questo caso, le probabilità (numeri compresi tra 0 e 1) di guasto dei singoli componenti sono indipendenti tra loro, e la probabilità congiunta di guasto del sistema è pari al loro prodotto, che infatti decresce rapidamente a zero.
Diremo che tutti i sottoassiemi che, pur guastandosi, non pregiudicano la funzionalità dell'assieme superiore (che li contiene) sono da un punto di vista dell'affidabilità fra loro collegati in parallelo.
Viceversa, nel caso che sia sufficiente l'avaria di un singolo sottoassieme per determinare l'avaria dell'assieme superiore, diremo che tale sottoassieme è connesso in serie.
Nell'esempio a lato, è raffigurato un sistema ove l'avaria di uno solo dei blocchi C o D non porta all'avaria del sistema, mentre l'avaria del blocco A oppure B porta necessariamente all'avaria del sistema. In altri termini, per mandare in avaria il sistema si dovrà avere l'avaria contemporanea dei blocchi C-D, oppure l'avaria del blocco A oppure del blocco B.
A prescindere dai modelli teorici, in pratica si rileva sul campo l'intervallo medio fra i fallimenti (tempo medio fra i guasti o Mean Time Between Failure o MTBF), definito statisticamente come speranza matematica del tempo di funzionamento fra due fallimenti.
In sistemi complessi, dove occorre garantire il funzionamento anche in presenza di avarie di un sottosistema, si ricorre talvolta a ridondanze: questo corrisponde a porre più elementi in parallelo che, quindi, avranno una affidabilità equivalente più elevata del singolo elemento.
Anche per la sua agevole trattabilità matematica, l'ipotesi di distribuzione esponenziale negativa è stata abusata in passato per un insieme di applicazioni, cui non era propriamente idonea. L'ipotesi di distribuzione esponenziale negativa ha dato risultati soddisfacenti per radar, aerei, elettronica di bordo delle stazioni spaziali, satelliti "in rete", reti di telecomunicazioni e di computer[3], misurabili in una riduzione del tasso di guasto e in un maggiore tempo medio fra due guasti successivi.
Al contrario, la distribuzione esponenziale non è una buona approssimazione e non è risultata adatta per l'affidabilità di componenti ridondati[3]. Sono ordinariamente componenti di controllo, che per motivi di maggiore sicurezza dispongono di un secondo livello di controllo, che permette anche di valutare l'affidabilità del primo (controllo di un controllo, controllo secondo livello= valutazione del controllo): in questi sistemi esiste per certi componenti critici per il funzionamento/controllo/sicurezza del sistema, esiste un secondo componente identico al primo e a questo collegato in parallelo, tale che viene attivato dell'unità di controllo in caso di avaria o guasto del componente detto di primo livello (quando si guasta uno dei due, inizia a funzionare l'altro).
Si dice che i componenti sono collegati in parallelo e disposti in modo sequenziale, e sono tra loro indipendenti. Se il componente segue una distribuzione esponenziale negativa, si possono calcolare la densità di probabilità congiunta e l'affidabilità complessiva del sistema[4].
A fronte di un'affidabilità media maggiore, questi sistemi ridondati presentano un costo per la sicurezza maggiore: un certo numero di componenti critici, presumibilmente dall'onere non trascurabile, viene acquistato/prodotto per essere di norma improduttivo, ed essere attivato solo in caso di avarie, guasti o anomalie di funzionamento dell'identico componente principale; nel contempo, il tempo di vita, in modo indipendente dalle ore di effettivo servizio, influiscono sull'obsolescenza tecnologica (es. corrosione, obsolescenza programmata, comparsa di tecnologie alternative, che rendono conveniente la sostituzione del componente e riducono il suo valore di realizzo in caso di vendita. La scelta progettuale di un collegamento in parallelo non sequenziale, permetterebbe al contrario di raddoppiare un ramo di componenti e di parallelizzare una serie di attività del sistema.
La procedura di collaudo Military Standard (MIL HDBK-217) abbandonata dopo gli anni 2000, ipotizzava una distribuzione esponenziale negativa per la vita utile dei componenti elettronici ed elettro-meccanici[3]. Gli standard qualitativi del settore militare, in particolare aerospaziale, sono talora presi a riferimento in altri settori civili dell'industria manifatturiera.
Concetto di sollecitazione
A seconda del contesto operativo le sollecitazioni che, cumulandosi, arrivano a causare una avaria possono essere di tipo differente. In linea di massima si indica come sollecitazione (in termini di affidabilità) la causa predominante di fallimento.
Per esempio, in un organo meccanico la sollecitazione è quello che viene indicato come "stato di sollecitazione" in ingegneria meccanica. Nel caso di componenti elettronici, usualmente la sollecitazione è la "temperatura di lavoro" del componente, mentre per componenti di impianti chimici può essere l'aggressività (capacità di corrosione) del fluido che opera nel sistema.
In alcuni casi queste diverse sollecitazioni si compongono per ridurre il MTBF del componente. Per esempio: nelle tubazioni di un reattore nucleare veloce, refrigerato a sodio, il MTBF è determinato
dallo stato di sollecitazione del tronco di tubazione considerato
dalla temperatura del sodio, che generalmente porta a fenomeni di scorrimento viscoso (creep)
Oltre alla sollecitazione interviene la modalità di utilizzo del componente. Per componenti che operano in continuo (per esempio tubazioni, resistenze elettriche) la probabilità di rottura si misura in funzione del tempo di operazione (probabilità di rottura/anno).
Nel caso di organi meccanici soggetti a carichi ciclici (es. bielle di un motore a scoppio) la probabilità si esprime, generalmente, in funzione del numero di cicli subiti (probabilità di rottura/ciclo). Infine, per componenti che operano in modo discontinuo con richieste casuali (ed s.empiovalvole di intercettazione o relaè la probabilità di rottura si misura in base al numero di interventi (probabilità di rottura/richiesta).
Nel caso di apparati elettronici, la sollecitazione è sostanzialmente di tipo termico. Di qui l'esigenza di mantenere bassa la temperatura dei componenti elettronici al fine di migliorarne l'affidabilità. A titolo indicativo, si considera un dimezzamento dell'MTBF ad ogni innalzamento di 10 K della temperatura (equazione di Arrhenius).
Mortalità infantile ad avarie
Un componente può cessare di funzionare sostanzialmente per due motivi: era già difettoso in origine oppure le sollecitazioni, cumulatesi durante la sua vita operativa, hanno raggiunto il limite massimo per tale componente.
La probabilità di guasto sarà quindi dovuta alla combinazione di due curve:
la probabilità di avaria per mortalità infantile (preponderante nella primissima fase di vita operativa);
la probabilità di avaria per sollecitazioni (che si cumula a partire dall'inizio della vita e man mano diviene preponderante).
La curva che ne risulta è detta bathtub (curva a vasca da bagno), che mostra una diminuzione iniziale del numero di fallimenti nel tempo, un periodo di fallimenti costante nel tempo ed infine un aumento del numero di fallimenti nell'unità di tempo.
Una fault tolerance è un parametro che viene normalmente preso in considerazione soprattutto per sistemi embedded che devono interagire con altri sistemi software e hardware. Un sistema fault tolerant è in grado di proseguire la propria esecuzione senza gravi malfunzionamenti anche a fronte di malfunzionamenti delle controparti con cui dovrebbe interagire. Per esempio, la capacità di un sistema di non perdere i propri dati a fronte di un guasto al disco rigido può essere un fattore decisivo in determinati tipi di applicazione.
Note
^abc(EN) Michael Todinov (Oxford Brookers Unuversity, UK), 3, par. 4-negative esponential distribution, su Reliability and Risk Models: Setting Reliability Requirements, google.it/books, 2a, Wiley, Novembre 2015, pp. 55-56, ISBN978-1-118-87332-8. URL consultato il 13 maggio 2018.
^(EN) Exponential Distribution, su reliabilityanalyticstoolkit.appspot.com. URL consultato il 13 maggio 2018 (archiviato il 5 febbraio 2013).
Questa voce o sezione sull'argomento manutenzione è ritenuta da controllare.
Motivo: da controllare per criteri con cui è compilata e per inclusione nelle voci dato che viene utilizzata indistintamente in molte voci, come ad esempio guasto