Minimizar fallos en SAI

Por qué la fiabilidad de los SAI es más importante que nunca

Si bien es cierto que no existe un índice de fallos cero, en el mundo de los servicios digitales, la tolerancia a las interrupciones es nula. Tan solo unos pocos segundos de inactividad pueden provocar una pérdida de datos, la falta de disponibilidad del servicio o sanciones contractuales (infracciones de los acuerdos de nivel de servicio o SLA).
Los centros de datos empresariales y perimetrales deben garantizar un tiempo de actividad máximo (cercano al 100 %) en un entorno que es más complejo y exigente que nunca.

Desafíos principales que requieren fiabilidad

Aumento del uso de la IA y la computación de alto rendimiento (HPC): las cargas de trabajo de las empresas generan demandas elevadas e impredecibles, lo que somete a las infraestructuras energéticas a estrés.
Ciberataques contra infraestructuras críticas: los intentos malintencionados pueden deshabilitar o desestabilizar los sistemas de potencia y de refrigeración.
Arquitecturas híbridas complejas: la computación perimetral, las implantaciones en múltiples localizaciones y los modelos híbridos en la nube requieren que la resiliencia se extienda por varias capas.

Consecuencias para los centros de datos

Las arquitecturas redundantes son obligatorias: la clasificación Tier III/IV, las configuraciones 2N o N+1 se están convirtiendo en el estándar para garantizar la continuidad.
El equipo de los SAI debe ser capaz de soportar cualquier anomalía en la potencia y garantizar la continuidad sin interrupciones, independientemente del comportamiento de la carga y su dinámica.
Mantenimiento sin tiempos de inactividad y supervisión proactiva: una supervisión predictiva, módulos intercambiables en caliente y un diagnóstico continuo son elementos esenciales para poder mantener la fiabilidad en toda la infraestructura.

En este contexto, la fiabilidad de los SAI modulares, que se cuantifica con los valores del tiempo medio operativo entre fallos (MTBF, por sus siglas en inglés), se ha convertido en un factor decisivo para los operadores que buscan garantizar la resiliencia y disponibilidad a largo plazo.

MTBF

MINIMIZAR FALLOS

EN SISTEMAS MODULARES

Fiabilidad

MAXIMIZAR EL MTBF

DE CADA MÓDULO

¿Qué es el MTBF en los SAI?

La probabilidad de que se produzca un fallo crítico (pérdida de carga) en el mejor sistema de alimentación ininterrumpida (SAI) modular es extremadamente bajo, gracias a su arquitectura redundante y al diseño de sus módulos de potencia, que funcionan de forma independiente y pueden aislar cualquier fallo interno para evitar su propagación.

Sin embargo, aún pueden producirse fallos aleatorios en cada uno de los módulos de potencia. Si bien es cierto que este tipo de fallos no suele afectar al rendimiento de un SAI modular de alta calidad, puede comprometer la redundancia del sistema, por lo que es necesario resolverlos para poder mantener una tolerancia a fallos óptima.

El aspecto más importante es la fiabilidad de cada módulo de potencia; cuantos más módulos se utilicen en el sistema, mayor será el riesgo de que se acumulen fallos. El índice de fallos interno del SAI aumenta con el número de módulos y disminuye con el MTBF de cada uno.

Dado que el número de módulos de potencia se determina en función de los requisitos de potencia y redundancia del sistema, la única forma de conseguir una fiabilidad global es utilizar módulos de potencia con un MTBF elevado, es decir, que cuenten con un índice de fallos excepcionalmente bajo.

El MTBF (tiempo medio operativo entre fallos) es la medida que indica durante cuánto tiempo puede funcionar un módulo antes de que se produzca un fallo. Cuanto mayor sea este valor, menor será el índice de fallos y más fiable será el módulo de potencia.

¿Por qué el MTBF es crucial para los centros de datos?

Por lo general, la vida útil de un SAI es de unos 15 años. Durante este tiempo, un MTBF elevado reduce de manera notable el número de fallos del módulo. Esta reducción no solo implica la mejora de la fiabilidad del sistema, sino que también aporta beneficios económicos significativos y minimiza los posibles riesgos que conllevaría la sustitución del módulo.
En términos prácticos, un MTBF elevado significa:

Menos fallos a lo largo de la vida útil del sistema.
Reducción de los costes operativos gracias a una necesidad menor de mantenimiento y sustituciones.
La mejora del cumplimiento de los acuerdos de nivel de servicio.
Una mayor sostenibilidad.

Cómo se calcula y se certifica el MTBF

Debido al papel clave que desempeña el MTBF a la hora de garantizar la fiabilidad del sistema, este valor se calcula mediante la evaluación minuciosa de los componentes y subconjuntos. Para ello, se utilizan estrictos métodos estadísticos junto con una serie de pruebas dirigidas para valorar la fuerza mecánica, la durabilidad y la fiabilidad a largo plazo.

Para garantizar la credibilidad del valor del MTBF, la certificación debe llevarla a cabo un laboratorio independiente. Además, debe validarse con datos reales sobre el terreno. Así se confirma que el MTBF predicho no es solo teórico, sino que se basa en el rendimiento real.
O lo que es lo mismo, la fiabilidad no es tan solo una promesa, es algo que se demuestra a través de pruebas independientes y se verifica gracias a datos reales procedentes de miles de módulos que operan en condiciones reales.

La solución de Socomec: MODULYS XM

MODULYS XM es el SAI extremadamente modular diseñado para disfrutar de una tranquilidad absoluta. Sus módulos de potencia tienen un MTBF superior a 1 000 000 de horas, cuatro veces más que la media del mercado. Esta cifra es el resultado de una serie de pruebas estrictas realizadas por un laboratorio especialista independiente a lo largo de dos años. Este laboratorio, además, puede emitir una certificación oficial si se solicita.

Después de varios años y con más de 50 000 módulos de potencia instalados, que suman más de 1 000 millones de horas de funcionamiento, el tiempo medio operativo entre fallos supera el millón de horas, una cifra que sobrepasa el valor calculado inicialmente. También existe la posibilidad de solicitar un informe oficial donde figure el MTBF medido, actualizado cada seis meses.
Se trata de un resultado único en la industria de los SAI y se ha podido lograr gracias a un diseño de módulos de potencia basado en la fiabilidad, no en el coste.
Con MODULYS XM, los centros de datos pueden disfrutar de:

Un diseño tolerante a fallos.
Módulos intercambiables en caliente para realizar el mantenimiento correspondiente sin necesidad de detener la actividad.
Escalabilidad para poder satisfacer la demanda de los centros de datos, que está en constante evolución.
Certificación independiente y datos de fiabilidad obtenidos sobre el terreno y actualizados regularmente.

Descubrir Modulys XM

Ejemplo: MTBF de 1 000 000 horas en la práctica

Supongamos:
- Un sistema con 24 módulos SAI
- Cada módulo tiene un MTBF de 1 000 000 de horas
- Vida útil esperada: 15 años = 131 400 horas

Fallos esperados = (24 × 131 400) ÷ 1 000 000 = ≈3 módulos en 15 años.
En el caso de un SAI modular estándar con un MTBF de 250 000 horas, esta cifra llegaría a 12 módulos.

Esto se traduce en un ahorro significativo de los costes, un menor riesgo y una mayor disponibilidad del sistema.

Impact du MTBF sur la durée de vie des modules

Más información sobre el MTBF

El MTBF calculado es el resultado del análisis de factores de estrés de cada componente y subsistema del SAI más las pruebas de estrés.
El MTBF medido se calcula a partir de instalaciones reales y horas de funcionamiento acumuladas.
Ambos valores son esenciales: los valores calculados sirven para hacer predicciones, mientras que los datos medidos los validan en la vida real.

Es importante que, además del MTBF, se tenga en consideración el MTTR (tiempo medio de reparación). Un MTBF elevado reduce el número de fallos, mientras que un MTTR bajo garantiza una recuperación rápida cuando se produce un fallo. Ambas métricas determinan la máxima disponibilidad de un sistema SAI.

Preguntas frecuentes: módulos de potencia, fallos de SAI y MTBF

¿Los módulos de potencia son siempre fiables?

Los módulos de potencia modernos de los SAI se han diseñado teniendo la fiabilidad como principal prioridad. Los procesos de certificación requieren que los módulos pasen pruebas de estrés estrictas en laboratorios independientes, donde se les somete a ensayos de temperatura, carga y resistencia. Los datos reales obtenidos sobre el terreno confirman cifras incluso mayores del MTBF medido, lo que da a los operadores de los centros de datos la confianza de que los módulos tendrán un buen rendimiento durante toda su vida útil. La fiabilidad también puede verse mejorada por las opciones elegidas durante el diseño: la separación de módulos aísla fallos, el diseño de módulos intercambiables en caliente garantiza una sustitución rápida y la supervisión predictiva ayuda a detectar anomalías en una fase temprana. Estas funcionalidades convierten a los módulos en elementos fiables no solo de manera individual, sino que también contribuyen a conseguir un sistema SAI muy tolerante a fallos cuando se instalan en paralelo. En comparación con los diseños de SAI monolíticos, las unidades modulares de potencia reducen el riesgo de puntos únicos de fallo y aumentan la resiliencia, motivo por el cual se están convirtiendo en la opción preferida de los centros de datos empresariales y perimetrales.

¿Cómo se sabe que se está produciendo un fallo en un SAI?

Las señales de que se está produciendo un fallo en un SAI pueden aparecer de manera gradual o repentina, depende del caso. Los indicadores comunes incluyen alarmas frecuentes, una autonomía reducida durante cortes de electricidad, ruidos extraños de los ventiladores o la electrónica y una degradación visible de las baterías (abombamiento, fugas, etc.). También es posible que los operadores noten un rendimiento poco uniforme, como fluctuaciones de la tensión o alertas repetidas en el software de supervisión. En sistemas avanzados, la supervisión predictiva emite advertencias tempranas gracias al seguimiento de parámetros como la impedancia de las baterías, el estado del condensador, la temperatura y el equilibrio de las cargas. Cuando se superan los umbrales, el sistema emite una señal de riesgo de fallo, de modo que se pueden realizar acciones preventivas. En las arquitecturas de SAI modulares, la supervisión se realiza a nivel de módulo, lo que permite aislar el origen de la degradación de manera más sencilla. Detectar fallos en una fase temprana es vital, ya que las anomalías poco importantes que no se resuelven pueden convertirse en paradas inesperadas que afectan al tiempo de actividad. Las inspecciones regulares, junto con herramientas inteligentes de supervisión y un diseño muy fiable, son las formas más eficaces de mantener la fiabilidad del sistema.

¿Cómo se calcula el MTBF de un SAI?

El tiempo medio operativo entre fallos se determina utilizando una combinación de modelado de predicción de la fiabilidad, pruebas de estrés realizadas en laboratorio y validación de datos sobre el terreno. En la fiabilidad de sistemas, la estimación principal se realiza mediante el análisis del estrés de las piezas de conformidad con normas como IEC 61709, SN 29500 o MIL-HDBK-217F. El índice de fallo de cada componente se infiere de bases de datos de referencia y se ajusta utilizando factores de estrés para la temperatura, la tensión y el entorno. Estos índices de fallo de los componentes se agregan posteriormente en un diagrama de bloques de fiabilidad (RBD, por sus siglas en inglés) para modelar toda la arquitectura del SAI, incluido cualquier elemento redundante (N+1). El índice de fallo del sistema resultante (λ) proporciona el MTBF calculado, que es igual a 1/λ. Las pruebas realizadas en laboratorio se utilizan para validar o afinar estos modelos. Los componentes o módulos se someten a condiciones de estrés aceleradas (por ejemplo, temperaturas elevadas, humedad, vibraciones y cargas cíclicas) para confirmar que los mecanismos de degradación se comportan tal como se había predicho. Estas pruebas confirman las presunciones utilizadas en el modelo de fiabilidad, pero no determinan directamente el valor del MTBF. Debido a que las pruebas aceleradas no pueden reproducir todas las condiciones de una situación real, también se analizan los datos obtenidos de sistemas instalados sobre el terreno. Las horas de funcionamiento reales y los recuentos de fallos obtenidos en una amplia muestra proporcionan un MTBF medido, que refleja un rendimiento real. Cuando hay una base considerable instalada (miles de módulos en funcionamiento con millones o miles de millones de horas acumuladas) las estadísticas resultantes son muy robustas. Laboratorios independientes, como SERMA o TÜV pueden auditar la metodología y comprobar la consistencia de los datos. Esta estrategia doble (MTBF predicho [analítico] y MTBF medido [empírico]) garantiza que la cifra de fiabilidad declarada sea verificable, creíble y representativa de entornos reales de centros de datos.

¿Qué se considera un MTBF bueno?

En el caso de módulos de potencia de SAI, un MTBF superior a 1 000 000 de horas es realmente excepcional. Esta cifra indicaría un índice de fallo teórico muy bajo (λ ≈ 1 × 10⁻⁶ fallos/hora), pero siempre se debe interpretar teniendo en cuenta los supuestos del modelo de fiabilidad, como un índice de fallo constante, que no haya deterioro y que las condiciones de instalación sean ideales. En el caso de SAI modulares estándar, los valores medios del MTBF sobre el terreno para módulos de potencia de SAI se encuentran en un intervalo de entre 200 000 y 300 000 horas, en función de la calidad de los componentes, la temperatura ambiente, el perfil de carga y las prácticas de mantenimiento. Para aplicaciones críticas, como centros de datos empresariales y perimetrales, seleccionar sistemas SAI con el máximo MTBF del mercado es una cuestión de vital importancia. Una doble validación (predicción analítica con posibilidad de certificación mediante auditorías independientes [p. ej., SERMA o TÜV] más confirmación empírica basada en una base considerable instalada) garantiza que la fiabilidad declarada es creíble, verificable y representativa de las condiciones reales. Por último, un «buen MTBF» no es un número abstracto: es el número que sirve de apoyo para los objetivos de los acuerdos de nivel de servicio de las instalaciones, permite arquitecturas tolerantes a fallos y minimiza el riesgo y el coste total de los tiempos de inactividad a lo largo de toda la vida útil del SAI.