Post-Mortem - Interrupción de Servicios por Falla en Proveedor de Infraestructura
Información General
Inicio de incidencia: 20 de octubre de 2025, 09:08 AM (hora Ciudad de México)
Fecha y hora en que comienza investigación para posible contingencia: 20 de octubre de 2025, 09:17 AM (hora Ciudad de México)
Fecha y hora en que declara la contingencia: 20 de octubre de 2025, 09:48 AM (hora Ciudad de México)
Horario de afectación: 20 de octubre de 2025, 09:48 AM - 04:09 PM (hora Ciudad de México)
Escala de Impacto: Alto
Justificación: Interrupción de procesos primarios del negocio - procesamiento de pagos y retiros bancarios
Alcance del Incidente
Usuarios afectados: 517 usuarios únicos
- 463 usuarios que intentaron realizar pagos sin éxito
- 54 usuarios con retiros bancarios pendientes (liberados aprox. 4 horas después)
Transacciones afectadas:
Pagos: 994 transacciones (pagos con tarjeta y wallet) que fallaron, sin impacto alto a usuario solo no lograron pagar.
Retiros: 60 retiros bancarios, tardaron en terminar de procesarse para llegar a su banco destino.
- Monto total: $286,556.15 MXN
- Usuarios: 54
- Retraso en procesamiento: 5-6 horas
Servicios Afectados:
- Procesamiento de retiros bancarios (SPEI)
- Procesamiento de pagos con tarjeta
- Acceso a cuentas - indisponibilidad
- Aplicación web - indisponibilidad
- Aplicaciones móviles (iOS y Android) - indisponibilidad
Infraestructura Tecnológica involucrada en la contingencia operativa es administrada por terceros: Sí
Descripción Detallada
Causa Raíz
Falla generalizada en múltiples servicios de Amazon Web Services (AWS) que impactó la infraestructura de Moneypool y sus servicios.
Cómo fue determinada:
- Detección de lentitud e intermitencias en transacciones Moneypool
- Verificación en el status page oficial de AWS confirmando interrupciones en servicios críticos
- Correlación con reportes de múltiples proveedores de servicios sobre afectaciones en AWS
- Timeouts y fallos de conexión a servicios de AWS
Cronología de Acciones
09:08 AM - Detección de lentitud e intermitencias en servicios
- Se inicia investigación inmediata
09:17 AM - Última intermitencia, los servicios comienzan a fallar por completo.
- Ya no se procesaba ninguna transacción.
~09:20 AM - Identificación de causa externa
- Confirmación de falla en proveedor de infraestructura AWS
09:48 AM - La incidencia se declara como contingencia
- debito al alto impacto y número de transacciones y usuarios afectados comienza se declara contingencia.
10:27 AM - Decisión de poner las aplicaciones y pagina web en indisponibilidad
- Aplicación puesta en modo “fuera de servicio” para evitar más intentos fallidos
- Comunicación a usuarios sobre la situación
- Mensaje: "Interrupción temporal debido a falla en proveedor de infraestructura externa"
Durante la ventana de afectación:
- Monitoreo continuo del status de AWS
- Coordinación con proveedores de servicios
- 60 retiros quedaron en estado pendiente de procesamiento
~03:30 PM - Liberación de retiros al banco
- Liberación y procesamiento exitoso de los 60 retiros pendientes
04:09 PM - Confirmación de resolución
- Confirmación de recuperación de servicios de AWS
- Verificación de operación normal de todos los servicios
- Se restableció el acceso a la aplicación y página web, permitiendo a los clientes ingresar a sus cuentas y operar con normalidad.
- Todos los servicios de la plataforma están operando con normalidad y las transacciones se procesan correctamente.
- Contingencia cerrada
Acciones Correctivas Implementadas
- Comunicación con usuarios
* Página de mantenimiento informativa durante la interrupción
* Notificación a clientes de indisponibilidad en los servicios
- Procesamiento de transacciones pendientes
* Liberación manual de 60 retiros bancarios afectados
* Verificación de procesamiento exitoso hacia bancos destino
* Confirmación de disponibilidad de fondos para usuarios
- Monitoreo
* Verificación de normalización de operaciones
Impactos
Cambios indebidos a datos: No
Pérdida monetaria:
- Para clientes/usuarios finales: No. Todas las transacciones fueron eventualmente procesadas correctamente sin pérdida de fondos
- Para la institución (Moneypool): No. Moneypool no perdió dinero de sus cuentas, sin embargo Moneypoool genera un promedio de $100,000 MXN en transacciones diarias y el día de la contingencia se tuvo un ingreso promedio de $90,000 MXN
Incidente de ciberseguridad: No aplica
Acciones Preventivas y Correctivas
Documentación de procedimientos
Actualizar documentación considerando escenarios de falla completa de proveedor de nube
La comunicación temprana y transparente con usuarios durante interrupciones es crucial para mantener la confianza
Realizar simulacros de contingencia con más frecuencia.
Información Adicional:
https://www.notion.so/moneypool/Contingencia-AWS-296543aef9ce80ad9ff2dc8e23b00a5d