Una empresa mundial de hostelería y ocio incluida en la lista Fortune 500 aumenta la automatización operativa de sus sistemas en un 50% gracias a la inteligencia artificial.
 

SITUACIÓN

Nuestro cliente estaba luchando con la plataforma heredada de Machine Learning (ML) Ops que proporciona servicios DevOps a modelos ML para construir, probar, entrenar, desplegar y servir modelos utilizando la automatización de pipelines CI/CD. Se pretendía que la plataforma fuera agnóstica a la nube, lo que significa que esta arquitectura debería ser compatible con cualquier nube. La plataforma MLOps utiliza Apache Airflow para programar flujos de trabajo y aprovecha las API de Python para gestionar dinámicamente un clúster. Tenían problemas con su proveedor actual en términos de entrega, gestión y soporte de la plataforma. La plataforma ha infringido varias prácticas recomendadas de seguridad empresarial y no aprovechaba la autenticación y autorización de Azure AD debido a la configuración incorrecta de las instancias de Apache Airflow en las máquinas virtuales de Azure. No se consiguió la optimización de costos deseada.

SOLUCIÓN

Nuestro equipo completó la transición en un plazo de 3 meses y publicó un documento de transición de conocimientos. También entregaron un documento detallado de seguimiento de la deuda técnica de la plataforma actual, crearon plantillas de Terraform optimizadas, externalizaron la mayor parte de la configuración, gestionaron las configuraciones de estado de Terraform por entorno y eliminaron el código duplicado. Nuestro equipo desarrolló pipelines CI/CD con Github Actions, implementó la integración de Terraform a Ansible y eliminó varios pasos manuales en la automatización. Había varios elementos de información sensible almacenados y distribuidos en archivos de configuración de Ansible que se trasladaron a Azure Key Vault y nuestro equipo creó una integración perfecta de software de configuración utilizando Ansible desde Terraform. El equipo estableció con éxito la documentación y los procesos de incorporación de desarrolladores, corrigió varios defectos de seguridad y supervisión asociados con patrones de diseño de alto riesgo y mejoró la plataforma ML actual a una plataforma v2 mejorada.

RESULTADOS

Nuestra solución mejoró el uso operativo y automatiza el 90% de las implantaciones y entregas. Esta plataforma está certificada por la arquitectura empresarial y proporciona supervisión y gobernanza. También proporciona soluciones de costo optimizado en términos de clústeres. Nuestra documentación de incorporación de desarrolladores simplificó las iteraciones de comunicación. En última instancia, nuestro equipo entregó una nueva plataforma de machine learning en la nube nativa de Azure para servir modelos sólidos de machine learning en toda la empresa.

Haga clic aquí para leer esto en inglés.