Una introducción a un enfoque más flexible y contemporáneo del movimiento de datos que combina las iteraciones rápidas de Agile con la automatización de procesos de DevOps.

La modernización es un enfoque central en el espacio de datos y análisis durante el próximo año, con el tiempo de valor y la velocidad de comercialización como los indicadores principales del éxito. Podría decirse que en esta transformación siempre ha estado ocurriendo gradualmente, dentro de diferentes ámbitos y a lo largo de varias eras tecnológicas. A pesar de los panoramas tecnológicos cambiantes, los principios básicos han persistido desde el principio: más datos conducen a más preguntas, y la precisión y la integridad son clave. El proceso de administrar, mover, integrar y analizar datos depende en gran medida de los contratos entre quienes proporcionan los datos y quienes los consumen. A medida que se acelera la modernización, muchos tecnólogos y expertos están pensando en formas de manejar los datos de manera más flexible.

Lo que ha cambiado, por supuesto, es la tecnología. Con la introducción de big data y la computación en la nube, el análisis de datos se parece más que nunca a la ingeniería de software. Este avance está impulsando un nuevo conjunto de expectativas, junto con la necesidad de plataformas de datos para satisfacer nuevas demandas. La presión organizacional renovada para acelerar la captura de valor, la demanda de los clientes de experiencias más optimizadas y la expectativa del usuario de que "solo tiene que funcionar" están impulsando el cambio. La necesidad abruma al departamento de TI tradicional e impulsa a los usuarios integrados en el negocio a buscar herramientas de análisis únicas para satisfacer su demanda.

Introducción a DataOps

La plataforma de datos moderna es más grande que la suma de sus partes, que incluyen captura de transmisión de datos, ingeniería de big data, funcionalidad de búsqueda, catálogos, machine learning y más. Puede ser difícil capturar con precisión las características extensas y en evolución de una plataforma de datos moderna, en una palabra, lo que lleva a la introducción del término "DataOps".

DataOps toma la noción de operar de forma lineal y basada en contratos y, en su lugar, adopta una forma modular y vagamente acoplada para acelerar la entrega de productos de datos a los usuarios. En Apex, DataOps se conoce desde hace algunos años como "análisis continuo" o el monitoreo continuo de datos y procesos en todo un entorno. Este nuevo concepto es la confluencia práctica de Agile, DevOps y análisis de datos. Las iteraciones rápidas y colaborativas de demostración de valor de Agile se combinan con la automatización de procesos de DevOps para mover datos de origen a destino de una manera que se adapta a una mayor flexibilidad en comparación con los enfoques tradicionales para el movimiento de datos.

La práctica de DataOps se esfuerza por abordar un panorama técnico cambiante a través de la tecnología y el proceso. La práctica inyecta transparencia y confiabilidad tanto en la selección de datos como en las actividades de creación de valor al dividir la naturaleza tradicional y lineal de una canalización de datos en componentes que son transparentes y capaces de validarse. El verdadero valor de DataOps se realiza cuando cada parte interesada a lo largo de la cadena de suministro de datos piensa en servir mejor a su 'cliente'. Practicar DataOps es administrar el ciclo de vida del desarrollo de una manera que prioriza la obtención de datos completos y precisos en manos de los usuarios lo más rápido posible. Hacer esto no significa relajar los estándares de garantía de calidad, control de cambios y gobernanza; más bien, significa que inculca estas cosas mediante programación en el proceso de entrega de datos en sí.

Para empezar

Hay tres consideraciones principales al visualizar cómo DataOps transformará su organización: mindset, conjunto de habilidades y toolset. 'Mindset' se refiere a la estrategia en torno a la forma en que los equipos de TI trabajan con sus contrapartes comerciales para realizar DataOps, y cómo los silos en equipos y procesos pueden obstaculizar la innovación. Esencialmente, considere la pregunta: ¿la mentalidad de nuestra organización conduce a una nueva forma de entregar datos? 'Skillset' alude a la preparación de las personas y los equipos para adoptar nuevas tecnologías y formas de trabajar. Los cambios en la tecnología y el proceso requieren una gestión de cambios intencional. Como las tecnologías de datos modernas pueden ser un cambio de paradigma de las soluciones ETL de arrastrar y soltar del pasado, la mejora de las habilidades y la educación continua deben ser la prioridad de todos los líderes de datos y TI en el futuro. Exploraremos las dos primeras consideraciones de este proceso con más detalle en artículos posteriores de esta serie.

En este artículo, nos centraremos en el aspecto del "toolset". Seleccionar herramientas que faciliten DataOps es clave para una modernización exitosa. Recomendamos aplicaciones modulares, basadas en código y controladas por versión que se utilizan para orquestar datos en todo el entorno. Herramientas como Databricks, Kafka, Airflow, AWS Glue, Kubernetes y Data Build Tool (DBT) son todas buenas opciones cuyas características facilitan naturalmente DataOps y permiten el desarrollo con productividad y procesos mejorados. Si bien algunas organizaciones aún tienen razones válidas para no adoptar plataformas nativas de la nube, Apex cree que los beneficios de DataOps aún se pueden obtener en una arquitectura híbrida o local, pero el esfuerzo será sin duda más complejo.

Para implementar las herramientas de DataOps, recomendamos observar tres áreas clave: control de versiones, integración continua e implementación continua (CI/CD por sus siglas en ingles) y orquestación. Primero, mueva su código de integración de datos (es decir, ETL/ELT) a una plataforma de control de versiones como Azure DevOps o GitHub. Al cambiar el desarrollo a un repositorio centralizado, sus equipos de desarrollo estarán cada vez más preparados para implementar una entrega Agile centrada en DataOps. No solo se puede controlar la versión del código ETL/ELT, sino también el lenguaje de definición de datos (DDL). Las herramientas de código abierto como FlywayDB (o la propia adopción de Snowflake: schemachange) se pueden incorporar al control de versiones para que los cambios en las estructuras de la base de datos se puedan controlar mejor.

Cuando su código tiene control de versión, CI/CD se convierte en el siguiente paso natural, lo que le permite realizar la estrategia del código de datos comprobable y automatizado. Los sistemas de control de versiones como GitHub Actions tienen características de CI/CD integradas de forma nativa, lo que facilita la incorporación de la validación directamente en el proceso de implementación. Esto aumenta exponencialmente la productividad de los equipos de desarrollo y control de calidad que tienen la tarea de garantizar que estos productos de datos lleguen a la producción de manera confiable.

Finalmente, considere la orquestación, que es esencialmente la automatización de la infraestructura y los servicios para respaldar sus productos de datos. Tácticamente, los servicios como las plantillas de Kubernetes, Docker y Terraform son herramientas clave para considerar la adopción. Estas herramientas proporcionan un marco para implementar productos de datos validados a escala para satisfacer las demandas de sus clientes. Las cargas de trabajo analíticas y de datos suelen ser "ráfagas", lo que significa que experimentan períodos transitorios de alta utilización. Debido a esto, las herramientas de orquestación son invaluables para satisfacer esa mayor demanda de una manera que evita la degradación de la experiencia del usuario. Cuando la actividad disminuye, las herramientas de orquestación manejan sin problemas la reducción, lo que ahorra a las organizaciones una gran cantidad de dinero a largo plazo.

Resumen

Independientemente de dónde se encuentre su organización en su proceso de modernización, nunca es demasiado tarde para considerar la adopción de DataOps. Si bien un nuevo conjunto de herramientas puede parecer desalentador, incluso los pasos más pequeños pueden permitirle obtener beneficios inmediatos mientras prepara el escenario para un equipo de plataforma de datos que compite con las empresas emergentes más avanzadas de Silicon Valley. Imagine un estado futuro en el que sus equipos de datos y plataformas entreguen más rápido, deleiten a los usuarios y estén empoderados como verdaderos impulsores de valor dentro de la organización. Luego, adopte un conjunto de herramientas que lo ayude a realizar esa visión.