¿Cómo elegir el stack de datos moderno para mi empresa?

¿Cómo elegir el stack de datos moderno para mi empresa?

Es una realidad que las empresas más exitosas de la actualidad tienen productos, experiencias y, en general, propuestas de valor fuertemente habilitadas por los datos.

El uso de éstos permite a las compañías modernas crear campañas de atracción de clientes altamente optimizadas, ofrecer experiencias personalizadas y crear productos o servicios innovadores. A su vez, estas organizaciones generan un círculo virtuoso donde cada vez miden más elementos de su negocio, generan mayores volúmenes de datos y crean una cultura basada en tomar decisiones con evidencia.

Pero, por otro lado, podemos encontrar empresas que sufren contra competidores que son nativos digitales y ven con recelo su habilidad de generar valor usando sus datos. Estas empresas generalmente ya cuentan con algunas herramientas de datos. Sin embargo, sus soluciones están pensadas en cumplir con un rol cien por ciento técnico o ingenieril y suelen aferrarse a contextos anteriores donde los datos no jugaban un rol fundamental en la experiencia y propuesta de valor.

Los datos son esenciales en la ejecución de la propuesta de valor de las empresas modernas. Así nace el conocido Modern Data Stack. Éste consiste no solo en la elección de modernas tecnologías, sino un cambio de paradigma total sobre cómo las organizaciones tratan sus datos.

El stack moderno de datos tiene como filosofía:

  • Reenfocar los esfuerzos de ingeniería (personas y dinero) en la generación de valor para el negocio.
  • Integración masiva. Ser capaz de acceder a todos mis datos sin importar su fuente y su tamaño.
  • Escalabilidad, es decir, mis costos crecen junto con mi negocio y no requiero tener grandes inversiones para mantener una sola tecnología que pueda subutilizarse.
  • Ser modular. Evitar una alta dependencia de una tecnología o solución, poder removerla, actualizar o sustituirla para  priorizar siempre el valor hacia el negocio sobre la tecnología.
  • Agilidad y velocidad. Permitir el acceso gobernado de los datos a cualquier persona que requiera información para realizar o mejorar su trabajo.

Te aseguro que con el mindset correcto y el stack de datos adecuado, en poco tiempo comenzarás a generar mucho valor para tu compañía. Ahora te preguntarás, ¿cómo elegir el stack de datos moderno para mi empresa?

Analiza lo siguiente para comenzar:

  • ¿Cuál es la visión de mi compañía para los siguientes 3, 5 o 10 años?
    La mayoría de las empresas cuentan con planes estratégicos con visión a mediano o largo plazo. Lee el documento e identifica sus prioridades. Seguro encontrarás hot topics como personalización, crecimiento, rentabilidad, etc. Considera cómo los datos pueden ayudar a hacer realidad esa visión.
  • ¿Con cuál stack tecnológico cuento actualmente?
    Analiza fríamente la tecnología de la que dispones. Recuerda que las decisiones que se tomaron hace 10 años se hicieron considerando un contexto diferente al actual. Reflexiona sobre los aprendizajes y mantente abierto a la posibilidad de cambiar tecnologías y, muy importante, tus procesos.
  • ¿Cuento con un sponsor o un power user?
    He identificado en el tiempo que las iniciativas de datos más relevantes o valiosas comienzan con una necesidad apremiante del negocio. Cuando comienzan sin objetivos claros y solo por “ser vanguardista”, rápidamente se transforman de una novedad a un dolor de cabeza.
  • ¿Qué perfil tiene mi equipo?
    La organización de tu empresa es importante y define en la mayoría de los casos la personalidad de tu equipo. Cuando el equipo de datos depende del área de sistemas de información, usualmente tendrá un perfil muy técnico con perfiles muy enfocados a la administración de sistemas y bases de datos. Por otra parte,  si depende de áreas de negocio como Ventas, Recursos Humanos u Operaciones, usualmente el perfil de las personas es más orientado a la analítica.


Ambos extremos pueden ser correctos, dependiendo de las necesidades del negocio, pero las habilidades de tu equipo influyen de manera importante en la elección de tu stack de datos.

Ya que has reflexionado sobre la situación actual dentro de tu organización, comenzaremos por mencionar los building blocks del stack moderno de datos.

Podrás encontrar muchas versiones del stack moderno de datos, pero en esencia se compone de 5 elementos:

  • Fuentes de datos: En las organizaciones modernas, se busca extraer valor de los datos de todos tipos de fuentes de datos como APIs, SaaS, redes sociales, aplicaciones y bases de datos de cualquier tipo.
  • Ingesta: La ingesta de los datos es ágil. Se dedican pocos recursos para procesos ingenieriles de carga de datos usando herramientas con conectores prediseñados. En este caso, las organizaciones pueden seguir algunos de los dos paradigmas para este proceso: ETL (Extracción-Transformación - Carga) o ELT (Extracción – Carga – Transformación).

    Este último crece en popularidad debido a que las empresas buscan contar con lagos y almacenes de datos en un mismo lugar.
  • Almacenamiento: El stack moderno de datos naturalmente se considera nativo en la nube para disfrutar, entre otras cosas, de los beneficios de bajo mantenimiento de infraestructura y modelos de cobro escalables.

    Las soluciones modernas de almacén de datos permiten la centralización y gestión de la diversidad de datos estructurados y no estructurados que una empresa pueda requerir.
  • Valor: La generación de valor con los datos puede suceder de muchas maneras, desde los más tradicionales reportes de TI hasta las aplicaciones de datos más avanzadas. Nuestro stack de datos debe permitirnos enfocar esfuerzos a este punto, principalmente.
  • Gobierno: Puede parecer invisible pero es determinante para el éxito de cualquier iniciativa de datos.

    La implementación de un buen programa de gobierno de datos debe priorizar la privacidad y seguridad de los datos, pero sin convertirse en un proceso burocrático que limite la generación de valor.

    Este elemento es un habilitador importantísimo de otras capacidades como la catalogación, la exploración y el autoservicio al acceso de los datos.

Estos son los elementos esenciales de un stack moderno de datos, pero no son los únicos. Te recomiendo comenzar a explorar el stack de otras empresas y comprender cómo se alinean con sus necesidades.

Ahora te preguntarás, ¿qué soluciones existen en el mercado para formar mi stack de datos moderno? Te mostraré algunas soluciones líderes y que deberás analizar a detalle para asegurar que se adapten a tus necesidades.  

Recuerda que existen muchísimas soluciones en el mercado y que todas pueden ser valiosas, dependiendo de tus circunstancias. En este caso, mencionaremos algunas de las más populares.


Fuentes de datos

Si bien no profundizaremos en ellas porque pueden ser infinitas, es importante recordar que el paradigma del stack moderno de datos considera que debemos ser capaces de integrar datos de todas las fuentes que sean valiosas para el negocio. Por lo tanto, debemos ser capaces de ingestar fuentes que tradicionalmente no se hacían como redes sociales, SaaS o APIs.

Ingesta de datos

Te presento tres alternativas que de acuerdo con el perfil de tu equipo y tu stack tecnológico pueden ayudarte:

Fivetran

Matillion

Apache Airflow

  • Diseñado para disminuir las labores ingenieriles de ingesta de datos.

  • Su principal función es replicar los datos (no hay transformación).

  • Cientos de conectores prefabricados.

  • Bajo o nulo costo de mantenimiento.

  • Trabaja con DBT para la transformación de los datos.

  • Solución robusta de ETL.

  • Permite gestionar flujos de datos, así como la transformación de estos

  • Usa una interfaz gráfica para la gestión de los procesos (low code).

  • Medio o bajo costo de mantenimiento.

  • Gestor de cargas de trabajo que permite ejecutar ETL.

  • Requiere alto uso de código (Python).

  • Solución Open Source.

DBT



  • Herramienta de transformación de datos (sobre el DWH).

  • 100% basada en código.

  • Permite versionar y gestionar el código. 




Almacenamiento de los datos

Te presento tan solo algunas alternativas, las cuales manejan un paradigma de Data Warehouse (principalmente para datos estructurados) o Data Lakehouse (permite gestionar datos estructurados, semiestructurados y no estructurados).

El data stack moderno es nativo en la nube, por lo que todas las soluciones ofrecen los beneficios de bajo mantenimiento de infraestructura y escalabilidad de costos.

Google Big Query

Snowflake

Databricks

  • El gigante tecnológico pone a nuestra disposición su servicio de almacén de datos.

  • Integración nativa con soluciones de ML de Google.

  • Snowflake es una plataforma de datos por lo que se refleja en una fuerte inversión en nuevas funcionalidades y productos.

  • Servicios de data sharing, marketplace, etc.

  • Su principal diferenciador reside en su enfoque, sus fortalezas para el streaming de datos, aplicaciones de ML y AI. 


Generación de valor con los datos

En este caso particular, las herramientas no son competidores sino complementos. Te comparto las que considero deberían ser esenciales en tu stack de datos moderno.

Streamlit

Jupyter Notebook

Tableau / Power BI

  • Recientemente adquirido por Snowflake.

  • Permite la creación y deploy de aplicaciones interactivas de datos.

  • Permite operacionalizar modelos de ML.

  • Herramienta Open Source.

  • Popular globalmente.

  • Esencial para proyectos de ML y Data Science.

  • Herramientas más comunes en el mercado.

  • Permiten el despliegue de tableros para la toma de decisiones.



Gobierno

Desde mi punto de vista, el éxito de las iniciativas de datos reside en la implementación de una cultura de datos basada en la confianza y la responsabilidad. Por ello, el diseño y aplicación de un gobierno de datos es fundamental.

Alation

Atlan

POPSQL

  • Solución robusta y empresarial para la ejecución del gobierno de datos.

  • Catálogo de datos, self-service BI.

  • Catálogo de datos con alta compatibilidad y muchas herramientas del stack moderno de datos.

  • Su fortaleza reside en una agradable navegación y exploración de los datos.

  • Herramienta de colaboración basada en SQL.

  • Permite catalogar y compartir insights con tu equipo de trabajo.

  • Solución ligera que permite adentrarse al gobierno de los datos sin mucho esfuerzo.

Espero que este artículo rete tus paradigmas actuales y puedas comenzar a diseñar una estrategia de datos a mediano y largo plazo que permita pasar de dedicar esfuerzos a la administración meramente ingenieril de los datos a la generación de valor para tu negocio.

⚠️
Las opiniones y comentarios emitidos en este artículo son propiedad única de su autor y no necesariamente representan el punto de vista de Revelo.

Revelo Content Network da la bienvenida a todas las razas, etnias, nacionalidades, credos, géneros, orientaciones, puntos de vista e ideologías, siempre y cuando promuevan la diversidad, la equidad, la inclusión y el crecimiento profesional de los profesionales en tecnología.