Los proyectos de Big Data y Machine Learning en muchos casos no logran los beneficios esperados y los lagos de datos se convierten en nuevos silos de datos que aportan poco valor a negocio. Los principales desafíos que encuentran las empresas para un aprovechamiento de las iniciativas de Big Data y Machine Learning son los siguientes:
- Identificación de fuentes de datos relevantes para el análisis del caso de negocio
- Dificultad para la integración de las fuentes de datos, se invierte mucho tiempo en tareas rutinarias de limpieza y preparación
- Problemas de colaboración en el equipo de trabajo: falta de visibilidad de las transformaciones realizadas, dificultad para la compartición de conocimiento y código
- Dificultad para soportar distintos perfiles con niveles de conocimiento dispares (e.g. analistas de negocio vs científicos de datos)
- Compartir resultados con los usuarios de negocio, evitar un nuevo silo de datos en la organización
- Dificultad a la hora de operacionalizar los algoritmos, surtir de datos a los algoritmos para extraer la información
Las arquitecturas de Data Fabric vienen a facilitar el ciclo de vida de las iniciativas de Big Data y Machine Learning:
- Exploración e identificación de datos relevantes para el análisis mediante el Catálogo de Datos
- Preparación de los datos para alimentar los algoritmos de ML (con total trazabilidad de las combinaciones y transformaciones realizadas)
- Parametrización del algoritmo, tuning y adiestramiento mediante data science notebooks conectados a la capa de virtualización
- Operacionalización del algoritmo como un servicio de datos para usuarios de negocio
- Ofrecen una capa de gobierno y seguridad sobre las fuentes de datos
Los ponentes debatirán las distintas alternativas y cómo las arquitecturas de Data Fabric se han convertido en piezas clave para soportar iniciativas de Big Data y Machine Learning.