Llevamos ya un mes de este 2019, y después de meses leyendo informes acerca de cuales serán las principales novedades con respecto al mundo de los datos y la analítica avanzada en plataformas Microsoft, parece claro que este año va a girar en torno a tres grandes pilares, que serán SQL Server 2019, el fin de soporte de SQL Server 2008 y 2008 R2, y el Machine Learning.

Fin de Soporte de SQL Server 2008 y 2008 R2

A pesar de que se tratan de versiones con más de 10 años de antigüedad, parece que la mayor base instalada de instancias de SQL Server están en estas dos versiones, en la que ha sido hasta la fecha la versión best-seller del motor de base de datos de Microsoft. Sin embargo, ha llegado el momento de cambiar.

Los motivos son varios y desde mi punto de vista muy claros, puesto que ni las aplicaciones son las mismas que hace 10 años, ni los requisitos de almacenamiento y análisis de datos es parecen en absoluto. Llegado este momento, y a día de hoy, la principal duda que nos plantean nuestros clientes radica en el hecho de si deben de aprovechar para migrar a la nube su infraestructura de datos o no. Si tuviese que dar una respuesta rápida a esa pregunta, diría que sin dudarlo si tu aplicación lo permite, puesto que las funcionalidades de las ediciones cloud de SQL Azure están a la par con las características de las ediciones de SQL Server a día de hoy.

SQL Server 2019

Más allá de ser la versión que celebra los 25 años de SQL Server, SQL Server 2019 es algo más que una nueva versión del producto. Además de mejoras en características relacionadas con Alta Disponibilidad, Seguridad o mejora de rendimiento, incluye un nuevo concepto denominado los Big Data Clusters.

De una forma muy resumida, podríamos decir que se trata de la posibilidad de desplegar clusters Hadoop utilizando Kubernetes, gestionándolos como parte de una infraestructura SQL Server, para, a través de Polybase, tener la posibilidad de consultar los ficheros almacenados en esos clusters a través de consultas TSQL y de forma transparente para el usuario / desarrollador, además de disponer de la posibilidad de ejecutar cargas de trabajo en clusters Apache Spark que se ejecuten en esa misma infraestructura.  Con esto se abren muchos posibles nuevos escenarios, pero quizás el más interesante radica en la posibilidad de modernizar los Data Warehouse existentes. Ni las promesas del Big Data, ni la flexibilidad de los servicios de Machine Learning, han podido matar al Data Warehouse. Sigue entre nosotros, y si tuviese que apostar, diría que lo hará por muchos años.

Es indispensable disponer de un almacén que pueda representar nuestros negocios a través de los datos de la forma más fidedigna posible, que no sea volátil, y que preste especial atención a la calidad del dato. Sin embargo, la aparición de nuevas fuentes de datos a analizar y la flexibilidad exigida en algunos escenarios, junto con algunos requisitos de tiempo real, hacen que el Data Warehouse no sea la mejor opción para determinadas necesidades de análisis de datos.

Es ahí donde estos nuevos Big Data Clusters, pueden ayudar a completar a nuestro Data Warehouse, y dotarle de esa capa de Big Data que procese los datos según los requisitos antes mencionados, y que nutra al Data Warehouse de los resultados de esos análisis como una fuente de datos adicional. ¿Estaremos ante una auténtica aproximación de Data Lake? Veremos si finalmente cuaja, pero desde luego si es cierto que la facilidad de despliegue y su integración con el motor relacional prometen.

Para saber más sobre estos Big Data Clusters puedes visitar este enlace oficial.

Machine Learning

Durante los últimos dos o tres años, es cierto que ha ido en aumento el número de proyectos en los que se hacía necesario la utilización de técnicas de Machine Learning para conseguir los objetivos propuestos. Sin embargo, se trataban en la mayoría de los casos, de “probar” si realmente la tecnología podía precisamente cumplir con esos objetivos tal y como se promete. En la mayoría de los casos la respuesta siempre es muy positiva y las expectativas se superan con creces, por eso parece que este 2019 será el año del Machine Learning “práctico”. Y lo creo por tres motivos fundamentales:

  1. La madurez de la tecnología en términos de metodologías y herramientas que permiten ya un despliegue empresarial de este tipo de soluciones, pasando de algoritmos desarrollados en R o Python en los equipos de los científicos a datos a poder desplegarse y operarse como parte de la arquitectura TI empresarial.
  2. La cantidad de datos disponibles
  3. Las posibilidades de computación que fundamentalmente la nube nos proporciona

Debido a ello, y las buenas experiencias en las pruebas realizadas, habrá un incremento en la demanda de este tipo de soluciones, y es por ello precisamente por lo que lanzamos el pasado mes de Diciembre nuestra plataforma de Formación bajo demanda, precisamente con un curso de Machine Learning, puesto que la demanda de profesionales que sean capaces de entender las opciones de arquitectura para este tipo de proyectos, irá en aumento durante 2019.

Será un año divertido para aquellos que nos dedicamos profesionalmente al análisis de datos, puesto que además de estos tres puntos comentados, Power BI sigue su crecimiento imparable, y tecnologías como Databricks o Azure Cosmo DB, también prometen diversión.  Si necesitas ayuda en cualquiera de estos escenarios o cualquier otro relacionado, no dudes en contactar con SolidQ!.