Big Data – ¿estamos preparados para el desafío?

Opinión: ¿Sabía usted que cada 48 horas generamos tantos datos en Internet, como los que ha producido la humanidad desde el inicio de la civilización hasta el año 2003?

En la actualidad, nos encontramos con una multiplicidad de dispositivos inteligentes y diversidad de vías de comunicación que han provocado este crecimiento exponencial en el volumen de datos, dando origen al fenómeno que desde hace un tiempo se conoce como Big Data.

Ya para el 2013 IDC había anticipado que el total de los datos digitales creados (y reproducidos) en el mundo alcanzaba los 4ZB (1 zettabyte = 1070 millones terabytes) en todo el planeta.

En cuanto a la inversión en tecnologías y servicios de Big Data (grandes datos), la consultora predice que año tras año, a partir del 2014, irá evidenciando un crecimiento del 30 por ciento. Esto promovido por el factor ecosistema TI, dentro del cual destaca la proyección de crecimiento del 12% para el segmento de smartphones; y del 18% para las tablets, gracias al Sistema Operativo abierto Android.

Cabe destacar que, cuando hablamos de Big Data no sólo nos referimos a grandes volúmenes de información, sino también a variedad, velocidad, y lo que es más importante, valor. Justamente, el gran atractivo para las empresas, está en poder sustraer, componer y/o producir información que aporte un valor diferencial en base a este gran cúmulo de datos.

La complejidad del proceso de transformación de estos volúmenes de datos en información confiable, útil y oportuna presenta un reto de gran envergadura. Los desafíos están principalmente centrados en estas seis funciones:

  • Recolectar datos que se generan desde múltiples fuentes, en distintos formatos y se capturan a través de diferentes protocolos y/o vínculos.
  • Reconocer, analizar y entender los datos para poder generar información válida y sustancial.
  • Proteger adecuadamente la información. Para cumplir con este paso se debe tener en cuenta la legislación de protección a la información que puede variar por tipos de datos, industria y país/región.
  • Almacenar y resguardar eficientemente los datos. La conjunción de variedad, volumen y eficiencia nos llevan inevitablemente a un entorno donde distintos modelos de base de datos no sólo deben coexistir, sino que también integrarse para poder representar de forma acabada las relaciones entre los datos.
  • Garantizar la performance y disponibilidad de la información. El valor no sólo está dado por la información en sí misma sino por la posibilidad de disponer de ella en tiempo y forma.
  • Planificar y ejecutar respuestas óptimas. Las empresas que más se destaquen llevando adelante esta etapa del proceso son las que van a lograr los mejores resultados desde el punto de vista de la efectividad y eficiencia.

Ahora bien, ¿cuál es la importancia de este nuevo modelo de procesamiento en la dinámica de un centro de datos? Los métodos de análisis y consulta de grandes volúmenes de datos son fundamentalmente diferentes de los análisis estadísticos tradicionales basados en pequeñas muestras.

Estos datos son a menudo más dispersos, dinámicos, heterogéneos, y podríamos decir que son también más complejos. Muchas veces, para un correcto análisis, va a ser necesario tomar en cuenta los metadatos e inclusive para poder automatizar el proceso, nos veremos obligados a incorporar definiciones semánticas.

Podemos reconocer que, en determinadas situaciones, pueden ser menos confiables. Sin embargo, aún en estas condiciones, pueden ser más valiosas para el negocio que las muestras pequeñas que se manejan en los análisis tradicionales. Además, este gran volumen de datos interconectados forma grandes redes de información que se pueden explorar para compensar los datos faltantes, para cotejar los casos conflictivos, o para validar su veracidad.

Por ejemplo, un médico puede escribir “TVP” como el diagnóstico de un paciente en su historia clínica, siendo esta abreviatura utilizada comúnmente tanto para “trombosis venosa profunda” como para “diverticulitis”. Es decir, dos condiciones médicas muy diferentes. Una base de conocimientos construida a partir de datos relacionados como los síntomas asociados a las enfermedades y los medicamentos, se puede utilizar para determinar cuál de los dos términos es al que hacía referencia el médico.

Del mismo modo, las preguntas a realizar sobre los datos no siempre van a estar definidas de antemano. Es posible que éstas salgan de los mismos datos.

Aunque siempre ha sido una necesidad disponer de profesionales especializados en análisis de datos, los perfiles requeridos para poder llevar adelante este análisis cuando se trata de grandes volúmenes, es un poco diferente. Se necesita una base sólida en tecnologías de información y comunicaciones, conocer en profundidad las estrategias, los mercados, los productos/servicios, y los procesos dentro de las organizaciones.

Los “Científicos de datos”, nombre con el que se conoce a los profesionales de la materia, deben combinar conocimientos técnicos -incluyendo programación, matemáticas y estadísticas- con visión para los negocios y deben tener la capacidad de comunicarse de manera efectiva con los tomadores de decisiones.

Por Pablo García, Gerente de Data Center, Level 3 Chile


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022