¿Qué es el Big Data?
El Big Data puede describirse básicamente como la grandísima cantidad de información que generamos digitalmente cada día, llegando a aproximadamente 2,5 quintillones de bytes. Esta información se ha puesto al alcance de muchas organizaciones, particularmente en la última década y tiene 4 fuentes o características principales:
- Información libre:
Se trata, como su nombre lo indica, de fuentes de información libres, facilitadas por compañías, organizaciones diversas e incluso gobiernos a las cuales se puede acceder como usuario o compañía. Por ejemplo, los datos meteorológicos, socioeconómicos o diversos servicios públicos son todos información libre.
- Internet of the things (o “Internet de las cosas”):
Esto es básicamente la información procedente de dispositivos conectados a Internet, los cuales envían datos en tiempo real acerca de su estado y/o el estado de su entorno. Por ejemplo, dispositivos móviles, vehículos inteligentes, relojes inteligentes, etc.
- Smart Cities (o “Ciudades inteligentes”):
Esta información pertenece a todo lo relacionado a la organización de ciudades que cuenten con servicios inteligentes, como eventos masivos, información del tráfico, obras en la vía, etc.
- Redes sociales:
Por supuesto no podía faltar una de las mayores fuentes de información digital de la actualidad, y es que las redes sociales son utilizadas por millones de personas y proveen datos en tiempo real, lo cual llama la atención de organizaciones y empresas de todo tipo para lograr mejorar productos y servicios.
Es muy importante destacar que toda esta información por sí sola no tiene sentido, lo esencial para toda estrategia de Big Data es convertir la información en conocimiento. Con el Big Data las organizaciones y empresas pueden anticiparse, organizarse y predecir de forma casi perfecta sus estrategias.
Ahora, es importante conocer las 5 grandes dimensiones del Big Data, las cuales delimitan cuáles son las características que definen ciertos datos como macrodatos de otros, estas características se conocen como las 5 V:
- Volumen:
El volumen delimita los datos masivos, imposibles de almacenar en una simple computadora, necesitando tecnología especial para ello.
Los datos han crecido y siguen creciendo de manera exponencial, pues ya hemos dejado atrás la era del Petabyte y el Exabyte, habiendo llegado a aproximadamente 35 Zettabytes de información en Internet.
- Velocidad:
Ya que el flujo de datos es masivo y constante, la velocidad a la que se transfieren debe ser capaz de manejarlos. El gran volumen de datos y la velocidad a la que se transmiten hacen que pierdan su relevancia rápidamente para ser sustituidos por otros de manera casi inmediata.
Es por esto que las empresas deben reaccionar de manera rápida para recopilar, almacenar y procesar datos y convertirlos en información útil antes de que pierdan su valor, lo cual representa un gran reto tecnológico y logístico.
- Variedad:
El Big Data se caracteriza por la gran variedad de fuentes de la que provienen los datos, con distintos formatos y tipologías. El éxito de una estrategia de Big Data depende en gran parte de utilizar y resaltar el conocimiento que le propician los distintos tipos de datos de los que se dispone.
Los datos se pueden dividir principalmente en 3 tipos:
- Estructurados:
Estos se almacenan en bases de datos relacionales, donde su tamaño, denominación y formato han sido predefinidos.
- Semi estructurados:
Estos se refieren a documentos realizados con lenguaje HTML, SGML o XML, es decir, no cuentan con una estructura fija pero poseen etiquetas y otros marcadores que permiten su comprensión.
- No estructurados:
Estos no tienen una estructura predefinida y se pueden encontrar en GIFs, imágenes, videos, audios y variados tipos de contenido multimedia.
- Veracidad:
Este es uno de los puntos más difíciles de alcanzar en los análisis de datos, ya que identificar y eliminar los datos tomados de forma incorrecta para detectar patrones reales representa todo un reto para el Big Data.
Si bien es elemental almacenar una gran cantidad de datos, no todos tienen la misma validez.
- Valor:
Esto se refiere al valor agregado que obtienen las organizaciones, lo cual se traduce en la generación de servicios y productos personalizados, por ende más efectivos. Debemos identificar qué datos nos ayudarán a generar lo que el cliente realmente necesita para obtener ese valor agregado.
En resumen, podemos decir que la Big Data tiene su ciencia, pero una vez se entienden y se desarrolla una buena estrategia en base a estos 5 principios todo se hace mucho más fácil y se pueden aprovechar los muchos beneficios de manejar la información de manera correcta.