¿Qué es big data y por qué es importante?

El término big data se ha vuelto muy popular últimamente, incluso entre personas ajenas al área de tecnologías de la información. Si alguna vez te has preguntado qué es big data y por qué es tan mencionado en muchos medios de comunicación, sigue leyendo, en esta entrada daré respuesta a estás dudas.

¿Qué es big data?

Cuando hablamos de big data nos referimos a grandes cantidades de datos generados por máquinas o humanos, que no pueden ser procesados por métodos convencionales debido a su gran volumen.

Para procesar datos es necesario organizarlos o estructurarlos para que las computadoras sean capaces de trabajar con ellos. En big data podemos distinguir 3 tipos de datos dependiendo de su organización o estructura:

Estructurados: son los datos organizados en bases de datos, tablas, hojas de cálculo, etc. que, debido a que siguen una buena organización, pueden ser fácilmente procesados por una computadora.
Semi estructurados: datos que siguen una estructura relativamente rígida pero que aún no han sido completamente organizados. Los logs y lecturas de sensores pueden llegar a ser de este tipo.
No estructurados: son los datos que no siguen ninguna estructura en concreto y pueden contener datos basura. Las publicaciones en redes sociales y fotografías son datos no estructurados, para extraer información de ellas es necesario procesarlas previamente.

Big data también puede ser definida por medio de “las tres V” como a continuación:

Volumen: la cantidad de datos que se reciben. Esta es la característica que le da origen al término big data puesto que el volumen de datos con los que se trabaja es enorme.
Velocidad: es necesario que el procesamiento de los datos se realice a una velocidad razonable, de otro modo, no habría motivo para usarlos en lugar de los procedimientos convencionales. Algunos frameworks como Apache Spark están diseñados para permitir el procesamiento casi inmediato de los datos.
Variedad: los datos que se reciben pueden ser de cualquier tipo (texto, imágenes, pulsos electromagnéticos, videos, etc.) y pueden estar o no organizados. La tarea de big data es dar estructura u organizar todos -o una cantidad razonable de- los datos.

Diferentes empresas y autores tienden a añadir más características según lo consideran conveniente, por ejemplo ASAS y Oracle consideran el valor de los datos como otra característica importante puesto que todos los datos tienen un significado que debe ser encontrado.

¿Por qué es necesario el big data?

Actualmente -mayo 2017- se estima que la población mundial es de más de 7,500,000,000 (7 millardos). De ellos, se calcula que aproximadamente el 50% tiene conexión a Internet. Cada que una persona ingresa a una página o ejecuta alguna aplicación con funciones en línea, se guardan registros (logs) en las bases de datos de las empresas propietarias de esas páginas o aplicaciones. Supongamos que cada una de esas personas con acceso a Internet genera 100 KB de datos en logs diariamente, es decir, se generarían aproximadamente 362 TB de datos diarios… Pero ese es un ejemplo muy alejado de la realidad, ni las personas producen esa cantidad datos ni lo hacen exclusivamente por medio de logs; en 2013 se estimó que diariamente se producen 2.5 EB de datos en el mundo (1 EB = 1,000,000 TB).

La cantidad de personas con acceso a tecnologías de la información ha disparado la producción diaria de datos, en el párrafo anterior hablábamos de estimados del 2013, para 2017 la cantidad aumentó más del doble ya que algunos expertos estiman que la cantidad de datos digitales a nivel mundial se duplica cada 2 años. Desde hace mucho tiempo los métodos convencionales de procesamiento de datos dejaron de ser viables para muchas empresas, es por eso que nació el big data buscando dar solución a la demanda de análisis de datos.

Las razones por las que una empresa podría querer analizar los registros y datos que guarda son muchas, entre ellas podemos distinguir:

Planear estrategias de mercado.
Detectar productos o servicios que podrían ser mejorados, descartados o incorporados.
Identificar problemas con clientes.
Crear perfiles de clientes para ofrecerles las prestaciones que estos buscan.
Atraer más clientes.

Conociendo los beneficios anteriores, lo lógico sería que todas las empresas explotaran los datos que almacenan, sin embargo, se estima que la mayoría de ellas solamente utilizan una pequeña fracción de los datos que recolectan debido a lo masivos que estos son.

Diferencias entre big data y minería de datos

Big data y minería de datos (data mining) son términos diferentes pero si eres nuevo en ellos, podrías llegar a confundirte un poco. Ambos hacen referencia al manejo de grandes cantidades de datos pero, mientras big data nos dice cómo almacenar y procesar grandes cantidades de datos, la minería de datos se refiere a las estrategias para localizar alguno en específico entre todos ellos, o a encontrar patrones que estos pueden presentar. Ambos sistemas trabajan perfectamente juntos e, incluso, puedes combinarlos con métodos de procesamiento de “pequeñas” cantidades de datos de ser necesario (como bases de datos convencionales) para mejorar el rendimiento de tareas.

Software para comenzar a aprender sobre big data

La siguiente lista contiene algunos frameworks que te podrían ayudar a comenzar a practicar con big data:

Eso ha sido todo por ahora, espero que te haya servido. Si tienes alguna duda o sugerencia, puedes dejarla en la sección de comentarios. See ya!

¿Qué es big data?

¿Por qué es necesario el big data?

Diferencias entre big data y minería de datos

Software para comenzar a aprender sobre big data

Deja una respuesta Cancelar respuesta