Big data

Ver mas

¿Qué es Big Data?

Big data se refiere a conjuntos de datos estructurados y no estructurados complejos masivos que se generan y transmiten rápidamente desde una amplia variedad de fuentes. 

Visión de conjunto

¿Qué es el gran volumen de datos?

¿Qué es el gran volumen de datos?

Big data se refiere a conjuntos de datos estructurados y no estructurados complejos masivos que se generan y transmiten rápidamente desde una amplia variedad de fuentes. Estos atributos conforman las tres V del big data:   

  1. Volumen:  las enormes cantidades de datos que se almacenan.
  2. Velocidad: la velocidad del rayo a la que se deben procesar y analizar los flujos de datos.
  3. Variedad:  Las diferentes fuentes y formas de las que se recopilan datos, como números, texto, video, imágenes, audio y texto.

En estos días, los datos se generan constantemente  cada vez que abrimos una aplicación, buscamos en Google o simplemente viajamos de un lugar a otro con nuestros dispositivos móviles. ¿El resultado? Colecciones masivas de información valiosa que las empresas y organizaciones necesitan administrar, almacenar, visualizar y analizar.

Las herramientas de datos tradicionales no están equipadas para manejar este tipo de complejidad y volumen, lo que ha llevado a una gran cantidad de software especializado en big data y soluciones de arquitectura diseñadas para administrar la carga.

¿Qué son las plataformas de Big Data?

Las plataformas de big data están especialmente diseñadas para manejar volúmenes inconmensurables de datos que ingresan al sistema a altas velocidades y con una amplia variedad. Estas plataformas de big data generalmente consisten en varios servidores, bases de datos y herramientas de inteligencia empresarial que permiten a los científicos de datos manipular los datos para encontrar tendencias y patrones.

Big data es esencialmente la disputa de las tres V para obtener información y hacer predicciones, por lo que es útil observar más de cerca cada atributo.

Volumen 

Los grandes datos son enormes. Mientras que los datos tradicionales se miden en tamaños familiares como megabytes, gigabytes y terabytes, los grandes datos se almacenan en petabytes y zettabytes. 

Para comprender la enormidad de la diferencia de escala, considere esta comparación de la Escuela de Información de Berkeley: un gigabyte es el equivalente a un video de siete minutos en HD, mientras que un solo zettabyte equivale a 250 mil millones de DVD.

Esto es sólo la punta del iceberg. Según un informe de EMC, el universo digital se duplica cada dos años y se espera que para 2020 alcance los 44 billones de zettabytes. 

Big data proporciona la arquitectura que maneja este tipo de datos. Sin las soluciones adecuadas para el almacenamiento y el procesamiento, sería imposible extraer información. 

Velocidad

Desde la velocidad a la que se crea hasta la cantidad de tiempo necesario para analizarlo, todo lo relacionado con big data es rápido. Algunos lo han descrito como intentar beber de una manguera contra incendios

Las empresas y organizaciones deben tener la capacidad de aprovechar estos datos y generar conocimientos a partir de ellos en tiempo real; de lo contrario, no es muy útil. El procesamiento en tiempo real permite que los responsables de la toma de decisiones actúen rápidamente, lo que les da una ventaja sobre la competencia. 

Si bien algunas formas de datos pueden procesarse por lotes y seguir siendo relevantes a lo largo del tiempo, gran parte de los grandes datos se transmiten a las organizaciones a un ritmo rápido y requieren una acción inmediata para obtener los mejores resultados. Los datos de los sensores de los dispositivos de salud son un gran ejemplo. La capacidad de procesar instantáneamente los datos de salud puede proporcionar a los usuarios y médicos información que puede salvarles la vida.

Variedad

Aproximadamente el 95% de todos los grandes datos no están estructurados , lo que significa que no encajan fácilmente en un modelo tradicional sencillo. Todo, desde correos electrónicos y videos hasta datos científicos y meteorológicos, puede constituir un gran flujo de datos, cada uno con sus propios atributos únicos. 

Usos

¿Cómo se utilizan los grandes datos?

¿Cómo se utilizan los grandes datos?

La diversidad de los grandes datos los hace intrínsecamente complejos, lo que genera la necesidad de sistemas capaces de procesar sus diversas diferencias estructurales y semánticas. 

Big data requiere bases de datos NoSQL especializadas que puedan almacenar los datos de una manera que no requiera un cumplimiento estricto de un modelo en particular. Esto proporciona la flexibilidad necesaria para analizar coherentemente fuentes de información aparentemente dispares para obtener una visión holística de lo que está sucediendo, cómo actuar y cuándo actuar.

Al agregar, procesar y analizar grandes datos, a menudo se clasifican como datos operativos o analíticos y se almacenan en consecuencia.

Los sistemas operativos sirven grandes lotes de datos a través de múltiples servidores e incluyen entradas tales como inventario, datos de clientes y compras: la información del día a día dentro de una organización.

Los sistemas analíticos son más sofisticados que sus contrapartes operativas, capaces de manejar análisis de datos complejos y proporcionar a las empresas información para la toma de decisiones. Estos sistemas a menudo se integrarán en los procesos y la infraestructura existentes para maximizar la recopilación y el uso de datos.

Independientemente de cómo se clasifique, los datos están en todas partes. Nuestros teléfonos, tarjetas de crédito, aplicaciones de software, vehículos, registros, sitios web y la mayoría de las «cosas» en nuestro mundo son capaces de transmitir grandes cantidades de datos , y esta información es increíblemente valiosa.

Big data se utiliza en casi todas las industrias para identificar patrones y tendencias, responder preguntas, obtener información sobre los clientes y abordar problemas complejos. Las empresas y organizaciones utilizan la información por una multitud de razones, como hacer crecer sus negocios, comprender las decisiones de los clientes, mejorar la investigación, hacer pronósticos y dirigirse a audiencias clave para la publicidad.

Ejemplos de grandes datos

  • Experiencias de compra de comercio electrónico personalizadas
  • Modelado del mercado financiero
  • Compilación de billones de puntos de datos para acelerar la investigación del cáncer
  • Recomendaciones de medios de servicios de transmisión como Spotify, Hulu y Netflix
  • Predicción del rendimiento de los cultivos para los agricultores
  • Analizar los patrones de tráfico para reducir la congestión en las ciudades
  • Herramientas de datos que reconocen los hábitos de compra minorista y la ubicación óptima del producto
  • Big data ayuda a los equipos deportivos a maximizar su eficiencia y valor
  • Reconocer las tendencias en los hábitos educativos de estudiantes, escuelas y distritos individuales

Aquí hay algunos ejemplos de industrias en las que la revolución de los grandes datos ya está en marcha :

Finanzas

Las industrias de finanzas y seguros utilizan big data y análisis predictivo para la detección de fraudes, evaluaciones de riesgos, clasificaciones crediticias, servicios de corretaje y tecnología blockchain, entre otros usos.

Las instituciones financieras también están utilizando big data para mejorar sus esfuerzos de seguridad cibernética y personalizar las decisiones financieras para los clientes.

Cuidado de la salud

Los hospitales, los investigadores y las compañías farmacéuticas están adoptando soluciones de big data para mejorar y hacer avanzar la atención médica.

Con acceso a grandes cantidades de datos de pacientes y población, la atención médica está mejorando los tratamientos, realizando investigaciones más efectivas sobre enfermedades como el cáncer y el Alzheimer, desarrollando nuevos medicamentos y obteniendo información crítica sobre los patrones dentro de la salud de la población.

Medios y entretenimiento

Si alguna vez usó Netflix, Hulu o cualquier otro servicio de transmisión que brinde recomendaciones, ha sido testigo de la gran cantidad de datos en el trabajo. 

Las empresas de medios analizan nuestros hábitos de lectura, visualización y escucha para crear experiencias individualizadas. Netflix incluso usa datos sobre gráficos, títulos y colores para tomar decisiones sobre las preferencias de los clientes.

Agricultura

Desde la ingeniería de semillas hasta la predicción del rendimiento de los cultivos con una precisión asombrosa, los macrodatos y la automatización están mejorando rápidamente la industria agrícola.

Con la afluencia de datos en las últimas dos décadas, la información es más abundante que los alimentos en muchos países, lo que lleva a los investigadores y científicos a utilizar big data para combatir el hambre y la desnutrición. Con grupos como  Global Open Data for Agriculture & Nutrition  (GODAN) que promueven el acceso abierto y sin restricciones a datos agrícolas y de nutrición global, se están logrando algunos avances en la lucha para acabar con el hambre en el mundo.

Más áreas de aplicación

  • Marketing publicitario
  • Negocio
  • Comercio electrónico y venta al por menor
  • Educación
  • Internet de las Cosas
  • Deportes 
Historia


Historia de los grandes datos

La recopilación de datos se remonta al uso de conteos de palos por parte de la civilización antigua al rastrear alimentos, pero la historia de los grandes datos realmente comienza mucho más tarde. Aquí hay una breve cronología de algunos de los momentos notables que nos han llevado a donde estamos hoy.

1881

  • Uno de los primeros casos de sobrecarga de datos se experimentó durante el censo de 1880. Se inventa la máquina tabuladora Hollerith y el trabajo de procesamiento de datos del censo se reduce de diez años a menos de un año.

1928

  • El ingeniero germano-austríaco Fritz Pfleumer desarrolla el almacenamiento de datos magnéticos en cinta, lo que abrió el camino sobre cómo se almacenarían los datos digitales en el próximo siglo.

1948

  • Se desarrolla la Teoría de la Información de Shannon, sentando las bases para la infraestructura de la información ampliamente utilizada en la actualidad.

1970

  • Edgar F. Codd, matemático de IBM, presenta una “base de datos relacional” que muestra cómo se puede acceder a la información de grandes bases de datos sin conocer su estructura o ubicación. Esto antes estaba reservado para especialistas o aquellos con amplios conocimientos informáticos.

1976

  • El uso comercial de los sistemas de planificación de requisitos de materiales (MRP) se desarrolla para organizar y programar información, lo que se vuelve más común para catalizar las operaciones comerciales.

1989

  • La World Wide Web fue creada por Tim Berners-Lee.

2001

  • Doug Laney presentó un documento que describe las «3 V de los datos», que se convierten en las características fundamentales de los grandes datos. Ese mismo año se compartió por primera vez el término “software-as-a-service”.  

2005

  • Se crea Hadoop, el marco de software de código abierto para el almacenamiento de grandes conjuntos de datos.

2007

2008

  • Un equipo de investigadores de ciencias de la computación publicó el artículo «Informática de big data: creación de avances revolucionarios en el comercio, la ciencia y la sociedad», que describe cómo los grandes datos están cambiando fundamentalmente la forma en que las empresas y organizaciones hacen negocios.

2010

  • El CEO de Google, Eric Schmidt, revela que cada dos días las personas crean tanta información como la que crearon desde el comienzo de la civilización hasta 2003.

2014

  • Cada vez más empresas comienzan a trasladar sus sistemas de planificación de recursos empresariales (ERP) a la nube.
  • El Internet de las cosas (IoT) se volvió ampliamente utilizado con aproximadamente 3700 millones de dispositivos conectados o cosas en uso, que transmiten grandes cantidades de datos todos los días.

2016

2017

Continua leyendo