🌎💡 Entiende qué es el Big Data en 9 MINUTOS | ILUSTRADO… — Transcript

Explicación clara y didáctica del Big Data con la historia de Dani, el pastelero, y tecnologías clave como Hadoop y Spark en solo 9 minutos.

Key Takeaways

  • Big Data no solo es gran cantidad de datos, sino también variedad y velocidad en su manejo.
  • Las bases de datos tradicionales no son suficientes para escalar con grandes volúmenes y tipos variados de datos.
  • Tecnologías como Hadoop y Spark permiten almacenar y procesar datos distribuidos y no estructurados eficientemente.
  • La nube y el modelo SaaS facilitan la gestión y escalabilidad de infraestructuras Big Data.
  • Transformar datos en conocimiento útil es clave para la mejora continua y la toma de decisiones en negocios.

Summary

  • El video introduce Big Data a través de la historia de Dani, un pastelero que comienza a recopilar datos para mejorar su negocio.
  • Se explica la evolución desde hojas de cálculo hasta bases de datos relacionales y la necesidad de nuevas tecnologías para manejar grandes volúmenes de datos.
  • Se presentan las tres Vs del Big Data: volumen, variedad y velocidad, y se menciona que actualmente se habla de hasta cinco Vs.
  • Se describen los datos estructurados y no estructurados, incluyendo comentarios en redes sociales y correos electrónicos.
  • Se introducen tecnologías como MapReduce, Apache Hadoop y Apache Spark para el procesamiento y almacenamiento de Big Data.
  • Se explica el modelo HDFS (Hadoop Distributed File System) para almacenamiento distribuido y la gestión de recursos en clústeres.
  • Se detalla cómo MapReduce divide y procesa datos en paralelo para mejorar la eficiencia.
  • Se menciona la transición de infraestructuras on-premise a soluciones en la nube bajo modelos SaaS para facilitar la gestión.
  • Se enfatiza la importancia de convertir grandes volúmenes de datos en conocimiento útil mediante la pirámide del conocimiento.
  • El video es didáctico, con ejemplos prácticos y un lenguaje sencillo para facilitar la comprensión del Big Data y sus tecnologías.

Full Transcript — Download SRT & Markdown

00:00
Speaker A
Hola. En este vídeo vamos a hablar de Big Data, algo ya no muy nuevo pero todavía confundido. Y en vez de entrar como todo el mundo diciendo que Big Data se refiere a muchos datos y muy complejos para usarlos con métodos tradicionales y bla, bla, bla, vamos a contar la historia de Dani, el pastelero, para entender por qué apareció una nueva tecnología y para qué sirve. Poneos cómodos que empezamos.
00:13
Speaker A
bla bla bla vamos a contar la historia de Dani el pastelero para entender Por qué apareció una nueva tecnología y para qué sirve poneos cómodos que empezamos en pastelería Dani hacen unos cuaz riquísimos los danielitos Y como están
00:29
Speaker A
En pastelería, Dani hace unos cuaz riquísimos, los danielitos. Y como están muy buenos y no son caros, su negocio sube como la pólvora. Cualquiera estaría contento, pero Daniel quiere hacerlo mejor y decide empezar a recopilar información sobre su propio negocio, como ponerse serio con la contabilidad y las finanzas o aprovechar sus hornos y máquinas que se pueden programar para almacenar los datos de cada elaboración.
00:44
Speaker A
máquinas que se pueden programar para almacenar los datos de cada elaboración todo esto es mucha información y lo que antes hacía en una hojita de cálculo de Excel ahora lo ha tenido que evolucionar a una base de datos relacional en sql al final todos
00:57
Speaker A
Todo esto es mucha información, y lo que antes hacía en una hojita de cálculo de Excel ahora lo ha tenido que evolucionar a una base de datos relacional en SQL. Al final, todos estos datos son estructurados y se pueden almacenar en tablas. Con todos estos datos trabaja sobre ellos para obtener su información, aprender de esa información y así llegar a conocer mejor su propio negocio. Ha creado, sin darse cuenta, su propia pirámide del conocimiento que le ayuda en su mejora continua.
01:12
Speaker A
pirámide del conocimiento que le ayuda en su mejora continua y todo podría quedarse aquí pero Daniel quiere ir más allá así que por un lado Abre redes sociales para tener más alcance en su público y por otro lado Gracias a un
01:26
Speaker A
Y todo podría quedarse aquí, pero Daniel quiere ir más allá. Así que, por un lado, abre redes sociales para tener más alcance en su público y, por otro lado, gracias a un inversor externo, abre decenas de pastelerías Daniel para vender sus danielitos. De repente, descubre que su base de datos no puede escalar al ritmo que quiere abrir las tiendas.
01:40
Speaker A
negocios que ahora por cierto crean muchísimos datos por hora y Es que además esos datos son menos fáciles de leer como los comentarios en redes sociales o las interacciones en la web o los propios mails que reciben las
01:52
Speaker A
Entonces, necesitan otra forma de almacenar información, una que sí pueda escalar tan bien como sus negocios, que ahora, por cierto, crean muchísimos datos por hora. Y es que, además, esos datos son menos fáciles de leer, como los comentarios en redes sociales o las interacciones en la web o los propios mails que reciben las pastelerías.
02:06
Speaker A
que este problema ya lo resolvieron empresas como Google o Amazon hace tiempo y que usara cosas con nombres como map reduce apachi hadoop o apachi Spark pero Daniel que está a lo que está y no quiere complicarse la vida le dice
02:20
Speaker A
Así que, además de muchísimos datos, tiene algunos no estructurados. Ya está claro que no le sirve una base de datos relacional de las de toda la vida. Por suerte para él, su cuñada Mari, que está muy puesta en estos temas, le dice que este problema ya lo resolvieron empresas como Google o Amazon hace tiempo y que usara cosas con nombres como MapReduce, Apache Hadoop o Apache Spark.
02:32
Speaker A
es decir en local ahora se hacen en Cloud con contratos de software a service y que se delega todo el mantenimiento de la infraestructura en el proveedor externo Daniel que ahora es un hombre sofisticado y dueño de Tin pikes habla
02:47
Speaker A
Pero Daniel, que está a lo que está y no quiere complicarse la vida, le dice que no, que él necesita algo más fácil que ponerse a usar modelos o frameworks en su propio centro de datos. Y Mari, que además de lista está actualizada, le dice que no hay problema, que todos estos IaaS que originalmente se hacían on premise, es decir, en local, ahora se hacen en cloud con contratos de software as a service y que se delega todo el mantenimiento de la infraestructura en el proveedor externo.
03:03
Speaker A
son las famosas tres vs del big Data Aunque hoy en día ya se puede hablar hasta de cinco vamos a repasarlas el motivo de su aparición y distinción de las bases de datos tradicionales fue que el volumen de datos era enorme Y que
03:16
Speaker A
Daniel, que ahora es un hombre sofisticado y dueño de Tin Pikes, habla con un comercial y consiguen tener sus muchos datos estructurados y no estructurados en una arquitectura Big Data y en cloud. Para que luego digan que emprender es difícil, ha sido un paseito.
03:29
Speaker A
escribir en piedra pocos conocimientos útiles vamos a generar acordaros de la Pirámide del conocimiento de muchos datos a conocimiento útil ahora en la historieta hemos puesto nombrecitos como apachi hado apachi Spark o map reduce Y es que para abordar
03:44
Speaker A
De esta historia sacamos los aprendizajes del mundo real que, a su vez, son las famosas tres Vs del Big Data, aunque hoy en día ya se puede hablar hasta de cinco. Vamos a repasarlas.
03:57
Speaker A
en uso y si cuaja más adelante veremos qué innovaciones añadió SP podemos dividir hup en tres partes almacenamiento reducción y gestión de los recursos almacenar tantísimos datos en un solo lugar es inabarcable el modelo hdfs o Had distributed file System
04:16
Speaker A
El motivo de su aparición y distinción de las bases de datos tradicionales fue que el volumen de datos era enorme y que, además, la variedad de los datos también cambió. No todos son estructurados y los que sí lo son vienen de muchas fuentes distintas.
04:31
Speaker A
cinco bloques donde cuatro tienen 128 y los últimos 88 megas entran en el último bloque el e y Qué pasa si uno de estos bloques se corrompe perdemos todos esos datos pues no esta es la magia de hdfs
04:44
Speaker A
Y es que, además, todo esto se necesita explotar con una cierta velocidad, porque si es tan lento como escribir en piedra, pocos conocimientos útiles vamos a generar. Acordaos de la pirámide del conocimiento, de muchos datos a conocimiento útil.
05:00
Speaker A
tradicionales todos los datos han almacenados en una sola máquina con un solo procesador Pero esto usa muchísimo tiempo y es ineficiente con volúmenes grandes para superarlo map reduce divide los datos en trocitos y procesa cada uno de ellos por separado en nodos
05:15
Speaker A
Ahora, en la historieta hemos puesto nombrecitos como Apache Hadoop, Apache Spark o MapReduce. Y es que para abordar los desafíos de Big Data se han desarrollado varias tecnologías y herramientas.
05:28
Speaker A
punto de aparte después viene la fase de mapeo donde cada palabra es contada y colocada con un número tras mapear lasas colocamos las palabras similares en grupos para almacenarlas y finalmente llega la fase de reducción donde todos los grupos de palabras son escritos y
05:46
Speaker A
Vamos a entrar en la teoría técnica, pero fácil, no os preocupéis. Y como las cosas se aprenden por el principio, vamos a explicar a nivel teórico Hadoop, que fue el primero y aún muy en uso. Y si cuaja, más adelante veremos qué innovaciones añadió Spark.
05:59
Speaker A
tiempo enorme todos estos procesos son desplegados y ejecutados en un clúster de jup que consumen recursos como el procesador la Ram la memoria y además múltiples ejecuciones pueden tener lugar simultáneamente aquí es donde aparece el tercer componente de hado El gestor de
06:16
Speaker A
Podemos dividir Hadoop en tres partes: almacenamiento, reducción y gestión de los recursos. Almacenar tantísimos datos en un solo lugar es inabarcable. El modelo HDFS, o Hadoop Distributed File System, divide las tareas de procesamiento en múltiples nodos de un clúster y esto permite el procesamiento paralelo de datos para almacenarlos y leerlos en varios lugares simultáneamente.
06:33
Speaker A
físicos imagina que queremos procesar el trabajo de map rws que hemos creado previamente pues primero el application Master solicita el contenedor al node manager una vez que el node manager consigue los recursos se los envía al gestor de recursos para albergar el
06:47
Speaker A
Imagina que tenemos 600 megas para almacenar. En lugar de ponerlos todos, los dividimos en cinco bloques, donde cuatro tienen 128 y los últimos 88 megas entran en el último bloque. ¿Y qué pasa si uno de estos bloques se corrompe? ¿Perdemos todos esos datos? Pues no.
07:04
Speaker A
o Spark por decir unos Y de Daniel dijimos que explotaba su Big Data Pero cómo se hace esto en la vida real pues lo que te frena es la imaginación y el presupuesto pero es cierto que a nivel
07:15
Speaker A
Esta es la magia de HDFS, que crea copias redundantes y las almacenan otros nodos mediante el método de replicación, lo que lo convierte en un sistema tolerante a fallos. Tras almacenar los datos, deben ser procesados y aquí es donde aparece el segundo componente: MapReduce.
07:27
Speaker A
datos brutos a algo entendible todos los modelos de Machine learning redes neuronales entendimiento de lenguaje son ejemplos de esta capa y necesitan muchos datos para ofrecer relaciones poco intuitivas el segundo es Añadir capas de visualización y reporting que sirven
07:44
Speaker A
En modelos tradicionales, todos los datos han estado almacenados en una sola máquina con un solo procesador, pero esto usa muchísimo tiempo y es ineficiente con volúmenes grandes. Para superarlo, MapReduce divide los datos en trocitos y procesa cada uno de ellos por separado en nodos diferentes. Los resultados individuales luego son agregados para la salida final.
07:59
Speaker A
gra al Big Data las organizaciones pueden tomar decisiones más informadas y descubrir patrones ocultos en sus datos para terminar lo resumimos el Big Data representó una evolución obligatoria del volumen y almacenamiento de la información obligó a desarrollar nuevos
08:14
Speaker A
Para verlo, vamos a tratar de contar el número de veces que cada palabra aparece en el ejemplo. Primero, la entrada se divide en cuatro partes, cada una por el punto de aparte. Después viene la fase de mapeo, donde cada palabra es contada y colocada con un número.
08:28
Speaker A
nuestra vida privada No olvides suscribirte Para no perderte nada nos vemos pronto Saludos y bits
Topics:Big DataHadoopSparkMapReducedatos estructuradosdatos no estructuradosbases de datoscloud computingSaaSpirámide del conocimiento

Frequently Asked Questions

¿Qué es Big Data según el video?

Big Data se refiere a grandes volúmenes de datos que pueden ser estructurados o no estructurados, que requieren tecnologías especiales para su almacenamiento y procesamiento debido a su volumen, variedad y velocidad.

¿Por qué las bases de datos tradicionales no son suficientes para Big Data?

Porque no pueden escalar adecuadamente para manejar el enorme volumen y la variedad de datos generados, especialmente los datos no estructurados como comentarios en redes sociales o correos electrónicos.

¿Qué tecnologías se mencionan para gestionar Big Data?

Se mencionan Apache Hadoop, Apache Spark y MapReduce como tecnologías clave para almacenar, procesar y gestionar grandes volúmenes de datos de forma distribuida y eficiente.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →