Empleabilidad y Big Data 11.11.15

El pasado 11 de noviembre se celebró en nuestra sede de Madrid School of Marketing, en Madrid, la jornada sobre empleabilidad y Big Data.

Sala llena

El aforo estaba completo de personas y alumnos deseosos de conocer de primera mano los perfiles, oportunidades y estrategia en el ámbito del Business Intelligence y el Big Data.

Inicio Rafa

 

La sesión fue inaugurada por Rafael García, General Manager de MSMK, con la excelente ponencia «You drive your data to action», de la cual recogemos algunos de los principales temas tratados:

 

  • Crecimiento del Big Data en todas las organizaciones y la necesidad cada vez más creciente de disponer de los medios y recursos necesarios, y el talento adecuado para comprender el significado de los datos y extraer la información necesaria.
  • El análisis de los datos crea valor para las empresas y sus clientes.
  • Cuáles son las tendencias y oportunidades en Big Data y Analytics, donde destacó: Ratificación General, el Analytics de las cosas, seguridad y fiabilidad de los datos, monetización / conversión en negocio, crecimiento de open source: colaboración.
  • También explicó cómo es la cadena de valor de Big Data.

Una ponencia excelente, que sirvió para introducir los siguientes temas:lourdes tec

A continuación, Lourdes Hernández, Coordinadora del área de Big Data en la Escuela, habló de la Demanda en el Mercado de Big Data. De un  modo original, su ponencia incluyó 3 pistas, 4 noticias y 5 preguntas. A destacar de su ponencia:

  • El Big Data no es algo nuevo, dado que se dispone de los datos desde hace tiempo, ni tampoco los datos son un reto en sí, aunque sí lo es el tratamiento que se hace de los mismos y la información que se puede obtener.
  • El crecimiento del mercado y las oportunidades y la relación entre la evolución de los proyectos y la falta de perfiles cualificados.
  • Si Hadoop está preparado o no para todas las empresas, las diferencias entre un Data Warehouse tradicional y el «Data Lake» de Big Data y, cómo extra, un análisis de qué es más rápido y qué es más barato. ¿La respuesta…? depende de para qué se utilice.

La última ponencia, fue impartida por Guillermo Dearmas, Responsable de Carreras Profesionales de MSMK, sobre «Los Perfiles más demandados en MSMK».

Captura de pantalla 2015-11-22 a las 13.30.17

  • Actualmente llegan muchas peticiones la escuela de diferentes empresas, como se puede ver en el gráfico adjunto, de todo tipo de perfiles de Big Data y Analytics.
  • Las competencias requeridas son, sobre todo, capacidad de análisissíntesis  y trabajo en equipo.
  • Las principales funciones solicitadas son relativas al análisis de datos, desarrollo de proyectos, análisis estadístico y visualización.
  • La titulación requerida es ingeniería informática, administración y dirección de empresas, ingenieros de sistemas, matemáticos, etc.

Un mundo lleno de oportunidades profesionales, sin duda, y una jornada exitosa que nos hizo acercarnos un poco más el mercado de Big Data.

Big Data: ¿a quién contratar? ¿Dónde trabajar?

Este es uno de los grandes retos a los que nos enfrentamos respecto al Big Data en España. Estamos todavía empezando, hay pocos proyectos, no sabemos muy bien todavía qué es y cómo funciona, pero tenemos que empezar con ello sí o sí. Buscamos una idea –que siempre podemos copiar- o empezamos por algo sencillo, migrando nuestros almacenes de datos a otros más ágiles y baratos.

Compramos la idea de Big Data. ¿Y ahora? Alguien tendrá que mantener esto, ¿no? Nuestro personal tradicional de sistemas no nos sirve. O tenemos a algún friki inquieto que haya trasteado por ahí, o va a ser difícil reciclar a alguien.

¿Qué tenemos que buscar? Recruiters:

HH Big Data

Tanto los Head Hunters, como los departamentos de RRHH e incluso los directores de IT, no tienen claro qué buscar. Mirando en webs de recruiting, encontramos peticiones de lo más variopintas, desde unas que piden “expertos en Big Data con certificación” (así, sin más), como otras que buscan “expertos en Big Data con conocimientos en SAS” y una tercera que (por pedir, que no quede), piden expertos en absolutamente todas las tecnologías de Big Data. ¡Más vale que sobre que no que falte! Claro, las búsquedas resultan sumamente infructuosas.

Como decía Tamara Dull (Directora de tecnologías emergentes de SAS Best Practices) en el SAS Forum España 2015, Hadoop ha llegado en 2011. Con lo cual, si queremos cinco años de experiencia en Hadoop, habrá que esperar al menos al año que viene y, si además queremos que ese expertise sea en proyectos reales, habrá que esperar al menos dos o tres años más, aunque reitero que existen compañías en España trabajando en proyectos reales de Big Data, tanto grandes, como pequeñas. Y algunas muy buenas por cierto.

¿Qué hacemos entonces? Algunas recomendaciones:

Quizá sea mejor alguien con mucho interés y capacidad, que alguien con mucha experiencia. Estos recursos tienen necesidades diferentes. Deben participar en foros, formarse continuamente, estar al tanto de lo que ocurre. No les basta solo salario y puesto.

Big Data es un trabajo en equipo.

Obviamente, no existe un solo perfil que cubra todo. A nadie se le ocurriría implantar un ERP con un solo perfil, incluyendo el dimensionamiento de las máquinas, la administración de la base de datos y la toma de requerimientos con los usuarios finales. Dependiendo del tipo de proyecto que vayamos a abordar, o de lo que se quiera hacer, inicialmente hay tres perfiles claramente diferenciados, que a continuación describo de la forma más sencilla posible:IMG_7077

  1. Big Data Developer: coge los datos, los almacena, los procesa, se asegura de que todo funcione bien y los deja disponibles para que otros los puedan utilizar. Se encarga también de pasar los datos de un sitio a otro. Suelen ser ingenieros, informáticos o matemáticos (los matemáticos sirven para todo), con conocimientos en Hadoop y su ecosistema, y en Spark.
  2. Data Scientist: analiza los datos en profundidad. Los limpia, agrega y saca conclusiones a partir de ellos. Tiene que tener sólidos conocimientos en estadística, herramientas (R, SAS), y también en el ecosistema Hadoop. No solo analiza los datos, sino que es capaz de interpretarlos y ponerlos a disposición de usuarios o quien los vaya a utilizar después.
  3. Big Data Administrator: como siempre, alguien debe revisar que toda la “cacharrería” funcione correctamente. Balancear cargas, distribuir tareas por los nodos, optimizar consultas, etc. Perfil técnico con conocimiento e interés en la infraestructura. Por supuesto, conocimientos de Hadoop.

Ahora vamos con la otra parte: los candidatos.

Por lo general, suelen ser gente “friki” (con todo el cariño y en tono nada despectivo; de hecho, si no fueran frikis, posiblemente no se dedicarían a esto). Son personas inquietas y con ganas de hacer cosas, y a los que les espera un buen futuro en los próximos cinco-diez años.

Como en todos los trabajos, la actitud, la responsabilidad y el trabajo en equipo son fundamentales.

Seas friki o no, y trabajes en la compañía que sea, aquí radica según mi experiencia el 90% del éxito de lo que se haga.

Y dicho esto, pasemos a ver qué nos ofrece el mercado, para acertar mejor dónde trabajar. Las personas formadas en Big Data, tienen la suerte de poder elegir en qué empresa quieren trabajar.

Incluyo un desglose de alguno de los tipos de compañías que buscan recursos de Big Data:

  1.  Grandes consultoras: ofrecen buenos sueldos, reputación y carrera profesional valorando positivamente el talento. Son lanzaderas para carreras de éxito. Hay que trabajar mucho, duro y en equipo. Imprescindible hablar inglés (bueno, hoy en día, en cualquier trabajo) y valorable otros idiomas. Incluye viajes al extranjero y posibilidad de una red de expertos internacional a tu alcance. Los planes de carrera y de formación están al orden del día. Suelen hacer proyectos grandes para grandes clientes y, dependiendo de a qué proyecto te asignen, podrás ver unas cosas u otras, seguramente en un ámbito concreto del proyecto.
  2. Consultoras, implantadores medianos / pequeños: ofrecen sueldos más ajustados al mercado que las grandes consultoras y tal vez algo menos de beneficios sociales. Tienen a priori menos posibilidades de carrera profesional -aunque los que destacan seguro que la tendrán- pero a cambio son más ágiles y te permitirán conocer todo o casi todo del proyecto o los proyectos en los que participes. También hay que trabajar mucho, pero estas permiten otro tipo de aprendizajes. Seguramente tendrás que investigar y aprender más por tu cuenta para sacar adelante el trabajo. Desde el becario hasta el director general, suelen estar implicados en el proyecto y disponibles para lo que puedas necesitar. Suelen estar –tecnológicamente hablando- más avanzadas que las grandes consultoras y HH Candidaterequieren expertos de verdad.
  3. Consultoras de nicho: supongo que pagarán algo menos, pero a cambio podrás hacer de todo –participar en propuestas, presentaciones a clientes, foros…-; fomentan mucho más el trabajo en equipo y, casi seguro, tendrás voz y voto en lo que se decida en la compañía. En contra, tienen un futuro que puede ser más incierto que las grandes y medianas, y muy probablemente acaben engullidas por alguna de ellas.
  4. Cliente final: aunque hay algunos clientes finales inmersos en proyectos de Big Data, lo más seguro es que en un cliente final tengas que desarrollar el proyecto desde cero. Posiblemente no tengan mucha idea de cómo llevarlo a cabo, y podrás participar en todas las fases, y adquirir conocimientos sectoriales. Los departamentos de innovación –aunque creo que todavía no buscan perfiles de Big Data- son una excelente oportunidad para aprender y hacer cosas distintas. En contra, (dependiendo del tipo de cliente) no hay mucha variedad de proyectos.
  5. Fabricantes: un buen técnico preventa es un recurso muy valorado. Este trabajo permite conocer distintos clientes y casuísticas, definir estrategias en clientes y, por lo general, no participan en las implantaciones. En contra, hay que decir que suelen vender sólo su plataforma.

Spark para Dummies

sparkSpark, al igual que Hadoop, es básicamente un marco de desarrollo que proporciona una serie de plataformas interconectadas, sistemas y estándares para llevar a cabo proyectos de Big Data.

Spark también es de código abierto y pertenece a la Apache Software Foundation. De código abierto quiere decir que el código puede ser utilizado libremente por cualquier persona; aun más: puede ser modificado por cualquier persona para crear otras versiones dirigidas a resolver nuevas problemáticas. Los desarrolladores y las empresas que las producen, están constantemente refinando y actualizando los programas, añadiendo nuevas funcionalidades o mayor eficiencia. Spark fue el proyecto de Apache más participativo el año pasado, y no sólo de Apache, sino de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores en más de 200 organizaciones.

contributors spark

Según los expertos, Spark es más avanzado y más reciente que Hadoop, y está diseñado para trabajar mediante el procesamiento de fragmentos de datos «en memoria«. Esto significa que transfiere los datos de los discos duros físicos a la memoria del sistema, donde el procesamiento es mucho más rápido (hasta 100 veces más rápido en algunas operaciones).

La plataforma Spark está muy de moda, y lo utilizan muchas grandes empresas para el almacenamiento y análisis de enormes cantidades de datos multi-petabytes, debido a su velocidad: el año pasado, Spark alcanzó un récord mundial al completar una prueba de clasificación de 100 terabytes de datos en 23 minutos, cuando el récord anterior era de 71 minutos con Hadoop. Además, es idóneo para aplicaciones de Machine Learning (Aprendizaje Automático), una de las prácticas de mayor crecimiento y más emocionante dentro de las ciencias de la computación (ver post anterior).

Apache Spark está diseñado desde sus inicios para ser fácil de instalar y usar – siempre que se tengan ciertos conocimientos de informática- y para ser utilizado en múltiples aplicaciones de negocio. Muchos proveedores ofrecen sus propias versiones (al igual que  Hadoop), orientados a industrias concretas, configuraciones customizadas para proyectos y usos concretos, y servicios de consultoría para su implantación y funcionamiento .

Spark utiliza la computación en clúster (grupos de máquinas unidas por una red de alta capacidad, que funcionan como una gran máquina) para obtener una mayor potencia de cálculo y almacenamiento, lo cual se traduce en que puede utilizar los recursos de muchos procesadores unidos entre sí. Es una solución escalable, es decir, que si se necesita más capacidad, sólo se tienen que añadir más procesadores en el sistema. Con el almacenamiento distribuido, los grandes ficheros de datos recogidos para el análisis se almacenan en muchos discos duros físicos individuales más pequeños, lo cual acelera las operaciones de lectura/escritura, porque la «cabeza» que lee la información de los discos tiene menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario y, además, utiliza hardware comercial (discos duros estándar) que mantiene bajos los costes de infraestructura.

cluster
A diferencia de Hadoop, Spark no viene con su propio sistema de archivos: en vez de eso, se puede integrar con muchos sistemas de archivos incluyendo el de Hadoop HDFS, MongoDB y el sistema S3 de Amazon. Otro elemento diferencial es Spark Streaming, que permite que las aplicaciones que se desarrollen realicen análisis en streaming, datos en tiempo real, redes sociales, ficheros de log, etc. En las industrias como el marketing, el análisis en tiempo real proporciona grandes ventajas; por ejemplo, personalizar los anuncios en base al comportamiento real del usuario, en lugar de en el comportamiento histórico, aumentando la posibilidad de obtener una compra.

Una breve introducción de Apache Spark, el futuro del Big Data, que espero que resulte útil.

Hadoop for dummies

hadoopHadoop es, hoy por hoy, el marco de desarrollo establecido para implantaciones de Big Data. Se compone de un conjunto de capacidades reales, escalables y automáticas para gestionar el flujo de datos, y convertir raw data (datos en bruto) en insight (valor).

Su creador fue Doug Cutting y lo donó a Apache Software Foundation (organización sin ánimo de lucro creada para dar soporte a los desarrollos de Software). Su nombre y el logo, se lo debe a la mascota de su hijo, un elefante de peluche llamado Hadoop.

Surge en 2004 a partir de un White Paper de Google que describía su sistema de ficheros. Doug no tuvo problema en implantarlo y mejorarlo.

Como ya hemos dicho en post anteriores, Hadoop cubre las necesidades básicas que tiene el Big Data: almacenamiento y procesado de datos. De ahí, que esté basado en dos conceptos:

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil.
  • MapReduce: es el modelo de programación sencillo para dar soporte a la computación paralela.hdfs

El sistema distribuido de ficheros trabaja sobre grupos de computadoras, organizadas en lo que se llama un cluster, puede incluir desde una máquina (nodo), hasta 30.000 según la web de Apache. Cada máquina puede tener varios discos.

Hadoop funciona en modo cliente-servidor. Existe un nodo máster que se encarga de la gestión del almacenamiento y procesado, es decir, de dónde está cada fichero de datos, de enviar las órdenes de procesado de los datos (Jobs) y de asegurar que todo queda procesado del modo más eficiente posible.

Los grandes ficheros de datos de entrada se trocean en tamaños menores (64GB ó 128GB) y cada trozo se replica al menos tres veces en nodos distintos. Así se comienza el procesamiento en paralelo, y si alguno de los nodos falla, el máster detecta el fallo y asigna el trabajo a otro nodo disponible.

MapReduce trabaja mediante algoritmos simples de “clavevalor” . La parte de Map, asigna la clave a la información que estamos buscando. El ejemplo estrella de los cursos de Hadoop es el algoritmo de contar palabras en un texto. La clave sería cada palabra, y el valor las veces que aparece. Primero contaríamos cada palabra, siendo el resultado (palabra, 1), después ordenaríamos las palabras y finalmente, en la fase Reduce, sumaríamos las palabras que aparecen repetidas. Veámoslo con un gráfico:

mapreduce

Con este método se ahorra tiempo de transferencia de ficheros, ya que el almacenamiento y el procesado se realiza en el mismo sitio.

Hadoop trabaja en modo batch, es decir, ejecutando unos procesos tras otros. Está optimizado para leer cada fichero entero, desde el principio hasta el final, por ello está destinado a trabajar con pocos ficheros grandes en vez de con muchos pequeños, porque lo carga en memoria y lo lee de una sola vez.

Por suerte, existe todo un ecosistema para trabajar con Hadoop, y no tener que escribir todo el código necesario para realizar la asignación de ficheros, el procesamiento, etc.

Veamos algunos de los componentes del zoo de Hadoop:

eco hadoop

Eclipse: es un entorno de desarrollo integrado, donado por IBM a la comunidad Apache. Agiliza enormemente el desarrollo de los programas Java.

Sqoop: nos permite conectarnos a cualquier base de datos relacional (que el acceso mediante una conexión ODBC) e intercambiar datos con nuestro sistema de ficheros HDFS. Es muy importante poder incorporar fácilmente datos de nuestras bbdd (datawarehouse, ERPs, etc.) igualmente poder llevar fácilmente el resultado de un cálculo (scoring, segmentación…) a nuestras bases de datos.

Flume: nos permite recuperar información de sitios remotos. Mediante un agente que se ejecuta en el lugar que se producen los datos (fichero de log, Tweeter…) recoge los datos y los importa en HDFS. Es solo de una dirección, no permite exportar datos de HDFS a otras ubicaciones. Muy útil para recuperar información en tiempo real.

Hive: actúa como la base de datos de Hadoop. Es un intérprete SQL – MapReduce. Traduce la query a programas Java que realicen los MapReduce. Esto permite utilizar herramientas de Business Intelligence convencionales (que admitan conexión ODBC) con los datos de HDFS.

Pig: para trabajar con MapReduce, es necesario programar, tener sólidos conocimientos de Java, saber cómo funciona MapReduce, conocer el problema a resolver, escribir, probar y mantener el código … Para ello es muy beneficioso disponer de un sistema más sencillo, que nos abstraiga de la complejidad del MapReduce. Para ello existe Pig, que facilita el flujo de datos de una manera más sencilla. Dispone de su propio lenguaje de programación llamado Pig Latin.

Hbase: es una base de datos columnar que se ejecuta sobre HDFS. Puede almacenar grandes cantidades de datos, y acceder a ellos muy rápidamente y lleva bien el procesamiento incluso cuando hay datos dispersos. Un ejemplo de base de datos columnar, es como si almacenáramos los resultados de fútbol en una tabla así:tabla futbol

Oozie: Actúa como un planificador. Es un motor de workflows, que puede incluir procesos MapReduce (varios, ya que los procesos MapReduce son simples y por lo general, hay que encadenar varios para realizar los cálculos), scripts de Pig, de Hive, etc.

Zookeeper: alguien tenía que cuidar de tanta fauna… Zookeeper actúa como coordinador. Guarda toda la configuración de los metadatos, realiza los bloqueos pertinentes si dos procesos deben acceder al mismo fichero, guarda usuarios y passwords para el acceso a los distintos sitos, etc.

Mahout: es una librería de algortimos de Machine Learning, escritos en Java. ¿Qué es Machine Learning? Un programa al que no hay que decirle qué debe hacer. Dedicaremos un post posterior a habla de Machine Learning.

Después de este ecosistema, ya podemos ponernos a utilizar Hadoop, sin necesidad de ser expertos en Java… ¿os animáis?

II Feria de Empleo de Business Intelligence y Big Data

El pasferia cartelado jueves 25 de junio celebramos la segunda feria de empleo de Business Intelligence y Big Data. Fue un éxito rotund
o: empresas, candidatos, talleres, ponencias, networking, rrss…

Vamos a comentar algunos de los factores clave del evento:

Más de un centenar de candidatos se acercaron a la feria, colgando el cartel de aforo completo.

«5 tips para que tu CV triunfe en Big Data». Un taller donde los profesionales de TicJob asesoraban a los participantes sobre aspectos a mejorar en el CV. Hubo un flujo continuo de participantes durante toda la tarde. Decenas de personas pudieron beneficiarse de este fabuloso taller.

Más de 15 empresas líderes en el sector, estuvieron en sus stands, dándose a conocer y recibiendo personalmente las consultas, inquietudes y CVs de los interesados. En alguna de ellas, un alumno de las últimas convocatorias, fichado ya por la empresa antes de terminar el máster, colaboró en la feria. ¡Bárbaro!

La sala de las ponencias, estuvo en todo momento abarrotada, y fueron todas muy interesantes. Destacaremos algunos topics:

feria gente

Lourdes Hernández, nos habló desde el punto de vista de negocio, analizando algunos ejemplos de cómo los datos se convierten en oportunidades. A destacar el ejemplo de Netflix, que diseñó la serie House of Cards, según el análisis de las preferencias de los usuarios.

Según Arancha Pintado, siempre ha habido súper héroes con poderes, aunque ahora con Big Data, es necesario que tengan aún más: especialista en infraestructura, arquitecto Big Data, mineros de data, expertos en slow data y el súper heróe por excelencia: el Data Scientist. Arancha nos describió las características de cada uno.

Juan Lorenzo, nos detalló el perfil del Data Scientist, los conocimientos y habilidades que debe tener. A destacar, que es el dato el que le dice lo que debe hacer y que deben ser muy meticulosos.

También de la mano de SAS, Carlos Rodríguez nos habló de las distribuciones de Hadoop. Coste, rendimiento y flexibilidad las principales razones para elegir Hadoop. SAS permite aislar el entorno empresarial de las deficiencias de Hadoop.

nube

Rafael García, director de Madrid School of Marketing y Maximilien De Coster, consejero de TicJob.es, expusieron algunos resultados del observatorio de empleo que puedes consultarlo completo aquí.

De la charla de Rafael destacamos la importancia de las habilidades de liderazgo, comunicativas y de equipo, dado que «Un profesional puede ser muy buen analista pero hay que comunicarlo y venderlo». También que se busca: Equilibrio profesional y el » talento natural».

Maximilien, nos describió la buena tendencia del sector, donde la competencia de los perfiles de Big Data, es la que más baja del mercado, casi a la mitad, pasando de 9 candidatos por vacante en 2013 a 5 en 2014, y la necesidad de candidatos con capacidad de gestión y liderazgo para el sector TIC.

EL evento tuvo el hastagh #BigDataMSMK, y estuvo muy activo durante y después de la jornada, con un alto nivel de influenciadores.

influencers

Excepcional. Gracias Madrid School of Marketing.

La caja de herramientas del científico de datos

Una de los princisw librepales cometidos del científico de datos es convertir los datos en conocimiento útil para la empresa. Para ello deben resolver problemas y dar respuesta a preguntas clave. Para ello necesitan utilizar algunas herramientas específicas para el procesamiento y análisis de los datos.
La primera pregunta que surge es qué se utiliza más, si las herramientas open source o software propietario. Según la 16º encuesta de KDNuggets, la mayoría de los científicos, un 64% utilizan ambas

Las 10 herramientas más utilizadas son:

  1. R, lenguaje de programación y entorno de Software de código abierto para programación estadística y entornos gráficos. Es la más utilizada entre científicos y mineros de datos lo que implica la existencia de múltiples librerías y paquetes fácilmente reutilizables.
  2. rRapidMiner, antiguamente llamada YALE, (Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos analíticos a través de un entorno gráfico. Proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones
    de entrada y salida, pre-procesamiento y visualización. También permite utilizar los algoritmos incluidos en Weka.
  3. SQL, (Structured Query Language) es un lenguaje de acceso a bases de datos Una de sus características es el manejo del álgebra y el cálculo relacional.
  4. pythonPython, un lenguaje de programación interpretado cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Soporta programación, orientada a objetos, imperativa (instrucciones que le indican al computador cómo realizar una tarea) y funcional. Es multiplataforma.
  5. Excel
  6. KNIM (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.
  7. Hadoop, de momento, considerado el framework estándar para almacenamiento y procesado de grandes datos.
  8. Tableau, centrada en la visualización de datos.
  9. SAS, herramienta líder en el mercado de Business Intelligence.spark
  10. Spark, es un framework de desarrollo, que incorpora un motor rápido y general para el procesamiento de datos a gran escala y procesamiento en memoria.

¿BIG DATA PARA MÌ?

La era del Big Data está aquí y con ella un sinfín de posibilidades: convertir datos en conocimiento relevante para nuestro negocio, mejorar el conocimiento de nuestros clientes; conocer su comportamiento, necesidades, intereses e incluso pensamientos y sentimientos; nuevos modelos de negocio innovadores, buscadores que quieren ser operadores de telecomunicaciones, bancos que aspiran a ser empresas de tecnología…

Pero, ¿trabajar en bd 1cómo va a revertir esta explosión en empleos concretos? ¿Qué hacer para aprovechar la oportunidad que se nos brinda? ¿Qué profesionales son necesarios y qué capacidades necesitan?

El abanico de empleabilidad es tan grande como las oportunidades de negocio que nos brinda el Big Data.

Es importante tener en cuenta dos aspectos: el perfil individual (conocer cuáles son mis capacidades, mi experiencia) y mis intereses (más allá de mejorar profesionalmente o encontrar trabajo, dado que la falta de interés generará frustración y nos conducirá posiblemente al fracaso).

Además de esos aspectos es necesario poseer una serie de inquietudes para dedicarse al Big Data:

  • Definir problemas y hacer preguntas.
  • Conocimiento profundo de las fuentes de datos.
  • Buscar métodos y herramientas para su exploración y análisis.
  • Estar al día de las tecnologías emergentes, tipos de datos y métodos.

Dentro de las posibilidades que ofrece el Big Data, en cuanto a empleabilidad, nos encontramos con una serie de perfiles con capacidades y habilidades muy específicas.

Perfiles menos técnicos:

Data Steward, el guardián de los datos: se encarga de gestionar los datos de acuerdo las políticas de la organización, normativas y estándares éticos. También lleva a cabo la tarea de proteger los datos y los resultados obtenidos.

Data Miner: realizar, entrenar y evaluar los resultados de los análisis para asegurar el nivel de confianza; estimar la precisión de los modelos y la exactitud de las respuestas.

Analista de datos: contar una buena “historia de datos» para transmitir ideas, identificar las limitaciones, y proporcionar recomendaciones basadas en los resultados de los análisis. Saber qué se puede hacer con los datos.

Perfiles más técnicos:trabajar en bd 2

Data Scientist, el científico de datos: el encargado en extraer el conocimiento de los datos. Imprescindible sólidos conocimientos estadísticos, de programación y poseer destrezas para resolver problemas, hacer preguntas y explicar los resultados obtenidos. 

Desarrollador Hadoop: encargado de obtener los datos desde su origen y procesarlos y almacenarlos para ponerlos a disposición de los analistas de negocio y científicos de datos.

Infografía Big Data

bigdata¿Qué es Big Data? 

Big Data: tratamiento y gestión de grandes volúmenes de datos, provenientes de fuentes diversas para obtener información útil para nuestro negocio. Se caracteriza por tener un gran Volumen, mucho mayor que los manejados hasta ahora, por su Velocidad de generación y por la Variedad de formatos que presentan.

Esta información nos debe dar un valor adicional para la toma de decisiones, produciendo entre otros, mejoras operativas, conocimiento de clientes, generación de transparencia, desarrollo de productos y servicios o modelos de negocio innovadores.

Retos que presenta:

  • La captura de datos, provenientes de distintas fuentes y con periodos de generación intensivos, o aleatorios;
  • Almacenamiento de tales volúmenes de información.
  • Capacidad de realizar búsquedas eficientes, para encontrar aquella información relevante;
  • Posibilidad de llevar a cabo análisis
  • Visualización de los datos, incorporando grandes volúmenes de información en gráficos, mapas interactivos, cuadros de mando.

¿Cómo es la arquitectura Big Data?

Para resolver parte de los problemas asociados a big data, Doug Cutting inventó un framework de desarrollo llamado Hadoop. Entre sus puntos clave se encuentran su capacidad de almacenamiento y procesamiento local:

hadoop

  • Consigue escalar desde unos pocos servidores hasta miles de máquinas, todas ellas ofreciendo idéntica calidad de servicio;
  • Permite el procesamiento distribuido de grandes conjuntos de datos en clusters de computadoras utilizando modelos sencillos de programación.

Los dos conceptos en los que se apoya Hadoop son, por un lado, la técnica de MapReduce y, por otro, el sistema distribuido de archivos HDFS.

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil típicamente escrito en JAVA.
  • MapReduce: es el modelo de programación utilizado por Google para dar soporte a la computación paralela. Trabaja sobre grandes colecciones de datos en grupos de computadoras y sobre unexpensive commodity hardware.

Adicionalmente, Hadoop admite otras herramientas de almacenamiento, y lenguajes de programación.

Para qué no sirve:

  • Procesamiento de transacciones (acceso aleatorio)
  • Cuando el trabajo no puede ejecutarse en paralelo
  • Acceso a datos de baja latencia
  • Procesamiento de muchos ficheros pequeños
  • Cálculos intensivos con pocos datos

Perfiles Big Data

images-2Adicionalmente a los perfiles tradicionales del área de Business Intelligence, (analíticos, funcionales y técnicos), la era Big Data incorpora nuevas necesidades organizativas en las compañías Data Driven, o que basan su estrategia y conocimiento en la información proveniente de los datos.

Así surgen nuevos perfiles, o los ya existentes cobran mayor fuerza deben ampliar conocimientos y capacidades.

Algunos perfiles son:

CDO: Chief Data Officer, es la persona responsable de toda la organización relativa a los datos, desde su origen, función, tratamiento o propiedad. No debería estar en el departamento de IT, ni reportar al CIO. Idóneamente debería reportar al director general, coordinando su actividad con tecnología, operaciones y las áreas de negocio.

Data Architect: Responsable de la arquitectura (funcional y/o técnica) de la infraestructura y modelado de los datos. También de diseñar el procesamiento y la integración de datos desde su origen hasta los análisis finales.

Data Scientist: La profesión del futuro. Es el encargado en extraer el conocimiento de los datos. Para ello deber tener sólidos conocimientos estadísticos, poseer destrezas para resolver problemas, hacer preguntas y explicar los resultados obtenidos.

Data Developer: es la persona encargada de realizar el procesamiento de los datos desde los sistemas origen hasta las estructuras de análisis. Debe tener sólidos conocimientos en procesamiento paralelo, algoritmos, procesos ETL, modelos de datos, ficheros, etc.

Data Stewards: es la persona responsable de la gestión de los datos. Es un role especialista que incorpora procesos, políticas, guías de acción y responsabilidades para la gestión integral de los datos en la organización, de acuerdo a las directrices establecidas y a las obligaciones regulatorias.

¿Cuáles son las habilidades clave?

El desarrollo y despliegue de entornos Big Data, como cualquier otra plataforma, requiere un conjunto específico de habilidades que se relacionan con otras plataformas, pero se centran en unas pocas tecnologías clave.

  • Java – procesos Map Reduce que se escriben para filtrar, ordenar, combinar y clasificar los datos. También cualquier procesamiento que se quiera realizar en Hadoop.
  • Lenguajes de programación: Phyton, Jaql, R
  • Bases de datos: HBase, Cassandra, NoSQL
  • Procesamiento de datos: Flume, Sqoop
  • Análisis de datos: Hive, Pig, Impala
  • Otras herramientas: Zookeeper, Avro, Storm,

Big Data para Dummies

El otro día estuve dando una charla a los alumnos de bachillerato, potenciales alumnos de matemáticas, estadística, informática, acerca de Big Data. Quedaron encantados, lo entendieron a la perfección sin utilizar ningún tecnicismo, aunque es cierto que todos ellos son nativos digitales: de todo el auditorio sólo uno afirmó no estar dado de alta en ninguna red social, y todos aseguraron tener smartphones y cuentas de Google. Con lo cual, vamos a tratar de explicar qué es Big Data, para qué sirve y cuáles son sus principales beneficios de un modo concreto, sencillo y fácil.

Según Eric Schmidt (ex CEO de Google):

imagesEntre el nacimiento del mundo y el año 2003, hubo cinco exabytes de información creada. Actualmente creamos cinco exabytes cada dos días“.

 

Independientemente de cuánto son cinco exabytes, mucho, la diferencia está en que es que tanto las infraestructuras como las comunicaciones han avanzado vertiginosamente. Hace 25 años ya existían muchos datos conocidos, movimientos de las tarjetas de crédito, o registros de las llamadas de los móviles, pero no había dónde guardarlos, ni cómo acceder a ellos, o era extremadamente costoso y muy poco operativo. Hoy en día se estima que toda la música del mundo cabe en un disco duro de 600€.

Adicionalmente la entrada en la era digital y la interconexión de personas y cosas, hace que la generación de datos aumente exponencialmente: cada clic, cada “me gusta”, cada página vista, cada mensaje, llamada de teléfono, encendido/apagado/error de todo, va dejando un registro tras de sí, con mucha información disponible, cuándo, dónde, quién, a quién, cómo, en qué dispositivo, qué usuario… aparte del contenido en si (encendido, apagado, texto, imagen, voz…)

Y no solo la era digital, nuestros latidos, pulso cardiaco, respiración, escalones que subimos, incluso las cosas que comemos, por dónde vamos caminando, todo queda registrado.

Así llamamos Big Data a la gestión y análisis de grandes volúmenes de datos que no pueden tratarse de manera convencional, ya que superan las capacidades de las herramientas tradicionales.

Sin título

Estos datos se caracterizan por las 3Vs: Volumen, si no son muy grandes se pueden almacenar en una base de datos tradicional, Velocidad, a la que se generan y velocidad en que se vuelven irrelevantes (un tuit que da una noticia) y Variedad puesto que podemos incluir también texto libre, vídeo, imagen, geolocalizaciones, difícilmente almacenables ni tratables con las estructuras de hardware y software anteriores.

Realmente lo que marca la diferencia es el valor que se puede obtener de dicha información. Además de los sistemas analíticos tradicionales, consultas, informes predefinidos, análisis estadísticos, simulaciones, predicciones, con big data aparecen nuevas capacidades: análisis de texto, (facilitando el análisis de sentimiento, escucha activa, detección de fraude, seguridad), visualización de datos (pintar en un mapa dónde están ocurriendo determinados hechos), mezcla de datos de diversas fuentes y tipologías (como redes sociales con los datos de nuestros sistemas transaccionales) trabajar sobre toda la población, en lugar de sobre una muestra, analizar datos de detalle y también el análisis en tiempo real.

 

Según Mackinsey, los principales usos del Big Data se pueden resumir en:

  • creación de transparencia, ya que se puede aflorar todo lo que realmente está ocurriendo, se puede analizar y mezclar todos los datos
  • mejora del rendimiento a través del conocimiento de datos con mucho mayor detalle
  • segmentación y mejor conocimiento de clientes objetivo para personalizar las acciones
  • apoyo a la toma de decisiones con algoritmos automatizados
  • modelos innovadores de negocio, productos y servicios

 

En cualquier caso, Big Data nos ofrece oportunidades para ampliar el conocimiento a través de los datos hasta ahora desconocidas. Nos permite obtener relaciones causa efecto basadas en relaciones ocultas en los datos, relacionar todo con todo. En la próxima década, la toma de decisiones y los negocios tal y como los conocemos cambiarán radicalmente. Solo me atrevería a augurar que la monetización de datos, tendrá un papel primordial y cambiará el modo de entender clientes, productos y servicios.

MSMK Big Data Experts & Uses Cases

Coordino el área de Big Data en Madrid School of Marketing. Doy las gracias a Luis Ortiz, director del área de Business Intelligence, que tuvo a bien confiarme dicha misión. Voy a comentar mis impresiones sobre las charlas y ponentes de la última convocatoria del máster.

Imparto algunas sesiones y destaco que cada vez aprendo más, con y de los alumnos, que me entusiasma, me lo paso genial y me pasa como a un alumno, que me envió este mensaje:

… voy por la calle pensando dónde se encuentran datos no estructurados y me empiezo a imaginar megaproyectos

pacoPaco Barranco: «#BigData y #TransformaciónDigital para sobrevivir y crecer en el Siglo XXI».

Paco no deja te deja a nadie indiferente y cada una de las frases e imágenes de su ponencia, atrapa toda tu atención. Además de su amplia experiencia de la que no hace gala.

A destacar de sus mensajes (muchos y sin desperdicio): Explorar en todas las direcciones y escuchar. Escuchar y aprender.

Juan Carlos Ruiz: «Information Discovery».jc

Juan Carlos no contó en detalle la arquitectura de referencia para datos no estructurados y muchos e interesantes casos reales de clientes a los que se enfrenta cada día. Por ejemplo cómo una gran compañía de retail utiliza Big Data para optimizar la distribución y asegurar que el producto llega al lugar adecuado en el momento adecuado, y cómo a partir de ahí surgen múltiples iniciativas: ahorro de costes atenuando las luces cuando hay menor clientela en la tienda u optimización de los turnos de los dependientes. (todo ello a través de los sensores en los productos)

A destacar: ¿Cómo separar la señal del ruido? y las dificultades reales para enfrentarse a un proyecto de Big Data. Da gusto contar con profesionales con semejante experiencia.

sara2Sara Melero: «Data Governance». Espectacular.

Sara nos habló muchísimo de datos, de la importancia del Data Governance, basado en su experiencia personal, de calidad de datos, seguridad. Los nuevos perfiles y organizaciones necesarias alrededor de los datos, las problemáticas a las que se enfrentan las organizaciones, diccionarios, modelos de datos… Una maravilla, con su claridad de exposición, su conocimiento y su pasión. A destacar una dificultad a la que se enfrentan todas las compañías que quieren ser data-driven companies: ¿quién es el «propietarios del dato«?

albertoAlberto de Andrés: «Big Data en el sector financiero»

Magistral charla de Alberto sobre Big Data y el sector financiero. Abordó desde las necesidades, las oportunidades, cómo abordar los proyectos, ejemplos reales, tendencias y casos de éxito. A destacar: Conoce a tu cliente; el camino desde conseguir los datos hasta presentarlos al usuario; entender y potenciar el mapa de decisión; y monetización de pagos y de datos bancarios. También nos habló de topics a seguir donde destaco la ética del Big Data.

javierJavier Sánchez Ortiz: «Cloudera Essentials»

Interesante baño en la arquitectura Hadoop, por parte de otro experto con experiencia real en proyectos de Big Data. Nos contó qué es, cómo funciona, cuáles son las recomendaciones de herramientas y hasta yo pude entender el funcionamiento de un MapReduce, con un ejercicio práctico fabuloso.

Se nota además de la experiencia, su gran conocimiento que no solo nos convenció a todos, sino que animó a algunos alumnos a instalarse una instancia de Hadoop y empezar a trabajar con ello. Consiguió maravillar a los perfiles más técnicos sin que los menos técnicos se perdieran por el camino.

A destacar, la evolución de Hadoop, y las carreras y nuevos perfiles asociados al Big Data: Hadoop developer, data scientist, etc.

Inés Huetas: Inés Huertas R

Inés nos explicó cómo funciona R, a través de sus funciones principales y cómo intergrar las librerías existentes para facilitar el tratamiento estadístico de grandes cantidades de datos, K-means, clustering… y otros algoritmos a la par de interesantes. Demasiados datos para mi….

Lourdes Hernández, Coordinadora del área de Big Data