Election Tech: How to make yourself a DIY data scientist

TechRepublic has used big data and social media as a lens to understand the 2016 US presidential race. You can use our simple method to gain deep insights from social media for your business.

«Campaigns are all small businesses,» said author Jonathan Tasini, surrogate for the Bernie Sanders campaign in New Hampshire.» Social media data helps us better understand the issues voters care about, and how to best use limited campaign resources.»

This campaign cycle TechRepublic is covering the relationship between social media, big data and political campaigns. There are a number of parallels between campaigns and startups—and small business can learn a lot by watching how campaigns gather and analyze social media data to help fine-tune messaging, react to the competition, and better understand issues.

Each day TechRepublic tracks several data points related to increasing and decreasing interest in candidate Twitter accounts through the campaign cycle. Our goal is to determine if, in fact, there is a relationship between Twitter activity and real-world results.

Twitter is our initial data source because the network is widely-used by campaigns and the media. Over the course of the campaign, we hope to add a variety of data points and social networks to our analysis.

We grab publicly available data from presidential candidate Twitter accounts daily from the public API, around 11:00 pm Eastern Standard Time and log the data in an Excel spreadsheet. We rely on public data like new followers, account follow-back ratio, relative growth, and the text copy of Tweet content because this information is not proprietary, and is available to everyone.

TechRepublic Election Tech Chart

TechRepublic Election Tech Chart | Image: William Stodden/Excel

We use Excel to log our daily snapshots. We have a master log of Twitter data, as well as individual sheets for debates, elections, conferences and speeches as needed. This allows us to monitor historic trends, and zoom in on specific events.

Our method is simple and direct. In our daily tracking sheet, in each row we list the candidate name, followed by our priority data points. Through the primaries, we track number of Tweets, Followers, the Following to Follower ratio, and number of times each account has been added to a list. We add a new column each day. The only difference in our event tracking sheet is that we log by hour, rather than by day.

By logging information in this way, each day we are able to calculate nominal growth—pure numbers of additional followers—and relative growth, account percentage increase.

This information, logged over time, allows us to use Excel’s built-in graphing tool to generate charts that present the data visually.

We do not yet have a theoretical understanding of how real-word events correlate with social media data, but charts generated from historic data produce data-driven insights, can assist in generating theory and speculating more effectively.

Our simple process can be also be reproduced using Google Sheets and Apple Numbers. Additionally, a number of powerful, professional-grade tools like StataTableau (Tech Pro Research review), Apache SparkInformatica and the R project are available for professional and enterprise users. These tools perform powerful visualization tasks, and can work with more diverse data sets.

Third party sites can be useful for acquiring large and specific data sets. A mountain of social media meta-data is available from sites like Keyhole.coDatasift, and Gnip. Third party sites like TweetStats.comTwitterCounter.com, and Foller.me can be useful for aggregating social media account data for free or low cost. As with all third-party sites we strongly advise you examine the privacy policy on each site before diving in.

Our method, however, can be applied easily by gathering information manually from Twitter, Facebook, Instagram, and other social sites directly. If you’re consistent about your data capture routine, this is the most simple method of building an information library and producing insightful charts.

If you are running a business, for example, you could apply the same kind of analysis we’re doing with presidential candidates to your competitors. You could track their progress on social media and compare it to yours. You could also track hashtags, product names, product keywords, and industry jargon to detect changes in customer demand over time.

TechRepublic’s Election Tech 2016 coverage

Over the course of the campaign we will continue to perform simple data analysis. In the future we hope to correlate sentiment with follower actions like retweets and likes. We hope to uncover additional and unique insights. If you’re a data scientist, social media professional, or inquisitive TechRepublic reader we’d love your ideas on how to inspect campaign social media data.

By Dan Patterson, Senior Writer for TechRepublic

Article seen in http://www.techrepublic.com/

Empleabilidad y Big Data 11.11.15

El pasado 11 de noviembre se celebró en nuestra sede de Madrid School of Marketing, en Madrid, la jornada sobre empleabilidad y Big Data.

Sala llena

El aforo estaba completo de personas y alumnos deseosos de conocer de primera mano los perfiles, oportunidades y estrategia en el ámbito del Business Intelligence y el Big Data.

Inicio Rafa

 

La sesión fue inaugurada por Rafael García, General Manager de MSMK, con la excelente ponencia «You drive your data to action», de la cual recogemos algunos de los principales temas tratados:

 

  • Crecimiento del Big Data en todas las organizaciones y la necesidad cada vez más creciente de disponer de los medios y recursos necesarios, y el talento adecuado para comprender el significado de los datos y extraer la información necesaria.
  • El análisis de los datos crea valor para las empresas y sus clientes.
  • Cuáles son las tendencias y oportunidades en Big Data y Analytics, donde destacó: Ratificación General, el Analytics de las cosas, seguridad y fiabilidad de los datos, monetización / conversión en negocio, crecimiento de open source: colaboración.
  • También explicó cómo es la cadena de valor de Big Data.

Una ponencia excelente, que sirvió para introducir los siguientes temas:lourdes tec

A continuación, Lourdes Hernández, Coordinadora del área de Big Data en la Escuela, habló de la Demanda en el Mercado de Big Data. De un  modo original, su ponencia incluyó 3 pistas, 4 noticias y 5 preguntas. A destacar de su ponencia:

  • El Big Data no es algo nuevo, dado que se dispone de los datos desde hace tiempo, ni tampoco los datos son un reto en sí, aunque sí lo es el tratamiento que se hace de los mismos y la información que se puede obtener.
  • El crecimiento del mercado y las oportunidades y la relación entre la evolución de los proyectos y la falta de perfiles cualificados.
  • Si Hadoop está preparado o no para todas las empresas, las diferencias entre un Data Warehouse tradicional y el «Data Lake» de Big Data y, cómo extra, un análisis de qué es más rápido y qué es más barato. ¿La respuesta…? depende de para qué se utilice.

La última ponencia, fue impartida por Guillermo Dearmas, Responsable de Carreras Profesionales de MSMK, sobre «Los Perfiles más demandados en MSMK».

Captura de pantalla 2015-11-22 a las 13.30.17

  • Actualmente llegan muchas peticiones la escuela de diferentes empresas, como se puede ver en el gráfico adjunto, de todo tipo de perfiles de Big Data y Analytics.
  • Las competencias requeridas son, sobre todo, capacidad de análisissíntesis  y trabajo en equipo.
  • Las principales funciones solicitadas son relativas al análisis de datos, desarrollo de proyectos, análisis estadístico y visualización.
  • La titulación requerida es ingeniería informática, administración y dirección de empresas, ingenieros de sistemas, matemáticos, etc.

Un mundo lleno de oportunidades profesionales, sin duda, y una jornada exitosa que nos hizo acercarnos un poco más el mercado de Big Data.

Big Data: ¿a quién contratar? ¿Dónde trabajar?

Este es uno de los grandes retos a los que nos enfrentamos respecto al Big Data en España. Estamos todavía empezando, hay pocos proyectos, no sabemos muy bien todavía qué es y cómo funciona, pero tenemos que empezar con ello sí o sí. Buscamos una idea –que siempre podemos copiar- o empezamos por algo sencillo, migrando nuestros almacenes de datos a otros más ágiles y baratos.

Compramos la idea de Big Data. ¿Y ahora? Alguien tendrá que mantener esto, ¿no? Nuestro personal tradicional de sistemas no nos sirve. O tenemos a algún friki inquieto que haya trasteado por ahí, o va a ser difícil reciclar a alguien.

¿Qué tenemos que buscar? Recruiters:

HH Big Data

Tanto los Head Hunters, como los departamentos de RRHH e incluso los directores de IT, no tienen claro qué buscar. Mirando en webs de recruiting, encontramos peticiones de lo más variopintas, desde unas que piden “expertos en Big Data con certificación” (así, sin más), como otras que buscan “expertos en Big Data con conocimientos en SAS” y una tercera que (por pedir, que no quede), piden expertos en absolutamente todas las tecnologías de Big Data. ¡Más vale que sobre que no que falte! Claro, las búsquedas resultan sumamente infructuosas.

Como decía Tamara Dull (Directora de tecnologías emergentes de SAS Best Practices) en el SAS Forum España 2015, Hadoop ha llegado en 2011. Con lo cual, si queremos cinco años de experiencia en Hadoop, habrá que esperar al menos al año que viene y, si además queremos que ese expertise sea en proyectos reales, habrá que esperar al menos dos o tres años más, aunque reitero que existen compañías en España trabajando en proyectos reales de Big Data, tanto grandes, como pequeñas. Y algunas muy buenas por cierto.

¿Qué hacemos entonces? Algunas recomendaciones:

Quizá sea mejor alguien con mucho interés y capacidad, que alguien con mucha experiencia. Estos recursos tienen necesidades diferentes. Deben participar en foros, formarse continuamente, estar al tanto de lo que ocurre. No les basta solo salario y puesto.

Big Data es un trabajo en equipo.

Obviamente, no existe un solo perfil que cubra todo. A nadie se le ocurriría implantar un ERP con un solo perfil, incluyendo el dimensionamiento de las máquinas, la administración de la base de datos y la toma de requerimientos con los usuarios finales. Dependiendo del tipo de proyecto que vayamos a abordar, o de lo que se quiera hacer, inicialmente hay tres perfiles claramente diferenciados, que a continuación describo de la forma más sencilla posible:IMG_7077

  1. Big Data Developer: coge los datos, los almacena, los procesa, se asegura de que todo funcione bien y los deja disponibles para que otros los puedan utilizar. Se encarga también de pasar los datos de un sitio a otro. Suelen ser ingenieros, informáticos o matemáticos (los matemáticos sirven para todo), con conocimientos en Hadoop y su ecosistema, y en Spark.
  2. Data Scientist: analiza los datos en profundidad. Los limpia, agrega y saca conclusiones a partir de ellos. Tiene que tener sólidos conocimientos en estadística, herramientas (R, SAS), y también en el ecosistema Hadoop. No solo analiza los datos, sino que es capaz de interpretarlos y ponerlos a disposición de usuarios o quien los vaya a utilizar después.
  3. Big Data Administrator: como siempre, alguien debe revisar que toda la “cacharrería” funcione correctamente. Balancear cargas, distribuir tareas por los nodos, optimizar consultas, etc. Perfil técnico con conocimiento e interés en la infraestructura. Por supuesto, conocimientos de Hadoop.

Ahora vamos con la otra parte: los candidatos.

Por lo general, suelen ser gente “friki” (con todo el cariño y en tono nada despectivo; de hecho, si no fueran frikis, posiblemente no se dedicarían a esto). Son personas inquietas y con ganas de hacer cosas, y a los que les espera un buen futuro en los próximos cinco-diez años.

Como en todos los trabajos, la actitud, la responsabilidad y el trabajo en equipo son fundamentales.

Seas friki o no, y trabajes en la compañía que sea, aquí radica según mi experiencia el 90% del éxito de lo que se haga.

Y dicho esto, pasemos a ver qué nos ofrece el mercado, para acertar mejor dónde trabajar. Las personas formadas en Big Data, tienen la suerte de poder elegir en qué empresa quieren trabajar.

Incluyo un desglose de alguno de los tipos de compañías que buscan recursos de Big Data:

  1.  Grandes consultoras: ofrecen buenos sueldos, reputación y carrera profesional valorando positivamente el talento. Son lanzaderas para carreras de éxito. Hay que trabajar mucho, duro y en equipo. Imprescindible hablar inglés (bueno, hoy en día, en cualquier trabajo) y valorable otros idiomas. Incluye viajes al extranjero y posibilidad de una red de expertos internacional a tu alcance. Los planes de carrera y de formación están al orden del día. Suelen hacer proyectos grandes para grandes clientes y, dependiendo de a qué proyecto te asignen, podrás ver unas cosas u otras, seguramente en un ámbito concreto del proyecto.
  2. Consultoras, implantadores medianos / pequeños: ofrecen sueldos más ajustados al mercado que las grandes consultoras y tal vez algo menos de beneficios sociales. Tienen a priori menos posibilidades de carrera profesional -aunque los que destacan seguro que la tendrán- pero a cambio son más ágiles y te permitirán conocer todo o casi todo del proyecto o los proyectos en los que participes. También hay que trabajar mucho, pero estas permiten otro tipo de aprendizajes. Seguramente tendrás que investigar y aprender más por tu cuenta para sacar adelante el trabajo. Desde el becario hasta el director general, suelen estar implicados en el proyecto y disponibles para lo que puedas necesitar. Suelen estar –tecnológicamente hablando- más avanzadas que las grandes consultoras y HH Candidaterequieren expertos de verdad.
  3. Consultoras de nicho: supongo que pagarán algo menos, pero a cambio podrás hacer de todo –participar en propuestas, presentaciones a clientes, foros…-; fomentan mucho más el trabajo en equipo y, casi seguro, tendrás voz y voto en lo que se decida en la compañía. En contra, tienen un futuro que puede ser más incierto que las grandes y medianas, y muy probablemente acaben engullidas por alguna de ellas.
  4. Cliente final: aunque hay algunos clientes finales inmersos en proyectos de Big Data, lo más seguro es que en un cliente final tengas que desarrollar el proyecto desde cero. Posiblemente no tengan mucha idea de cómo llevarlo a cabo, y podrás participar en todas las fases, y adquirir conocimientos sectoriales. Los departamentos de innovación –aunque creo que todavía no buscan perfiles de Big Data- son una excelente oportunidad para aprender y hacer cosas distintas. En contra, (dependiendo del tipo de cliente) no hay mucha variedad de proyectos.
  5. Fabricantes: un buen técnico preventa es un recurso muy valorado. Este trabajo permite conocer distintos clientes y casuísticas, definir estrategias en clientes y, por lo general, no participan en las implantaciones. En contra, hay que decir que suelen vender sólo su plataforma.

Introducción a Machine Learning

machineMachine learning es una de las palabras de moda en el mundo del Big Data. Es como el sexo de los adolescentes estadounidenses, todo el mundo habla de ello, todos dicen haberlo hecho pero realmente ninguno sabe lo qué es. Vamos a indagar un poco.

Esta es la definición de la Wikipedia: En ciencias de la computación el aprendizaje automático o aprendizaje de máquinas es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Es, por lo tanto, un proceso de inducción del conocimiento. En muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística, ya que las dos disciplinas se basan en el análisis de datos. Vamos a tratar de clarificarlo un poco.machine 2

La mayoría de los programas se componen de una serie de órdenes a ejecutar. Saben lo que tiene que hacer: abre un fichero, busca, compara, ordena, agrega, y muchas operaciones lógicas y matemáticas por complicadas que sean.

En Machine Learning se ofrecen una serie de programas, que a través de la recolección y el análisis de los datos existentes, pueden predecir el comportamientos futuro de los programas .

Las tres C’s del Machine Learning

Existen tres categorías bien definidas de técnicas de explotación de datos:

  • Filtros colaborativos (recomendaciones)
  • Clustering
  • Classificadores

Filtros colaborativos:

filtrosEs una técnica utilizada para recomendaciones. Uno de los primeros en aplicar esta técnica fue Amazon. Analiza los gustos de las personas y aprende para sugerir posibles nuevos gustos. Va aprendiendo cada vez. Es muy útil para ayudar a los usuarios a navegar por la red, mostrando los tópicos afines a sus intereses y gustos. Los filtros colaborativos son agnósticos respecto a los tipos de datos sobres los que trabajan, así son muy útiles trabajando en diferentes dominios.

Por ejemplo, a través de los gustos de determinados usuarios de una película, puede inferir cuáles serán las puntuaciones de los usuarios sobre las películas que no han valorado.

clusters

Clustering: descubre agrupaciones en los datos, que no estaban agrupados previamente. Busca encontrar relaciones entre variables descriptivas pero no la que guardan con respecto a una variable objetivo. Es automático.

Por ejemplo, publicaciones nuevas que están relacionadas –sin una patrón común-, o en el análisis de imágenes, grupos de pixels que se relacionan con determinados objetos.

Tanto los filtros colaborativos como el clustering son técnicas no supervisadas. No es necesario disponer de ninguna información de los datos previamente.

clasificadoresClasificadores: los clasificadores son una forma de aprendizaje supervisado. Utiliza una serie de registros con que están identificados mediante una etiqueta conocida. A partir de estos, es capaz de etiquetar nuevos registros basados en la información recopilada.

Algunos usos: etiquetar correo Spam, a partir de correos previos etiquetados como spam. A partir de tumores identificados como malignos o benignos, etiquetar nuevos tumores.

 

Hadoop for dummies

hadoopHadoop es, hoy por hoy, el marco de desarrollo establecido para implantaciones de Big Data. Se compone de un conjunto de capacidades reales, escalables y automáticas para gestionar el flujo de datos, y convertir raw data (datos en bruto) en insight (valor).

Su creador fue Doug Cutting y lo donó a Apache Software Foundation (organización sin ánimo de lucro creada para dar soporte a los desarrollos de Software). Su nombre y el logo, se lo debe a la mascota de su hijo, un elefante de peluche llamado Hadoop.

Surge en 2004 a partir de un White Paper de Google que describía su sistema de ficheros. Doug no tuvo problema en implantarlo y mejorarlo.

Como ya hemos dicho en post anteriores, Hadoop cubre las necesidades básicas que tiene el Big Data: almacenamiento y procesado de datos. De ahí, que esté basado en dos conceptos:

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil.
  • MapReduce: es el modelo de programación sencillo para dar soporte a la computación paralela.hdfs

El sistema distribuido de ficheros trabaja sobre grupos de computadoras, organizadas en lo que se llama un cluster, puede incluir desde una máquina (nodo), hasta 30.000 según la web de Apache. Cada máquina puede tener varios discos.

Hadoop funciona en modo cliente-servidor. Existe un nodo máster que se encarga de la gestión del almacenamiento y procesado, es decir, de dónde está cada fichero de datos, de enviar las órdenes de procesado de los datos (Jobs) y de asegurar que todo queda procesado del modo más eficiente posible.

Los grandes ficheros de datos de entrada se trocean en tamaños menores (64GB ó 128GB) y cada trozo se replica al menos tres veces en nodos distintos. Así se comienza el procesamiento en paralelo, y si alguno de los nodos falla, el máster detecta el fallo y asigna el trabajo a otro nodo disponible.

MapReduce trabaja mediante algoritmos simples de “clavevalor” . La parte de Map, asigna la clave a la información que estamos buscando. El ejemplo estrella de los cursos de Hadoop es el algoritmo de contar palabras en un texto. La clave sería cada palabra, y el valor las veces que aparece. Primero contaríamos cada palabra, siendo el resultado (palabra, 1), después ordenaríamos las palabras y finalmente, en la fase Reduce, sumaríamos las palabras que aparecen repetidas. Veámoslo con un gráfico:

mapreduce

Con este método se ahorra tiempo de transferencia de ficheros, ya que el almacenamiento y el procesado se realiza en el mismo sitio.

Hadoop trabaja en modo batch, es decir, ejecutando unos procesos tras otros. Está optimizado para leer cada fichero entero, desde el principio hasta el final, por ello está destinado a trabajar con pocos ficheros grandes en vez de con muchos pequeños, porque lo carga en memoria y lo lee de una sola vez.

Por suerte, existe todo un ecosistema para trabajar con Hadoop, y no tener que escribir todo el código necesario para realizar la asignación de ficheros, el procesamiento, etc.

Veamos algunos de los componentes del zoo de Hadoop:

eco hadoop

Eclipse: es un entorno de desarrollo integrado, donado por IBM a la comunidad Apache. Agiliza enormemente el desarrollo de los programas Java.

Sqoop: nos permite conectarnos a cualquier base de datos relacional (que el acceso mediante una conexión ODBC) e intercambiar datos con nuestro sistema de ficheros HDFS. Es muy importante poder incorporar fácilmente datos de nuestras bbdd (datawarehouse, ERPs, etc.) igualmente poder llevar fácilmente el resultado de un cálculo (scoring, segmentación…) a nuestras bases de datos.

Flume: nos permite recuperar información de sitios remotos. Mediante un agente que se ejecuta en el lugar que se producen los datos (fichero de log, Tweeter…) recoge los datos y los importa en HDFS. Es solo de una dirección, no permite exportar datos de HDFS a otras ubicaciones. Muy útil para recuperar información en tiempo real.

Hive: actúa como la base de datos de Hadoop. Es un intérprete SQL – MapReduce. Traduce la query a programas Java que realicen los MapReduce. Esto permite utilizar herramientas de Business Intelligence convencionales (que admitan conexión ODBC) con los datos de HDFS.

Pig: para trabajar con MapReduce, es necesario programar, tener sólidos conocimientos de Java, saber cómo funciona MapReduce, conocer el problema a resolver, escribir, probar y mantener el código … Para ello es muy beneficioso disponer de un sistema más sencillo, que nos abstraiga de la complejidad del MapReduce. Para ello existe Pig, que facilita el flujo de datos de una manera más sencilla. Dispone de su propio lenguaje de programación llamado Pig Latin.

Hbase: es una base de datos columnar que se ejecuta sobre HDFS. Puede almacenar grandes cantidades de datos, y acceder a ellos muy rápidamente y lleva bien el procesamiento incluso cuando hay datos dispersos. Un ejemplo de base de datos columnar, es como si almacenáramos los resultados de fútbol en una tabla así:tabla futbol

Oozie: Actúa como un planificador. Es un motor de workflows, que puede incluir procesos MapReduce (varios, ya que los procesos MapReduce son simples y por lo general, hay que encadenar varios para realizar los cálculos), scripts de Pig, de Hive, etc.

Zookeeper: alguien tenía que cuidar de tanta fauna… Zookeeper actúa como coordinador. Guarda toda la configuración de los metadatos, realiza los bloqueos pertinentes si dos procesos deben acceder al mismo fichero, guarda usuarios y passwords para el acceso a los distintos sitos, etc.

Mahout: es una librería de algortimos de Machine Learning, escritos en Java. ¿Qué es Machine Learning? Un programa al que no hay que decirle qué debe hacer. Dedicaremos un post posterior a habla de Machine Learning.

Después de este ecosistema, ya podemos ponernos a utilizar Hadoop, sin necesidad de ser expertos en Java… ¿os animáis?

Un día en la vida del científico de datos

¿En qué consiste el día a día de un científico de datos? Os ofrecemos las respuestas de algunos de los más prestigiosos y de otros más ocurrentes.

Abraham Cabangbang, Senior Data Scientist en LinkedIn

“Trabajo en un equipo dedicado al reporting y a la calidad de los datos. Si hay algún producto nuevo que debemos incorporar en nuestros principales cuadros de mando, debemos trabajar con los product managers para que nos indiquen qué es importante para el producto, y con los ingenieros para que nos digan cuáles son los datos relevantes. A partir de ahí, colaboramos con el equipo de data services para hacer las ETL (extracción, transformación y carga de datos) y la posterior visualización”.

Peter Harrington, Chief Data Scientist en HG Data

“Un proyecto típico es incorporar una nueva fuente de datos en nuestra base de datos, que no siempre está en el formato en el que podamos almacenarlo. Un estudiante podría pensar: “Bien, sólo hay que reformatearlo”. Pero no es tan sencillo porque hay temas no determinísticas que hacer y deben realizarse con gran precisión. Desde que empezamos, posiblemente he pasado el 60% del tiempo programando, 5% mirando los resultados y el 35% restante analizando nuevas formas de mejorar mi análisis”.

John Yeung, Analista de Datos en Flurry

“Los proyectos más interesantes en los que he trabajado son los relacionados con las grandes compañías del mundo del entretenimiento (juego). Generalmente tienen un buen porfolio de productos, siempre están buscando expandir su base de usuarios y están muy atentos a las tendencias de la industria. Muchas veces nos piden ayuda para analizar cómo va el mercado. Un ejemplo es cuando diferentes compañías con diferentes juegos, tienen los usuarios muy concentrados. Entonces, si quieren captar más jugadores, tienen que decidir qué inversión les generará el mejor ROI.

Así, si una compañía está especializada en juegos de estrategia, deben analizar si salir al extranjero es un buen lugar para adquirir nuevos usuarios. Analizamos los jugadores de esos países y vemos si están muy vinculados con un juego específico”.

Ben Bregman, Analista de Producto en Facebook

“Mi día tipo varía dependiendo en qué parte del ciclo de producto estamos. Si estamos poniendo en producción una nueva funcionalidad, estaré monitorizando y buceando en las métricas para entender cómo va el rendimiento. Si estamos desarrollando funcionalidades nuevas, trabajo con los ingenieros para asegurar una buena comunicación con los servicios de backend involucrados. Si estamos dilucidando sobre el futuro, estaré recogiendo datos y haciendo análisis que nos ayuden en la conversación. Es impresionante estar involucrado en el ciclo de un producto desde el principio hasta el fin y ver cómo los usuarios disfrutan y se benefician de las nuevas funcionalidades”.

Adam Runner, contador de historias, chapista.

“`Ciencia de datos’ es uno de esos campos que no tiene todavía una buena definición. Hay muchas personas y muchos campos diferentes, que trabajan explotando datos. Habría que considerar qué tipos de análisis se consideran realmente como `ciencia de datos´”.

causalidadLa definición operativa debe inclinarse hacia una extensión del análisis, como su nombre indica, a un tratamiento más científico de los datos. Esto quiere decir que se ocupa principalmente de contestar preguntas basadas en causalidad en lugar de en correlación.

Al igual que con cualquier ciencia, hay muchos usos diferentes que dictarán en cada caso, cómo es un día típico. En mi opinión, estos son los tipos de cosas que los científicos de datos hacen:

  • Diseñar experimentos
  • Modelos estadísticos y matemáticos (SPSS, R, Matlab, modelos de predicción, inferencia bayesiana)
  • Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig, API)
  • Investigación de los datos (conectando puntos, haciendo preguntas útiles)
  • Cuenta cuentos (Interpretando, extrapolando, explicando, visualizando resultados)

Todo esto, por supuesto, retroalimentando continuamente los resultados obtenidos.

William Emmanuel Yu: «En el negocio de averiguar… cómo almacenar, qué hacer, cómo hacer que tenga sentido… sobre los datos de otras personas y cazador de mitos.

Un día típico en mi día a día sería así:

  1. ¿Está funcionando bien el sistema? Verificar.
  2. ¿Los procesos se están ejecutando bien? Verificar.
  3. Mirar la lista de nuevos requerimientos y escribir nuevos procesos. Añadirlos al planificador.
  4. Mirar los procesos completados y enviar los resultados al que los solicitó.
  5. Repetir 3 y 4, hasta que la lista de requerimientos está vacía”.

II Feria de Empleo de Business Intelligence y Big Data

El pasferia cartelado jueves 25 de junio celebramos la segunda feria de empleo de Business Intelligence y Big Data. Fue un éxito rotund
o: empresas, candidatos, talleres, ponencias, networking, rrss…

Vamos a comentar algunos de los factores clave del evento:

Más de un centenar de candidatos se acercaron a la feria, colgando el cartel de aforo completo.

«5 tips para que tu CV triunfe en Big Data». Un taller donde los profesionales de TicJob asesoraban a los participantes sobre aspectos a mejorar en el CV. Hubo un flujo continuo de participantes durante toda la tarde. Decenas de personas pudieron beneficiarse de este fabuloso taller.

Más de 15 empresas líderes en el sector, estuvieron en sus stands, dándose a conocer y recibiendo personalmente las consultas, inquietudes y CVs de los interesados. En alguna de ellas, un alumno de las últimas convocatorias, fichado ya por la empresa antes de terminar el máster, colaboró en la feria. ¡Bárbaro!

La sala de las ponencias, estuvo en todo momento abarrotada, y fueron todas muy interesantes. Destacaremos algunos topics:

feria gente

Lourdes Hernández, nos habló desde el punto de vista de negocio, analizando algunos ejemplos de cómo los datos se convierten en oportunidades. A destacar el ejemplo de Netflix, que diseñó la serie House of Cards, según el análisis de las preferencias de los usuarios.

Según Arancha Pintado, siempre ha habido súper héroes con poderes, aunque ahora con Big Data, es necesario que tengan aún más: especialista en infraestructura, arquitecto Big Data, mineros de data, expertos en slow data y el súper heróe por excelencia: el Data Scientist. Arancha nos describió las características de cada uno.

Juan Lorenzo, nos detalló el perfil del Data Scientist, los conocimientos y habilidades que debe tener. A destacar, que es el dato el que le dice lo que debe hacer y que deben ser muy meticulosos.

También de la mano de SAS, Carlos Rodríguez nos habló de las distribuciones de Hadoop. Coste, rendimiento y flexibilidad las principales razones para elegir Hadoop. SAS permite aislar el entorno empresarial de las deficiencias de Hadoop.

nube

Rafael García, director de Madrid School of Marketing y Maximilien De Coster, consejero de TicJob.es, expusieron algunos resultados del observatorio de empleo que puedes consultarlo completo aquí.

De la charla de Rafael destacamos la importancia de las habilidades de liderazgo, comunicativas y de equipo, dado que «Un profesional puede ser muy buen analista pero hay que comunicarlo y venderlo». También que se busca: Equilibrio profesional y el » talento natural».

Maximilien, nos describió la buena tendencia del sector, donde la competencia de los perfiles de Big Data, es la que más baja del mercado, casi a la mitad, pasando de 9 candidatos por vacante en 2013 a 5 en 2014, y la necesidad de candidatos con capacidad de gestión y liderazgo para el sector TIC.

EL evento tuvo el hastagh #BigDataMSMK, y estuvo muy activo durante y después de la jornada, con un alto nivel de influenciadores.

influencers

Excepcional. Gracias Madrid School of Marketing.

Ciudades… inteligentes?

images-4Las ciudades inteligentes son una de las aplicaciones más comunes en Big Data. Según la Wikipedia, ciudades inteligentes es un término actual, que se está utilizando como un concepto de marketing en el ámbito empresarial, en relación a políticas de desarrollo, y en lo concerniente a diversas especialidades y temáticas. Vamos a ver algunos proyectos de las principales ciudades inteligentes españolas, y qué cambios reales conllevan: BARCELONA Algunos de los avances importantes en el terreno de movilidad y eficiencia energética es la nueva red de bus, con un sistema octogonal para mejorar la movilidad, unido a elementos tecnológicos que facilitan la información, como barnalos paneles en el interior de los vehículos o las llamadas smartquesinas. En ellas, el pasajero puede navegar a través de una pantalla táctil por diversas aplicaciones que lo ayudan a planificar su ruta o a escoger la próxima actividad que reali zará en la ciudad. También hay puertos USB que permiten cargar los dispositivos móviles. El servicio se completa con unos sensores en el asfalto, que están conectados a través de una red wifi, para consultar en tiempo real la disponibilidad de las plazas de aparcamiento. La eficiencia energética es otro de los aspectos claves de esta smart city. La avenida de Josep Tarradellas se ha convertido en la primera calle smart, porque al alumbrado, incorpora sensores de presencia que intensifican la potencia de la luz cuando reconocen peatones. Los tres principales objetivos del plan director de iluminación son priorizar el peatón por encima de los viales de circulación; incorporar criterios de máxima eficiencia y optimización energética e inteligencia funcional y, personalizar calles, edificios y monumentos. También disponen de una aplicación gratuita para móvil que permite pagar el estacionamiento por el tiempo exacto que se ocupa la plaza. Una plataforma accesible a los servicios de información de proximidad mediante tecnología inalámbrica (NFC y QR) geolocalizados y otra que permite a los usuarios obtener una identidad digital asociada al número de teléfono. También disponen de una aplicación para dinamizar la industria del móvil y asegurar la adopción de los servicios móviles. SANTANDER sanSantander ha colocado 12.000 sensores fijos y móviles durante estos últimos años en emplazamientos estratégicos del callejero: farolas, papeleras, edificios y vehículos municipales convertidos en laboratorios de información. Con ellos, pretenden averiguar, en tiempo real, la ubicación exacta de la flota de autobuses, las condiciones de humedad, la situación del tráfico, los índices de polución o el nivel de ruidos del municipio… Es decir: pueden tomar decisiones de una forma más inteligente y gestionar los recursos de una manera más eficiente en términos de costes y de impacto medioambiental. Los sistemas de Smart Santander informan a los usuarios de los tiempos de espera de su línea de transporte, el grado de ocupación de los aparcamientos públicos, avisar a los empleados locales del momento más óptimo para regar los jardines según las lluvias, o reducir la iluminación de ciertas vías cuando no se detecte la presencia de coches o de personas o cuando la luz del sol sea suficiente. Asimismo, permite consultar el callejero orientando la cámara de su móvil hacia el edificio histórico, dependencias administrativas o cualquier elemento que desee. También pagar con su teléfono móvil el ticket del estacionamiento regulado. El sistema integra también los datos recogidos de los móviles de los usuarios, que, convertidos en sensores, vierten al sistema desde múltiples puntos de la localidad variables de temperatura, ruido o posicionamiento geográfico. La plataforma, igualmente, permite a cualquier persona suscribirse a servicios de alerta y de notificación personalizados (teléfono, SMS, Web o email), directamente vinculados con situaciones o sucesos específicos que ocurran en la ciudad… eventos desencadenados, de hecho, por los nuevos procesos resultantes del tratamiento de millones de datos “urbanos”. MÁLAGAmalaga La estrategia de Málaga Smart City abarca múltiples aspectos de la ciudad, no obstante, podríamos destacar la búsqueda de la sostenibilidad y eficiencia energética, así como la presentación de Málaga como un Urban Lab en el que la aceleración de nuevas empresas y la atracción de I+D+i cobra gran importancia. En línea con el objetivo de sostenibilidad y eficiencia energética, la ciudad aprovecha la energía que obtiene de basuras y aguas residuales a través de sendas plantas de cogeneración, obteniendo biogás. Dicha energía se utiliza para autoabastecer a la propia planta y la restante es vendida a la red. El ayuntamiento ha desplegado una red de contadores domésticos digitales para monitorizar la gestión del agua y detectar rápidamente las posibles fugas o fraudes que puedan estar sucediendo. Además, los datos obtenidos posibilitan a los usuarios realizar un uso del agua más consciente y reducir su factura mensual. Málaga cuenta con dos sondas de medición radioléctrica para monitorizar los niveles de radiación electromagnética en el ambiente y existe un protocolo de actuación en caso de superar los niveles que garantizan la seguridad. Pero.. ¿son estos ejemplos realmente ciudades inteligentes? Desde Efficient Urban opinan que en la medida en que las tecnologías e infraestructuras, se incorporen a partir del análisis previo del urbanista, se llegará a ofrecer una propuesta de cuidad eficiente,  en cuanto a la integración de servicios bajo plataformas comunes, ahorro de costes, con ordenación de la implementación de infraestructuras y una oferta adecuada a las características e la cuidad y los recursos que dispone, previamente evaluados. El éxito se alcanzará cuando los criterios para establecer las prioridades de actuación, sean globales y adquieran un carácter transversal, además de que se apliquen por igual en todas las dimensiones de la ciudad (población, gobierno, economía, etc.)eff

La caja de herramientas del científico de datos

Una de los princisw librepales cometidos del científico de datos es convertir los datos en conocimiento útil para la empresa. Para ello deben resolver problemas y dar respuesta a preguntas clave. Para ello necesitan utilizar algunas herramientas específicas para el procesamiento y análisis de los datos.
La primera pregunta que surge es qué se utiliza más, si las herramientas open source o software propietario. Según la 16º encuesta de KDNuggets, la mayoría de los científicos, un 64% utilizan ambas

Las 10 herramientas más utilizadas son:

  1. R, lenguaje de programación y entorno de Software de código abierto para programación estadística y entornos gráficos. Es la más utilizada entre científicos y mineros de datos lo que implica la existencia de múltiples librerías y paquetes fácilmente reutilizables.
  2. rRapidMiner, antiguamente llamada YALE, (Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos analíticos a través de un entorno gráfico. Proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones
    de entrada y salida, pre-procesamiento y visualización. También permite utilizar los algoritmos incluidos en Weka.
  3. SQL, (Structured Query Language) es un lenguaje de acceso a bases de datos Una de sus características es el manejo del álgebra y el cálculo relacional.
  4. pythonPython, un lenguaje de programación interpretado cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Soporta programación, orientada a objetos, imperativa (instrucciones que le indican al computador cómo realizar una tarea) y funcional. Es multiplataforma.
  5. Excel
  6. KNIM (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.
  7. Hadoop, de momento, considerado el framework estándar para almacenamiento y procesado de grandes datos.
  8. Tableau, centrada en la visualización de datos.
  9. SAS, herramienta líder en el mercado de Business Intelligence.spark
  10. Spark, es un framework de desarrollo, que incorpora un motor rápido y general para el procesamiento de datos a gran escala y procesamiento en memoria.

La profesión del futuro, Data Scientist

Según McKinsey en Estados Unidos se contratarán 1.8 millones de científicos de datos en 2015/2016 y, Gartner pronostica en Europa Occidental se generarán 1.2 millones de empleos. Datos que corroboran la gran demanda que sigue existiendo y el brillante futuro que espera a los científicos de datos.

Encontramos una definición de Data Scientist como el encargado en extraer el conocimiento de los datos. Para ello debe tener tanto aptitudes técnicas, que destallaremos más adelante, como otras actitudes: pensamiento analítico, pensamiento crítico y dominar la resolución de problemas. Además deben ser personas curiosas, buscadores de patrones, de mentalidad abierta y dispuestos a dejarse sorprender

Algunas aptitudes técnicas imprescindibles, con las principales tareas asociadas son:

Matemáticas: la profesion 1conocimientos de algoritmos y álgebra lineal. Pensamiento matemático: habilidad para comprender conceptos de otra naturaleza y para relacionarlos basándose en esquemas y técnicas ordenadas.

Estadística: modelos estadísticos, análisis predictivo, árboles de decisión, redes neuronales, clasificadores, asociaciones, series temporales.

Ingeniería de datos: explorar fuentes, capturar, procesar, almacenar y analizar datos. Construir y mantener la infraestructura que soporte los datos. Asegurar calidad de la información. Computación avanzada, lenguaje de aprendizaje máquina (Machine Learning). Cumplimiento legal y normativo de confidencialidad de los datos.la profesion 2

Visualización: infografías, herramientas y técnicas para mostrar resultados de una manera adecuada y útil, generación de mapas con geolocalización, mapas de calor, gráficos de asociación, reporting.

Pero llegar a ser un científico de datos requiere ciertas características y habilidades, que difícilmente serán cubiertas por una sola persona. El objetivo será formar un equipo de expertos que trabaje de forma colaborativa, enriqueciendo así los proyectos y aportando cada uno conocimiento y expertise.

El nivel de estudios en estos profesionales suele ser bastante alto: el 46% de ellos tiene un doctorado y el 42% un máster. Para los que eligen la formación reglada, hay másteres realmente buenos en Universidades de Estados Unidos y Reino Unido, y en España están comenzando a aparecer sobre todo en el sector privado, y más tímidamente en el público al que le está costando despegar.