El Big Data (o nuevo oro negro), una oportunidad de ser más inteligentes

Una de las máximas preocupaciones que actualmente tienen las empresas es solucionar problemas relacionados con los datos que se generan. No sólo en lo que se refiere a first party data, sino también second y third party data. La cantidad de datos que hay en el mundo está creciendo deprisa, desbordando máquinas y empresas.

Datos

En 1 minuto se ven más de 2,78 millones de vídeos en Youtube, se hacen más de 2,4 millones de búsquedas en Google, 527.760 fotos compartidas en Snapchat… (FUENTE: Excelacom Inc., 2016). Y esto sólo es una muestra del contenido que consumimos y generamos en Internet.

La cifra exacta es difícil de conocer, pero parece evidente que crece cuatro veces más deprisa que la economía mundial. Se habla incluso del concepto de datificación para describir el proceso de recopilar información sobre todo lo que ocurre, llegando incluso a la infoxicación (intoxicación por exceso de información).

Un reciente estudio de la International Data Corporation (IDC), indica que el 89% del crecimiento de la industria de Tecnologías de la Información en el año 2020 será resultado de la que se conoce como tercera plataforma, Big Data. Esta tendencia está en parte motivada por la evidencia del ROI, soportado por nuevos modelos de negocio y nuevos productos y servicios (el IoT tiene mucho que ver también). Otra de las vías de desarrollo del Big Data están siendo los negocios relacionados con los datos y su monetización, que están viendo en la nube su entorno de desarrollo y expansión. En este entorno es donde las empresas deben desarrollar su actividad.

Sandy Pentland y Nathan Eagle fueron los pioneros del Reality Mining, el proceso de extraer y estudiar los datos procedentes de móviles para analizar predicciones sobre el comportamiento humano. Llegaron incluso a identificar personas con gripe antes de que ellos supiesen que estaban enfermos. En caso de una gripe mortal, las ventajas son más que evidentes si sabemos por dónde se extiende y por dónde seguirá extendiéndose.

bigdata oro negro

Big data (o nuevo oro negro) es una oportunidad de ser más inteligentes y de ganar a la competencia mediante la generación de insights a partir de la gestión y análisis de gran volumen de datos desestructurados.

Supone el paso de la colección del dato a la transformación en conocimiento. Y es en esta transformación donde los profesionales conocedores de las técnicas y herramientas de Business Intelligence y Data Mining juegan un papel fundamental.

 

Antonio Tena.

Managing Partner y Co-Founder en PentaSoft Group. Profesor en MSMK – Madrid School of Marketing.

Reiniciando

¿Cuál es la parte más crítica del proceso de creación de un modelo analítico? Para mí, sin duda, es la etapa que marca la definición del objetivo que se está buscando. Es necesario que Éste sea claro, preciso y alcanzable. Ya decía Herd Eldestien que, ”si sólo te dedicas a almacenar datos, sin tener un objetivo claro de para qué vas a emplearlos, estas perdido antes de haber empezado”. Esta frase toma un especial sentido en el momento actual “la era del Big Data” donde una empresa puede disponer no sólo de datos estructurados sino también no estructurados a una velocidad, volumen y variedad jamás antes visto.

Datos

Siempre he defendido que los mejores modelos predictivos son aquellos que tienen incorporados la lógica de negocio dentro de ellos, es decir, aquellos que se han construido manteniendo un equilibrio entre tres aspectos: la componente matemática, el poder predictivo que obtienen y el expertise que incorporan en ellos las personas de negocio. En el momento actual, cada vez más estrategias analíticas utilizan técnicas de machine learning, cada vez más sofisticadas, cada vez más caja negra. Nadie discute la recomendación del uso de este tipo de modelos en aquellas problemáticas que no precisan de un entendimiento de negocio y en las que su capacidad predictiva es sensiblemente mayor que las que ofrecen las técnicas tradicionales, como es el caso de estudios vinculados al campo de la visión artificial, reconocimiento de caracteres o el text mining.

Sin embargo, en problemáticas vinculadas a la adopción de decisiones comerciales y de negocio, la mejora de los métodos de machine learning no es tan manifiesta y, por ello, se hace recomendable la búsqueda de un equilibrio/competición, con las técnicas de modelización clásicas. El establecimiento de esta estrategia híbrida, nos llevará a considerar las ventajas e inconvenientes de cada uno de los dos mundos, que van desde de la consecución de resultados inmediatos , que se suele alcanzar con técnicas de ML, hasta la obtención de resultados más robustos que se suelen obtener con técnicas de modelización clásica. La elección de la estrategia final a seguir ha de marcarla tanto la naturaleza del objetivo que se quiere predecir, como la madurez analítica de la empresa.

text mining

Es importante subirse al tren de la innovación incorporando progresivamente nuevas capacidades analíticas que permitan automatizar e incrementar la efectividad de los procesos de negocio sin perder nunca de vista la componente humana, que dota de una dimensión extra a los resultados de los modelos. Se abre ante nosotros una nueva etapa en la que será necesario acelerar el proceso de aprendizaje para estar en las condiciones óptimas que nos va a exigir las nuevas necesidades de negocio.

JAVIER MONJAS PÉREZ

Responsable Data Mining en Innova-TSN

Profesor del área de Big Data y Analytics en MSMK – Madrid School of Marketing

PLN: Procesamiento del lenguaje natural

Por Scott Sims, CEO Buzzlogix

Procesamiento del lenguaje natural (NLP o PNL) ayuda a las máquinas a entender y descifrar el lenguaje humano. Uno de los principales usos del Big Data y del conocimiento de la experiencia y del sentimiento de clientes, viene dado por el análisis semántico de comentarios en redes sociales, blogs, encuestas, etc.

Definimos los conceptos clave del PNL y explicamos cómo encaja en el cuadro más grande de la Inteligencia Artificial.

El objetivo del procesamiento del lenguaje natural es la de ayudar a los ordenadores a entender el lenguaje según lo hablan las personas, para poder acabar con los lenguajes de programación como Java, Ruby, C i todos juntos. Con el procesamiento del lenguaje natural, los ordenadores serían capaces de entender directamente a las personas mediante lenguaje humano. Vamos a explicar todo todo lo que necesitas saber sobre el procesamiento del lenguaje natural.

¿Qué es el procesamiento del lenguaje natural?

nlp

Procesamiento del lenguaje natural, a menudo abreviado como PNL, se refiere a la capacidad de un equipo informático para entender el lenguaje humano tal como se habla. La PNL es un componente clave de la inteligencia artificial (IA) y se basa en el aprendizaje de máquina (Machine Learning), un tipo específico de IA que analiza y hace uso de patrones en los datos para mejorar la comprensión de un discurso.

¿Para qué se utiliza?

Hay un número de diferentes tareas de PNL incorporados en programas de software de hoy en día, incluyendo:

  • Separación de frases, etiquetado gramatical, y análisis: el procesamiento del lenguaje natural puede ser utilizado para analizar partes de una oración para comprender mejor la construcción gramatical de la frase, contar palabras, etc.npl3
  • Análisis profundo: consiste en la aplicación de técnicas avanzadas de procesamiento de los datos con el fin de extraer información específica de los conjuntos de grandes datos o de múltiples fuentes. Es particularmente útil cuando se trata de consultas precisas o muy complejas con datos no estructurados y semi-estructurados. Es utilizado a menudo en el sector financiero, la comunidad científica, el sector farmacéutico y las industrias biomédicas. Cada vez más, sin embargo, el análisis profundo también está siendo utilizado por las organizaciones y empresas interesadas en minería de datos, o en encontrar un valor de negocio a partir de conjuntos de datos de los consumidores.
  • Traducción automática: procesamiento del lenguaje natural es cada vez más utilizado en programas de traducción automática, en la que un idioma se traduce automáticamente en otro.
  • Extracción de entidades nominales (Named entity extraction): En la minería de datos, una definición de entidad con nombre es una frase o palabra que identifica claramente un elemento, de un conjunto de otros elementos que tienen atributos similares. Los ejemplos incluyen nombres y apellidos, edad, ubicación geográfica, direcciones, números de teléfono, direcciones de correo electrónico, nombres de empresas, etc. Named extracción de entidades, a veces también llamado reconocimiento de entidades, facilita la minería de textos.
  • Resolución Co-referenciada: En un trozo de texto, la resolución de la correferencia se puede utilizar para determinar qué palabras se utilizan para referirse a los mismos objetos.
  • Resumen automático: el procesamiento del lenguaje natural puede ser utilizado para producir un resumen legible desde una gran parte del texto. Por ejemplo, producir un breve resumen de un artículo académico denso.

nlp2

¿Cuáles son las ventajas de procesamiento del lenguaje natural?

Los beneficios del procesamiento del lenguaje natural son innumerables: puede ser aprovechado para mejorar la eficiencia de los procesos de documentación, mejorar la exactitud de la documentación, e identificar la información más pertinente de grandes bases de datos. Por ejemplo, un hospital podría utilizar el procesamiento del lenguaje natural para obtener datos de un diagnóstico específico a partir de las notas estructuradas de un médico y asignar un código de facturación.

 

 

Introducción a Machine Learning

machineMachine learning es una de las palabras de moda en el mundo del Big Data. Es como el sexo de los adolescentes estadounidenses, todo el mundo habla de ello, todos dicen haberlo hecho pero realmente ninguno sabe lo qué es. Vamos a indagar un poco.

Esta es la definición de la Wikipedia: En ciencias de la computación el aprendizaje automático o aprendizaje de máquinas es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Es, por lo tanto, un proceso de inducción del conocimiento. En muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística, ya que las dos disciplinas se basan en el análisis de datos. Vamos a tratar de clarificarlo un poco.machine 2

La mayoría de los programas se componen de una serie de órdenes a ejecutar. Saben lo que tiene que hacer: abre un fichero, busca, compara, ordena, agrega, y muchas operaciones lógicas y matemáticas por complicadas que sean.

En Machine Learning se ofrecen una serie de programas, que a través de la recolección y el análisis de los datos existentes, pueden predecir el comportamientos futuro de los programas .

Las tres C’s del Machine Learning

Existen tres categorías bien definidas de técnicas de explotación de datos:

  • Filtros colaborativos (recomendaciones)
  • Clustering
  • Classificadores

Filtros colaborativos:

filtrosEs una técnica utilizada para recomendaciones. Uno de los primeros en aplicar esta técnica fue Amazon. Analiza los gustos de las personas y aprende para sugerir posibles nuevos gustos. Va aprendiendo cada vez. Es muy útil para ayudar a los usuarios a navegar por la red, mostrando los tópicos afines a sus intereses y gustos. Los filtros colaborativos son agnósticos respecto a los tipos de datos sobres los que trabajan, así son muy útiles trabajando en diferentes dominios.

Por ejemplo, a través de los gustos de determinados usuarios de una película, puede inferir cuáles serán las puntuaciones de los usuarios sobre las películas que no han valorado.

clusters

Clustering: descubre agrupaciones en los datos, que no estaban agrupados previamente. Busca encontrar relaciones entre variables descriptivas pero no la que guardan con respecto a una variable objetivo. Es automático.

Por ejemplo, publicaciones nuevas que están relacionadas –sin una patrón común-, o en el análisis de imágenes, grupos de pixels que se relacionan con determinados objetos.

Tanto los filtros colaborativos como el clustering son técnicas no supervisadas. No es necesario disponer de ninguna información de los datos previamente.

clasificadoresClasificadores: los clasificadores son una forma de aprendizaje supervisado. Utiliza una serie de registros con que están identificados mediante una etiqueta conocida. A partir de estos, es capaz de etiquetar nuevos registros basados en la información recopilada.

Algunos usos: etiquetar correo Spam, a partir de correos previos etiquetados como spam. A partir de tumores identificados como malignos o benignos, etiquetar nuevos tumores.

 

Hadoop for dummies

hadoopHadoop es, hoy por hoy, el marco de desarrollo establecido para implantaciones de Big Data. Se compone de un conjunto de capacidades reales, escalables y automáticas para gestionar el flujo de datos, y convertir raw data (datos en bruto) en insight (valor).

Su creador fue Doug Cutting y lo donó a Apache Software Foundation (organización sin ánimo de lucro creada para dar soporte a los desarrollos de Software). Su nombre y el logo, se lo debe a la mascota de su hijo, un elefante de peluche llamado Hadoop.

Surge en 2004 a partir de un White Paper de Google que describía su sistema de ficheros. Doug no tuvo problema en implantarlo y mejorarlo.

Como ya hemos dicho en post anteriores, Hadoop cubre las necesidades básicas que tiene el Big Data: almacenamiento y procesado de datos. De ahí, que esté basado en dos conceptos:

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil.
  • MapReduce: es el modelo de programación sencillo para dar soporte a la computación paralela.hdfs

El sistema distribuido de ficheros trabaja sobre grupos de computadoras, organizadas en lo que se llama un cluster, puede incluir desde una máquina (nodo), hasta 30.000 según la web de Apache. Cada máquina puede tener varios discos.

Hadoop funciona en modo cliente-servidor. Existe un nodo máster que se encarga de la gestión del almacenamiento y procesado, es decir, de dónde está cada fichero de datos, de enviar las órdenes de procesado de los datos (Jobs) y de asegurar que todo queda procesado del modo más eficiente posible.

Los grandes ficheros de datos de entrada se trocean en tamaños menores (64GB ó 128GB) y cada trozo se replica al menos tres veces en nodos distintos. Así se comienza el procesamiento en paralelo, y si alguno de los nodos falla, el máster detecta el fallo y asigna el trabajo a otro nodo disponible.

MapReduce trabaja mediante algoritmos simples de “clavevalor” . La parte de Map, asigna la clave a la información que estamos buscando. El ejemplo estrella de los cursos de Hadoop es el algoritmo de contar palabras en un texto. La clave sería cada palabra, y el valor las veces que aparece. Primero contaríamos cada palabra, siendo el resultado (palabra, 1), después ordenaríamos las palabras y finalmente, en la fase Reduce, sumaríamos las palabras que aparecen repetidas. Veámoslo con un gráfico:

mapreduce

Con este método se ahorra tiempo de transferencia de ficheros, ya que el almacenamiento y el procesado se realiza en el mismo sitio.

Hadoop trabaja en modo batch, es decir, ejecutando unos procesos tras otros. Está optimizado para leer cada fichero entero, desde el principio hasta el final, por ello está destinado a trabajar con pocos ficheros grandes en vez de con muchos pequeños, porque lo carga en memoria y lo lee de una sola vez.

Por suerte, existe todo un ecosistema para trabajar con Hadoop, y no tener que escribir todo el código necesario para realizar la asignación de ficheros, el procesamiento, etc.

Veamos algunos de los componentes del zoo de Hadoop:

eco hadoop

Eclipse: es un entorno de desarrollo integrado, donado por IBM a la comunidad Apache. Agiliza enormemente el desarrollo de los programas Java.

Sqoop: nos permite conectarnos a cualquier base de datos relacional (que el acceso mediante una conexión ODBC) e intercambiar datos con nuestro sistema de ficheros HDFS. Es muy importante poder incorporar fácilmente datos de nuestras bbdd (datawarehouse, ERPs, etc.) igualmente poder llevar fácilmente el resultado de un cálculo (scoring, segmentación…) a nuestras bases de datos.

Flume: nos permite recuperar información de sitios remotos. Mediante un agente que se ejecuta en el lugar que se producen los datos (fichero de log, Tweeter…) recoge los datos y los importa en HDFS. Es solo de una dirección, no permite exportar datos de HDFS a otras ubicaciones. Muy útil para recuperar información en tiempo real.

Hive: actúa como la base de datos de Hadoop. Es un intérprete SQL – MapReduce. Traduce la query a programas Java que realicen los MapReduce. Esto permite utilizar herramientas de Business Intelligence convencionales (que admitan conexión ODBC) con los datos de HDFS.

Pig: para trabajar con MapReduce, es necesario programar, tener sólidos conocimientos de Java, saber cómo funciona MapReduce, conocer el problema a resolver, escribir, probar y mantener el código … Para ello es muy beneficioso disponer de un sistema más sencillo, que nos abstraiga de la complejidad del MapReduce. Para ello existe Pig, que facilita el flujo de datos de una manera más sencilla. Dispone de su propio lenguaje de programación llamado Pig Latin.

Hbase: es una base de datos columnar que se ejecuta sobre HDFS. Puede almacenar grandes cantidades de datos, y acceder a ellos muy rápidamente y lleva bien el procesamiento incluso cuando hay datos dispersos. Un ejemplo de base de datos columnar, es como si almacenáramos los resultados de fútbol en una tabla así:tabla futbol

Oozie: Actúa como un planificador. Es un motor de workflows, que puede incluir procesos MapReduce (varios, ya que los procesos MapReduce son simples y por lo general, hay que encadenar varios para realizar los cálculos), scripts de Pig, de Hive, etc.

Zookeeper: alguien tenía que cuidar de tanta fauna… Zookeeper actúa como coordinador. Guarda toda la configuración de los metadatos, realiza los bloqueos pertinentes si dos procesos deben acceder al mismo fichero, guarda usuarios y passwords para el acceso a los distintos sitos, etc.

Mahout: es una librería de algortimos de Machine Learning, escritos en Java. ¿Qué es Machine Learning? Un programa al que no hay que decirle qué debe hacer. Dedicaremos un post posterior a habla de Machine Learning.

Después de este ecosistema, ya podemos ponernos a utilizar Hadoop, sin necesidad de ser expertos en Java… ¿os animáis?

Un día en la vida del científico de datos

¿En qué consiste el día a día de un científico de datos? Os ofrecemos las respuestas de algunos de los más prestigiosos y de otros más ocurrentes.

Abraham Cabangbang, Senior Data Scientist en LinkedIn

“Trabajo en un equipo dedicado al reporting y a la calidad de los datos. Si hay algún producto nuevo que debemos incorporar en nuestros principales cuadros de mando, debemos trabajar con los product managers para que nos indiquen qué es importante para el producto, y con los ingenieros para que nos digan cuáles son los datos relevantes. A partir de ahí, colaboramos con el equipo de data services para hacer las ETL (extracción, transformación y carga de datos) y la posterior visualización”.

Peter Harrington, Chief Data Scientist en HG Data

“Un proyecto típico es incorporar una nueva fuente de datos en nuestra base de datos, que no siempre está en el formato en el que podamos almacenarlo. Un estudiante podría pensar: “Bien, sólo hay que reformatearlo”. Pero no es tan sencillo porque hay temas no determinísticas que hacer y deben realizarse con gran precisión. Desde que empezamos, posiblemente he pasado el 60% del tiempo programando, 5% mirando los resultados y el 35% restante analizando nuevas formas de mejorar mi análisis”.

John Yeung, Analista de Datos en Flurry

“Los proyectos más interesantes en los que he trabajado son los relacionados con las grandes compañías del mundo del entretenimiento (juego). Generalmente tienen un buen porfolio de productos, siempre están buscando expandir su base de usuarios y están muy atentos a las tendencias de la industria. Muchas veces nos piden ayuda para analizar cómo va el mercado. Un ejemplo es cuando diferentes compañías con diferentes juegos, tienen los usuarios muy concentrados. Entonces, si quieren captar más jugadores, tienen que decidir qué inversión les generará el mejor ROI.

Así, si una compañía está especializada en juegos de estrategia, deben analizar si salir al extranjero es un buen lugar para adquirir nuevos usuarios. Analizamos los jugadores de esos países y vemos si están muy vinculados con un juego específico”.

Ben Bregman, Analista de Producto en Facebook

“Mi día tipo varía dependiendo en qué parte del ciclo de producto estamos. Si estamos poniendo en producción una nueva funcionalidad, estaré monitorizando y buceando en las métricas para entender cómo va el rendimiento. Si estamos desarrollando funcionalidades nuevas, trabajo con los ingenieros para asegurar una buena comunicación con los servicios de backend involucrados. Si estamos dilucidando sobre el futuro, estaré recogiendo datos y haciendo análisis que nos ayuden en la conversación. Es impresionante estar involucrado en el ciclo de un producto desde el principio hasta el fin y ver cómo los usuarios disfrutan y se benefician de las nuevas funcionalidades”.

Adam Runner, contador de historias, chapista.

“`Ciencia de datos’ es uno de esos campos que no tiene todavía una buena definición. Hay muchas personas y muchos campos diferentes, que trabajan explotando datos. Habría que considerar qué tipos de análisis se consideran realmente como `ciencia de datos´”.

causalidadLa definición operativa debe inclinarse hacia una extensión del análisis, como su nombre indica, a un tratamiento más científico de los datos. Esto quiere decir que se ocupa principalmente de contestar preguntas basadas en causalidad en lugar de en correlación.

Al igual que con cualquier ciencia, hay muchos usos diferentes que dictarán en cada caso, cómo es un día típico. En mi opinión, estos son los tipos de cosas que los científicos de datos hacen:

  • Diseñar experimentos
  • Modelos estadísticos y matemáticos (SPSS, R, Matlab, modelos de predicción, inferencia bayesiana)
  • Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig, API)
  • Investigación de los datos (conectando puntos, haciendo preguntas útiles)
  • Cuenta cuentos (Interpretando, extrapolando, explicando, visualizando resultados)

Todo esto, por supuesto, retroalimentando continuamente los resultados obtenidos.

William Emmanuel Yu: «En el negocio de averiguar… cómo almacenar, qué hacer, cómo hacer que tenga sentido… sobre los datos de otras personas y cazador de mitos.

Un día típico en mi día a día sería así:

  1. ¿Está funcionando bien el sistema? Verificar.
  2. ¿Los procesos se están ejecutando bien? Verificar.
  3. Mirar la lista de nuevos requerimientos y escribir nuevos procesos. Añadirlos al planificador.
  4. Mirar los procesos completados y enviar los resultados al que los solicitó.
  5. Repetir 3 y 4, hasta que la lista de requerimientos está vacía”.

Ciudades… inteligentes?

images-4Las ciudades inteligentes son una de las aplicaciones más comunes en Big Data. Según la Wikipedia, ciudades inteligentes es un término actual, que se está utilizando como un concepto de marketing en el ámbito empresarial, en relación a políticas de desarrollo, y en lo concerniente a diversas especialidades y temáticas. Vamos a ver algunos proyectos de las principales ciudades inteligentes españolas, y qué cambios reales conllevan: BARCELONA Algunos de los avances importantes en el terreno de movilidad y eficiencia energética es la nueva red de bus, con un sistema octogonal para mejorar la movilidad, unido a elementos tecnológicos que facilitan la información, como barnalos paneles en el interior de los vehículos o las llamadas smartquesinas. En ellas, el pasajero puede navegar a través de una pantalla táctil por diversas aplicaciones que lo ayudan a planificar su ruta o a escoger la próxima actividad que reali zará en la ciudad. También hay puertos USB que permiten cargar los dispositivos móviles. El servicio se completa con unos sensores en el asfalto, que están conectados a través de una red wifi, para consultar en tiempo real la disponibilidad de las plazas de aparcamiento. La eficiencia energética es otro de los aspectos claves de esta smart city. La avenida de Josep Tarradellas se ha convertido en la primera calle smart, porque al alumbrado, incorpora sensores de presencia que intensifican la potencia de la luz cuando reconocen peatones. Los tres principales objetivos del plan director de iluminación son priorizar el peatón por encima de los viales de circulación; incorporar criterios de máxima eficiencia y optimización energética e inteligencia funcional y, personalizar calles, edificios y monumentos. También disponen de una aplicación gratuita para móvil que permite pagar el estacionamiento por el tiempo exacto que se ocupa la plaza. Una plataforma accesible a los servicios de información de proximidad mediante tecnología inalámbrica (NFC y QR) geolocalizados y otra que permite a los usuarios obtener una identidad digital asociada al número de teléfono. También disponen de una aplicación para dinamizar la industria del móvil y asegurar la adopción de los servicios móviles. SANTANDER sanSantander ha colocado 12.000 sensores fijos y móviles durante estos últimos años en emplazamientos estratégicos del callejero: farolas, papeleras, edificios y vehículos municipales convertidos en laboratorios de información. Con ellos, pretenden averiguar, en tiempo real, la ubicación exacta de la flota de autobuses, las condiciones de humedad, la situación del tráfico, los índices de polución o el nivel de ruidos del municipio… Es decir: pueden tomar decisiones de una forma más inteligente y gestionar los recursos de una manera más eficiente en términos de costes y de impacto medioambiental. Los sistemas de Smart Santander informan a los usuarios de los tiempos de espera de su línea de transporte, el grado de ocupación de los aparcamientos públicos, avisar a los empleados locales del momento más óptimo para regar los jardines según las lluvias, o reducir la iluminación de ciertas vías cuando no se detecte la presencia de coches o de personas o cuando la luz del sol sea suficiente. Asimismo, permite consultar el callejero orientando la cámara de su móvil hacia el edificio histórico, dependencias administrativas o cualquier elemento que desee. También pagar con su teléfono móvil el ticket del estacionamiento regulado. El sistema integra también los datos recogidos de los móviles de los usuarios, que, convertidos en sensores, vierten al sistema desde múltiples puntos de la localidad variables de temperatura, ruido o posicionamiento geográfico. La plataforma, igualmente, permite a cualquier persona suscribirse a servicios de alerta y de notificación personalizados (teléfono, SMS, Web o email), directamente vinculados con situaciones o sucesos específicos que ocurran en la ciudad… eventos desencadenados, de hecho, por los nuevos procesos resultantes del tratamiento de millones de datos “urbanos”. MÁLAGAmalaga La estrategia de Málaga Smart City abarca múltiples aspectos de la ciudad, no obstante, podríamos destacar la búsqueda de la sostenibilidad y eficiencia energética, así como la presentación de Málaga como un Urban Lab en el que la aceleración de nuevas empresas y la atracción de I+D+i cobra gran importancia. En línea con el objetivo de sostenibilidad y eficiencia energética, la ciudad aprovecha la energía que obtiene de basuras y aguas residuales a través de sendas plantas de cogeneración, obteniendo biogás. Dicha energía se utiliza para autoabastecer a la propia planta y la restante es vendida a la red. El ayuntamiento ha desplegado una red de contadores domésticos digitales para monitorizar la gestión del agua y detectar rápidamente las posibles fugas o fraudes que puedan estar sucediendo. Además, los datos obtenidos posibilitan a los usuarios realizar un uso del agua más consciente y reducir su factura mensual. Málaga cuenta con dos sondas de medición radioléctrica para monitorizar los niveles de radiación electromagnética en el ambiente y existe un protocolo de actuación en caso de superar los niveles que garantizan la seguridad. Pero.. ¿son estos ejemplos realmente ciudades inteligentes? Desde Efficient Urban opinan que en la medida en que las tecnologías e infraestructuras, se incorporen a partir del análisis previo del urbanista, se llegará a ofrecer una propuesta de cuidad eficiente,  en cuanto a la integración de servicios bajo plataformas comunes, ahorro de costes, con ordenación de la implementación de infraestructuras y una oferta adecuada a las características e la cuidad y los recursos que dispone, previamente evaluados. El éxito se alcanzará cuando los criterios para establecer las prioridades de actuación, sean globales y adquieran un carácter transversal, además de que se apliquen por igual en todas las dimensiones de la ciudad (población, gobierno, economía, etc.)eff

La profesión del futuro, Data Scientist

Según McKinsey en Estados Unidos se contratarán 1.8 millones de científicos de datos en 2015/2016 y, Gartner pronostica en Europa Occidental se generarán 1.2 millones de empleos. Datos que corroboran la gran demanda que sigue existiendo y el brillante futuro que espera a los científicos de datos.

Encontramos una definición de Data Scientist como el encargado en extraer el conocimiento de los datos. Para ello debe tener tanto aptitudes técnicas, que destallaremos más adelante, como otras actitudes: pensamiento analítico, pensamiento crítico y dominar la resolución de problemas. Además deben ser personas curiosas, buscadores de patrones, de mentalidad abierta y dispuestos a dejarse sorprender

Algunas aptitudes técnicas imprescindibles, con las principales tareas asociadas son:

Matemáticas: la profesion 1conocimientos de algoritmos y álgebra lineal. Pensamiento matemático: habilidad para comprender conceptos de otra naturaleza y para relacionarlos basándose en esquemas y técnicas ordenadas.

Estadística: modelos estadísticos, análisis predictivo, árboles de decisión, redes neuronales, clasificadores, asociaciones, series temporales.

Ingeniería de datos: explorar fuentes, capturar, procesar, almacenar y analizar datos. Construir y mantener la infraestructura que soporte los datos. Asegurar calidad de la información. Computación avanzada, lenguaje de aprendizaje máquina (Machine Learning). Cumplimiento legal y normativo de confidencialidad de los datos.la profesion 2

Visualización: infografías, herramientas y técnicas para mostrar resultados de una manera adecuada y útil, generación de mapas con geolocalización, mapas de calor, gráficos de asociación, reporting.

Pero llegar a ser un científico de datos requiere ciertas características y habilidades, que difícilmente serán cubiertas por una sola persona. El objetivo será formar un equipo de expertos que trabaje de forma colaborativa, enriqueciendo así los proyectos y aportando cada uno conocimiento y expertise.

El nivel de estudios en estos profesionales suele ser bastante alto: el 46% de ellos tiene un doctorado y el 42% un máster. Para los que eligen la formación reglada, hay másteres realmente buenos en Universidades de Estados Unidos y Reino Unido, y en España están comenzando a aparecer sobre todo en el sector privado, y más tímidamente en el público al que le está costando despegar.

¿BIG DATA PARA MÌ?

La era del Big Data está aquí y con ella un sinfín de posibilidades: convertir datos en conocimiento relevante para nuestro negocio, mejorar el conocimiento de nuestros clientes; conocer su comportamiento, necesidades, intereses e incluso pensamientos y sentimientos; nuevos modelos de negocio innovadores, buscadores que quieren ser operadores de telecomunicaciones, bancos que aspiran a ser empresas de tecnología…

Pero, ¿trabajar en bd 1cómo va a revertir esta explosión en empleos concretos? ¿Qué hacer para aprovechar la oportunidad que se nos brinda? ¿Qué profesionales son necesarios y qué capacidades necesitan?

El abanico de empleabilidad es tan grande como las oportunidades de negocio que nos brinda el Big Data.

Es importante tener en cuenta dos aspectos: el perfil individual (conocer cuáles son mis capacidades, mi experiencia) y mis intereses (más allá de mejorar profesionalmente o encontrar trabajo, dado que la falta de interés generará frustración y nos conducirá posiblemente al fracaso).

Además de esos aspectos es necesario poseer una serie de inquietudes para dedicarse al Big Data:

  • Definir problemas y hacer preguntas.
  • Conocimiento profundo de las fuentes de datos.
  • Buscar métodos y herramientas para su exploración y análisis.
  • Estar al día de las tecnologías emergentes, tipos de datos y métodos.

Dentro de las posibilidades que ofrece el Big Data, en cuanto a empleabilidad, nos encontramos con una serie de perfiles con capacidades y habilidades muy específicas.

Perfiles menos técnicos:

Data Steward, el guardián de los datos: se encarga de gestionar los datos de acuerdo las políticas de la organización, normativas y estándares éticos. También lleva a cabo la tarea de proteger los datos y los resultados obtenidos.

Data Miner: realizar, entrenar y evaluar los resultados de los análisis para asegurar el nivel de confianza; estimar la precisión de los modelos y la exactitud de las respuestas.

Analista de datos: contar una buena “historia de datos» para transmitir ideas, identificar las limitaciones, y proporcionar recomendaciones basadas en los resultados de los análisis. Saber qué se puede hacer con los datos.

Perfiles más técnicos:trabajar en bd 2

Data Scientist, el científico de datos: el encargado en extraer el conocimiento de los datos. Imprescindible sólidos conocimientos estadísticos, de programación y poseer destrezas para resolver problemas, hacer preguntas y explicar los resultados obtenidos. 

Desarrollador Hadoop: encargado de obtener los datos desde su origen y procesarlos y almacenarlos para ponerlos a disposición de los analistas de negocio y científicos de datos.