Data Driven y Big Data, una nueva forma de entender el Marketing

Como muchos sabéis, el número de terminales conectados en el mundo está creciendo de forma exponencial. Ya somos más de 3.000 Millones de personas conectadas a internet con más de 5.000 millones de terminales conectados. Empezamos con los ordenadores, después las consolas y están siguiendo los móviles, las tabletas, los “wearables”, la televisión y pronto tendremos los coches, las neveras, las lavadoras y, por qué no, hasta la ropa conectada.

En España tenemos actualmente una media de 3 dispositivos conectados por persona, el 80% de los adultos españoles tienen un teléfono con conexión a internet, del 74% que tiene, al menos, dos terminales conectados, y un 19% ya tiene 5 o más dispositivos conectados a internet. Esto no ha hecho más que empezar, el número de terminales y personas conectadas va a seguir creciendo, pronto estaremos en medias de 5 y que nadie se sorprenda si llegaremos incluso a 8 o 9 dispositivos conectados por persona.

Big Data Marketing

Como resultado de esta tendencia, los procesos de compra de nuestros clientes cada día son menos lineales y tienden a complicarse. Cada vez se produce un mayor número de interacciones con las marcas y aparecen nuevas oportunidades para conocer mejor a nuestros clientes, entender el rol de cada canal y cada punto de contacto y utilizarlos con inteligencia para vender nuestros productos y servicios.

Lo que la web trae a este mundo hiperconectado es que prácticamente cada punto de contacto que un cliente tiene con una marca está dejando una huella en forma de dato. Cuando son impactados por un anuncio, visitan tu web o tu app, cada vez que compran, incluso cada vez que visitan tu tienda… la cantidad de datos y de información disponible sobre los consumidores que interactúan con tu marca y con tus productos está creciendo de forma exponencial. El “Internet de las cosas” tiene una implicación directa en la forma en que las compañías van a pasar a interactuar con sus clientes.

El valor de los datos y las ventajas de una gestión eficiente de los mismos: ¿De verdad es para tanto?

El mundo está inundado de datos. Cada vez que un consumidor utiliza una tarjeta de crédito se crea un historial de compras. Los programas de fidelización dan acceso a las empresas a los patrones y preferencias de compra del consumidor. Cada clic del ratón deja un rastro que se puede seguir. Sabemos más cosas que nunca sobre nuestros clientes, y ellos saben más cosas sobre nosotros. Todo este flujo de datos puede resultar alentador o, por el contrario, descorazonador. Contar con más información supone un mayor conocimiento, ideas más inteligentes y mejores decisiones en todos los aspectos. Pero, teniendo en cuenta la invasión diaria de datos, podemos vernos sometidos a una “parálisis del análisis”, con lo cual se retrasan las decisiones y los proyectos hasta que se cuenta con la mayor información posible para estar convencidos de tomar las decisiones adecuadas.

Existe un claro valor de la correcta gestión de los datos que se produce en tres frentes distintos: el primer beneficiado de un correcto análisis de todas las interacciones que los consumidores tienen con sus marcas debería ser el cliente, el segundo beneficio claro de todo este mundo es una gestión mucho más eficiente de la inversión publicitaria y de marketing y, por último, el beneficiario final debería ser el negocio en general.

Construir una visión única de nuestro cliente a partir de los datos nos permite generar un mayor conocimiento de los mismos, un entendimiento mucho más granular de quiénes son, qué les gusta, por qué me compran o dejan de comprarme, etc. Si como empresa hacemos las cosas bien y aprovechamos este mayor conocimiento del cliente, se debería traducir en una mejor experiencia en la relación con cliente-marca. La mejora de la experiencia se puede provocar de muchas maneras: porque soy capaz de diseñar una experiencia más personalizada a distintos segmentos de clientes, porque ahora puedo adaptar las campañas y los mensajes publicitarios y ofertas comerciales para que sean más relevantes para ellos, porque les ofrezco productos y servicios que se adaptan mejor a sus necesidades, etc.

Todo esto revierte en una mejor experiencia del cliente en general, en una mayor fidelización y esperamos un mayor valor del cliente en el tiempo (gasta más y se queda más tiempo conmigo).

customer

El segundo gran beneficio es la optimización de la inversión publicitaria. Como conozco mejor a mis consumidores y la tecnología digital me permite realizar campañas de comunicación personalizadas de forma automática, puedo hacer cosas como: diferenciar mensajes a usuarios que me conocen de los que no me conocen, adaptar la oferta en función de lo que han comprado con anterioridad o están interesados ahora, buscar segmentos similares para llegar a nuevas audiencias y clientes potenciales, etc. Esto hace que el rendimiento de las campañas mejore radicalmente. Lógicamente el gran beneficiado de todo esto es el negocio que consigue incrementar el número de clientes satisfechos y fieles y a un menor coste de captación y gestión. Pero además, me atrevo a decir que el análisis adecuado de los datos debería generar un montón de ideas nuevas de optimización, mejora e innovación en el negocio en general, sobre todo a partir del momento en el que eres capaz de conectar los datos online y offline de los clientes.

El reto del “Big Data”: ¿Qué implica exactamente lanzarse en un proyecto de este tipo?

El número de puntos de contacto de un consumidor con las marcas se incrementa de forma exponencial y el número de datos que se generan sobre los mismos sigue la misma tendencia. El problema principal es que toda la información generada por este consumidor conectado se recoge en distintas bases de datos que suelen ser estancas y funcionan en silos, la información no suele estar bien ordenada ni estructurada y resulta prácticamente imposible sacarle un valor diferencial. Da igual el sector en el que trabajemos, ahora mismo cualquier empresa tiene información muy valiosa sobre sus consumidores en:

  • El Adserver, recoge datos de impactos publicitarios a usuarios en el mundo online. Se almacenan impresiones y clics de todas las campañas publicitarias que un anunciante realiza y la información se recoge a nivel de cookie y por tanto navegador.
  • En la analítica web, dónde se registra toda la actividad que un usuario realiza en nuestras propiedades, ya sea la web clásica o la web móvil, la app, un blog de la compañía, etc. Ahora bien, al igual que en el Adserver, los datos se suelen recoger en base a cookies y por tanto navegadores y la visión que, en la mayoría de los casos, tiene nuestra analítica web es una visión de navegador y no de usuario.
  • En el mundo offline, suelen existir distintas bases de datos que recogen todo tipo de información sobre el cliente. Las BBDD de las tiendas recogen la información de ventas y disponemos de información de ventas por producto y tienda aunque raramente ligadas a clientes (sólo si existe una tarjeta de fidelización en el caso de ventas de servicios), las BBDD del call center recopilan los datos de atención al cliente, la de Post Venta, la de financiación, la de entrega a domicilio,… y un largo etcétera de BBDD que están recogiendo información sobre nuestros clientes de distinta índole pero casi siempre de forma no estructurada y con visiones distintas del cliente.

El Big Data supone la aceleración del proceso de toma de decisiones. La pérdida de clientes, por ejemplo, se puede abordar ahora en tiempo real. En vez de centrarse en los factores que contribuyen a dicha pérdida mucho tiempo después de que el cliente se haya perdido, el análisis de los datos en tiempo real puede desvelar y sugerir soluciones para fidelizar mejor a los clientes según van apareciendo.

Toma decisiones

En este contexto el primer reto es ser capaces de hacer una gestión eficiente de los datos. ¿Qué quiere decir esto?:

  1. Lo primero, es tener claro qué datos es necesario recoger y definir dónde van a vivir estos datos. Hay que empezar por definir la estrategia de recogida de información y de estructura de las distintas BBDD en función de lo que vayamos a querer hacer con estos datos a posteriori. Hay ciertos datos que van a jugar un papel fundamental, y sin ellos no podremos hacer nada. Es necesario definir una estrategia comercial y de relación con los clientes adecuada para que ellos quieran y se sientan cómodos facilitándonos esos datos. Por ejemplo, si hablamos del sector “distribución/ Retail”, de cara a construir una visión cliente completa es cada vez más crítico ser capaces de asociar la venta en tienda a un cliente. La pregunta clave es ¿Cómo hacemos esto? Si tenemos una tarjeta de fidelización es fácil pues al comprar el cliente se identifica, el problema surge cuando el retailer no tiene implementada una tarjeta de fidelización ¿Cómo consigues que se identifique en el punto de venta? ¿Qué buenos motivos puedo darle al cliente para que lo haga? Para conseguir esto es necesario revisar y redefinir la estrategia comercial y de CRM.
  2. Desde el diseño hay que tener muy claro cómo se van a conectar los distintos datos y las BBDD para ser capaces de tener una visión 360º del cliente, da igual desde qué canal o dispositivo interaccione con mi marca. Tener esta visión 360º requiere diseñar desde el principio estrategias de recogida de datos y CRM que nos permitan identificar al usuario en sus distintos dispositivos así como identificarle en todos los canales offline (actividad en el punto de venta, interacción con el call center, etc.).
  3. A partir de aquí empieza el trabajo de selección de datos: Cómo pasamos del “big data” al “smart o good data”, cuáles son las preguntas correctas que hacerse y cómo extraemos “insights” relevantes para nuestro negocio, cuestiones que de verdad nos van a llevar a hacer las cosas de forma distinta.
  4. Finalmente, es necesario actuar sobre estos insights y poner nuevas medidas en marcha ya que sólo así seremos capaces de sacarle valor diferencial a los datos.

La capacidad de diferenciar los resultados significativos del “ruido” no es realmente posible sin las nuevas técnicas de gestión del Big Data. Pese al valor de estas propuestas, todos sabemos que los cambios son complicados. Pueden pasar años hasta que se dejen a un lado las prácticas del pasado. Pero los profesionales que logren modificar la actitud y la estructura necesarias para obtener todos los beneficios del Big Data cosecharán grandes recompensas. Pasar de una posición táctica y de documentación de los hechos a un enfoque estratégico y predictivo generará un incremento evaluable del ROI de márketing, y supondrá un importante empujón para el negocio

Esto es mucho más fácil decirlo que hacerlo, ya que para conseguir esto la empresa se va a enfrentar a tres retos muy importantes. El primero organizativo, porque la información es poder y nadie quiere ceder los datos. ¿Dónde deben residir los datos que se recogen? ¿Quién es el propietario? ¿Creo un departamento de Business Intelligence? ¿Dónde se ubica en la organización? El segundo está relacionado con la tecnología, ya que en este contexto la tecnología va a desempeñar un papel fundamental.

En función de las decisiones tecnológicas que tomemos nuestra vida puede ser más fácil o complicarse mucho, por lo tanto entender bien la tecnología y tomar las decisiones adecuadas va a ser crítico, ahora bien ¿Qué legacy de sistemas tenemos? ¿Podemos aprovechar lo que ya tenemos o hay que construir la tecnología de cero? ¿Qué inversiones requiere? ¿Tenemos el conocimiento técnico suficiente?.

Finalmente, el último reto al que nos enfrentamos está relacionado con las capacidades. El rol del departamento de Marketing en este nuevo contexto cambia radicalmente y se vuelve mucho más analítico y más técnico, y lo normal es que no dispongamos de estos nuevos perfiles dentro de la casa. El departamento de Marketing se tiene que equipar con analistas de negocio, con data scientists y estadísticos y finalmente con gente técnica, que entienda la tecnología y sepa hacer implementaciones técnicas para una correcta medición. La mayor dificultad es que, lamentablemente, estos perfiles son muy escasos y prevemos una creciente demanda de los mismos en el corto plazo, lo que va a producir todavía mayor escasez y probablemente sobrevaloración de los mismos.

Esto es lo que requiere sacarle partido al big data y convertirlo en una ventaja competitiva real, difícil, muy difícil de replicar por la competencia. Por mi experiencia, sólo hay una forma de abordar este tipo de proyectos, desde la Dirección General. Como hemos visto se trata de un proyecto totalmente transformacional que afecta a múltiples capas de la organización y la única forma de impulsarlo es cuando viene sponsorizado y liderado desde arriba. O forma parte de la agenda y prioridades de la Alta Dirección o es muy difícil llevarlos a cabo.

Emérito Martínez, Director del Máster en Innovación y Transformación Digital de MSMK – Madrid School of Marketing

CMO de QDQ Media

Election Tech: How to make yourself a DIY data scientist

TechRepublic has used big data and social media as a lens to understand the 2016 US presidential race. You can use our simple method to gain deep insights from social media for your business.

«Campaigns are all small businesses,» said author Jonathan Tasini, surrogate for the Bernie Sanders campaign in New Hampshire.» Social media data helps us better understand the issues voters care about, and how to best use limited campaign resources.»

This campaign cycle TechRepublic is covering the relationship between social media, big data and political campaigns. There are a number of parallels between campaigns and startups—and small business can learn a lot by watching how campaigns gather and analyze social media data to help fine-tune messaging, react to the competition, and better understand issues.

Each day TechRepublic tracks several data points related to increasing and decreasing interest in candidate Twitter accounts through the campaign cycle. Our goal is to determine if, in fact, there is a relationship between Twitter activity and real-world results.

Twitter is our initial data source because the network is widely-used by campaigns and the media. Over the course of the campaign, we hope to add a variety of data points and social networks to our analysis.

We grab publicly available data from presidential candidate Twitter accounts daily from the public API, around 11:00 pm Eastern Standard Time and log the data in an Excel spreadsheet. We rely on public data like new followers, account follow-back ratio, relative growth, and the text copy of Tweet content because this information is not proprietary, and is available to everyone.

TechRepublic Election Tech Chart

TechRepublic Election Tech Chart | Image: William Stodden/Excel

We use Excel to log our daily snapshots. We have a master log of Twitter data, as well as individual sheets for debates, elections, conferences and speeches as needed. This allows us to monitor historic trends, and zoom in on specific events.

Our method is simple and direct. In our daily tracking sheet, in each row we list the candidate name, followed by our priority data points. Through the primaries, we track number of Tweets, Followers, the Following to Follower ratio, and number of times each account has been added to a list. We add a new column each day. The only difference in our event tracking sheet is that we log by hour, rather than by day.

By logging information in this way, each day we are able to calculate nominal growth—pure numbers of additional followers—and relative growth, account percentage increase.

This information, logged over time, allows us to use Excel’s built-in graphing tool to generate charts that present the data visually.

We do not yet have a theoretical understanding of how real-word events correlate with social media data, but charts generated from historic data produce data-driven insights, can assist in generating theory and speculating more effectively.

Our simple process can be also be reproduced using Google Sheets and Apple Numbers. Additionally, a number of powerful, professional-grade tools like StataTableau (Tech Pro Research review), Apache SparkInformatica and the R project are available for professional and enterprise users. These tools perform powerful visualization tasks, and can work with more diverse data sets.

Third party sites can be useful for acquiring large and specific data sets. A mountain of social media meta-data is available from sites like Keyhole.coDatasift, and Gnip. Third party sites like TweetStats.comTwitterCounter.com, and Foller.me can be useful for aggregating social media account data for free or low cost. As with all third-party sites we strongly advise you examine the privacy policy on each site before diving in.

Our method, however, can be applied easily by gathering information manually from Twitter, Facebook, Instagram, and other social sites directly. If you’re consistent about your data capture routine, this is the most simple method of building an information library and producing insightful charts.

If you are running a business, for example, you could apply the same kind of analysis we’re doing with presidential candidates to your competitors. You could track their progress on social media and compare it to yours. You could also track hashtags, product names, product keywords, and industry jargon to detect changes in customer demand over time.

TechRepublic’s Election Tech 2016 coverage

Over the course of the campaign we will continue to perform simple data analysis. In the future we hope to correlate sentiment with follower actions like retweets and likes. We hope to uncover additional and unique insights. If you’re a data scientist, social media professional, or inquisitive TechRepublic reader we’d love your ideas on how to inspect campaign social media data.

By Dan Patterson, Senior Writer for TechRepublic

Article seen in http://www.techrepublic.com/

Big Data as a service is the next Big Thing

BDaaS: Big Data como Servicio

Introducción

Las organizaciones están encontrando muchas dificultades para aplicar eficazmente la tecnología Big Data debido a problemas como la falta de conocimientos técnicos disponibles, entre otros.

Algunas de las últimas innovaciones en la industria de TI han estado relacionadas con el Cloud Computing o computación en la nube y el Big Data. La combinación de Big Data y Cloud Computing ha dado lugar a la aparición de una nueva categoría de tecnología denominada Big Data como Servicio o de forma simplificada “DBaaS”.

Cloud Computing consiste en el uso de recursos virtualizados externos que son dinámicamente escalables y que se utilizan para proveer los denominados servicios en internet o, más comúnmente conocidos, como servicios en la Nube.

Big Data  se utiliza para describir datos que son muchos y demasiado grandes, que hacen que sea difícil su análisis de forma tradicional (Davenport 2012). Gartner se refiere a ellos como un conjunto de datos de “alta Variedad, con Volumen y Velocidad” (Heudecker 2013). Cada vez más se añaden a esta descripción el Valor y Veracidad.

Ventajas de BDaaS

Las organizaciones que implementan soluciones de Big Data se enfrentan a costos significativos en términos de la creación de la infraestructura y la obtención de mano de obra especializada.

En un informe, Gartner indica que el mayor reto en la implantación de una solución de Big Data es determinar su valor para el negocio. De acuerdo con el estudio, alrededor del 56% de lideres tecnológicos consultados trataban de determinar el valor derivado del uso de Big Data. En el mismo estudio, el 29% indicaron que poner en marcha y gestionar la infraestructura necesaria era su principal reto y preocupación.

Y algo clave y enormemente importante: existe una “gran brecha de capacidad analítica entre organizaciones más pequeñas y las más grandes, donde los últimos claramente disponen de más recursos para analizar sus datos llevando a una mejor toma de decisiones y en consecuencia disponen de una mayor ventaja competitiva”. Por tanto, las compañías de menor tamaño se encuentran en grave desventaja lo cual es perjudicial para su crecimiento.

El uso de la tecnología BDaaS ayudará a las pequeñas compañías a mitigar este gap y, en último lugar, posibilitarán a estas organizaciones desarrollar capacidades de Big Data similares a las de las grandes.

BDaaS se define como un Framework Cloud-Based, de computación distribuida escalable de forma horizontal, y que está diseñado para manejar grandes conjuntos de datos o Big Data.

El stack o pila de servicios BDaaS está compuesto por niveles de grupos de tecnología de acuerdo a las funciones que desempeñan (figura 2.1). Por ejemplo, la capa de Data Analytics incluye tecnologías como Tibco Spotfire, la cual provee una plataforma en la nube de capacidad analítica. La capa de Almacenamiento o Storage puede estar basada en Amazon S3 para HDFS, el cual provee los servicios de almacenamiento. Las capas más bajas del stack BDaaS están más próximas al conocido IaaS (Infraestructura como Servicio) de cloud computing. Los niveles más altos tienen una capa de presentación que posibilita a los usuarios el acceso a los servicios.

 BDaaS

Figura 2.1

  • La capa Data Analytics incluye aplicaciones analíticas de alto nivel, como R o Tableau, sobre una solución Cloud computing que se utiliza para analizar los datos. Lo interesante de este modelo es que el tipo de herramienta a usar se puede especializar para cada tipo de industria. Por ejemplo, para entorno financiero, retail o seguros. La capacidad de especializar la capa de Data Analytics dentro del stack BDaaS hace que sea utilizable y adaptable a muchas organizaciones.
  • La capa de Data Management incluye tecnologías de manejo de datos, como pueden ser las propias del ecosistema Hadoop Pig, HbasE, Sqoop etc.
  • La capa de computación provee los servicios de computo, pudiendo estar basados en Amazon MapReduce, o bien las más novedosas como Spark.
  • La capa de almacenamiento dispone de la infraestructura necesaria para la implementación de HDFS, pudiendo estar basada en S3 de Amazon u otro modelo de almacenamiento distribuido y redundante.
  • Finalmente, en la capas de Cloud e infraestructura se pueden optar por soluciones IaaS más comunes, como VMWare, OpenStack y ubicados en Datacenters distribuidos.

En términos generales las tecnologías de la pila BDaaS deben de cumplir con los siguientes requisitos:

  1. Las tecnologías deben de estar claramente definidas en cada stack.
  2. Deben de ser interconectables hacia arriba y hacia abajo.
  3. Deben de proveer un conjunto mínimo de funcionalidades en su stack.
  4. Y, por último, deben de ser escalables en el Cloud.

En cuanto al impacto sobre las tecnologías Big Data y las Bases de Datos tradicionales el siguiente cuadro muestra las ventajas de BDaaS.

Big Data as a Service

Big Data Tradicional

Base de Datos Tradicional

Escalabilidad bajo demanda gracias a Cloud Computing y arquitecturas distribuidas

Escalabilidad bajo demanda gracias a arquitecturas distribuidas Carencia de escalabilidad
Virtualización del almacenamiento y del  dato en plataformas distribuidas Almacenamiento sobre HDFS o plataformas distribuidas Almacenamiento tradicional sobre SAN,NAS y Disco
Datos estructurados y no estructurados en entornos Cloud Datos estructurados y no estructurados Datos estructurados
Funciones de Analítica Avanzada bajo con capacidad de computo bajo demanda Funciones de Analítica Avanzada Reporting basado en OLAP
Máxima accesibilidad Acceso Limitado Acceso Limitado
Capacidades de Analítica mediante algoritmos pre configurados y adaptación de código. Capacidades de Analítica mediante adaptación de código Capacidades de Analítica mediante adaptación de código

Ejemplos de compañías BDaaS

  • Cazena

https://www.cazena.com

  • Qubole

https://www.qubole.com

  • Doopex

https://doopex.com

Conclusiones

Debido a la alta demanda de Data Scientists y Analistas, unido a los altos costes de implementación de soluciones Big Data On Premise, BDaaS se convierte en una gran solución en cuanto que muchas organizaciones podrán empezar a utilizar Big Data alcanzando ventajas competitivas independientemente de su tamaño.

BDaaS es una revolución necesaria, al igual que sucedió con Cloud Computing.

EDUARDO MOREJON SABIO

Business Development Manager – Techedge Spain

Executive Master en Big Data en MSMK – Madrid School of Marketing

El físico y el Business Intelligence

El físico, como profesional en cualquier área, posee unas capacidades excelentes para el análisis, la exploración y la interpretación de todo tipo de datos. Esto, entre otras cosas, es debido a las habilidades desarrolladas durante sus años de estudio. En el Business Intelligence (Inteligencia de Negocio o, más sencillamente, BI), es necesario aportar ese plus de reflexión y análisis para obtener toda la información útil posible a partir de los datos (que muchas veces carecen de la estructura y completitud deseadas). Este es el motivo por el que el físico puede encontrar en el Business Intelligence un área donde desarrollarse profesionalmente de forma exitosa.

FISICO BI

Después de finalizar los estudios, mis antiguos compañeros y yo nos hacíamos la gran pregunta… “¿y ahora qué?”. O como en mi caso, que estuve probando con una tesina y con alguna beca de investigación, me planteaba el… “¿y luego qué?”.

Por aquel entonces, recuerdo (y ha llovido ya mucho) que la situación de desempleo era similar a la que actualmente atraviesa nuestra sociedad. Entiendo que igual que antes el recién licenciado y el no tan reciente que no se identifique totalmente con su ocupación actual, se harán preguntas similares.

Quería comentaros un poco acerca de mi experiencia con el BI por si os puede servir de referencia útil. Una de las ocupaciones con mayor reclamo para un perfil como el de físico es el de la informática. La diversidad de ámbitos y negocios en los que aplicarse es enorme. Uno de esos ámbitos es el Business Intelligence que, a su vez, es de utilidad en cualquier tipo de empresa a partir de cierto tamaño.

El mundo ha venido experimentando una revolución  que continúa en la actualidad debido a la proliferación y crecimiento exponencial de los datos que las empresas u otras entidades (también las académicas) manejan. Ese crecimiento exponencial se explica porque la renovación tecnológica se retroalimenta. Por ejemplo, la automatización de procesos de negocio (como la mecanización de operaciones en una entidad financiera o la captura masiva de información a través de internet y de las redes sociales) que permite una mayor eficiencia en la operativa de las organizaciones, trae de la mano la generación y almacenamiento de gran cantidad de datos que a su vez pueden necesitar de más tecnología y recursos para gestionarlos.

Además, esos datos servirán para alimentar otros procesos de negocio que típicamente tienen que ver con la toma de decisiones a muchos niveles (desde la aceptación de un servicio de un proveedor a cierta tarifa hasta las decisiones más estratégicas a nivel corporativo). Así, bien sea para decidir los nuevos productos de seguros a sacar al mercado o para elegir el segmento de clientes de telefonía que será objeto de una campaña de marketing, el BI puede aportar una ventaja competitiva fundamental.

Pero, ¿qué es el BI?  El Business Intelligence se puede definir como el conjunto de sistemas, procesos y estrategias que tienen como objetivo la generación de información útil para un mayor conocimiento del negocio a partir de la exploración, análisis e interpretación de los datos de que disponga la organización. Se suele emplear directamente el término anglosajón (o su abreviatura BI), dado que tradicionalmente ha sido en las escuelas y empresas americanas donde más profundamente se ha venido desarrollando. En países como el nuestro, sin tantos años de experiencia y con un nivel de desarrollo tecnológico significativo, hay una notable amplitud de recorrido profesional. En ocasiones los datos pueden estar infrautilizados en las empresas cuando, sin embargo, se dispone de cierta infraestructura tecnológica que permitiría explotarlos en mayor medida para ser más competitivo.

Hoy día somos testigos de la guerra de precios y la lucha por nichos de mercado que tienen lugar en algunos sectores. Muchas veces esta fuerte competencia entre las empresas está potenciada por la mayor información que los clientes tienen sobre los productos existentes con tan solo unos ‘clicks’ de ratón. Incluso han surgido empresas especializadas en la búsqueda y comparativa de servicios y precios para ponerlos a disposición de los potenciales clientes. Un marketing inteligente con una correcta gestión de los riesgos y márgenes del negocio es cada día más crítico.

¿Y qué pinta un físico en todo esto? En mi plan de estudios no recuerdo que hubiera ninguna asignatura sobre las “leyes del BI” o algo similar y entiendo que en los planes de actuales tampoco. En realidad, no es el conocimiento en sí mismo que tiene el físico lo que le hace valioso en este área sino las capacidades y habilidades que ha ido desarrollando en sus años de estudio. Son fundamentales por ejemplo la observación y la capacidad de análisis.

Todos sabemos que la observación forma parte inicial del método científico. Es un tópico la imagen del “físico despistado” pero esta imagen suele ser reflejo de todo lo contrario: su poder de observación y concentración en la resolución de un problema requiere muchas veces de un cierto aislamiento de la realidad circundante. La observación también es en el BI una premisa necesaria en todo momento. Antes de lanzarse al análisis de los datos de cualquier manera es necesario hacer una toma de requerimientos y valorar cuáles serán las herramientas y los métodos más apropiados. En una fase previa habrá que identificar tanto las fuentes potenciales de información como los aspectos del negocio que se podrían ver beneficiados finalmente (fidelización del cliente a través de un mejor nivel de servicio y plazo de atención, mayor rentabilidad por la reducción de costes de distribución, etc). Desde la exploración inicial y visual de los datos (que en ocasiones carecerán de una estructura identificable fácilmente), hasta la obtención y visualización de los resultados finales, se requerirá una observación minuciosa y rigurosa de todos los aspectos involucrados.

En cuanto al análisis, este es un punto en el que el físico suele destacar sobre profesionales con otro tipo de formación. Para nosotros, descomponer el objeto en estudio en las partes que lo forman y tratar de averiguar la relación existente entre ellas, es algo muchas veces que hacemos de forma natural e inconsciente. Por ejemplo, para explicar la disminución de ventas de un cierto producto habrá que identificar y analizar todos los componentes del problema (cambios en el perfil de los clientes, evolución de los canales de venta, ubicación del producto en los establecimientos, comparativa de precios y calidad con la competencia, …). Como caso curioso, podemos mencionar que en ciertos grandes almacenes se llegó a la conclusión de que se vendían más cervezas si se ponían promociones junto a los pañales. No es que cada vez la juventud empiece antes a beber sino que los padres no pueden salir a tomarse algo fuera como antes por una temporada.

Cuando el volumen y la calidad de los datos lo permite, se pueden construir modelos matemáticos para predecir ciertas variables de negocio (como la morosidad, el ratio de abandono de clientes, la tarifa más óptima para un producto financiero, las respuestas positivas a potenciales campañas publicitarias, etc). La base de matemáticas y estadística atesorada por los físicos también es muy valiosa cuando hay que ocuparse de este tipo de tareas.

Ya sea en las Ciencias de la Salud, en el Marketing empresarial y la investigación de mercados, en la gestión de riesgos financieros, en la detección del fraude o en cualquier otro ámbito de negocio, el disponer de herramientas de BI no es suficiente. Es necesaria una mente analítica y con una base de conocimientos cuantitativos que pueda sacarle el mayor partido a dichas herramientas y obtener así una verdadera ventaja competitiva para la empresa. El conocimiento del negocio a partir de la información extraída de primera mano de los datos puede llevar al físico dedicado al BI durante años en un mismo sector a alcanzar un valor añadido extra dentro de la organización. Ya no solo sería por sus capacidades sino por el conocimiento adquirido haciendo uso de las mismas.

Desde mi propia experiencia, me gustaría animar al lector a que explore este mundo ya que es de tan amplio espectro de aplicación que seguramente encontrará algún área donde le interese desarrollarse.

José Vicente Alonso Salgado

José Vicente Alonso Salgado

Licenciado en Ciencias Físicas

Experto en Soluciones de Riesgos Financieros en SAS Institute España.

Big Data vs “Fat” Data: cuando el tamaño sí importa

A día de hoy, el término Big Data es ampliamente conocido y, quien no tenga en mente en su organización alguna línea de trabajo en este sentido, se puede llegar a sentir excluido del “selecto” grupo de Innovación. Pero, ¿es algo nuevo?, ¿dónde está la gran diferencia?, ¿por qué es necesario “bautizar” un término más en el amplio y marketiniano diccionario de sistemas? Podríamos pensar en una nueva moda, pero en este caso la naturaleza del término tiene tales repercusiones en el negocio que merece la pena prestarle especial atención.

Trabajamos en entornos en los que se acuñan términos, modas, desde el punto de vista de soluciones de negocio: CRM (Gestión de la Relación con el Cliente), CEM (Gestión de la Experiencia del Cliente), LTV (Valor del Cliente). Pero, ¿qué ocurre cuando las capacidades tecnológicas superan las expectativas del negocio?

Big Data

Actualmente las limitaciones tradicionales, en lo que a la gestión de los datos se refiere, ya no existen. Se han eliminado las barreras para la explotación de la información, por lo que tecnológicamente ahora sí se puede explotar los datos. ¿Cuántas veces nos hemos planteado intentar estructurar información no estructurable? Comentarios de clientes, empleados, proveedores… Por fin, eso es posible.

¿Es el Big Data una nueva tendencia?, ¿es una nueva necesidad?, ¿es un nuevo software?. Desde mi punto de vista, es sí a todas la anteriores y mucho más.

Cualquier material que se precie, nos posicionará esta nueva tendencia empleando las grandes “V’s” del Big Data. Empecemos por las tres primeras:

  • Velocidad: de generación de datos, así como de análisis y decisiones derivadas sobre los mismos. Parte o la inmensa mayoría de la información la recibimos en tiempo real y sin poder adelantarnos al ritmo de recepción de la misma. El Big Data nos enfrenta a límites de tiempo, porque las conclusiones de esa información son más útiles cuanta mayor actualización logremos
  • Volumen: el universo digital se está duplicando cada dos años y se multiplicará por diez en los siguientes: pasará de más de 4,4 millones de millones de gigabytes hasta 44 millones de millones de gigabytes, impulsado en parte por el llamado Internet de las Cosas.El número de dispositivos u objetos que pueden ser conectados a Internet se está acercando a los 200 mil millones, de los que el 7% ya están conectados y se comunican a través de Internet. Los datos obtenidos a través de ellos representan el 2% de los datos mundiales.  Por lo tanto, el tamaño de los datos sí importa.
  • Variedad: distintos formatos, distintas fuentes y, en muchas ocasiones, serán cadenas de texto a investigar.

El Big Data nos enfrenta a información cuyo formato y estructura se desconoce hasta el momento de su tratamiento.

Pero, ¿es oro todo lo que reluce?. Las plataformas actuales nos dan las llaves de entrada al apasionante mundo del descubrimiento de la información, las capacidades para explorar aquellos ámbitos inescrutables hasta ahora, ver las luces en el camino de las sombras. El reto es ambicioso, pero también es muy fácil cruzar la delgada línea hacia un “Síndrome de Diógenes” sin vuelta atrás.

Cuando nuestro concepto del Big Data nos plantea exclusivamente la puesta en marcha de los componentes que nos permiten almacenar, es probable que terminemos en el “Fat-Data”, grandes volúmenes, actualizados rápidamente y de formatos y contenidos variados. ¿Es este el objetivo?

Pongamos entonces las siguientes “V’s”

  • Valor: la cantidad de “datos útiles” en el universo digital, también se verá afectada por Internet de las Cosas. Sólo el 22% de la información en el universo digital se considera información útil, pero la realidad es que se analiza menos del 5% de los datos, lo que deja una cantidad masiva de datos perdidos en tierra de nadie por el ciberespacio del universo digital. Para el año 2020, más del 35% de todos los datos podrían considerarse útiles, gracias al crecimiento de los datos motivado por el Internet de las Cosas. Pero, ¿sabremos cómo explotarlos? Estamos preparados para recibirlos, pero también se impone una preparación mucho más especializada para poder adquirir el máximo conocimiento al que vamos a tener acceso. No sólo es necesario contar con perfiles técnicos que sepan cómo gestionar los datos, también es necesario explorar nuevas alternativas de análisis avanzado de la información. Los “Data Scientist”, están de moda.
  • Veracidad: resueltas las dos anteriores, nos enfrentamos a un nuevo reto: El cambio en las reglas del juego. La Estadística aplicada hasta ahora al mundo empresarial, empleaba las técnicas más precisas para la predicción y el soporte a la toma de decisiones basada en muestras con “escasez” de datos. Buscar la aguja de la información en el pajar de la sobreabundancia de datos actual impone nuevas técnicas, creatividad y altas dosis de innovación. Si antes aparecía un error, debido a la pequeñez de la muestra en comparación con el tamaño real de la población total, ahora la ventaja es el número de datos pero la desventaja es la falta de fiabilidad. Con datos procedentes de tantos orígenes y formatos diferentes, es lógico pensar que la calidad de la información dejará mucho que desear abriéndose un campo inmenso de investigación para los Data Scientist en la búsqueda de métodos con el fin de garantizar la fiabilidad del Big Data.

 

Einstein

Con V’s o sin ellas, lo que está claro es que no todo vale; no todo es útil, no todo me aporta conocimiento. El gran reto ahora es buscar el valor haciendo uso masivo, veraz y rápido de los datos allá donde estén, aprovechando la riqueza de todas las fuentes que tenemos a nuestra disposición.

Las reglas han cambiado y el modelo de negocio también. No hay escusas, hay recursos y medios a nuestra disposición que están esperando a que los exprimamos y saquemos el máximo partido a los datos. La suerte está echada y, esta vez, los “datos” los lanzas tú. ¿Te apuntas?

ARANCHA PINTADO

Big Data y Business Analytics en Indra, y docente en Madrid School of Marketing – MSMK

PLN: Procesamiento del lenguaje natural

Por Scott Sims, CEO Buzzlogix

Procesamiento del lenguaje natural (NLP o PNL) ayuda a las máquinas a entender y descifrar el lenguaje humano. Uno de los principales usos del Big Data y del conocimiento de la experiencia y del sentimiento de clientes, viene dado por el análisis semántico de comentarios en redes sociales, blogs, encuestas, etc.

Definimos los conceptos clave del PNL y explicamos cómo encaja en el cuadro más grande de la Inteligencia Artificial.

El objetivo del procesamiento del lenguaje natural es la de ayudar a los ordenadores a entender el lenguaje según lo hablan las personas, para poder acabar con los lenguajes de programación como Java, Ruby, C i todos juntos. Con el procesamiento del lenguaje natural, los ordenadores serían capaces de entender directamente a las personas mediante lenguaje humano. Vamos a explicar todo todo lo que necesitas saber sobre el procesamiento del lenguaje natural.

¿Qué es el procesamiento del lenguaje natural?

nlp

Procesamiento del lenguaje natural, a menudo abreviado como PNL, se refiere a la capacidad de un equipo informático para entender el lenguaje humano tal como se habla. La PNL es un componente clave de la inteligencia artificial (IA) y se basa en el aprendizaje de máquina (Machine Learning), un tipo específico de IA que analiza y hace uso de patrones en los datos para mejorar la comprensión de un discurso.

¿Para qué se utiliza?

Hay un número de diferentes tareas de PNL incorporados en programas de software de hoy en día, incluyendo:

  • Separación de frases, etiquetado gramatical, y análisis: el procesamiento del lenguaje natural puede ser utilizado para analizar partes de una oración para comprender mejor la construcción gramatical de la frase, contar palabras, etc.npl3
  • Análisis profundo: consiste en la aplicación de técnicas avanzadas de procesamiento de los datos con el fin de extraer información específica de los conjuntos de grandes datos o de múltiples fuentes. Es particularmente útil cuando se trata de consultas precisas o muy complejas con datos no estructurados y semi-estructurados. Es utilizado a menudo en el sector financiero, la comunidad científica, el sector farmacéutico y las industrias biomédicas. Cada vez más, sin embargo, el análisis profundo también está siendo utilizado por las organizaciones y empresas interesadas en minería de datos, o en encontrar un valor de negocio a partir de conjuntos de datos de los consumidores.
  • Traducción automática: procesamiento del lenguaje natural es cada vez más utilizado en programas de traducción automática, en la que un idioma se traduce automáticamente en otro.
  • Extracción de entidades nominales (Named entity extraction): En la minería de datos, una definición de entidad con nombre es una frase o palabra que identifica claramente un elemento, de un conjunto de otros elementos que tienen atributos similares. Los ejemplos incluyen nombres y apellidos, edad, ubicación geográfica, direcciones, números de teléfono, direcciones de correo electrónico, nombres de empresas, etc. Named extracción de entidades, a veces también llamado reconocimiento de entidades, facilita la minería de textos.
  • Resolución Co-referenciada: En un trozo de texto, la resolución de la correferencia se puede utilizar para determinar qué palabras se utilizan para referirse a los mismos objetos.
  • Resumen automático: el procesamiento del lenguaje natural puede ser utilizado para producir un resumen legible desde una gran parte del texto. Por ejemplo, producir un breve resumen de un artículo académico denso.

nlp2

¿Cuáles son las ventajas de procesamiento del lenguaje natural?

Los beneficios del procesamiento del lenguaje natural son innumerables: puede ser aprovechado para mejorar la eficiencia de los procesos de documentación, mejorar la exactitud de la documentación, e identificar la información más pertinente de grandes bases de datos. Por ejemplo, un hospital podría utilizar el procesamiento del lenguaje natural para obtener datos de un diagnóstico específico a partir de las notas estructuradas de un médico y asignar un código de facturación.

 

 

Spark para Dummies

sparkSpark, al igual que Hadoop, es básicamente un marco de desarrollo que proporciona una serie de plataformas interconectadas, sistemas y estándares para llevar a cabo proyectos de Big Data.

Spark también es de código abierto y pertenece a la Apache Software Foundation. De código abierto quiere decir que el código puede ser utilizado libremente por cualquier persona; aun más: puede ser modificado por cualquier persona para crear otras versiones dirigidas a resolver nuevas problemáticas. Los desarrolladores y las empresas que las producen, están constantemente refinando y actualizando los programas, añadiendo nuevas funcionalidades o mayor eficiencia. Spark fue el proyecto de Apache más participativo el año pasado, y no sólo de Apache, sino de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores en más de 200 organizaciones.

contributors spark

Según los expertos, Spark es más avanzado y más reciente que Hadoop, y está diseñado para trabajar mediante el procesamiento de fragmentos de datos «en memoria«. Esto significa que transfiere los datos de los discos duros físicos a la memoria del sistema, donde el procesamiento es mucho más rápido (hasta 100 veces más rápido en algunas operaciones).

La plataforma Spark está muy de moda, y lo utilizan muchas grandes empresas para el almacenamiento y análisis de enormes cantidades de datos multi-petabytes, debido a su velocidad: el año pasado, Spark alcanzó un récord mundial al completar una prueba de clasificación de 100 terabytes de datos en 23 minutos, cuando el récord anterior era de 71 minutos con Hadoop. Además, es idóneo para aplicaciones de Machine Learning (Aprendizaje Automático), una de las prácticas de mayor crecimiento y más emocionante dentro de las ciencias de la computación (ver post anterior).

Apache Spark está diseñado desde sus inicios para ser fácil de instalar y usar – siempre que se tengan ciertos conocimientos de informática- y para ser utilizado en múltiples aplicaciones de negocio. Muchos proveedores ofrecen sus propias versiones (al igual que  Hadoop), orientados a industrias concretas, configuraciones customizadas para proyectos y usos concretos, y servicios de consultoría para su implantación y funcionamiento .

Spark utiliza la computación en clúster (grupos de máquinas unidas por una red de alta capacidad, que funcionan como una gran máquina) para obtener una mayor potencia de cálculo y almacenamiento, lo cual se traduce en que puede utilizar los recursos de muchos procesadores unidos entre sí. Es una solución escalable, es decir, que si se necesita más capacidad, sólo se tienen que añadir más procesadores en el sistema. Con el almacenamiento distribuido, los grandes ficheros de datos recogidos para el análisis se almacenan en muchos discos duros físicos individuales más pequeños, lo cual acelera las operaciones de lectura/escritura, porque la «cabeza» que lee la información de los discos tiene menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario y, además, utiliza hardware comercial (discos duros estándar) que mantiene bajos los costes de infraestructura.

cluster
A diferencia de Hadoop, Spark no viene con su propio sistema de archivos: en vez de eso, se puede integrar con muchos sistemas de archivos incluyendo el de Hadoop HDFS, MongoDB y el sistema S3 de Amazon. Otro elemento diferencial es Spark Streaming, que permite que las aplicaciones que se desarrollen realicen análisis en streaming, datos en tiempo real, redes sociales, ficheros de log, etc. En las industrias como el marketing, el análisis en tiempo real proporciona grandes ventajas; por ejemplo, personalizar los anuncios en base al comportamiento real del usuario, en lugar de en el comportamiento histórico, aumentando la posibilidad de obtener una compra.

Una breve introducción de Apache Spark, el futuro del Big Data, que espero que resulte útil.

Hadoop for dummies

hadoopHadoop es, hoy por hoy, el marco de desarrollo establecido para implantaciones de Big Data. Se compone de un conjunto de capacidades reales, escalables y automáticas para gestionar el flujo de datos, y convertir raw data (datos en bruto) en insight (valor).

Su creador fue Doug Cutting y lo donó a Apache Software Foundation (organización sin ánimo de lucro creada para dar soporte a los desarrollos de Software). Su nombre y el logo, se lo debe a la mascota de su hijo, un elefante de peluche llamado Hadoop.

Surge en 2004 a partir de un White Paper de Google que describía su sistema de ficheros. Doug no tuvo problema en implantarlo y mejorarlo.

Como ya hemos dicho en post anteriores, Hadoop cubre las necesidades básicas que tiene el Big Data: almacenamiento y procesado de datos. De ahí, que esté basado en dos conceptos:

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil.
  • MapReduce: es el modelo de programación sencillo para dar soporte a la computación paralela.hdfs

El sistema distribuido de ficheros trabaja sobre grupos de computadoras, organizadas en lo que se llama un cluster, puede incluir desde una máquina (nodo), hasta 30.000 según la web de Apache. Cada máquina puede tener varios discos.

Hadoop funciona en modo cliente-servidor. Existe un nodo máster que se encarga de la gestión del almacenamiento y procesado, es decir, de dónde está cada fichero de datos, de enviar las órdenes de procesado de los datos (Jobs) y de asegurar que todo queda procesado del modo más eficiente posible.

Los grandes ficheros de datos de entrada se trocean en tamaños menores (64GB ó 128GB) y cada trozo se replica al menos tres veces en nodos distintos. Así se comienza el procesamiento en paralelo, y si alguno de los nodos falla, el máster detecta el fallo y asigna el trabajo a otro nodo disponible.

MapReduce trabaja mediante algoritmos simples de “clavevalor” . La parte de Map, asigna la clave a la información que estamos buscando. El ejemplo estrella de los cursos de Hadoop es el algoritmo de contar palabras en un texto. La clave sería cada palabra, y el valor las veces que aparece. Primero contaríamos cada palabra, siendo el resultado (palabra, 1), después ordenaríamos las palabras y finalmente, en la fase Reduce, sumaríamos las palabras que aparecen repetidas. Veámoslo con un gráfico:

mapreduce

Con este método se ahorra tiempo de transferencia de ficheros, ya que el almacenamiento y el procesado se realiza en el mismo sitio.

Hadoop trabaja en modo batch, es decir, ejecutando unos procesos tras otros. Está optimizado para leer cada fichero entero, desde el principio hasta el final, por ello está destinado a trabajar con pocos ficheros grandes en vez de con muchos pequeños, porque lo carga en memoria y lo lee de una sola vez.

Por suerte, existe todo un ecosistema para trabajar con Hadoop, y no tener que escribir todo el código necesario para realizar la asignación de ficheros, el procesamiento, etc.

Veamos algunos de los componentes del zoo de Hadoop:

eco hadoop

Eclipse: es un entorno de desarrollo integrado, donado por IBM a la comunidad Apache. Agiliza enormemente el desarrollo de los programas Java.

Sqoop: nos permite conectarnos a cualquier base de datos relacional (que el acceso mediante una conexión ODBC) e intercambiar datos con nuestro sistema de ficheros HDFS. Es muy importante poder incorporar fácilmente datos de nuestras bbdd (datawarehouse, ERPs, etc.) igualmente poder llevar fácilmente el resultado de un cálculo (scoring, segmentación…) a nuestras bases de datos.

Flume: nos permite recuperar información de sitios remotos. Mediante un agente que se ejecuta en el lugar que se producen los datos (fichero de log, Tweeter…) recoge los datos y los importa en HDFS. Es solo de una dirección, no permite exportar datos de HDFS a otras ubicaciones. Muy útil para recuperar información en tiempo real.

Hive: actúa como la base de datos de Hadoop. Es un intérprete SQL – MapReduce. Traduce la query a programas Java que realicen los MapReduce. Esto permite utilizar herramientas de Business Intelligence convencionales (que admitan conexión ODBC) con los datos de HDFS.

Pig: para trabajar con MapReduce, es necesario programar, tener sólidos conocimientos de Java, saber cómo funciona MapReduce, conocer el problema a resolver, escribir, probar y mantener el código … Para ello es muy beneficioso disponer de un sistema más sencillo, que nos abstraiga de la complejidad del MapReduce. Para ello existe Pig, que facilita el flujo de datos de una manera más sencilla. Dispone de su propio lenguaje de programación llamado Pig Latin.

Hbase: es una base de datos columnar que se ejecuta sobre HDFS. Puede almacenar grandes cantidades de datos, y acceder a ellos muy rápidamente y lleva bien el procesamiento incluso cuando hay datos dispersos. Un ejemplo de base de datos columnar, es como si almacenáramos los resultados de fútbol en una tabla así:tabla futbol

Oozie: Actúa como un planificador. Es un motor de workflows, que puede incluir procesos MapReduce (varios, ya que los procesos MapReduce son simples y por lo general, hay que encadenar varios para realizar los cálculos), scripts de Pig, de Hive, etc.

Zookeeper: alguien tenía que cuidar de tanta fauna… Zookeeper actúa como coordinador. Guarda toda la configuración de los metadatos, realiza los bloqueos pertinentes si dos procesos deben acceder al mismo fichero, guarda usuarios y passwords para el acceso a los distintos sitos, etc.

Mahout: es una librería de algortimos de Machine Learning, escritos en Java. ¿Qué es Machine Learning? Un programa al que no hay que decirle qué debe hacer. Dedicaremos un post posterior a habla de Machine Learning.

Después de este ecosistema, ya podemos ponernos a utilizar Hadoop, sin necesidad de ser expertos en Java… ¿os animáis?

Un día en la vida del científico de datos

¿En qué consiste el día a día de un científico de datos? Os ofrecemos las respuestas de algunos de los más prestigiosos y de otros más ocurrentes.

Abraham Cabangbang, Senior Data Scientist en LinkedIn

“Trabajo en un equipo dedicado al reporting y a la calidad de los datos. Si hay algún producto nuevo que debemos incorporar en nuestros principales cuadros de mando, debemos trabajar con los product managers para que nos indiquen qué es importante para el producto, y con los ingenieros para que nos digan cuáles son los datos relevantes. A partir de ahí, colaboramos con el equipo de data services para hacer las ETL (extracción, transformación y carga de datos) y la posterior visualización”.

Peter Harrington, Chief Data Scientist en HG Data

“Un proyecto típico es incorporar una nueva fuente de datos en nuestra base de datos, que no siempre está en el formato en el que podamos almacenarlo. Un estudiante podría pensar: “Bien, sólo hay que reformatearlo”. Pero no es tan sencillo porque hay temas no determinísticas que hacer y deben realizarse con gran precisión. Desde que empezamos, posiblemente he pasado el 60% del tiempo programando, 5% mirando los resultados y el 35% restante analizando nuevas formas de mejorar mi análisis”.

John Yeung, Analista de Datos en Flurry

“Los proyectos más interesantes en los que he trabajado son los relacionados con las grandes compañías del mundo del entretenimiento (juego). Generalmente tienen un buen porfolio de productos, siempre están buscando expandir su base de usuarios y están muy atentos a las tendencias de la industria. Muchas veces nos piden ayuda para analizar cómo va el mercado. Un ejemplo es cuando diferentes compañías con diferentes juegos, tienen los usuarios muy concentrados. Entonces, si quieren captar más jugadores, tienen que decidir qué inversión les generará el mejor ROI.

Así, si una compañía está especializada en juegos de estrategia, deben analizar si salir al extranjero es un buen lugar para adquirir nuevos usuarios. Analizamos los jugadores de esos países y vemos si están muy vinculados con un juego específico”.

Ben Bregman, Analista de Producto en Facebook

“Mi día tipo varía dependiendo en qué parte del ciclo de producto estamos. Si estamos poniendo en producción una nueva funcionalidad, estaré monitorizando y buceando en las métricas para entender cómo va el rendimiento. Si estamos desarrollando funcionalidades nuevas, trabajo con los ingenieros para asegurar una buena comunicación con los servicios de backend involucrados. Si estamos dilucidando sobre el futuro, estaré recogiendo datos y haciendo análisis que nos ayuden en la conversación. Es impresionante estar involucrado en el ciclo de un producto desde el principio hasta el fin y ver cómo los usuarios disfrutan y se benefician de las nuevas funcionalidades”.

Adam Runner, contador de historias, chapista.

“`Ciencia de datos’ es uno de esos campos que no tiene todavía una buena definición. Hay muchas personas y muchos campos diferentes, que trabajan explotando datos. Habría que considerar qué tipos de análisis se consideran realmente como `ciencia de datos´”.

causalidadLa definición operativa debe inclinarse hacia una extensión del análisis, como su nombre indica, a un tratamiento más científico de los datos. Esto quiere decir que se ocupa principalmente de contestar preguntas basadas en causalidad en lugar de en correlación.

Al igual que con cualquier ciencia, hay muchos usos diferentes que dictarán en cada caso, cómo es un día típico. En mi opinión, estos son los tipos de cosas que los científicos de datos hacen:

  • Diseñar experimentos
  • Modelos estadísticos y matemáticos (SPSS, R, Matlab, modelos de predicción, inferencia bayesiana)
  • Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig, API)
  • Investigación de los datos (conectando puntos, haciendo preguntas útiles)
  • Cuenta cuentos (Interpretando, extrapolando, explicando, visualizando resultados)

Todo esto, por supuesto, retroalimentando continuamente los resultados obtenidos.

William Emmanuel Yu: «En el negocio de averiguar… cómo almacenar, qué hacer, cómo hacer que tenga sentido… sobre los datos de otras personas y cazador de mitos.

Un día típico en mi día a día sería así:

  1. ¿Está funcionando bien el sistema? Verificar.
  2. ¿Los procesos se están ejecutando bien? Verificar.
  3. Mirar la lista de nuevos requerimientos y escribir nuevos procesos. Añadirlos al planificador.
  4. Mirar los procesos completados y enviar los resultados al que los solicitó.
  5. Repetir 3 y 4, hasta que la lista de requerimientos está vacía”.

La caja de herramientas del científico de datos

Una de los princisw librepales cometidos del científico de datos es convertir los datos en conocimiento útil para la empresa. Para ello deben resolver problemas y dar respuesta a preguntas clave. Para ello necesitan utilizar algunas herramientas específicas para el procesamiento y análisis de los datos.
La primera pregunta que surge es qué se utiliza más, si las herramientas open source o software propietario. Según la 16º encuesta de KDNuggets, la mayoría de los científicos, un 64% utilizan ambas

Las 10 herramientas más utilizadas son:

  1. R, lenguaje de programación y entorno de Software de código abierto para programación estadística y entornos gráficos. Es la más utilizada entre científicos y mineros de datos lo que implica la existencia de múltiples librerías y paquetes fácilmente reutilizables.
  2. rRapidMiner, antiguamente llamada YALE, (Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos analíticos a través de un entorno gráfico. Proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones
    de entrada y salida, pre-procesamiento y visualización. También permite utilizar los algoritmos incluidos en Weka.
  3. SQL, (Structured Query Language) es un lenguaje de acceso a bases de datos Una de sus características es el manejo del álgebra y el cálculo relacional.
  4. pythonPython, un lenguaje de programación interpretado cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Soporta programación, orientada a objetos, imperativa (instrucciones que le indican al computador cómo realizar una tarea) y funcional. Es multiplataforma.
  5. Excel
  6. KNIM (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.
  7. Hadoop, de momento, considerado el framework estándar para almacenamiento y procesado de grandes datos.
  8. Tableau, centrada en la visualización de datos.
  9. SAS, herramienta líder en el mercado de Business Intelligence.spark
  10. Spark, es un framework de desarrollo, que incorpora un motor rápido y general para el procesamiento de datos a gran escala y procesamiento en memoria.