El Big Data (o nuevo oro negro), una oportunidad de ser más inteligentes

Una de las máximas preocupaciones que actualmente tienen las empresas es solucionar problemas relacionados con los datos que se generan. No sólo en lo que se refiere a first party data, sino también second y third party data. La cantidad de datos que hay en el mundo está creciendo deprisa, desbordando máquinas y empresas.

Datos

En 1 minuto se ven más de 2,78 millones de vídeos en Youtube, se hacen más de 2,4 millones de búsquedas en Google, 527.760 fotos compartidas en Snapchat… (FUENTE: Excelacom Inc., 2016). Y esto sólo es una muestra del contenido que consumimos y generamos en Internet.

La cifra exacta es difícil de conocer, pero parece evidente que crece cuatro veces más deprisa que la economía mundial. Se habla incluso del concepto de datificación para describir el proceso de recopilar información sobre todo lo que ocurre, llegando incluso a la infoxicación (intoxicación por exceso de información).

Un reciente estudio de la International Data Corporation (IDC), indica que el 89% del crecimiento de la industria de Tecnologías de la Información en el año 2020 será resultado de la que se conoce como tercera plataforma, Big Data. Esta tendencia está en parte motivada por la evidencia del ROI, soportado por nuevos modelos de negocio y nuevos productos y servicios (el IoT tiene mucho que ver también). Otra de las vías de desarrollo del Big Data están siendo los negocios relacionados con los datos y su monetización, que están viendo en la nube su entorno de desarrollo y expansión. En este entorno es donde las empresas deben desarrollar su actividad.

Sandy Pentland y Nathan Eagle fueron los pioneros del Reality Mining, el proceso de extraer y estudiar los datos procedentes de móviles para analizar predicciones sobre el comportamiento humano. Llegaron incluso a identificar personas con gripe antes de que ellos supiesen que estaban enfermos. En caso de una gripe mortal, las ventajas son más que evidentes si sabemos por dónde se extiende y por dónde seguirá extendiéndose.

bigdata oro negro

Big data (o nuevo oro negro) es una oportunidad de ser más inteligentes y de ganar a la competencia mediante la generación de insights a partir de la gestión y análisis de gran volumen de datos desestructurados.

Supone el paso de la colección del dato a la transformación en conocimiento. Y es en esta transformación donde los profesionales conocedores de las técnicas y herramientas de Business Intelligence y Data Mining juegan un papel fundamental.

 

Antonio Tena.

Managing Partner y Co-Founder en PentaSoft Group. Profesor en MSMK – Madrid School of Marketing.

14 usos que tienen las aplicaciones Business Intelligence Analytics

Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc.; pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo Analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadísticas y de Machine Learning.

apps BI Analytics

He aquí unos ejemplos:

  1. Business experiments: Experimentos de negocio, diseño experimental y testing AB. Todas ellas son técnicas para probar la validez de algo – ya sea una hipótesis estratégica, un nuevo packaging o un enfoque de marketing. Se trata, básicamente, de probar algo en una parte de la organización y luego compararlo con otra, donde no se realizaron los cambios (utilizada como grupo de control). Es útil si tenemos dos o más opciones entre las que decidir.
  2. Visual analytics: Los datos pueden analizarse de diferentes maneras y es la forma más sencilla para crear una imagen o gráfico y mirarlo para detectar patrones. Se trata de un enfoque integrado que combina el análisis de datos con la visualización de los mismos y la interacción humana. Es especialmente útil cuando se está tratando de dar sentido a un gran volumen de datos.
  3. Correlation analysis: Es una técnica estadística que te permite determinar si existe una relación entre dos variables independientes y lo fuerte que esa relación puede ser. Es muy útil cuando se sabe o se sospecha que existe una relación entre dos variables y nos gustaría probar su hipótesis.
  4. Regression analysis: El regression analysis o análisis de regresión es una herramienta estadística para investigar la relación entre las variables; por ejemplo, ¿existe una relación causal entre el precio y la demanda del producto? Lo usaremos cuando creemos que una variable está afectando a otras y deseamos establecer si esta hipótesis es verdadera.
  5. Scenario analysis: El scenario analysis, también conocido como horizonte de análisis o análisis de retorno total, es un proceso analítico que permite analizar una variedad de posibles acontecimientos o escenarios futuros, considerando los posibles resultados alternativos. Se usa cuando uno está seguro de la decisión que tomar o del curso de acción a seguir.
  6. Forecasting/time series analysis: Son datos que se recogen a intervalos uniformemente espaciados. El análisis de series temporales explora estos datos para extraer estadísticas significativas o características de los datos. Se utiliza cuando se quieren evaluar los cambios en el tiempo o predecir acontecimientos futuros a partir de lo que ha sucedido en el pasado.
  7. Data mining: Es un proceso analítico diseñado para explorar los datos (por lo general conjuntos muy grandes de datos relacionados con la empresa, también conocido como «Big Data»), en busca de ideas «comercialmente» relevantes, patrones o relaciones entre las variables que pueden mejorar el rendimiento y desempeño. Por tanto, es útil cuando se tienen grandes conjuntos de datos, de los cuales queremos extraer ideas y conclusiones.
  8. Text analytics: También conocido como text mining, el text analytics es un proceso basado en extraer valor de grandes cantidades de datos de texto no estructurados. Se puede utilizar en numerosas situaciones, incluyendo la recuperación de información, el reconocimiento de patrones, el etiquetado y la anotación, la extracción de información, la evaluación de sentimiento y en los análisis predictivos.
  9. Sentiment analysis: El «análisis de sentimientos», también conocido opinion mining, pretende extraer la opinión subjetiva o sentimientos de datos de texto, vídeo o audio. El objetivo fundamental es determinar la actitud de un individuo o grupo con respecto a un tema en particular o un contexto global. Es recomendable utilizarlo cuando queremos comprender la opinión de las partes interesadas (stakeholders).
  10. Image analytics: El análisis de imágenes es el proceso de extracción de información, significados y puntos de vista a partir de imágenes, tales como fotografías, imágenes médicas o gráficos. Se trata de un proceso basado en gran medida en el reconocimiento de patrones, la geometría digital y el procesamiento de señales. El análisis de imagen tiene numerosos usos, como por ejemplo el reconocimiento facial con fines de seguridad.
  11. Video analytics: El análisis de vídeo es el proceso de extracción de información, significados y puntos de vista desde secuencias de vídeo. Incluye todo lo que hace el análisis de imagen, añadiendo que también puede medir y rastrear el comportamiento. Se podría utilizar si queremos saber más acerca de quién está visitando nuestra tienda o local y lo que están haciendo cuando llegan allí.
  12. Voice analytics: El análisis de voz, también conocido como análisis de conversación (speech analytics), es el proceso de extracción de información a través de grabaciones de audio de las conversaciones. Esta forma de análisis puede analizar los temas o las palabras y frases actuales que se utilizan, así como el contenido emocional de la conversación. Se podría utilizar análisis de voz en un call center para ayudar a identificar las quejas de los clientes recurrentes o los problemas técnicos.
  13. Monte Carlo Simulation: La simulación Monte Carlo es una técnica de resolución de problemas matemáticos y de evaluación del riesgo que nos aproxima la probabilidad de ciertos resultados y el riesgo de los mismos, utilizando simulaciones computarizadas de variables aleatorias. Es útil para entender mejor las implicaciones y ramificaciones de un determinado curso de acción o decisión.
  14. Linear programming: También conocido como optimización lineal (linear optimization), es un método de identificación de los mejores resultados, basado en un conjunto de restricciones utilizando un modelo matemático lineal. Te permite resolver problemas que implican minimizar y maximizar las condiciones, tales como la forma de maximizar los beneficios y minimizar los costes. Es útil si tenemos una serie de limitaciones, como el tiempo, materias primas, etc., y queremos saber la mejor combinación o dónde dirigir nuestros recursos para el beneficio máximo.

Artículo visto en http://todobi.blogspot.com.es/

El físico y el Business Intelligence

El físico, como profesional en cualquier área, posee unas capacidades excelentes para el análisis, la exploración y la interpretación de todo tipo de datos. Esto, entre otras cosas, es debido a las habilidades desarrolladas durante sus años de estudio. En el Business Intelligence (Inteligencia de Negocio o, más sencillamente, BI), es necesario aportar ese plus de reflexión y análisis para obtener toda la información útil posible a partir de los datos (que muchas veces carecen de la estructura y completitud deseadas). Este es el motivo por el que el físico puede encontrar en el Business Intelligence un área donde desarrollarse profesionalmente de forma exitosa.

FISICO BI

Después de finalizar los estudios, mis antiguos compañeros y yo nos hacíamos la gran pregunta… “¿y ahora qué?”. O como en mi caso, que estuve probando con una tesina y con alguna beca de investigación, me planteaba el… “¿y luego qué?”.

Por aquel entonces, recuerdo (y ha llovido ya mucho) que la situación de desempleo era similar a la que actualmente atraviesa nuestra sociedad. Entiendo que igual que antes el recién licenciado y el no tan reciente que no se identifique totalmente con su ocupación actual, se harán preguntas similares.

Quería comentaros un poco acerca de mi experiencia con el BI por si os puede servir de referencia útil. Una de las ocupaciones con mayor reclamo para un perfil como el de físico es el de la informática. La diversidad de ámbitos y negocios en los que aplicarse es enorme. Uno de esos ámbitos es el Business Intelligence que, a su vez, es de utilidad en cualquier tipo de empresa a partir de cierto tamaño.

El mundo ha venido experimentando una revolución  que continúa en la actualidad debido a la proliferación y crecimiento exponencial de los datos que las empresas u otras entidades (también las académicas) manejan. Ese crecimiento exponencial se explica porque la renovación tecnológica se retroalimenta. Por ejemplo, la automatización de procesos de negocio (como la mecanización de operaciones en una entidad financiera o la captura masiva de información a través de internet y de las redes sociales) que permite una mayor eficiencia en la operativa de las organizaciones, trae de la mano la generación y almacenamiento de gran cantidad de datos que a su vez pueden necesitar de más tecnología y recursos para gestionarlos.

Además, esos datos servirán para alimentar otros procesos de negocio que típicamente tienen que ver con la toma de decisiones a muchos niveles (desde la aceptación de un servicio de un proveedor a cierta tarifa hasta las decisiones más estratégicas a nivel corporativo). Así, bien sea para decidir los nuevos productos de seguros a sacar al mercado o para elegir el segmento de clientes de telefonía que será objeto de una campaña de marketing, el BI puede aportar una ventaja competitiva fundamental.

Pero, ¿qué es el BI?  El Business Intelligence se puede definir como el conjunto de sistemas, procesos y estrategias que tienen como objetivo la generación de información útil para un mayor conocimiento del negocio a partir de la exploración, análisis e interpretación de los datos de que disponga la organización. Se suele emplear directamente el término anglosajón (o su abreviatura BI), dado que tradicionalmente ha sido en las escuelas y empresas americanas donde más profundamente se ha venido desarrollando. En países como el nuestro, sin tantos años de experiencia y con un nivel de desarrollo tecnológico significativo, hay una notable amplitud de recorrido profesional. En ocasiones los datos pueden estar infrautilizados en las empresas cuando, sin embargo, se dispone de cierta infraestructura tecnológica que permitiría explotarlos en mayor medida para ser más competitivo.

Hoy día somos testigos de la guerra de precios y la lucha por nichos de mercado que tienen lugar en algunos sectores. Muchas veces esta fuerte competencia entre las empresas está potenciada por la mayor información que los clientes tienen sobre los productos existentes con tan solo unos ‘clicks’ de ratón. Incluso han surgido empresas especializadas en la búsqueda y comparativa de servicios y precios para ponerlos a disposición de los potenciales clientes. Un marketing inteligente con una correcta gestión de los riesgos y márgenes del negocio es cada día más crítico.

¿Y qué pinta un físico en todo esto? En mi plan de estudios no recuerdo que hubiera ninguna asignatura sobre las “leyes del BI” o algo similar y entiendo que en los planes de actuales tampoco. En realidad, no es el conocimiento en sí mismo que tiene el físico lo que le hace valioso en este área sino las capacidades y habilidades que ha ido desarrollando en sus años de estudio. Son fundamentales por ejemplo la observación y la capacidad de análisis.

Todos sabemos que la observación forma parte inicial del método científico. Es un tópico la imagen del “físico despistado” pero esta imagen suele ser reflejo de todo lo contrario: su poder de observación y concentración en la resolución de un problema requiere muchas veces de un cierto aislamiento de la realidad circundante. La observación también es en el BI una premisa necesaria en todo momento. Antes de lanzarse al análisis de los datos de cualquier manera es necesario hacer una toma de requerimientos y valorar cuáles serán las herramientas y los métodos más apropiados. En una fase previa habrá que identificar tanto las fuentes potenciales de información como los aspectos del negocio que se podrían ver beneficiados finalmente (fidelización del cliente a través de un mejor nivel de servicio y plazo de atención, mayor rentabilidad por la reducción de costes de distribución, etc). Desde la exploración inicial y visual de los datos (que en ocasiones carecerán de una estructura identificable fácilmente), hasta la obtención y visualización de los resultados finales, se requerirá una observación minuciosa y rigurosa de todos los aspectos involucrados.

En cuanto al análisis, este es un punto en el que el físico suele destacar sobre profesionales con otro tipo de formación. Para nosotros, descomponer el objeto en estudio en las partes que lo forman y tratar de averiguar la relación existente entre ellas, es algo muchas veces que hacemos de forma natural e inconsciente. Por ejemplo, para explicar la disminución de ventas de un cierto producto habrá que identificar y analizar todos los componentes del problema (cambios en el perfil de los clientes, evolución de los canales de venta, ubicación del producto en los establecimientos, comparativa de precios y calidad con la competencia, …). Como caso curioso, podemos mencionar que en ciertos grandes almacenes se llegó a la conclusión de que se vendían más cervezas si se ponían promociones junto a los pañales. No es que cada vez la juventud empiece antes a beber sino que los padres no pueden salir a tomarse algo fuera como antes por una temporada.

Cuando el volumen y la calidad de los datos lo permite, se pueden construir modelos matemáticos para predecir ciertas variables de negocio (como la morosidad, el ratio de abandono de clientes, la tarifa más óptima para un producto financiero, las respuestas positivas a potenciales campañas publicitarias, etc). La base de matemáticas y estadística atesorada por los físicos también es muy valiosa cuando hay que ocuparse de este tipo de tareas.

Ya sea en las Ciencias de la Salud, en el Marketing empresarial y la investigación de mercados, en la gestión de riesgos financieros, en la detección del fraude o en cualquier otro ámbito de negocio, el disponer de herramientas de BI no es suficiente. Es necesaria una mente analítica y con una base de conocimientos cuantitativos que pueda sacarle el mayor partido a dichas herramientas y obtener así una verdadera ventaja competitiva para la empresa. El conocimiento del negocio a partir de la información extraída de primera mano de los datos puede llevar al físico dedicado al BI durante años en un mismo sector a alcanzar un valor añadido extra dentro de la organización. Ya no solo sería por sus capacidades sino por el conocimiento adquirido haciendo uso de las mismas.

Desde mi propia experiencia, me gustaría animar al lector a que explore este mundo ya que es de tan amplio espectro de aplicación que seguramente encontrará algún área donde le interese desarrollarse.

José Vicente Alonso Salgado

José Vicente Alonso Salgado

Licenciado en Ciencias Físicas

Experto en Soluciones de Riesgos Financieros en SAS Institute España.

“Trabajar en un mayorista de IT como Arrow ECS me ha aportado una visibilidad muy amplia de todo el ecosistema informático”

Entrevista a José Luis Lamas, SAS-Business Development Manager en Arrow ECS Spain y antiguo alumno del Máster en Business Intelligence y Big Data de MSMK – Madrid School of Marketing

Jose Luis Lamas

Pregunta: Se cumple ahora un año desde que ocupas el puesto de SAS-Business Development Manager en Arrow ECS Spain. Háblanos de Arrow ECS y de las funciones que desempeñas dentro de la empresa.

Respuesta: Arrow ECS es un mayorista de soluciones informáticas, que pertenece al grupo Arrow. Concretamente, Arrow ECS es la empresa del grupo especializada en soluciones y tecnología informática para el mundo empresarial. El puesto que cubro, desde febrero de 2015, surge a propósito de la distribución a nivel internacional del software de SAS Institute, líder mundial en soluciones de Business Analytics. Actualmente ambas corporaciones están desarrollando un nuevo canal de ventas a través de Partners Resellers que se está implementando en diferentes países como España, Francia, Holanda o Inglaterra, además de Estados Unidos.

Logo Arrow ECS

¿Mis funciones? Trabajo codo a codo con el equipo de canal del fabricante SAS en España, un equipo que se dedica a potenciar las ventas de herramientas y soluciones de SAS, principalmente para Mid-Market. Para llegar a este mercado, hemos realizado una primera fase de recruiting de partners (consultoras tecnológicas, principalmente del ámbito de Business Intelligence y de Business Analytics). Mi función es ayudar al fabricante a posicionar sus soluciones dentro de esta red de partners y, a su vez, ayudar a los partners a que posicionen estas soluciones en su cliente final. A partir de ahí, surgen muchas más tareas: cubro una parte de Marketing Estratégico y Planificación de Negocio, otra parte de gestión del Ciclo de las Ventas; y muchas más tareas propias de la gestión de un fabricante de Software. Al fin y al cabo, hay un canal completamente bidireccional entre fabricante y mayorista.

P: ¿Qué supone profesionalmente estar en una consultora IT y mayorista de soluciones de seguridad informática como Arrow ECS?

R: Arrow ECS nace en los años 90 dentro del grupo Arrow con el objetivo de ser un mayorista de valor, ocupando actualmente plazas de liderazgo a nivel mundial, así como en el mercado español. En Arrow ECS, además del servicio propio de distribución de tecnología informática, se ofrecen Soluciones Financieras, de Marketing, Soporte y Formación cualificada, que conforman esa apuesta de valor que nos distingue de nuestros competidores.

A nivel personal, trabajar en un mayorista de IT me ha aportado una visibilidad muy amplia de todo el canal, de todo el ecosistema informático. Es un ciclo donde hago tantas cosas diferentes, que me ha dado mucha “cintura”, aprendiendo y desarrollando muchos más conceptos y responsabilidades.

P: ¿Cómo fue el camino, profesionalmente, hasta llegar hasta aquí?

R: Dentro del mundo informático he tenido “varias vidas”. Estudié Ingeniería Informática y empecé trabajando en la parcela más técnica y de soporte. Posteriormente participé en proyectos de desarrollo de Software; pero finalmente decidí cambiar el rumbo porque a nivel personal me sentía más cómodo en el área de negocio. Durante una primera etapa trabajé en la venta de soluciones de IBM Cognos y también soluciones del fabricante SAP.

Tras una segunda etapa más enfocado al ámbito de Quality Assurance de Software, finalmente llegué a Arrow ECS, que ha sido un total acierto.

logo SAS

P: ¿Cómo te ayudó el Máster de Bussiness Intelligence en tu carrera profesional?

R: De Madrid School of Marketing me llamó enormemente la atención el claustro de profesores, que luego se materializó en las clases. Todos ellos tenían una experiencia espectacular, siendo líderes en compañías de muy alto nivel; gente muy especializada en temas de gestión de la información… Elegí MSMK precisamente por la especialización que aportaba y, a pesar de ser una escuela relativamente nueva, decidí arriesgarme. Sin duda, no me equivoqué: el máster me aportó una mayor profundidad de conocimientos de todo el espectro de BI.

P: ¿Qué aspectos valoras de manera más positiva?

R: La oportunidad de conocer in situ a gente que está liderando proyectos de tan alto nivel en compañías reales, que además me trasladaron directamente su experiencia propia y fueron capaces de darme unas pautas bajo su experiencia personal. Por otro lado, también me gustó que el programa fuese tan completo, ya que, más allá de tocar todos los ámbitos de Business Intelligence, nos adentramos en fundamentos de Marketing.

También se impartieron temas comerciales, de habilidades personales y directivas, hicimos talleres en el ámbito de la psicología empresarial, nos prepararon para hablar en público y hacer presentaciones…

 P: ¿Qué retos profesionales afrontarás en los próximos meses?

 R: Para Arrow, Business Analytics es un área estratégica, con lo cual trabajar con SAS dentro de la Arrow es algo que me atrae mucho y que va a tomar gran forma en un futuro. Un auténtico reto tanto personal como para la compañía.

PLN: Procesamiento del lenguaje natural

Por Scott Sims, CEO Buzzlogix

Procesamiento del lenguaje natural (NLP o PNL) ayuda a las máquinas a entender y descifrar el lenguaje humano. Uno de los principales usos del Big Data y del conocimiento de la experiencia y del sentimiento de clientes, viene dado por el análisis semántico de comentarios en redes sociales, blogs, encuestas, etc.

Definimos los conceptos clave del PNL y explicamos cómo encaja en el cuadro más grande de la Inteligencia Artificial.

El objetivo del procesamiento del lenguaje natural es la de ayudar a los ordenadores a entender el lenguaje según lo hablan las personas, para poder acabar con los lenguajes de programación como Java, Ruby, C i todos juntos. Con el procesamiento del lenguaje natural, los ordenadores serían capaces de entender directamente a las personas mediante lenguaje humano. Vamos a explicar todo todo lo que necesitas saber sobre el procesamiento del lenguaje natural.

¿Qué es el procesamiento del lenguaje natural?

nlp

Procesamiento del lenguaje natural, a menudo abreviado como PNL, se refiere a la capacidad de un equipo informático para entender el lenguaje humano tal como se habla. La PNL es un componente clave de la inteligencia artificial (IA) y se basa en el aprendizaje de máquina (Machine Learning), un tipo específico de IA que analiza y hace uso de patrones en los datos para mejorar la comprensión de un discurso.

¿Para qué se utiliza?

Hay un número de diferentes tareas de PNL incorporados en programas de software de hoy en día, incluyendo:

  • Separación de frases, etiquetado gramatical, y análisis: el procesamiento del lenguaje natural puede ser utilizado para analizar partes de una oración para comprender mejor la construcción gramatical de la frase, contar palabras, etc.npl3
  • Análisis profundo: consiste en la aplicación de técnicas avanzadas de procesamiento de los datos con el fin de extraer información específica de los conjuntos de grandes datos o de múltiples fuentes. Es particularmente útil cuando se trata de consultas precisas o muy complejas con datos no estructurados y semi-estructurados. Es utilizado a menudo en el sector financiero, la comunidad científica, el sector farmacéutico y las industrias biomédicas. Cada vez más, sin embargo, el análisis profundo también está siendo utilizado por las organizaciones y empresas interesadas en minería de datos, o en encontrar un valor de negocio a partir de conjuntos de datos de los consumidores.
  • Traducción automática: procesamiento del lenguaje natural es cada vez más utilizado en programas de traducción automática, en la que un idioma se traduce automáticamente en otro.
  • Extracción de entidades nominales (Named entity extraction): En la minería de datos, una definición de entidad con nombre es una frase o palabra que identifica claramente un elemento, de un conjunto de otros elementos que tienen atributos similares. Los ejemplos incluyen nombres y apellidos, edad, ubicación geográfica, direcciones, números de teléfono, direcciones de correo electrónico, nombres de empresas, etc. Named extracción de entidades, a veces también llamado reconocimiento de entidades, facilita la minería de textos.
  • Resolución Co-referenciada: En un trozo de texto, la resolución de la correferencia se puede utilizar para determinar qué palabras se utilizan para referirse a los mismos objetos.
  • Resumen automático: el procesamiento del lenguaje natural puede ser utilizado para producir un resumen legible desde una gran parte del texto. Por ejemplo, producir un breve resumen de un artículo académico denso.

nlp2

¿Cuáles son las ventajas de procesamiento del lenguaje natural?

Los beneficios del procesamiento del lenguaje natural son innumerables: puede ser aprovechado para mejorar la eficiencia de los procesos de documentación, mejorar la exactitud de la documentación, e identificar la información más pertinente de grandes bases de datos. Por ejemplo, un hospital podría utilizar el procesamiento del lenguaje natural para obtener datos de un diagnóstico específico a partir de las notas estructuradas de un médico y asignar un código de facturación.

 

 

Introducción a las Bases de datos

images-6

Una base de datos es un almacén que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

Por lo general, es almacén de información que contienen datos relativos a diversas temáticas, categorizados de distintas maneras, pero que comparten entre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto.

En este sentido, una biblioteca puede considerarse una base de datos compuesta en su mayoría por documentos y textos impresos en papel e indexados para su consulta; o un armario, con la ropa colocada en baldas, percheros y cajones. La mayoría de las bases de datos, y a las que nos vamos a referir aquí, son las que están en formato digital, que ofrecen un amplio rango de soluciones al problema del almacenamiento de datos.

Existen programas denominados sistemas gestores de bases de datos, abreviado SGBD (del inglés Database Management System o DBMS), que permiten almacenar y posteriormente acceder a los datos de forma rápida y estructurada. Las propiedades de estos DBMS, así como su utilización y administración, son diversas. Vamos a comentar la tipología según su modelo de administración de datos y su uso:

Bases de datos relacionales

images-8

Este es el modelo utilizado en la actualidad para representar problemas reales y administrar datos dinámicamente. Su idea fundamental es el uso de «relaciones». Sus componentes principales son tablas (algo así como una tabla de Excel), que están compuesta por registros (las filas de una tabla), y campos (las columnas de una tabla). Las tablas se relacionan a través de los campos comunes en cada tabla (clientes, productos, etc.)

La información puede ser recuperada mediante «consultas» que ofrecen una amplia flexibilidad y poder para administrar la información.

El lenguaje más habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language o Lenguaje Estructurado de Consultas, un estándar implementado por los principales motores o sistemas de gestión de bases de datos relacionales.

Durante su diseño, una base de datos relacional pasa por un proceso al que se le conoce como normalización de una base de datos, que asegura la coherencia entre los datos (ej.: que no tengamos un cliente en una factura que no esté en la tabla de clientes).

 

Bases de datos multidimensionalesimages-9

Son bases de datos ideadas para desarrollar aplicaciones muy concretas, el análisis de datos organizados a través de dimensiones, mediante Cubos OLAP (on line analytical processing). Básicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podría serlo también en una base de datos multidimensional); la diferencia está más bien a nivel conceptual. En las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos: o bien representan dimensiones de la tabla, o bien representan métricas que se desean consultar.

Están muy indicadas en las áreas de Business Intelligence y para la elaboración de cuadros de mando.

 

Bases de datos documentales

Permiten la indexación a texto completo y, en líneas generales, realizar búsquedas más potentes. Sirven para almacenar grandes volúmenes de información de antecedentes históricos.

 

Bases de datos jerárquicas

images-7En este modelo, los datos se organizan en forma de árbol invertido, donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padres es llamado raíz, y a los nodos que no tienen hijos se los conoce como hojas.

Las bases de datos jerárquicas son especialmente útiles en el caso de aplicaciones que manejan un gran volumen de información y datos muy compartidos permitiendo crear estructuras estables y de gran rendimiento.

Una de las principales limitaciones de este modelo es su incapacidad de representar eficientemente la redundancia de datos.

 

 

Bases de datos deductivas

Un sistema de base de datos deductiva, es un sistema de base de datos con la diferencia de que permite hacer deducciones a través de inferencias. Se basa principalmente en reglas y hechos que son almacenados en la base de datos. Las bases de datos deductivas son también llamadas bases de datos lógicas, a raíz de que se basan en lógica matemática. Este tipo de base de datos surge debido a las limitaciones de la Base de Datos Relacional de responder a consultas recursivas y de deducir relaciones indirectas de los datos almacenados en la base de datos.

 

Bases de datos orientadas a objetos

imagesLas bases de datos orientadas a objetos se crearon para tratar de satisfacer las necesidades de estas nuevas aplicaciones. La orientación a objetos ofrece flexibilidad para manejar algunos de estos requisitos y no está limitada por los tipos de datos y los lenguajes de consulta de los sistemas de bases de datos tradicionales. Una característica clave de las bases de datos orientadas a objetos es la potencia que proporcionan al diseñador al permitirle especificar tanto la estructura de objetos complejos, como las operaciones que se pueden aplicar sobre dichos objetos.

En bases de datos orientadas a objetos, los usuarios pueden definir operaciones sobre los datos como parte de la definición de la base de datos. Una operación (llamada función) se especifica en dos partes. La interfaz (o signatura) de una operación incluye el nombre de la operación y los tipos de datos de sus argumentos (o parámetros). La implementación (o método) de la operación se especifica separadamente y puede modificarse sin afectar la interfaz. Los programas de aplicación de los usuarios pueden operar sobre los datos invocando a dichas operaciones a través de sus nombres y argumentos, sea cual sea la forma en la que se han implementado. Esto podría denominarse independencia entre programas y operaciones.

 

 

 

 

 

 

 

Empleabilidad y Big Data 11.11.15

El pasado 11 de noviembre se celebró en nuestra sede de Madrid School of Marketing, en Madrid, la jornada sobre empleabilidad y Big Data.

Sala llena

El aforo estaba completo de personas y alumnos deseosos de conocer de primera mano los perfiles, oportunidades y estrategia en el ámbito del Business Intelligence y el Big Data.

Inicio Rafa

 

La sesión fue inaugurada por Rafael García, General Manager de MSMK, con la excelente ponencia «You drive your data to action», de la cual recogemos algunos de los principales temas tratados:

 

  • Crecimiento del Big Data en todas las organizaciones y la necesidad cada vez más creciente de disponer de los medios y recursos necesarios, y el talento adecuado para comprender el significado de los datos y extraer la información necesaria.
  • El análisis de los datos crea valor para las empresas y sus clientes.
  • Cuáles son las tendencias y oportunidades en Big Data y Analytics, donde destacó: Ratificación General, el Analytics de las cosas, seguridad y fiabilidad de los datos, monetización / conversión en negocio, crecimiento de open source: colaboración.
  • También explicó cómo es la cadena de valor de Big Data.

Una ponencia excelente, que sirvió para introducir los siguientes temas:lourdes tec

A continuación, Lourdes Hernández, Coordinadora del área de Big Data en la Escuela, habló de la Demanda en el Mercado de Big Data. De un  modo original, su ponencia incluyó 3 pistas, 4 noticias y 5 preguntas. A destacar de su ponencia:

  • El Big Data no es algo nuevo, dado que se dispone de los datos desde hace tiempo, ni tampoco los datos son un reto en sí, aunque sí lo es el tratamiento que se hace de los mismos y la información que se puede obtener.
  • El crecimiento del mercado y las oportunidades y la relación entre la evolución de los proyectos y la falta de perfiles cualificados.
  • Si Hadoop está preparado o no para todas las empresas, las diferencias entre un Data Warehouse tradicional y el «Data Lake» de Big Data y, cómo extra, un análisis de qué es más rápido y qué es más barato. ¿La respuesta…? depende de para qué se utilice.

La última ponencia, fue impartida por Guillermo Dearmas, Responsable de Carreras Profesionales de MSMK, sobre «Los Perfiles más demandados en MSMK».

Captura de pantalla 2015-11-22 a las 13.30.17

  • Actualmente llegan muchas peticiones la escuela de diferentes empresas, como se puede ver en el gráfico adjunto, de todo tipo de perfiles de Big Data y Analytics.
  • Las competencias requeridas son, sobre todo, capacidad de análisissíntesis  y trabajo en equipo.
  • Las principales funciones solicitadas son relativas al análisis de datos, desarrollo de proyectos, análisis estadístico y visualización.
  • La titulación requerida es ingeniería informática, administración y dirección de empresas, ingenieros de sistemas, matemáticos, etc.

Un mundo lleno de oportunidades profesionales, sin duda, y una jornada exitosa que nos hizo acercarnos un poco más el mercado de Big Data.

La Importancia de Apellidarse García

No todo análisis de datos del INE es aburrido.

2.968.434 personas en España son García de primer o segundo apellido. Casi 81.000 se distinguen por apellidarse García García. Son datos de la Estadística del Padrón Continuo publicados por el INE.

En un país de 46,4 millones de habitantes esto implica que cerca del 6,4% de la población es García.

guia-telefonos_articuloTres apellidos son portados por 1,9 millones de individuos cada uno: González, Rodríguez y Fernández.

Muy de cerca les siguen los López (1,8 millones), Martínez y Sánchez (1,7 millones) y los Pérez (1,6 millones).

Uno de cada tres españoles puede presumir de apellidarse con, al menos, una de las ocho anteriores opciones.

Es más, si incluimos los siguientes 13 apellidos más frecuentes, ya se abarcaría a un 50% de la población. No me resisto a enumerarlos, en orden decreciente: Gómez, Martín, Jiménez, Ruiz, Hernández, Díaz, Moreno, Álvarez, Muñoz, Romero, Alonso, Gutiérrez y Navarro.

En la provincia de Madrid la concentración aun es mayor: más de un 8% de los nacidos en Madrid porta en su DNI al menos una vez el apellido García. Los otros dos apellidos más frecuentes son Fernández (4,7%) y Sánchez (4,6%). Con tan solo los 14 primeros apellidos se supera la mitad de los nacidos en esta provincia y Comunidad Autónoma.

¿Es muy distinta la situación en la provincia de Barcelona? No del todo. Dominan los García entre los nacidos en Barcelona, con un 5,3% del total. Los siguientes apellidos en frecuencia son Martínez, López, Sánchez, Fernández, Rodríguez, Pérez, González, Gómez, Ruiz y Martín. Con ellos aglutinamos a un 30% del total. Lo que sí es diferente es el grado de concentración: se necesitan hasta 39 apellidos para totalizar a la mitad de los nacidos en esta provincia.

mapa-apellidos

¿Y en Guipúzcoa? Pese a que siguen dominando los García (3,5%) entre los nacidos en la provincia y estar seguidos de los González, Fernández y Rodríguez, se necesita recurrir a nada menos que 74 apellidos para aglutinar al 50% de la población analizada. Eso sí, entre los 10 apellidos más frecuentes ninguno diferente a los correspondientes al conjunto del país.

¿Se aprecian diferencias entre provincias de Castilla? Obviamente, sí. Albacete solamente necesita diez apellidos para alcanzar al 50% de los nacidos en su demarcación, mientras que Burgos son necesarios 17 apellidos para el mismo objetivo. En ambas provincias domina, como no podía ser de otra forma, el apellido García: con un 8,7% en Burgos y casi un 13% entre los nacidos en la provincia de Albacete. Si a esto añadimos que en esta última provincia el segundo apellido (Martínez) supera el 12%, su grado de concentración queda más que explicado.

Entre los nacidos en la provincia de La Coruña, García vuelve a ser el apellido dominante (6,8%). Son necesarios 16 apellidos diferentes para abarcar al 50% de los coruñeses. Entre los diez primeros apellidos dos que no figuran entre la decena más frecuente a nivel nacional: Vázquez (6º) y Castro (10º).

Por su parte, en Cádiz se sigue un patrón muy similar al del total del país: 18 apellidos diferentes para totalizar al 50% de los nacidos en la provincia, encabezados por García (7,3%), Sánchez (5,8%) y Rodríguez (5,4%).

España es un país abierto, con un importante volumen de residentes nacidos en el extranjero. Es precisamente en este segmento de la población donde García (1,5%) -aunque por poco- cede su habitual primer puesto a Rodríguez (1,6%). Lógicamente, en esta parcela de análisis la dispersión es mucho mayor, requiriéndose no menos de 121 apellidos diferentes para concentrar a un tercio de la población nacida en el extranjero. Con 397 apellidos alcanzaríamos a la mitad de este colectivo. Chen, con algo más de 17.000 individuos, es el primer apellido foráneo que figura entre los no nacidos en España. Ocupa el puesto 13º.

Autor: Jaime Rosado, alumno de MSMK, en su blog: https://muchomasqueanalisis.wordpress.com/

Telefónica: Evolución de la gestión del dato

El pasado 17 de febrero tuvo lugar el evento de IDC, Big Data Analytics, donde Carolina Boubard Nuño (Directora de Arquitectura, Transformación y BI de Telefónica), hizo una excelente ponencia de la cual voy a compartir aquellas cuestiones que me llamaron más la atención.

conexiónEspaña es el país más conectado de Europa, lo cual nos da una idea de cómo están cambiando los hábitos de consumo de los clientes, permanentemente conectados, más exigentes, con una mayor gestión de sus compras y servicios, que busca transparencia y simplicidad en la relación con sus proveedores, y sobre todo, generando una creciente cantidad de información que debemos utilizar para tomar mejores decisiones, incorporándola en toda la cadena de valor y en todos los niveles de la organización.

Esto tiene un gran impacto en los sistemas informacionales de Telefónica:

  • Pasando de información dispersa en empresas independientes (Teléfonica fijo y datos y Movistar móviles) a una sola empresa: Movistar.
  • Productos tradicionales a productos digitales
  • Gestión independiente de clientes de fijo y de móvil a una gestión integrada con una visión única de cliente

logo telTambién un cambio importante para convertirse en una Telco Digital:

En cuanto a plataformas pasaron de diseños monolíticos, mucho coste, y procesos ETL y de explotación en batch, hacia costes más efectivos, procesos de carga on-line, arquitecturas multicapa y explotación cercana al tiempo real.

En herramientas pasaron de varios CRMs, un análisis batch costoso y reportes estáticos, a una gestión unificada del CRM, con análisis de datos abiertos en movilidad.

En cuanto a los equipos, se pasa de equipos estancos trabajando en silos de información, a equipos multidisciplinares, y a la democratización del dato.

Este cambió supuso un cambio importante en la infraestructura, realizando réplicas on-line de los operacionales e incorporando información masiva de nuevos servicios digitales, con una ETL online, en nuevo modelo de almacenamiento que incluye un Operational Data Store, un Data Warehouse y un Data Lake, mediante más de ocho millones de tareas programas y cuatro mil usuarios. Estos usuarios realizan tanto una explotación tradicional como un CRM outbound. Esta transformación obtuvo como resultado una mejora significativa en los principales KPIs: agilidad en las gestión de campañas, donde pasaron de tardar veinte días a poder hacerlo online; el seguimiento comercial de 48 horas de decalaje a diario, reducción de tiempos de carga, mejora de la eficiencia y una reducción de costes de SW de análisis mediante el uso de herramientas open source.

Algunos ejemplos de lo que Big Data a ayudado a Telefónica:

  • Aplicar el análisis del comportamiento de los clientes en el diseño de la oferta, por conocer lo que sus clientes hacen con Movistar+, cuáles son los canales más vistos, y sus preferencias por canal.audiencia
  • La información del sus de los servicios minuto a minuto, les permite segmentar a los clientes según sus gustos: ¿Cómo cambia la audiencia según evoluciona el resultado de un partido de futbol? Y aquí mostraron la evolución de un derbi Madrid-Atelti y cómo cuando el Atleti empezó a golear al Madrid, la audiencia subió notablemente en Cataluña.
  • Ejecución de acciones comerciales más eficientes y efectivas, optimizando el público objetivo, analizando los canales más eficientes y analizando los servicios para impulsar usuarios.
  • Mezcla del mundo físico y el digital, analizando el origen de los clientes en los puntos de venta y pilotos para incrementar el tráfico en sus tiendas con campañas ad-hoc en tiempo real (centros comerciales), obteniendo un incremento x10 en el número de altas vs las campañas no en tiempo real.
  • Mejora de la calidad, detectando las causas de las reclamaciones, mejorando los procesos de provisión y personalizando la oferta por canales.

movistarY para finalizar, ¿cuáles son los retos?

En el plano técnico, acompañar el crecimiento y masificación de datos, con tecnología abierta e interoperable que garantice la seguridad y protección de nuestros clientes.

En el plano de negocio, seguir enriqueciendo la experiencia de nuestros clientes en los servicios digitales, integrando el BI en todos los procesos operacionales.

El éxito secreto de Netflix

El legendario guionista de Hollywood William Goldman dijo:film

«Nadie, nadie – ni ahora, ni nunca – sabrá una maldita cosa sobre lo que va o no a funcionar en la taquilla.»

Hablaba antes de la llegada de Internet y Big Data y, desde entonces, las películas en streaming y el servicio de televisión de Netflix ha basado su modelo de negocio en demostrar que estaba equivocado. Y lo ha conseguido.

Netflix representa un tercio del tráfico de Internet en hora punta en EE.UU. El año pasado consiguió 50 millones de suscriptores en todo el mundo y recoge y monitoriza los datos de todos ellos, para entender los hábitos de consumo. Sin embargo, los datos que recogen no sólo son «grandes» en el sentido literal. Es la combinación de estos datos con las técnicas analíticas avanzadas lo que convierte a Netflix una auténtica compañía de Big Data.

netflixUn vistazo a su página de ofertas de empleo es suficiente para hacerse una idea de qué interés se toma con el tema de los datos y el análisis. Busca constantemente especialistas capacitados en análisis de múltiples áreas de negocio: personalización, mensajes, distribución de contenidos, dispositivos… y una lista interminable.

Sin embargo, a pesar de que Big Data se utiliza en todos los aspectos del negocio de Netflix, el Santo Grial ha sido siempre el de predecir lo que sus clientes podrán disfrutar viendo. Los análisis Big Data son el combustible que enciende los «motores de recomendación» diseñados a este propósito.

La predicción de los hábitos de visualización

Comenzaron a trabajar en ello en 2006, cuando la compañía era principalmente un negocio de DVD por correo electrónico (el streaming comenzó un año más tarde). Entonces fue cuando puso en marcha el premio Netflix, que ofrecía un millón de dólares para el grupo que creara el mejor algoritmo de predicción del resultado de una película, basado en las calificaciones anteriores. El algoritmo ganador llegó en 2009 y aunque se sigue revisado ​​y mejorado continuamente, sigue siendo un elemento clave en el motor de recomendación. viendo tele

Al principio, sólo disponían de cuatro datos de clientes: ID de cliente, ID de la película, de calificación y la fecha en que la película fue vista; pero, cuando el streaming se convirtió en el principal método de entrega, empezaron a recoger nuevos y muy relevante datos: la hora del día en que se ven las películas, el tiempo dedicado a seleccionar películas, con qué frecuencia se detuvo la reproducción (ya sea por el usuario o por las limitaciones de la red…), etc. Todos estos datos tuvieron un efecto importante en los algoritmos, acertando cada vez más en las recomendaciones y consiguiendo cada vez más suscriptores felices.

Otro elemento central de Netflix (al igual que otros recomendadores) son las etiquetas con la valoración de los usuarios. Inicialmente, ofrecen una compensación a algunos usuarios por ver películas y etiquetarlas con algunos elementos que contiene la película. Después de ver una película, te sugerirá ver otras producciones con etiquetas similares, lo cual produce que, en ocasiones, surjan sugerencias un tanto dispares, o que se recomiende una película que tiene una valoración baja. Lo que ocurre es que la predicción de los algoritmos, ha superado la ponderación de las etiquetas, para asegurar que la película será de nuestro interés.

Hay mucha ciencia detrás de ese proceso, por el cual Netflix ha definido casi 80.000 nuevos «micro-géneros» de películas basada en nuestros gustos y hábitos de consumo.

Cambio de modelo de negocio

El siguiente paso en la evolución de Netflix, es posicionarse como un creador de contenido, no sólo como distribuidor para estudios de cine y otras redes. Su estrategia ha sido firmemente impulsada por sus datos, que mostraron que sus abonados tenían un apetito voraz por el contenido que dirigía David Fincher y protagonizaba Kevin Spacey. Después de ofertar los derechos de la serie a las principales cadenas, estaban seguros de que de su modelo podía crear la serie de televisión perfecta, que tras la realización de un piloto, encargaron de inmediato dos temporadas con 26 episodios: House of Cards.

house of cardsTodos los aspectos de la producción estaban bajo el control de Netflix y la información proporcionada por sus datos; por ejemplo, cómo seleccionaron la gama de colores utilizados en la imagen de portada de la serie para atraer más a los espectadores.

La última métrica que Netflix espera mejorar es el número de horas que los clientes pasan utilizando sus servicios. Realmente no se necesitan estadísticas para saber que los espectadores que no utilizan mucho los servicios, pensarán que no les compensa pagar y posiblemente cancelarán la suscripción.

Calidad de experiencia

Para evitar las cancelaciones, Netflix analiza los factores que afectan a la «calidad de la experiencia» y construye modelos para explorar cómo esto afecta el comportamiento del usuario.

Aunque su base de datos de películas y programas de televisión se encuentra alojado en su propia red interna de servidores, también se ve en todo el mundo a través de internet. Además de mejorar la experiencia del usuario mediante la reducción de retraso durante la transmisión de contenido, reduce los costes de los proveedores de Internet, evitando de el coste de descargar los datos desde un servidor Netflix antes de pasarlo a los espectadores en casa.se ve mal tv

Netflix ha utilizado datos y análisis de Big Data para posicionarse como el claro líder de la manada. Lo ha hecho mediante la adopción de otras redes de distribución y de producción en su propio juego, y superando a través un innovador y en constante evolución uso de datos. Mediante la recopilación de datos de usuarios finales, analizan cómo la ubicación física del contenido afecta a la experiencia del espectador, asegurando un servicio óptimo al mayor número de hogares posible. Cosas como un retraso debido a buffering (tasa rebuffer) y el bitrate (que afecta a la calidad de la imagen: si estás viendo una película en Netflix que parece cambiar de alta definición a algo borroso repentinamente, se trata de una caída de la tasa de bits) se recogen y analizan para mejorar la experiencia del cliente.

Se enfrenta a la competencia, ahora y en el futuro, siendo una de las principales Amazon, que adquirió en el Reino Unido a Lovefilm, rival de Netflix, en 2011. ¿Conseguirá Amazon, pionero en el arte de recomendaciones antes de que Netflix existitiera, desbancarlo de su posición líder de los proveedores de contenidos en streaming? Por no hablar de que Apple está a punto de lanzar su nuevo servicio de Apple TV para competir en este espacio. El tiempo dirá, pero la carrera para desarrollar estrategias analíticas más precisas y profundas que será un partido decisivo clave. ¿Hacemos apuestas?