Los retos que nos plantean los nuevos usuarios y entornos digitales

Vivimos actualmente en un momento de disrupción digital, en que nos movemos hacia el nuevo mundo, mucho más interrelacionado con el cliente como centro de cualquier negocio. Un cliente que cada vez es más exigente, más informado y poderoso, que busca inmediatez y que espera comunicarse y relacionarse con las marcas por medio de todos los canales, ya sean los tradicionales o los digitales (móvil, redes sociales, email, etc.). 

Es el nuevo cliente, que ante la gran oferta que tiene a su alcance, se decanta por aquellas marcas que le ofrecen experiencias diferenciales y personalizadas.

Nuevo Cliente

Según el estudio “The consumer conversation” realizado por IBM y Econsultancy, existe una gran diferencia entre la percepción que tienen las marcas y lo que los clientes opinan: el 80% de las empresas dicen tener una visión completa de cada uno de sus clientes, mientras que solo el 22% de los clientes tienen la percepción de ser tratados como individuos por sus marcas. En un momento en que la lealtad a la marca es bastante débil, la falta de interacciones y acciones que “enganchen” a los clientes puede llevar a perderlos en beneficio de la competencia.

En base a este mismo estudio, casi la mitad de los clientes consultados dijeron que habían cambiado de proveedores de ciertos servicios en los últimos 12 meses como consecuencia del servicio recibido por esas empresas. Las marcas no pueden permitirse ignorar estos datos y deben utilizar herramientas que les permitan identificar nuevas tendencias y anticiparse a futuros comportamientos, poniendo en marcha acciones con el fin de mejorar la experiencia de los clientes y mantener su fidelidad.

¿Qué medidas tomar y qué pasos seguir desde el área de marketing? Hay tres puntos que, desde MSMK, consideramos fundamentales:

  • Priorizar la experiencia del cliente: hemos visto que los clientes evalúan su experiencia con las marcas más allá de los precios. Según Gartner (en su informe “Predicts 2015: IT Leaders Will Need to Develop a Stronger Relationship With Marketing»), para 2018, las  marcas que ofrecen personalización venderán un 15 por ciento más que las que no lo hagan. Por ello, ofrecer una experiencia de cliente excepcional se ha convertido en el principal objetivo de aquellas marcas que quieren mantener su competitividad. Para hacerlo, deben diseñar la experiencia que quieren que sus clientes tengan, asegurándose de disponer de la tecnología apropiada para recopilar todos los datos de los clientes y llevar a cabo aquellas interacciones que aumenten su nivel de lealtad hacia la marca.
  • La importancia de utilizar analítica avanzada: desde el comportamiento predictivo al cognitivo, la analítica avanzada permite conocer en profundidad a los clientes y desbloquear esa puerta de la personalización, tan solo respondiendo a cuestiones críticas como: ¿Cómo se siente tu cliente hoy? o ¿Cómo crees que ha percibido el último de tus lanzamientos o el trato recibido en su última compra? O bien, ¿qué está diciendo de tu marca en las redes sociales?

analitica

  • La confianza es la clave para un mayor conocimiento: ganarse la confianza es de vital importancia. Proporcionando experiencias altamente personalizadas, no sólo estás conectando con tus clientes, sino que estás construyendo una relación sólida y de valor, algo impensable hace unos años.

Emérito Martínez.

Chief Digital Officer en MSMK – Madrid School of Marketing.

Entrevista a Luis Ortiz, en la celebración de las 20 Ediciones de Programas de Postgrado en Big Data y Analytics de MSMK

«DESDE LA ESCUELA HAY UNA PREOCUPACIÓN CONSTANTE PARA QUE LOS ALUMNOS ADQUIERAN LAS CAPACIDADES FUNCIONALES Y TÉCNICAS NECESARIAS QUE LES PERMITAN DESENVOLVERSE CON SOLTURA EN ESTOS ENTORNOS DE GESTIÓN DE TAL CANTIDAD DE DATOS TAN ANALÍTICOS»

Son más de 25 los años que lleva trabajando en el mundo de los datos. Comenzó recorriendo medio Mundo con Accenture, empapándose de lleno en temas de CRM y Business Intelligence y, desde hace 10 años, lidera proyectos de Big Data, BI, ERP y CRM en Viewnext, empresa filial de IBM. No podemos hablar de MSMK sin nombrarle a él, a Luis Ortiz, ya que desde los inicios de la Escuela creyó y apoyó firmemente en el proyecto Big Data, hasta llegar a convertirse en el director del área. Hoy, en la celebración de la 20 edición de programas de posgrado en Big Data y Analytics, Luis nos cuenta cómo ha sido el camino para llegar hasta aquí y profundiza en el valor diferenciador de la Escuela y del área.

Luis ortiz

  1. Resúmenos en unas líneas tu trayectoria profesional, hasta llegar a MSMK.

Comencé mi vida profesional en Andersen Consulting, lo que hoy es Accenture. Estuve durante casi 15 años. Durante este tiempo estuve trabajando en temas de CRM y Business Intelligence para empresas de primer nivel en España y en el extranjero. Tuve la oportunidad de trabajar en Francia, Alemania, Suiza, Holanda, Italia, Venezuela, Méjico, Brasil y Estados Unidos desarrollando mi actividad profesional siempre en las áreas de Marketing y Ventas, en temas íntimamente relacionados con la tecnología.

Después me incorporé a Insa lo que hoy es Viewnext, empresa afiliada de IBM. Durante estos 10 últimos años en Viewnext también he tenido la oportunidad de continuar liderando proyectos en las áreas de CRM, Business Intelligence, ERP y Big Data. En los dos últimos años he desarrollado las funciones de dirección y gestión en el proyecto ‘Madrid Inteligente’ del Ayuntamiento de Madrid. Es este el proyecto más completo de Smart Cities que tienen Viewnext e IBM a nivel mundial hasta la fecha.

  1. ¿Por qué decidiste apostar por el proyecto de MSMK?

Empecé como profesor en MSMK. Había impartido clases en otras escuelas de negocio, sin embargo cuando llegué a MSMK me gustó mucho la forma que tenía de hacer las cosas. La dirección académica, la dirección de las clases, el trato que se da a los alumnos. Después cuando se me ofreció la dirección del área de Business Intelligence & Big Data y he tenido la oportunidad de trabajar ‘codo con codo’ con todas las personas de la Escuela y del claustro de profesores no he hecho más que confirmar la opinión que ya tenía. Creo que  al final es la suma de todas estas cosas las que hacen un proyecto docente atractivo y por el que merece la pena apostar.

«En MSMK se está permanentemente pendiente del mercado, de la evolución de las tecnologías y de la búsqueda constante de los mejores docentes para poder ofrecer a los alumnos Masters y Programas adecuados a las necesidades reales de las empresas»

  1. ¿Cuál es el valor diferenciador de la Escuela y del área Big Data & Analytics?

Considero que desde la Escuela se está permanentemente pendiente del mercado, de la evolución de las tecnologías y de la búsqueda constante de los mejores docentes para poder ofrecer a los alumnos Masters y Programas adecuados a las necesidades reales de las empresas. El claustro lo componen profesores que desarrollan su actividad profesional trabajando para empresas que compiten en el mercado nacional e internacional y tiene esa vocación docente que les lleva a querer enseñar lo que van aprendiendo después de mucho esfuerzo diario. Esto hace que las clases tengan un componente muy práctico.

Así mismo considero que, en este momento, no hay otros Masters y Programas similares en el mercado. Las alianzas y acuerdos con empresas del mundo del Big Data y área de Analytics como SAS e IBM hacen que podamos disponer en las clases de herramientas de primer nivel.

MSMK

Desde la Escuela hay una preocupación constante para que los alumnos adquieran las capacidades funcionales y técnicas necesarias que les permitan desenvolverse con soltura en estos entornos de gestión de tal cantidad de datos y tan analíticos. También se les prepara a través del desarrollo de los Proyectos Fin de Master para que sean capaces de trabajar en equipo, desarrollar y realizar presentaciones de forma eficaz. En definitiva, que cuando cada alumno termine el Máster o el Programa correspondiente haya aumentado la probabilidad de encontrar un nuevo empleo o incluso promocionar dentro de su empresa actual.

  1. Este año celebramos las 20 ediciones de Programas de Postgrado en nuestra área de Big Data y Analytics. ¿Qué consejos darías a los futuros alumnos?, ¿por qué recomendarías estudiar en MSMK?

A los alumnos que quieran estudiar en nuestra Escuela en el área de Big Data y Analytics les animaría a hacerlo con entusiasmo y con muchas ganas de aprender. Somos exigentes y estamos convencidos que cuánto más esfuerzo se dedica  a las materias mayor es el aprovechamiento de los Masters y Programas y  también la satisfacción personal de cada alumno. Estas son áreas de conocimiento que van cogiendo cada vez más fuerza en el mercado. Son perfiles muy demandados y que hoy no hay tantos como se precisan. Recomiendo hacerlo en MSMK porque es una escuela seria y que se ocupa de que sus alumnos salgan bien preparados a un entorno profesional cada vez más exigente.

Tres diferencias claves entre Big Data y Analytics

Organizaciones de todo el mundo y numerosas industrias, están empleando la filosofía del big data con el fin de obtener un mayor conocimiento y visión de sus negocios y de mejorar los procesos. Sin embargo, no es raro que muchos ejecutivos se pregunten si el big data es sólo analítica.

bigData Analytics

Los dos pueden estar relacionados, pero hay diferencias fundamentales entre ellos, según Andrew McAfee, principal director científico de investigación en el Instituto de Tecnología de Massachusetts (MIT) y Erik Brynjolfsson, profesor de Schussel Family en la Sloan School of Management del MIT.

En un artículo de la revista Harvard Business Review, los dos señalan tres puntos clave donde el big data es diferente a analytics:

Volumen – Una investigación realizada por International Data Corporation (IDC), indicaba que la cantidad global de datos digitales crecerá de 130 exabytes a 40.000 exabytes en 2020.

Por ejemplo, Walmart acumula más de 2,5 petabytes de datos cada hora tan sólo a través de las transacciones de los clientes. Un petabyte son mil billones de byte o, aproximadamente, el equivalente a 20 millones de cajas de documentos. Hay que tener en cuenta que el 90 por ciento de los datos de hoy han sido creados sólo en los últimos dos años.

Velocidad – La velocidad de datos es aún más importante que el volumen. El acceso a la información en tiempo real permite a las organizaciones ser más rápidas que sus competidores en la toma de decisiones y en la ejecución de movimientos.

Por ejemplo, un grupo de investigadores del MIT Media Lab utilizaron datos de ubicación de teléfonos móviles para determinar cuántas personas estaban en el aparcamiento de Macy´s el Viernes Negro (día de inicio de las compras de Navidad en Estados Unidos). Esto les permitió estimar las ventas de la compañía retail en ese día, incluso antes de que Macy´s fuese capaz de registrar sus ventas reales.

Variedad – El big data llega de muchas formas. Puede venir en forma de imágenes publicadas en Facebook, en correo electrónico, en mensajes de texto, en las señales GPS de los teléfonos móviles, en los mensajes de twitter y en otras notificaciones de redes sociales.

Estas formas de datos se conocen comúnmente como datos no estructurados. Cada persona hoy en día es potencialmente un generador de datos andante. Sin embargo, son datos que no se organizan en base de datos.

Las bases de datos estructuradas que almacenan más información corporativa no son muy adecuadas para almacenar y procesar grandes volúmenes de datos.

Al mismo tiempo, los elementos informáticos, como el almacenamiento, la memoria, el procesamiento y el ancho de banda son cada vez más baratos, por lo que es más económico para las empresas llevar a cabo enfoques de datos intensivos que analizar la información.

El big data puede estar no estructurado y ser difícil de manejar, pero hay una gran cantidad de señales vitales entre todo el «ruido» que lo acompaña. El valor está a la espera de ser explotado.

Artículo escrito por Nestor E. Arellano. Visto en http://www.itworldcanada.com/

 

14 usos que tienen las aplicaciones Business Intelligence Analytics

Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc.; pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo Analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadísticas y de Machine Learning.

apps BI Analytics

He aquí unos ejemplos:

  1. Business experiments: Experimentos de negocio, diseño experimental y testing AB. Todas ellas son técnicas para probar la validez de algo – ya sea una hipótesis estratégica, un nuevo packaging o un enfoque de marketing. Se trata, básicamente, de probar algo en una parte de la organización y luego compararlo con otra, donde no se realizaron los cambios (utilizada como grupo de control). Es útil si tenemos dos o más opciones entre las que decidir.
  2. Visual analytics: Los datos pueden analizarse de diferentes maneras y es la forma más sencilla para crear una imagen o gráfico y mirarlo para detectar patrones. Se trata de un enfoque integrado que combina el análisis de datos con la visualización de los mismos y la interacción humana. Es especialmente útil cuando se está tratando de dar sentido a un gran volumen de datos.
  3. Correlation analysis: Es una técnica estadística que te permite determinar si existe una relación entre dos variables independientes y lo fuerte que esa relación puede ser. Es muy útil cuando se sabe o se sospecha que existe una relación entre dos variables y nos gustaría probar su hipótesis.
  4. Regression analysis: El regression analysis o análisis de regresión es una herramienta estadística para investigar la relación entre las variables; por ejemplo, ¿existe una relación causal entre el precio y la demanda del producto? Lo usaremos cuando creemos que una variable está afectando a otras y deseamos establecer si esta hipótesis es verdadera.
  5. Scenario analysis: El scenario analysis, también conocido como horizonte de análisis o análisis de retorno total, es un proceso analítico que permite analizar una variedad de posibles acontecimientos o escenarios futuros, considerando los posibles resultados alternativos. Se usa cuando uno está seguro de la decisión que tomar o del curso de acción a seguir.
  6. Forecasting/time series analysis: Son datos que se recogen a intervalos uniformemente espaciados. El análisis de series temporales explora estos datos para extraer estadísticas significativas o características de los datos. Se utiliza cuando se quieren evaluar los cambios en el tiempo o predecir acontecimientos futuros a partir de lo que ha sucedido en el pasado.
  7. Data mining: Es un proceso analítico diseñado para explorar los datos (por lo general conjuntos muy grandes de datos relacionados con la empresa, también conocido como «Big Data»), en busca de ideas «comercialmente» relevantes, patrones o relaciones entre las variables que pueden mejorar el rendimiento y desempeño. Por tanto, es útil cuando se tienen grandes conjuntos de datos, de los cuales queremos extraer ideas y conclusiones.
  8. Text analytics: También conocido como text mining, el text analytics es un proceso basado en extraer valor de grandes cantidades de datos de texto no estructurados. Se puede utilizar en numerosas situaciones, incluyendo la recuperación de información, el reconocimiento de patrones, el etiquetado y la anotación, la extracción de información, la evaluación de sentimiento y en los análisis predictivos.
  9. Sentiment analysis: El «análisis de sentimientos», también conocido opinion mining, pretende extraer la opinión subjetiva o sentimientos de datos de texto, vídeo o audio. El objetivo fundamental es determinar la actitud de un individuo o grupo con respecto a un tema en particular o un contexto global. Es recomendable utilizarlo cuando queremos comprender la opinión de las partes interesadas (stakeholders).
  10. Image analytics: El análisis de imágenes es el proceso de extracción de información, significados y puntos de vista a partir de imágenes, tales como fotografías, imágenes médicas o gráficos. Se trata de un proceso basado en gran medida en el reconocimiento de patrones, la geometría digital y el procesamiento de señales. El análisis de imagen tiene numerosos usos, como por ejemplo el reconocimiento facial con fines de seguridad.
  11. Video analytics: El análisis de vídeo es el proceso de extracción de información, significados y puntos de vista desde secuencias de vídeo. Incluye todo lo que hace el análisis de imagen, añadiendo que también puede medir y rastrear el comportamiento. Se podría utilizar si queremos saber más acerca de quién está visitando nuestra tienda o local y lo que están haciendo cuando llegan allí.
  12. Voice analytics: El análisis de voz, también conocido como análisis de conversación (speech analytics), es el proceso de extracción de información a través de grabaciones de audio de las conversaciones. Esta forma de análisis puede analizar los temas o las palabras y frases actuales que se utilizan, así como el contenido emocional de la conversación. Se podría utilizar análisis de voz en un call center para ayudar a identificar las quejas de los clientes recurrentes o los problemas técnicos.
  13. Monte Carlo Simulation: La simulación Monte Carlo es una técnica de resolución de problemas matemáticos y de evaluación del riesgo que nos aproxima la probabilidad de ciertos resultados y el riesgo de los mismos, utilizando simulaciones computarizadas de variables aleatorias. Es útil para entender mejor las implicaciones y ramificaciones de un determinado curso de acción o decisión.
  14. Linear programming: También conocido como optimización lineal (linear optimization), es un método de identificación de los mejores resultados, basado en un conjunto de restricciones utilizando un modelo matemático lineal. Te permite resolver problemas que implican minimizar y maximizar las condiciones, tales como la forma de maximizar los beneficios y minimizar los costes. Es útil si tenemos una serie de limitaciones, como el tiempo, materias primas, etc., y queremos saber la mejor combinación o dónde dirigir nuestros recursos para el beneficio máximo.

Artículo visto en http://todobi.blogspot.com.es/

“Trabajar en un mayorista de IT como Arrow ECS me ha aportado una visibilidad muy amplia de todo el ecosistema informático”

Entrevista a José Luis Lamas, SAS-Business Development Manager en Arrow ECS Spain y antiguo alumno del Máster en Business Intelligence y Big Data de MSMK – Madrid School of Marketing

Jose Luis Lamas

Pregunta: Se cumple ahora un año desde que ocupas el puesto de SAS-Business Development Manager en Arrow ECS Spain. Háblanos de Arrow ECS y de las funciones que desempeñas dentro de la empresa.

Respuesta: Arrow ECS es un mayorista de soluciones informáticas, que pertenece al grupo Arrow. Concretamente, Arrow ECS es la empresa del grupo especializada en soluciones y tecnología informática para el mundo empresarial. El puesto que cubro, desde febrero de 2015, surge a propósito de la distribución a nivel internacional del software de SAS Institute, líder mundial en soluciones de Business Analytics. Actualmente ambas corporaciones están desarrollando un nuevo canal de ventas a través de Partners Resellers que se está implementando en diferentes países como España, Francia, Holanda o Inglaterra, además de Estados Unidos.

Logo Arrow ECS

¿Mis funciones? Trabajo codo a codo con el equipo de canal del fabricante SAS en España, un equipo que se dedica a potenciar las ventas de herramientas y soluciones de SAS, principalmente para Mid-Market. Para llegar a este mercado, hemos realizado una primera fase de recruiting de partners (consultoras tecnológicas, principalmente del ámbito de Business Intelligence y de Business Analytics). Mi función es ayudar al fabricante a posicionar sus soluciones dentro de esta red de partners y, a su vez, ayudar a los partners a que posicionen estas soluciones en su cliente final. A partir de ahí, surgen muchas más tareas: cubro una parte de Marketing Estratégico y Planificación de Negocio, otra parte de gestión del Ciclo de las Ventas; y muchas más tareas propias de la gestión de un fabricante de Software. Al fin y al cabo, hay un canal completamente bidireccional entre fabricante y mayorista.

P: ¿Qué supone profesionalmente estar en una consultora IT y mayorista de soluciones de seguridad informática como Arrow ECS?

R: Arrow ECS nace en los años 90 dentro del grupo Arrow con el objetivo de ser un mayorista de valor, ocupando actualmente plazas de liderazgo a nivel mundial, así como en el mercado español. En Arrow ECS, además del servicio propio de distribución de tecnología informática, se ofrecen Soluciones Financieras, de Marketing, Soporte y Formación cualificada, que conforman esa apuesta de valor que nos distingue de nuestros competidores.

A nivel personal, trabajar en un mayorista de IT me ha aportado una visibilidad muy amplia de todo el canal, de todo el ecosistema informático. Es un ciclo donde hago tantas cosas diferentes, que me ha dado mucha “cintura”, aprendiendo y desarrollando muchos más conceptos y responsabilidades.

P: ¿Cómo fue el camino, profesionalmente, hasta llegar hasta aquí?

R: Dentro del mundo informático he tenido “varias vidas”. Estudié Ingeniería Informática y empecé trabajando en la parcela más técnica y de soporte. Posteriormente participé en proyectos de desarrollo de Software; pero finalmente decidí cambiar el rumbo porque a nivel personal me sentía más cómodo en el área de negocio. Durante una primera etapa trabajé en la venta de soluciones de IBM Cognos y también soluciones del fabricante SAP.

Tras una segunda etapa más enfocado al ámbito de Quality Assurance de Software, finalmente llegué a Arrow ECS, que ha sido un total acierto.

logo SAS

P: ¿Cómo te ayudó el Máster de Bussiness Intelligence en tu carrera profesional?

R: De Madrid School of Marketing me llamó enormemente la atención el claustro de profesores, que luego se materializó en las clases. Todos ellos tenían una experiencia espectacular, siendo líderes en compañías de muy alto nivel; gente muy especializada en temas de gestión de la información… Elegí MSMK precisamente por la especialización que aportaba y, a pesar de ser una escuela relativamente nueva, decidí arriesgarme. Sin duda, no me equivoqué: el máster me aportó una mayor profundidad de conocimientos de todo el espectro de BI.

P: ¿Qué aspectos valoras de manera más positiva?

R: La oportunidad de conocer in situ a gente que está liderando proyectos de tan alto nivel en compañías reales, que además me trasladaron directamente su experiencia propia y fueron capaces de darme unas pautas bajo su experiencia personal. Por otro lado, también me gustó que el programa fuese tan completo, ya que, más allá de tocar todos los ámbitos de Business Intelligence, nos adentramos en fundamentos de Marketing.

También se impartieron temas comerciales, de habilidades personales y directivas, hicimos talleres en el ámbito de la psicología empresarial, nos prepararon para hablar en público y hacer presentaciones…

 P: ¿Qué retos profesionales afrontarás en los próximos meses?

 R: Para Arrow, Business Analytics es un área estratégica, con lo cual trabajar con SAS dentro de la Arrow es algo que me atrae mucho y que va a tomar gran forma en un futuro. Un auténtico reto tanto personal como para la compañía.

Introducción a las Bases de datos

images-6

Una base de datos es un almacén que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

Por lo general, es almacén de información que contienen datos relativos a diversas temáticas, categorizados de distintas maneras, pero que comparten entre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto.

En este sentido, una biblioteca puede considerarse una base de datos compuesta en su mayoría por documentos y textos impresos en papel e indexados para su consulta; o un armario, con la ropa colocada en baldas, percheros y cajones. La mayoría de las bases de datos, y a las que nos vamos a referir aquí, son las que están en formato digital, que ofrecen un amplio rango de soluciones al problema del almacenamiento de datos.

Existen programas denominados sistemas gestores de bases de datos, abreviado SGBD (del inglés Database Management System o DBMS), que permiten almacenar y posteriormente acceder a los datos de forma rápida y estructurada. Las propiedades de estos DBMS, así como su utilización y administración, son diversas. Vamos a comentar la tipología según su modelo de administración de datos y su uso:

Bases de datos relacionales

images-8

Este es el modelo utilizado en la actualidad para representar problemas reales y administrar datos dinámicamente. Su idea fundamental es el uso de «relaciones». Sus componentes principales son tablas (algo así como una tabla de Excel), que están compuesta por registros (las filas de una tabla), y campos (las columnas de una tabla). Las tablas se relacionan a través de los campos comunes en cada tabla (clientes, productos, etc.)

La información puede ser recuperada mediante «consultas» que ofrecen una amplia flexibilidad y poder para administrar la información.

El lenguaje más habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language o Lenguaje Estructurado de Consultas, un estándar implementado por los principales motores o sistemas de gestión de bases de datos relacionales.

Durante su diseño, una base de datos relacional pasa por un proceso al que se le conoce como normalización de una base de datos, que asegura la coherencia entre los datos (ej.: que no tengamos un cliente en una factura que no esté en la tabla de clientes).

 

Bases de datos multidimensionalesimages-9

Son bases de datos ideadas para desarrollar aplicaciones muy concretas, el análisis de datos organizados a través de dimensiones, mediante Cubos OLAP (on line analytical processing). Básicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podría serlo también en una base de datos multidimensional); la diferencia está más bien a nivel conceptual. En las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos: o bien representan dimensiones de la tabla, o bien representan métricas que se desean consultar.

Están muy indicadas en las áreas de Business Intelligence y para la elaboración de cuadros de mando.

 

Bases de datos documentales

Permiten la indexación a texto completo y, en líneas generales, realizar búsquedas más potentes. Sirven para almacenar grandes volúmenes de información de antecedentes históricos.

 

Bases de datos jerárquicas

images-7En este modelo, los datos se organizan en forma de árbol invertido, donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padres es llamado raíz, y a los nodos que no tienen hijos se los conoce como hojas.

Las bases de datos jerárquicas son especialmente útiles en el caso de aplicaciones que manejan un gran volumen de información y datos muy compartidos permitiendo crear estructuras estables y de gran rendimiento.

Una de las principales limitaciones de este modelo es su incapacidad de representar eficientemente la redundancia de datos.

 

 

Bases de datos deductivas

Un sistema de base de datos deductiva, es un sistema de base de datos con la diferencia de que permite hacer deducciones a través de inferencias. Se basa principalmente en reglas y hechos que son almacenados en la base de datos. Las bases de datos deductivas son también llamadas bases de datos lógicas, a raíz de que se basan en lógica matemática. Este tipo de base de datos surge debido a las limitaciones de la Base de Datos Relacional de responder a consultas recursivas y de deducir relaciones indirectas de los datos almacenados en la base de datos.

 

Bases de datos orientadas a objetos

imagesLas bases de datos orientadas a objetos se crearon para tratar de satisfacer las necesidades de estas nuevas aplicaciones. La orientación a objetos ofrece flexibilidad para manejar algunos de estos requisitos y no está limitada por los tipos de datos y los lenguajes de consulta de los sistemas de bases de datos tradicionales. Una característica clave de las bases de datos orientadas a objetos es la potencia que proporcionan al diseñador al permitirle especificar tanto la estructura de objetos complejos, como las operaciones que se pueden aplicar sobre dichos objetos.

En bases de datos orientadas a objetos, los usuarios pueden definir operaciones sobre los datos como parte de la definición de la base de datos. Una operación (llamada función) se especifica en dos partes. La interfaz (o signatura) de una operación incluye el nombre de la operación y los tipos de datos de sus argumentos (o parámetros). La implementación (o método) de la operación se especifica separadamente y puede modificarse sin afectar la interfaz. Los programas de aplicación de los usuarios pueden operar sobre los datos invocando a dichas operaciones a través de sus nombres y argumentos, sea cual sea la forma en la que se han implementado. Esto podría denominarse independencia entre programas y operaciones.

 

 

 

 

 

 

 

La Importancia de Apellidarse García

No todo análisis de datos del INE es aburrido.

2.968.434 personas en España son García de primer o segundo apellido. Casi 81.000 se distinguen por apellidarse García García. Son datos de la Estadística del Padrón Continuo publicados por el INE.

En un país de 46,4 millones de habitantes esto implica que cerca del 6,4% de la población es García.

guia-telefonos_articuloTres apellidos son portados por 1,9 millones de individuos cada uno: González, Rodríguez y Fernández.

Muy de cerca les siguen los López (1,8 millones), Martínez y Sánchez (1,7 millones) y los Pérez (1,6 millones).

Uno de cada tres españoles puede presumir de apellidarse con, al menos, una de las ocho anteriores opciones.

Es más, si incluimos los siguientes 13 apellidos más frecuentes, ya se abarcaría a un 50% de la población. No me resisto a enumerarlos, en orden decreciente: Gómez, Martín, Jiménez, Ruiz, Hernández, Díaz, Moreno, Álvarez, Muñoz, Romero, Alonso, Gutiérrez y Navarro.

En la provincia de Madrid la concentración aun es mayor: más de un 8% de los nacidos en Madrid porta en su DNI al menos una vez el apellido García. Los otros dos apellidos más frecuentes son Fernández (4,7%) y Sánchez (4,6%). Con tan solo los 14 primeros apellidos se supera la mitad de los nacidos en esta provincia y Comunidad Autónoma.

¿Es muy distinta la situación en la provincia de Barcelona? No del todo. Dominan los García entre los nacidos en Barcelona, con un 5,3% del total. Los siguientes apellidos en frecuencia son Martínez, López, Sánchez, Fernández, Rodríguez, Pérez, González, Gómez, Ruiz y Martín. Con ellos aglutinamos a un 30% del total. Lo que sí es diferente es el grado de concentración: se necesitan hasta 39 apellidos para totalizar a la mitad de los nacidos en esta provincia.

mapa-apellidos

¿Y en Guipúzcoa? Pese a que siguen dominando los García (3,5%) entre los nacidos en la provincia y estar seguidos de los González, Fernández y Rodríguez, se necesita recurrir a nada menos que 74 apellidos para aglutinar al 50% de la población analizada. Eso sí, entre los 10 apellidos más frecuentes ninguno diferente a los correspondientes al conjunto del país.

¿Se aprecian diferencias entre provincias de Castilla? Obviamente, sí. Albacete solamente necesita diez apellidos para alcanzar al 50% de los nacidos en su demarcación, mientras que Burgos son necesarios 17 apellidos para el mismo objetivo. En ambas provincias domina, como no podía ser de otra forma, el apellido García: con un 8,7% en Burgos y casi un 13% entre los nacidos en la provincia de Albacete. Si a esto añadimos que en esta última provincia el segundo apellido (Martínez) supera el 12%, su grado de concentración queda más que explicado.

Entre los nacidos en la provincia de La Coruña, García vuelve a ser el apellido dominante (6,8%). Son necesarios 16 apellidos diferentes para abarcar al 50% de los coruñeses. Entre los diez primeros apellidos dos que no figuran entre la decena más frecuente a nivel nacional: Vázquez (6º) y Castro (10º).

Por su parte, en Cádiz se sigue un patrón muy similar al del total del país: 18 apellidos diferentes para totalizar al 50% de los nacidos en la provincia, encabezados por García (7,3%), Sánchez (5,8%) y Rodríguez (5,4%).

España es un país abierto, con un importante volumen de residentes nacidos en el extranjero. Es precisamente en este segmento de la población donde García (1,5%) -aunque por poco- cede su habitual primer puesto a Rodríguez (1,6%). Lógicamente, en esta parcela de análisis la dispersión es mucho mayor, requiriéndose no menos de 121 apellidos diferentes para concentrar a un tercio de la población nacida en el extranjero. Con 397 apellidos alcanzaríamos a la mitad de este colectivo. Chen, con algo más de 17.000 individuos, es el primer apellido foráneo que figura entre los no nacidos en España. Ocupa el puesto 13º.

Autor: Jaime Rosado, alumno de MSMK, en su blog: https://muchomasqueanalisis.wordpress.com/

El éxito secreto de Netflix

El legendario guionista de Hollywood William Goldman dijo:film

«Nadie, nadie – ni ahora, ni nunca – sabrá una maldita cosa sobre lo que va o no a funcionar en la taquilla.»

Hablaba antes de la llegada de Internet y Big Data y, desde entonces, las películas en streaming y el servicio de televisión de Netflix ha basado su modelo de negocio en demostrar que estaba equivocado. Y lo ha conseguido.

Netflix representa un tercio del tráfico de Internet en hora punta en EE.UU. El año pasado consiguió 50 millones de suscriptores en todo el mundo y recoge y monitoriza los datos de todos ellos, para entender los hábitos de consumo. Sin embargo, los datos que recogen no sólo son «grandes» en el sentido literal. Es la combinación de estos datos con las técnicas analíticas avanzadas lo que convierte a Netflix una auténtica compañía de Big Data.

netflixUn vistazo a su página de ofertas de empleo es suficiente para hacerse una idea de qué interés se toma con el tema de los datos y el análisis. Busca constantemente especialistas capacitados en análisis de múltiples áreas de negocio: personalización, mensajes, distribución de contenidos, dispositivos… y una lista interminable.

Sin embargo, a pesar de que Big Data se utiliza en todos los aspectos del negocio de Netflix, el Santo Grial ha sido siempre el de predecir lo que sus clientes podrán disfrutar viendo. Los análisis Big Data son el combustible que enciende los «motores de recomendación» diseñados a este propósito.

La predicción de los hábitos de visualización

Comenzaron a trabajar en ello en 2006, cuando la compañía era principalmente un negocio de DVD por correo electrónico (el streaming comenzó un año más tarde). Entonces fue cuando puso en marcha el premio Netflix, que ofrecía un millón de dólares para el grupo que creara el mejor algoritmo de predicción del resultado de una película, basado en las calificaciones anteriores. El algoritmo ganador llegó en 2009 y aunque se sigue revisado ​​y mejorado continuamente, sigue siendo un elemento clave en el motor de recomendación. viendo tele

Al principio, sólo disponían de cuatro datos de clientes: ID de cliente, ID de la película, de calificación y la fecha en que la película fue vista; pero, cuando el streaming se convirtió en el principal método de entrega, empezaron a recoger nuevos y muy relevante datos: la hora del día en que se ven las películas, el tiempo dedicado a seleccionar películas, con qué frecuencia se detuvo la reproducción (ya sea por el usuario o por las limitaciones de la red…), etc. Todos estos datos tuvieron un efecto importante en los algoritmos, acertando cada vez más en las recomendaciones y consiguiendo cada vez más suscriptores felices.

Otro elemento central de Netflix (al igual que otros recomendadores) son las etiquetas con la valoración de los usuarios. Inicialmente, ofrecen una compensación a algunos usuarios por ver películas y etiquetarlas con algunos elementos que contiene la película. Después de ver una película, te sugerirá ver otras producciones con etiquetas similares, lo cual produce que, en ocasiones, surjan sugerencias un tanto dispares, o que se recomiende una película que tiene una valoración baja. Lo que ocurre es que la predicción de los algoritmos, ha superado la ponderación de las etiquetas, para asegurar que la película será de nuestro interés.

Hay mucha ciencia detrás de ese proceso, por el cual Netflix ha definido casi 80.000 nuevos «micro-géneros» de películas basada en nuestros gustos y hábitos de consumo.

Cambio de modelo de negocio

El siguiente paso en la evolución de Netflix, es posicionarse como un creador de contenido, no sólo como distribuidor para estudios de cine y otras redes. Su estrategia ha sido firmemente impulsada por sus datos, que mostraron que sus abonados tenían un apetito voraz por el contenido que dirigía David Fincher y protagonizaba Kevin Spacey. Después de ofertar los derechos de la serie a las principales cadenas, estaban seguros de que de su modelo podía crear la serie de televisión perfecta, que tras la realización de un piloto, encargaron de inmediato dos temporadas con 26 episodios: House of Cards.

house of cardsTodos los aspectos de la producción estaban bajo el control de Netflix y la información proporcionada por sus datos; por ejemplo, cómo seleccionaron la gama de colores utilizados en la imagen de portada de la serie para atraer más a los espectadores.

La última métrica que Netflix espera mejorar es el número de horas que los clientes pasan utilizando sus servicios. Realmente no se necesitan estadísticas para saber que los espectadores que no utilizan mucho los servicios, pensarán que no les compensa pagar y posiblemente cancelarán la suscripción.

Calidad de experiencia

Para evitar las cancelaciones, Netflix analiza los factores que afectan a la «calidad de la experiencia» y construye modelos para explorar cómo esto afecta el comportamiento del usuario.

Aunque su base de datos de películas y programas de televisión se encuentra alojado en su propia red interna de servidores, también se ve en todo el mundo a través de internet. Además de mejorar la experiencia del usuario mediante la reducción de retraso durante la transmisión de contenido, reduce los costes de los proveedores de Internet, evitando de el coste de descargar los datos desde un servidor Netflix antes de pasarlo a los espectadores en casa.se ve mal tv

Netflix ha utilizado datos y análisis de Big Data para posicionarse como el claro líder de la manada. Lo ha hecho mediante la adopción de otras redes de distribución y de producción en su propio juego, y superando a través un innovador y en constante evolución uso de datos. Mediante la recopilación de datos de usuarios finales, analizan cómo la ubicación física del contenido afecta a la experiencia del espectador, asegurando un servicio óptimo al mayor número de hogares posible. Cosas como un retraso debido a buffering (tasa rebuffer) y el bitrate (que afecta a la calidad de la imagen: si estás viendo una película en Netflix que parece cambiar de alta definición a algo borroso repentinamente, se trata de una caída de la tasa de bits) se recogen y analizan para mejorar la experiencia del cliente.

Se enfrenta a la competencia, ahora y en el futuro, siendo una de las principales Amazon, que adquirió en el Reino Unido a Lovefilm, rival de Netflix, en 2011. ¿Conseguirá Amazon, pionero en el arte de recomendaciones antes de que Netflix existitiera, desbancarlo de su posición líder de los proveedores de contenidos en streaming? Por no hablar de que Apple está a punto de lanzar su nuevo servicio de Apple TV para competir en este espacio. El tiempo dirá, pero la carrera para desarrollar estrategias analíticas más precisas y profundas que será un partido decisivo clave. ¿Hacemos apuestas?

Spark para Dummies

sparkSpark, al igual que Hadoop, es básicamente un marco de desarrollo que proporciona una serie de plataformas interconectadas, sistemas y estándares para llevar a cabo proyectos de Big Data.

Spark también es de código abierto y pertenece a la Apache Software Foundation. De código abierto quiere decir que el código puede ser utilizado libremente por cualquier persona; aun más: puede ser modificado por cualquier persona para crear otras versiones dirigidas a resolver nuevas problemáticas. Los desarrolladores y las empresas que las producen, están constantemente refinando y actualizando los programas, añadiendo nuevas funcionalidades o mayor eficiencia. Spark fue el proyecto de Apache más participativo el año pasado, y no sólo de Apache, sino de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores en más de 200 organizaciones.

contributors spark

Según los expertos, Spark es más avanzado y más reciente que Hadoop, y está diseñado para trabajar mediante el procesamiento de fragmentos de datos «en memoria«. Esto significa que transfiere los datos de los discos duros físicos a la memoria del sistema, donde el procesamiento es mucho más rápido (hasta 100 veces más rápido en algunas operaciones).

La plataforma Spark está muy de moda, y lo utilizan muchas grandes empresas para el almacenamiento y análisis de enormes cantidades de datos multi-petabytes, debido a su velocidad: el año pasado, Spark alcanzó un récord mundial al completar una prueba de clasificación de 100 terabytes de datos en 23 minutos, cuando el récord anterior era de 71 minutos con Hadoop. Además, es idóneo para aplicaciones de Machine Learning (Aprendizaje Automático), una de las prácticas de mayor crecimiento y más emocionante dentro de las ciencias de la computación (ver post anterior).

Apache Spark está diseñado desde sus inicios para ser fácil de instalar y usar – siempre que se tengan ciertos conocimientos de informática- y para ser utilizado en múltiples aplicaciones de negocio. Muchos proveedores ofrecen sus propias versiones (al igual que  Hadoop), orientados a industrias concretas, configuraciones customizadas para proyectos y usos concretos, y servicios de consultoría para su implantación y funcionamiento .

Spark utiliza la computación en clúster (grupos de máquinas unidas por una red de alta capacidad, que funcionan como una gran máquina) para obtener una mayor potencia de cálculo y almacenamiento, lo cual se traduce en que puede utilizar los recursos de muchos procesadores unidos entre sí. Es una solución escalable, es decir, que si se necesita más capacidad, sólo se tienen que añadir más procesadores en el sistema. Con el almacenamiento distribuido, los grandes ficheros de datos recogidos para el análisis se almacenan en muchos discos duros físicos individuales más pequeños, lo cual acelera las operaciones de lectura/escritura, porque la «cabeza» que lee la información de los discos tiene menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario y, además, utiliza hardware comercial (discos duros estándar) que mantiene bajos los costes de infraestructura.

cluster
A diferencia de Hadoop, Spark no viene con su propio sistema de archivos: en vez de eso, se puede integrar con muchos sistemas de archivos incluyendo el de Hadoop HDFS, MongoDB y el sistema S3 de Amazon. Otro elemento diferencial es Spark Streaming, que permite que las aplicaciones que se desarrollen realicen análisis en streaming, datos en tiempo real, redes sociales, ficheros de log, etc. En las industrias como el marketing, el análisis en tiempo real proporciona grandes ventajas; por ejemplo, personalizar los anuncios en base al comportamiento real del usuario, en lugar de en el comportamiento histórico, aumentando la posibilidad de obtener una compra.

Una breve introducción de Apache Spark, el futuro del Big Data, que espero que resulte útil.

Introducción a Machine Learning

machineMachine learning es una de las palabras de moda en el mundo del Big Data. Es como el sexo de los adolescentes estadounidenses, todo el mundo habla de ello, todos dicen haberlo hecho pero realmente ninguno sabe lo qué es. Vamos a indagar un poco.

Esta es la definición de la Wikipedia: En ciencias de la computación el aprendizaje automático o aprendizaje de máquinas es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Es, por lo tanto, un proceso de inducción del conocimiento. En muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística, ya que las dos disciplinas se basan en el análisis de datos. Vamos a tratar de clarificarlo un poco.machine 2

La mayoría de los programas se componen de una serie de órdenes a ejecutar. Saben lo que tiene que hacer: abre un fichero, busca, compara, ordena, agrega, y muchas operaciones lógicas y matemáticas por complicadas que sean.

En Machine Learning se ofrecen una serie de programas, que a través de la recolección y el análisis de los datos existentes, pueden predecir el comportamientos futuro de los programas .

Las tres C’s del Machine Learning

Existen tres categorías bien definidas de técnicas de explotación de datos:

  • Filtros colaborativos (recomendaciones)
  • Clustering
  • Classificadores

Filtros colaborativos:

filtrosEs una técnica utilizada para recomendaciones. Uno de los primeros en aplicar esta técnica fue Amazon. Analiza los gustos de las personas y aprende para sugerir posibles nuevos gustos. Va aprendiendo cada vez. Es muy útil para ayudar a los usuarios a navegar por la red, mostrando los tópicos afines a sus intereses y gustos. Los filtros colaborativos son agnósticos respecto a los tipos de datos sobres los que trabajan, así son muy útiles trabajando en diferentes dominios.

Por ejemplo, a través de los gustos de determinados usuarios de una película, puede inferir cuáles serán las puntuaciones de los usuarios sobre las películas que no han valorado.

clusters

Clustering: descubre agrupaciones en los datos, que no estaban agrupados previamente. Busca encontrar relaciones entre variables descriptivas pero no la que guardan con respecto a una variable objetivo. Es automático.

Por ejemplo, publicaciones nuevas que están relacionadas –sin una patrón común-, o en el análisis de imágenes, grupos de pixels que se relacionan con determinados objetos.

Tanto los filtros colaborativos como el clustering son técnicas no supervisadas. No es necesario disponer de ninguna información de los datos previamente.

clasificadoresClasificadores: los clasificadores son una forma de aprendizaje supervisado. Utiliza una serie de registros con que están identificados mediante una etiqueta conocida. A partir de estos, es capaz de etiquetar nuevos registros basados en la información recopilada.

Algunos usos: etiquetar correo Spam, a partir de correos previos etiquetados como spam. A partir de tumores identificados como malignos o benignos, etiquetar nuevos tumores.