14 usos que tienen las aplicaciones Business Intelligence Analytics

Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc.; pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo Analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadísticas y de Machine Learning.

apps BI Analytics

He aquí unos ejemplos:

  1. Business experiments: Experimentos de negocio, diseño experimental y testing AB. Todas ellas son técnicas para probar la validez de algo – ya sea una hipótesis estratégica, un nuevo packaging o un enfoque de marketing. Se trata, básicamente, de probar algo en una parte de la organización y luego compararlo con otra, donde no se realizaron los cambios (utilizada como grupo de control). Es útil si tenemos dos o más opciones entre las que decidir.
  2. Visual analytics: Los datos pueden analizarse de diferentes maneras y es la forma más sencilla para crear una imagen o gráfico y mirarlo para detectar patrones. Se trata de un enfoque integrado que combina el análisis de datos con la visualización de los mismos y la interacción humana. Es especialmente útil cuando se está tratando de dar sentido a un gran volumen de datos.
  3. Correlation analysis: Es una técnica estadística que te permite determinar si existe una relación entre dos variables independientes y lo fuerte que esa relación puede ser. Es muy útil cuando se sabe o se sospecha que existe una relación entre dos variables y nos gustaría probar su hipótesis.
  4. Regression analysis: El regression analysis o análisis de regresión es una herramienta estadística para investigar la relación entre las variables; por ejemplo, ¿existe una relación causal entre el precio y la demanda del producto? Lo usaremos cuando creemos que una variable está afectando a otras y deseamos establecer si esta hipótesis es verdadera.
  5. Scenario analysis: El scenario analysis, también conocido como horizonte de análisis o análisis de retorno total, es un proceso analítico que permite analizar una variedad de posibles acontecimientos o escenarios futuros, considerando los posibles resultados alternativos. Se usa cuando uno está seguro de la decisión que tomar o del curso de acción a seguir.
  6. Forecasting/time series analysis: Son datos que se recogen a intervalos uniformemente espaciados. El análisis de series temporales explora estos datos para extraer estadísticas significativas o características de los datos. Se utiliza cuando se quieren evaluar los cambios en el tiempo o predecir acontecimientos futuros a partir de lo que ha sucedido en el pasado.
  7. Data mining: Es un proceso analítico diseñado para explorar los datos (por lo general conjuntos muy grandes de datos relacionados con la empresa, también conocido como «Big Data»), en busca de ideas «comercialmente» relevantes, patrones o relaciones entre las variables que pueden mejorar el rendimiento y desempeño. Por tanto, es útil cuando se tienen grandes conjuntos de datos, de los cuales queremos extraer ideas y conclusiones.
  8. Text analytics: También conocido como text mining, el text analytics es un proceso basado en extraer valor de grandes cantidades de datos de texto no estructurados. Se puede utilizar en numerosas situaciones, incluyendo la recuperación de información, el reconocimiento de patrones, el etiquetado y la anotación, la extracción de información, la evaluación de sentimiento y en los análisis predictivos.
  9. Sentiment analysis: El «análisis de sentimientos», también conocido opinion mining, pretende extraer la opinión subjetiva o sentimientos de datos de texto, vídeo o audio. El objetivo fundamental es determinar la actitud de un individuo o grupo con respecto a un tema en particular o un contexto global. Es recomendable utilizarlo cuando queremos comprender la opinión de las partes interesadas (stakeholders).
  10. Image analytics: El análisis de imágenes es el proceso de extracción de información, significados y puntos de vista a partir de imágenes, tales como fotografías, imágenes médicas o gráficos. Se trata de un proceso basado en gran medida en el reconocimiento de patrones, la geometría digital y el procesamiento de señales. El análisis de imagen tiene numerosos usos, como por ejemplo el reconocimiento facial con fines de seguridad.
  11. Video analytics: El análisis de vídeo es el proceso de extracción de información, significados y puntos de vista desde secuencias de vídeo. Incluye todo lo que hace el análisis de imagen, añadiendo que también puede medir y rastrear el comportamiento. Se podría utilizar si queremos saber más acerca de quién está visitando nuestra tienda o local y lo que están haciendo cuando llegan allí.
  12. Voice analytics: El análisis de voz, también conocido como análisis de conversación (speech analytics), es el proceso de extracción de información a través de grabaciones de audio de las conversaciones. Esta forma de análisis puede analizar los temas o las palabras y frases actuales que se utilizan, así como el contenido emocional de la conversación. Se podría utilizar análisis de voz en un call center para ayudar a identificar las quejas de los clientes recurrentes o los problemas técnicos.
  13. Monte Carlo Simulation: La simulación Monte Carlo es una técnica de resolución de problemas matemáticos y de evaluación del riesgo que nos aproxima la probabilidad de ciertos resultados y el riesgo de los mismos, utilizando simulaciones computarizadas de variables aleatorias. Es útil para entender mejor las implicaciones y ramificaciones de un determinado curso de acción o decisión.
  14. Linear programming: También conocido como optimización lineal (linear optimization), es un método de identificación de los mejores resultados, basado en un conjunto de restricciones utilizando un modelo matemático lineal. Te permite resolver problemas que implican minimizar y maximizar las condiciones, tales como la forma de maximizar los beneficios y minimizar los costes. Es útil si tenemos una serie de limitaciones, como el tiempo, materias primas, etc., y queremos saber la mejor combinación o dónde dirigir nuestros recursos para el beneficio máximo.

Artículo visto en http://todobi.blogspot.com.es/

Reiniciando

¿Cuál es la parte más crítica del proceso de creación de un modelo analítico? Para mí, sin duda, es la etapa que marca la definición del objetivo que se está buscando. Es necesario que Éste sea claro, preciso y alcanzable. Ya decía Herd Eldestien que, ”si sólo te dedicas a almacenar datos, sin tener un objetivo claro de para qué vas a emplearlos, estas perdido antes de haber empezado”. Esta frase toma un especial sentido en el momento actual “la era del Big Data” donde una empresa puede disponer no sólo de datos estructurados sino también no estructurados a una velocidad, volumen y variedad jamás antes visto.

Datos

Siempre he defendido que los mejores modelos predictivos son aquellos que tienen incorporados la lógica de negocio dentro de ellos, es decir, aquellos que se han construido manteniendo un equilibrio entre tres aspectos: la componente matemática, el poder predictivo que obtienen y el expertise que incorporan en ellos las personas de negocio. En el momento actual, cada vez más estrategias analíticas utilizan técnicas de machine learning, cada vez más sofisticadas, cada vez más caja negra. Nadie discute la recomendación del uso de este tipo de modelos en aquellas problemáticas que no precisan de un entendimiento de negocio y en las que su capacidad predictiva es sensiblemente mayor que las que ofrecen las técnicas tradicionales, como es el caso de estudios vinculados al campo de la visión artificial, reconocimiento de caracteres o el text mining.

Sin embargo, en problemáticas vinculadas a la adopción de decisiones comerciales y de negocio, la mejora de los métodos de machine learning no es tan manifiesta y, por ello, se hace recomendable la búsqueda de un equilibrio/competición, con las técnicas de modelización clásicas. El establecimiento de esta estrategia híbrida, nos llevará a considerar las ventajas e inconvenientes de cada uno de los dos mundos, que van desde de la consecución de resultados inmediatos , que se suele alcanzar con técnicas de ML, hasta la obtención de resultados más robustos que se suelen obtener con técnicas de modelización clásica. La elección de la estrategia final a seguir ha de marcarla tanto la naturaleza del objetivo que se quiere predecir, como la madurez analítica de la empresa.

text mining

Es importante subirse al tren de la innovación incorporando progresivamente nuevas capacidades analíticas que permitan automatizar e incrementar la efectividad de los procesos de negocio sin perder nunca de vista la componente humana, que dota de una dimensión extra a los resultados de los modelos. Se abre ante nosotros una nueva etapa en la que será necesario acelerar el proceso de aprendizaje para estar en las condiciones óptimas que nos va a exigir las nuevas necesidades de negocio.

JAVIER MONJAS PÉREZ

Responsable Data Mining en Innova-TSN

Profesor del área de Big Data y Analytics en MSMK – Madrid School of Marketing

Spark para Dummies

sparkSpark, al igual que Hadoop, es básicamente un marco de desarrollo que proporciona una serie de plataformas interconectadas, sistemas y estándares para llevar a cabo proyectos de Big Data.

Spark también es de código abierto y pertenece a la Apache Software Foundation. De código abierto quiere decir que el código puede ser utilizado libremente por cualquier persona; aun más: puede ser modificado por cualquier persona para crear otras versiones dirigidas a resolver nuevas problemáticas. Los desarrolladores y las empresas que las producen, están constantemente refinando y actualizando los programas, añadiendo nuevas funcionalidades o mayor eficiencia. Spark fue el proyecto de Apache más participativo el año pasado, y no sólo de Apache, sino de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores en más de 200 organizaciones.

contributors spark

Según los expertos, Spark es más avanzado y más reciente que Hadoop, y está diseñado para trabajar mediante el procesamiento de fragmentos de datos «en memoria«. Esto significa que transfiere los datos de los discos duros físicos a la memoria del sistema, donde el procesamiento es mucho más rápido (hasta 100 veces más rápido en algunas operaciones).

La plataforma Spark está muy de moda, y lo utilizan muchas grandes empresas para el almacenamiento y análisis de enormes cantidades de datos multi-petabytes, debido a su velocidad: el año pasado, Spark alcanzó un récord mundial al completar una prueba de clasificación de 100 terabytes de datos en 23 minutos, cuando el récord anterior era de 71 minutos con Hadoop. Además, es idóneo para aplicaciones de Machine Learning (Aprendizaje Automático), una de las prácticas de mayor crecimiento y más emocionante dentro de las ciencias de la computación (ver post anterior).

Apache Spark está diseñado desde sus inicios para ser fácil de instalar y usar – siempre que se tengan ciertos conocimientos de informática- y para ser utilizado en múltiples aplicaciones de negocio. Muchos proveedores ofrecen sus propias versiones (al igual que  Hadoop), orientados a industrias concretas, configuraciones customizadas para proyectos y usos concretos, y servicios de consultoría para su implantación y funcionamiento .

Spark utiliza la computación en clúster (grupos de máquinas unidas por una red de alta capacidad, que funcionan como una gran máquina) para obtener una mayor potencia de cálculo y almacenamiento, lo cual se traduce en que puede utilizar los recursos de muchos procesadores unidos entre sí. Es una solución escalable, es decir, que si se necesita más capacidad, sólo se tienen que añadir más procesadores en el sistema. Con el almacenamiento distribuido, los grandes ficheros de datos recogidos para el análisis se almacenan en muchos discos duros físicos individuales más pequeños, lo cual acelera las operaciones de lectura/escritura, porque la «cabeza» que lee la información de los discos tiene menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario y, además, utiliza hardware comercial (discos duros estándar) que mantiene bajos los costes de infraestructura.

cluster
A diferencia de Hadoop, Spark no viene con su propio sistema de archivos: en vez de eso, se puede integrar con muchos sistemas de archivos incluyendo el de Hadoop HDFS, MongoDB y el sistema S3 de Amazon. Otro elemento diferencial es Spark Streaming, que permite que las aplicaciones que se desarrollen realicen análisis en streaming, datos en tiempo real, redes sociales, ficheros de log, etc. En las industrias como el marketing, el análisis en tiempo real proporciona grandes ventajas; por ejemplo, personalizar los anuncios en base al comportamiento real del usuario, en lugar de en el comportamiento histórico, aumentando la posibilidad de obtener una compra.

Una breve introducción de Apache Spark, el futuro del Big Data, que espero que resulte útil.