Methodologies, techniques and tools for OLAP design: A Systematic Mapping Study

Methodologies, techniques and tools for OLAP design: A Systematic Mapping Study A. Cravero and S. Sepúlveda, IEEE Member 1 Abstract— The OLAP cubes al...
12 downloads 1 Views 566KB Size
Methodologies, techniques and tools for OLAP design: A Systematic Mapping Study A. Cravero and S. Sepúlveda, IEEE Member 1 Abstract— The OLAP cubes allow to visualizing information from a data warehouse to be analyzed by business executives. An interesting research topic is the OLAP design because they must be created according to the need of users, the context, how to process queries, among other research topics. This paper presents a systematic mapping study of methodologies, techniques and tools for designing OLAP.

partir de un cubo OLAP.

Keywords— OLAP, designing, methodologies, techniques, tools, systematic mapping.

U

I. INTRODUCCIÓN

Figura 1. Ejemplo de proceso para extraer información desde un AD.

N almacén de datos (AD) es una base de datos integrada que proporciona información adecuada para apoyar la toma de decisiones. Generalmente los componentes de un AD se representan como una arquitectura multicapa (las fuentes de datos, los procesos ETL o de Extraction-Transformation-Load, el repositorio de datos, la personalización de datos y herramientas de usuario final) en el que los datos de una capa se deriva de los datos de la capa anterior [1]. Por lo tanto, los AD son sistemas heterogéneos que requieren una buena integración e interoperabilidad entre las diferentes capas [2]. Es importante destacar que, el repositorio y la personalización de los datos están estrechamente relacionados entre sí, ya que en el primero se define la estructura adecuada para almacenar los datos, mientras que el segundo se define la estructura del cubo de datos que las herramientas de usuario final emplearán para acceder correctamente el AD. El desarrollo de un AD se basa en el modelado multidimensional (MD) [3, 4], que organiza los datos en estructuras de análisis intuitivos, es decir, hechos que serán analizados junto con un conjunto de dimensiones que los contextualizan. Una vez que se define un MD conceptual, se puede transformar en dos tipos de modelos lógicos: (i) un modelo del repositorio de datos que determina la estructura del AD, y (ii) un modelo de los cubos de datos que contiene lo necesario para permitir que las herramientas de usuario final puedan consultar dicho AD en un formato adecuado. Por otro lado, el modelo de cubos de datos se crea utilizando la tecnología OLAP o On-Line-AnalyticalProcessing, que permite representar la información del AD como una tabla dinámica. Observamos un ejemplo de representación en la Fig. 1. A la izquierda de la Figura se representa el MD conceptual del AD que permitirá analizar las ventas desde el punto de vista de los clientes, productos y zonas. A la derecha, encontramos una tabla dinámica creada a

Sorprendentemente, la mayoría de los enfoques basados en el MD, sólo se centran en la obtención del MD conceptual [57], con vistas a ello la derivación del modelo de cubos de datos. Por lo tanto, la generación de cubo de datos, plantea algunos interesantes retos para la investigación, porque la estructura debe ser derivada junto con los metadatos de la base de datos de una manera integrada, sin ninguna referencia a una plataforma de software o tecnología específica [8]. En este sentido, el problema de visualizar de manera eficiente los conjuntos de datos multidimensionales producidos por las tareas científicas y estadísticas / procesos es cada vez más difícil, y está atrayendo la atención de una comunidad multidisciplinaria amplia de investigadores y profesionales [9]. Hasta el momento, no existe una estrategia común para el diseño de los cubos OLAP. Pero en los últimos años, se han propuesto diversos enfoques y técnicas que apoyan su diseño. Es por ello que el objetivo de este artículo es ofrecer una visión general de cómo algunas propuestas metodológicas y técnicas son utilizadas para obtener el diseño de cubos OLAP, sirviendo como punto de partida para futuras investigaciones. La metodología utilizada para la selección de los trabajos es el mapeo sistemático. El mapeo sistemático de estudios es una metodología utilizada frecuentemente en la investigación médica, la que ha sido adaptado para su uso en el área de TI [10]. El documento se estructura de la siguiente manera. La sección II presenta los conceptos básicos utilizados en el trabajo. La sección III describe el proceso de selección de los estudios. La sección IV describe el análisis de los estudios con respecto a las propuestas para el diseño de cubos OLAP. Finalmente, la sección V contiene las conclusiones. II. CONCEPTOS BÁSICOS

1

A. Cravero, Universidad de La Frontera, Temuco, ,[email protected] S. Sepúlveda, Universidad de La Frontera, Temuco, Chile, [email protected]

Chile,

A. Almacenes de Datos La definición clásica de un AD fue acuñada por Inmon [11]

como una colección de datos históricos, orientados por temas, no volátiles, integrados, diseñados para apoyar el proceso de toma de decisiones de una organización. Más que una simple recopilación de datos, el AD surge de un proceso definido en tres etapas: (i) extracción de datos de distintas fuentes de datos, (ii) la transformación y carga de datos de forma coherente en el AD, y (iii) el acceso a los datos integrados de una manera eficiente y flexible. Las dos primeras etapas forman parte del proceso conocido como ETL que es la sigla en inglés de Extraction-Transformation-Load. La tercera etapa permite convertir los datos en información estratégica, apoyando la toma de decisiones en los niveles más altos de una organización. Esta capacidad se apoya en la herramienta OLAP [11], que proporciona a los usuarios finales vistas configurables de los datos que contiene el AD, desde diferentes ángulos y en diferentes niveles de agregación. Para lograr consultas OLAP de manera rápida y flexible, los datos están organizados en una forma multidimensional, conocido como esquema estrella, donde la información se clasifica de acuerdo a los hechos y dimensiones [3]. Los hechos son los datos numéricos o de hecho que representa una actividad industrial específica que se desea analizar. Las dimensiones son las perspectivas individuales de los datos que determina la granularidad (datos a nivel de detalle) que se adopten para la representación de un hecho. Las unidades de los hechos y sus valores se denominan medidas [11]. La Fig. 1 muestra un ejemplo del proceso completo, con un modelo multidimensional del análisis de las ventas de un negocio, que sería la tabla de hechos, y el contexto del análisis por medio de las dimensiones: clientes, productos, proveedores y tiendas, que posteriormente dan pie a los reportes derivados por medio del OLAP. B. On-Line-Analytical-Processing (OLAP) Los sistemas OLAP son las herramientas front-end predominantes que son utilizadas directamente por el usuario final para formular consultas [12]. Por lo tanto, las herramientas OLAP se pueden utilizar para visualizar eficazmente conjuntos de datos multidimensionales y también apoyar la exploración interactiva de dichos conjuntos de datos usando un amplio conjunto de operadores [13], entre las que tenemos: (i) drill-down, que desciende en una jerarquía de dimensión del cubo, aumentando el nivel de detalle de la medida (y la disminución de su nivel de abstracción); (ii) del roll-up, que es un revés de drill-down, se utiliza para agregar la medida a un nivel más grueso de detalle (y un mayor nivel de abstracción); (iii) pivot, que gira las dimensiones del cubo, visualizando los datos de una manera distinta. Aparte de los servicios de visualización, OLAP también ofrece soluciones muy eficientes mediante un amplio conjunto de alternativas [9], según la cual los cubos de datos se almacenan de distintas formas: (i) ROLAP (OLAP Relacional), que hace uso del soporte de almacenamiento proporcionado por los sistemas relacionales o RDBMS convencionales (es decir, tablas relacionales almacenadas en un motor de bases de datos); (ii) MOLAP (Multidimensional

OLAP), que emplea matrices multidimensionales equipadas con estructuras de datos de indexación de alta eficiencia (es decir, un archivo .cub que almacena todos los datos en una planilla o tabla multidimensional); (iii) HOLAP (OLAP híbrido), que combina las dos alternativas anteriores a través de almacenar porciones del cubo sobre un soporte relacional, y otras porciones sobre un soporte de matriz multidimensional. Sin más detalles, vale la pena notar que la eficiencia de la representación de datos tiene un gran impacto en la eficacia de la visualización de datos y las actividades de exploración. Existe una nueva categoría de ROLAP que permite definir una plataforma visual construida especialmente para apoyar el análisis espacio-temporal de una manera fácil y rápida. Es lo que hoy se conoce como SOLAP (por sus siglas en inglés Spatial OLAP) [14]. Por otro lado, en [15] Rizzi ha explicado los principales temas de investigación para el diseño de sistemas OLAP, que considera las preferencias de los usuario. Los temas los clasifica en: (i) Modelo de Preferencia, en donde los usuarios tienen la posibilidad de expresar sus preferencias en el nivel de agregación de las consultas; (ii) Contexto-Conciencia, donde se introduce la dependencia entre los deseos del usuario y las condiciones particulares del sistema; (iii) Optimización de Consultas, donde se busca mejorar el rendimiento de las consultas en base a las preferencias de los usuarios; (iv) Procesamiento de Consultas, donde se aplican técnicas de optimización para enfrentar las diversas preferencias sobre los niveles de agregación de una manera eficiente; e (v) Interfaz de Usuario, donde se considera la forma de que los usuarios puedan expresar sus preferencias a través de un front-end OLAP. C. Mapeo Sistemático de Estudios La técnica de mapeo sistemático (systematic mapping) define un proceso y una estructura de informe que permite categorizar los resultados que han sido publicados hasta el momento en un área determinada [16]. El objetivo de un mapeo sistemático está en la clasificación, y está por tanto dirigido al análisis temático y a la identificación de los principales foros de publicación. Permite responder preguntas genéricas como ¿Qué es lo que se ha hecho hasta el momento en el campo X? Como limitación, este tipo de estudios no toma en consideración la calidad de los estudios incluidos. El proceso de mapeo sistemático consiste en las siguientes etapas: (i) definición de las preguntas de investigación, (ii) ámbito de la revisión, (iii) ejecución de la búsqueda, (iv) selección de estudios, (v) filtrado de estudios, (vi) clasificación, (vii) extracción de datos, (viii) y mapa sistemático [16]. III. ACTIVIDADES DESARROLLADAS EN EL MAPEO SISTEMÁTICO De acuerdo al proceso de mapeo sistemático descrito anteriormente, a continuación, se describe las actividades realizadas en cada etapa que se llevó a cabo.

A. Definición de las preguntas de investigación: Las siguientes Preguntas de Investigación (PI) se definieron de acuerdo al objetivo planteado en este estudio y a lo recomendadod por [17]. PI1: ¿Qué tipo de arquitectura de OLAP es la más utilizada en las investigaciones (MOLAP, ROLAP, HOLAP o SOLAP)? PI2: ¿Qué tipo de contribución a la investigación existe para el diseño de OLAP, si el uso de métodos, técnicas, herramientas, o modelos? PI3: ¿Qué ámbito es el más utilizado al momento de aplicar la investigación, la academia o la industria? PI4: ¿Cuáles son los principales temas de investigación abordados? PI5: ¿Cómo ha evolucionado la investigación sobre el diseño de OLAP en los últimos años? B. Ámbito de la revisión: El alcance se definió de acuerdo a lo recomendado por [17], como sigue: Población: Investigadores y profesionales que diseñan cubos OLAP. Intervención: Cualquier estudio con métodos, técnicas, modelos o herramientas, que son utilizadas para diseñar cubos OLAP. Diseño del estudio: aplicaciones en la industria o ejemplos académicos. Resultado: los tipos de investigaciones abordados para diseñar cubos OLAP. C. Ejecución de la búsqueda: La estrategia de búsqueda consistió en expresiones booleanas formadas por las siguientes palabras claves (en inglés): data warehouse, OLAP, On-Line-AnalyticalProcessing, technique, tool, model, designing, las cuales se generaron a partir de las preguntas creadas. Las cadenas de búsqueda básicas se construyeron a partir de las palabras claves mencionadas. Algunos de los términos fueron desglosados en expresiones booleanas de tipo OR y AND, formadas por los sinónimos, como por ejemplo: data warehouse, data warehousing. Por otro lado la selección de las fuentes de datos todas fueron digitales. Se seleccionaron estas fuentes, ya que incluyen motores de búsquedas y los artículos que ofrecen son de calidad, además son accesibles vía web. Las fuentes donde se aplicó la búsqueda fueron Google Scholar, IEEE Digital Library, ACM Digital Library, ScienceDirect y Springer. En IEEE se encontraron 689 trabajos, en ACM 523 trabajos, en ScienceDirect 409 y en Springer 705 respectivamente. En la tabla I se presenta un resumen de estos resultados.

OLAP pero que no describe la forma de hacerlo (métodos, técnicas, aproximaciones). Para seleccionar los trabajos de investigación, en primera instancia utilizamos el criterio de inclusión para hacer análisis sobre el título, resumen y palabras claves, obteniendo de esta manera el mayor número de trabajos que aportan contribuciones significativas sobre el diseño de cubos OLAP. En segunda instancia utilizamos el criterio de exclusión donde nos centramos principalmente en el resumen, introducción y conclusiones, analizando un poco más aquellos trabajos que lo requerían para asegurarnos realmente de que eran relevantes para el campo de estudio. E. Filtrado de estudios: El proceso de selección consta de tres etapas realizadas secuencialmente por cuatro revisores (los dos investigadores y dos colaboradores). En la primera etapa, cada revisor aplicó los criterios de inclusión y exclusión para el título, resumen y palabras clave por 10 trabajos seleccionadas de forma aleatoria. Como medio de validación de concordancia entre los investigadores se aplicó el índice Kappa de Fleiss propuesto por [18], obteniendo una fiabilidad del 79%. En la siguiente etapa, cada revisor aplicó los mismos criterios a un conjunto de artículos que se le asignó, que ahora incluye la introducción y la conclusión, obtenido un conjunto de trabajos candidatos (ver segunda fila de la tabla I). En la tercera etapa, fueron analizados los trabajos candidatos. De esta manera se obtuvo un total de 33 trabajos pertinentes para el mapeo (ver tercera fila de la tabla I). TABLA I. RESULTADOS DE LA BÚSQUEDA Y FILTRADO. Motor de Búsqueda

Resultados de la 689 búsqueda Candidatos 205 Trabajos seleccionados 9

ACM 523

ScienceDirect Springer Schoolar Google 409 705 1000

304 8

106 4

268 12

697 33

F. Esquema de clasificación: Una vez seleccionadas las publicaciones relevantes se definieron, en base a los objetivos del estudio, seis tipos de clasificaciones: • •

D. Selección de estudios: La selección de los estudios se ha formulado basada en los siguientes criterios de inclusión/exclusión. Inclusión: trabajos de investigación que provienen de revistas y congresos y que describan el diseño multidimensional de un cubo OLAP mediante técnicas, aproximaciones, metodologías y/o herramientas. Exclusión: (i) Tesis, documentos, y trabajos que tratan sobre el uso de cubos OLAP, en cualquiera de sus temas de interés, y (ii) trabajos que se centran en el diseño de un cubo

IEEE



Tipo Artículo: si el trabajo fue publicado en una revista o en un congreso. Tipo de contribución: el aporte que realiza la investigación al área, que puede ser una metodología, modelo, técnica o herramienta. Metodología incluye descripciones y procedimientos a seguir para realizar el diseño multidimensional de un cubo OLAP. Modelado se refiere a trabajos que solo describen el resultado del diseño de cubos OLAP en base a un esquema. Técnica se refiere a recursos o habilidades utilizadas para el diseño de OLAP. Herramienta se refiere a cualquier tipo de herramienta o software que ayude en el proceso de diseñar un cubo OLAP. Ámbito de aplicación: el área donde se desarrolla la investigación, o donde apuntan los autores para aplicar

• •

su investigación, que puede ser la academia o la industria. Academia, esta clasificación es para aquellas publicaciones que dirigen su esfuerzo en realizar nuevas investigaciones y/o desarrollo de nuevas ideas. Industria, en este estudio esta clasificación corresponde a los trabajos que aplican su investigación en alguna organización (con o sin fines de lucro). Tipo de arquitectura: en base a la clasificación de arquitecturas para OLAP [9], que puede ser ROLAP, MOLAP, HOLAP o SOLAP. Tipo de investigación: son las definidas por Rizzi en [15], que pueden ser: modelo de preferencia, contextoconciencia, optimización de consultas, procesamiento de consultas y la interfaz. En esta categoría hemos agregado tres categorías más, que son: seguridad, almacenamiento y modelado, ya que nos encontramos con varios trabajos que no se pueden clasificar de acuerdo a lo indicado por Rizzi. Seguridad la utilizaremos para aquellos estudios que mencionan aspectos de seguridad al momento de diseñar los cubos



OLAP. Almacenamiento para aquello trabajos que describen la forma de almacenar el cubo OLAP diseñado. Modelado para los trabajos que solo muestran el tipo de modelo que se obtiene cuando diseñan cubos OLAP. Modelo: son los tipos de modelados que utilizan, por ejemplo UML, wBTG, y modelo relacional. Hemos agregado una categoría llamada propios que usaremos cuando el artículo no mencione el tipo de modelo que utiliza. UML (Unified Modeling Language por sus siglas en inglés) es un estándar de la OMG [19] para modelar clases de objetos. wBTG (weak better-than graph por sus siglas en inglés) es una representación gráfica para las relaciones de dominación entre los hechos permitiendo grupos de clases de equivalencia [20]. Modelo relacional es el típico modelo de bases de datos que son almacenados en motores relacionales.

La Fig. 2 presenta el esquema de clasificación completo.

Figura 2. Esquema de clasificación.

Figura 3. Diagrama de burbuja. Visualización mapeo sistemático según el tipo de investigación y tipo de aplicación.

G. Extracción de datos y Mapeo Sistemático: Tras definir el esquema de clasificación, el último paso del mapeo sistemático consiste en la extracción de datos y el proceso de mapeo de las distintas dimensiones. El resultado completo de esta actividad se muestra en la siguiente sección. El resultado sintetizado de nuestro estudio se puede observar de manera gráfica en el diagrama de burbuja de la Fig. 3. Las Figs. 3 y 4 ilustran básicamente dos diagramas de dispersión XY con burbujas en las intersecciones de categoría, que permite tener en cuenta varias categorías al mismo tiempo y da una visión general rápida de un campo de estudio, proporcionando un mapa visual. En esta visualización de los resultados, el tamaño de una burbuja es proporcional al número de artículos que están en el par de categorías que correspondan a la burbuja de las coordenadas. El la Fig. 3 se puede observar la distribución de los trabajos por tipo de investigación, y por tipo de aplicación, versus el tipo de arquitectura. De igual forma, en la Fig. 4 se puede observar la distribución de trabajos por tipo de artículo, y por tipo de contribución, versus el tipo de arquitectura.

IV. ANÁLISIS COMPARATIVO Y DISCUSIÓN. A continuación damos respuesta a las preguntas de investigación formuladas en la sección III a través de los resultados obtenidos. A. PI1: ¿Qué tipo de arquitectura de OLAP es la más utilizada en las investigaciones, MOLAP, ROLAP, HOLAP o SOLAP? Del total de trabajos revisados, se obtuvo que el 51% de los trabajos se enfocaron en ROLAP, versus un 39% de MOLAP, un 0% de HOLAP, y un 10% en SOLAP. La mayor presencia es para la arquitectura ROLAP, que puede explicarse porque estas presentan mayor flexibilidad, extensibilidad y adaptación a elementos de datos inesperados y a nuevas decisiones de diseño [20]. Este mismo autor también sostiene que existen modificaciones que se pueden realizar sobre un modelo dimensional relacional pero que no pueden aplicarse a un MD, como por ejemplo, adicionar hechos no previstos, adicionar dimensiones nuevas, adicionar atributos a las dimensiones existentes y adicionar nuevas tablas de hechos, entre otras. Esta versatilidad lo hace más atractivo para la investigación y aplicación que MOLAP, el cual es una solución adecuada para casos con información proveniente de la base de datos local. El uso de HOLAP puede entenderse dado que al mezclar ROLAP y MOLAP, presenta beneficios de ambas arquitecturas, pero aun así no es muy popular en la investigación según los estudios revisados. Los resultados pueden observarse en forma gráfica a continuación:

Figura 4. Diagrama de burbuja. Visualización mapeo sistemático según el tipo de contribución y tipo artículo.

La Fig. 5 presenta la cantidad de artículos encontrados de acuerdo a la clasificación Tipo Modelo.

Figura 6. Gráfico cantidad de trabajos para la clasificación tipo arquitectura.

B. PI2: ¿Qué tipo de contribución a la investigación existe para el diseño de OLAP, si el uso de métodos, técnicas, herramientas, o modelos?

Figura 5. Gráfico cantidad de trabajos para la clasificación tipo modelo.

En la siguiente sección se describe el análisis de los trabajos seleccionados.

Desde la Fig. 4 podemos extraer la siguiente información. Un 48% de los artículos contribuyen con métodos para el diseño de cubos OLAP, un 18% aplica alguna técnica para el diseño, un 30% explica cómo crear un modelo, y un 3% contribuye con herramientas. La Fig. 7 presenta un gráfico con la cantidad de trabajos por tipo de contribución. Para el caso de las metodologías, podemos observar que indistintamente utilizan la arquitectura ROLAP y MOLAP. Sólo 2 métodos son para el caso particular de SOLAP. Esto puede deberse a que el objetivo de la mayoría de los estudios es el diseño y no la implementación, y por lo tanto, no importará en qué tipo de arquitectura se implemente.

Con los datos presentados en la Fig. 4, podemos inferir que el diseño de cubos OLAP es un área de investigación que aún no madura, ya que sólo encontramos 1 artículo que describe el desarrollo de un prototipo. Sin embargo el uso de herramientas para visualizar cubos OLAP existe desde hace varias décadas [12].

Figura 7. Gráfico cantidad de trabajos para la clasificación tipo contribución.

C. PI3: ¿Qué ámbito es el más utilizado al momento de aplicar la investigación, la academia o la industria? Sin lugar a dudas, la Fig. 3 nos presenta esta información. Un 88% de los trabajos presenta casos de estudios o ejemplos académicos, y solo un 12% describen situaciones aplicadas en la empresa o industria. Esto demuestra el bajo nivel de madurez de los trabajos, ya que la gran mayoría de las metodologías y técnicas propuestas no han sido validadas en la industria. D. PI4: ¿Cuáles son los principales temas de investigación abordados? De acuerdo a Rizzi [15], hemos clasificado los temas o áreas por Tipo de Investigación (ver Fig. 2), según lo descrito

en la sección II.B y III.F. Después de analizar los artículos seleccionados, hemos incorporado la cantidad de ellos en el mapa de la Fig. 3. Ésta figura, muestra que los temas de investigación mayormente abordados son: Modelo Preferencia, Contexto y Procesamiento de Consultas. Es interesante descubrir que la mayor preocupación de los investigadores es obtener un diseño de cubos OLAP que sea acorde a las necesidades de análisis de los usuarios, a las condiciones particulares de los sistemas, y a la eficiencia para obtener dicha información. Por otro lado, los temas de investigación menormente abordados son Optimización de Consultas, Interfaz, Seguridad, Almacenamiento y Modelado. Esto puede deberse a que son del tipo de problema técnicos que se debe resolver, por lo que queda en Segundo plano. Así podemos decir que, en términos de investigación, es más valorado obtener un diseño de cubo correcto y eficiente, que disponer de una buena interfaz, seguridad y almacenamiento. E. PI5: ¿Cómo ha evolucionado la investigación sobre el diseño de OLAP en los últimos años? Esta pregunta la responderemos por tema de investigación clasificado en el mapa de la Fig. 3. Modelo Preferencia: Podemos observar en la Fig. 8, que este tema de investigación se inició el año 2000, sin embargo, no hubo avances significativos hasta el año 2008, en donde se retoma este tema. Observamos que el tema ha tomado relevancia para los investigadores ya que aparecen 4 publicaciones para el año 2004.

Figura 8. Diagrama de burbuja. Visualización mapeo sistemático según el tipo de investigación por año de publicación.

Esto puede deberse a que el tema de modelado con respecto a las preferencias y necesidades de los usuarios también ha tomado relevancia para el diseño de almacenes de datos en

general [2]. Contexto: Este tema de investigación se ha abordado desde el año 2004 hasta el 2013. Es muy probable que se tengan

publicaciones de manera constante para los próximos años, debido a que considerar el deseo de los usuarios es una de las preocupaciones latentes entre los investigadores [2, 5-6]. Optimización de Consultas: Encontramos muy pocos trabajos que describen el diseño de OLAP desde el punto de vista de la optimización de consultas. Prácticamente encontramos un artículo para cada uno de los años 2005, 2008 y 2010. No encontramos trabajos recientes. Procesamiento Consultas: Muy parecido al caso anterior, pero con un artículo recientemente publicado el año 2014. Podemos destacar el año 2009 en el que se publican 3 trabajos. Esto puede deberse a que desde el año 2007 hubo una mayor preocupación por garantizar que los AD almacenen información más confiable en los distintos niveles de agregación [9]. Interfaz: De la Fig. 8 observamos que existe poca preocupación por este tema. Sólo encontramos 2 trabajos relacionados con el diseño de OLAP y la interfaz que permita ello, pero no son recientes. Seguridad: Hemos encontrado sólo un artículo publicado el año 2014. Pensamos que éste es un tema a futuro, por lo que debiera aparecer una mayor cantidad de artículos los próximos años. Almacenamiento: Se aborda a partir del año 2010. Pero aún existen pocos trabajos publicados. Creemos que también será trabajo futuro, debido a que las condiciones de almacenamiento de los datos, define también el diseño de OLAP que se pueda conseguir. Modelado: El modelado es un tema de investigación que se ha aplicado hace pocos años en el área de AD en general, por ello encontramos artículos sólo en los años 2010 y 2013. También es trabajo futuro.

potencialidades, aplicándose también en otras áreas de estudio como las bases de datos espaciales SOLAP. Finalmente, creemos que en la próxima década tomará especial importancia otros temas provenientes desde la ingeniería de software, como son la trazabilidad, la documentación, la gestión de conflictos, entre otros. AGRADECIMIENTOS Este trabajo ha sido financiado por la Universidad de La Frontera a través del proyecto DIUFRO DI14-0073. REFERENCIAS [1] [2]

[3] [4] [5] [6] [7]

[8] [9]

V. CONCLUSIONES. Se ha realizado un mapeo sistemático de estudios sobre metodologías, técnicas, modelado y herramientas para el diseño de cubos OLAP, que presenta una visión global de la investigación disponible en este ámbito, lo que permite formular nuevos trabajos de investigación, y determinar los temas más y menos explotados del área. Para ello, se formularon 5 preguntas que fueron respondidas utilizando distintas clasificaciones de los estudios. Un tema interesante analizado en este trabajo es la evolución de la investigación a través de los años. Los resultados muestran que desde la segunda mitad del período que abarcan las publicaciones revisadas, ha aumentado considerablemente tanto el número de modelos como investigaciones que esbozan diseños de OLAP para su implementación. Esto hace creer que OLAP aún es un tema vigente y en constante desarrollo dentro del campo de desarrollo de la informática, por la importancia que tienen las herramientas de inteligencia de negocios en la toma de decisiones en las empresas hoy en día, y las oportunidades que ofrece OLAP dentro de estas alternativas. Además, el estudio muestra que más allá de ofrecer nuevas metodologías o modelos para OLAP clásico, los trabajos más recientes han agregado elementos nuevos al diseño de OLAP, como el almacenamiento y seguridad, con el fin de mejorar sus

[10] [11] [12] [13] [14]

[15] [16]

[17] [18] [19] [20]

M. Lenzerini, Y. Vassiliou, P. Vassiliadis, and M. Jarke, "Fundamentals of data warehouses," Springer Science \& Business Media, 2003. J. Pardillo, J.-N. Mazón, and J. Trujillo, "Towards the Automatic Generation of Analytical End-User Tools Metadata for Data Warehouses," Sharing Data, Information and Knowledge, pp. 203-206, 2008. R. Kimball and M. Ross, "The Data Warehouse Toolkit, second edition, John Wiley & Sons.," 2002. W. Inmon, "Building the Data Warehouse.," 2005. A. Abelló, J. Samos, and F. Saltor, "YAM2: a multidimensional conceptual model extending UML," Information Systems, vol. 1, nº. 6, pp. 541--567, 2006. M. Golfarelli, D. Maio, and S. Rizzi, "The dimensional fact model: a conceptual model for data warehouses," International Journal of Cooperative Information Systems, vol. 7, pp. 215--247, 1998. B. Hüsemann, J. Lechtenbörger, and G. Vossen, "Conceptual Data Warehouse Modeling. In M. A. Jeusfeld, H. Shu, M. Staudt, G. Vossen (Eds.)," Proceedings of 2nd International Workshop on Design and Management of Data Warehouses., pp. 6, 2000. J. Pardillo, J.-N. Mazón, and J. Trujillo, "Model-driven metadata for OLAP cubes from the conceptual modelling of data warehouses," Data Warehousing and Knowledge Discovery, pp. 13--22, 2008. A. a. M. Cuzzocrea, Svetlana, "Olap visualization: models, issues, and techniques," Encyclopedia of Data Warehousing and Mining, pp. 1439--1446, 2009. B. Kitchenham, T. Dyba, and M. Jorgensen, "Evidence-based software engineering," Proceedings of the 26th international conference on software engineering, pp. 273--281, 2004. W. Inmon, "Building the Data Warehouse. (2nd ed.)," 1996. S. Sarawagi, R. Agrawal, and N. Megiddo, "Discovery-driven exploration of OLAP data cubes," Springer, 1998. E. Thomsen, "OLAP solutions: building multidimensional information systems," John Wiley \& Sons, 2002. E. Edoh-Alove, S. Bimonte, and Y. Bedard, "A New Design Method for Managing Spatial Vagueness in Classical Relational Spatial OLAP Architectures," Computational Science and Its Applications--ICCSA 2014, pp. 774--786, 2014. S. Rizzi, "OLAP preferences: a research agenda," Proceedings of the ACM tenth international workshop on Data warehousing and OLAP, pp. 99--100, 2007. K. Petersen, R. Feldt, S. Mujtaba, and M. Mattsson, "Systematic mapping studies in software engineering," EASE'08 Proceedings of the 12th international conference on Evaluation and Assessment in Software Engineering. British Computer Society Swinton., pp. 68-77, 2008. B. Kitchenham and S. Charters, "Guidelines for performing systematic literature reviews in software engineering," Thechnical Report EBSE´07, 2007. K. Gwet, "Inter-rater reliability: dependency on trait prevalence and marginal homogeneity," Statistical Methods for Inter-Rater Reliability Assessment Series, vol. 2, pp. 1-9, 2002. UML and OMG, "Unified Modeling Language," Infrastructure Specification, version, vol. 2, nº. 1, 2007. M. Golfarelli and S. Rizzi, "Preferences on OLAP Datacubes," DEIS, University of Bologna, Viale Risorgimento, vol. 2, 2008.

Ania Cravero es Ingeniera Civil Industrial m. Informática (1997), por la Universidad de La Frontera, Temuco, Chile. Obtuvo su Doctorado en Cs. de la Computación y Sistemas Informáticos por la Atlantic International University, EE.UU (2010). Se desempeña como Académico en el Departamento de Ciencias de Computación e Informática, e investigadora en el Centro de Estudios en Ingeniería de Software, Universidad de La Frontera. Sus intereses de investigación están en el área de Modelado Bases de Datos, Almacenes de Datos y Alineamiento de Objetivos. Samuel Sepúlveda Ing. Civil Industrial m. Informática (1999), por la Universidad de La Frontera, Temuco, Chile. Actualmente postula al grado de Doctor en Aplicaciones de la Informática por la Universidad de Alicante, España. Se desempeña como Académico en el Dpto. de Ciencias de Computación e Informática, e investigador en el Centro de Estudios en Ingeniería de Software, Universidad de La Frontera. Sus intereses de investigación están en el área de Ingeniería de Requerimientos, Modelado de Líneas de Productos de Software y estudios secundarios aplicados en Ingeniería de Software.

Suggest Documents