Automatic classification of academic documents using text mining techniques

Automatic classification of academic documents using text mining techniques Haydemar Núñez, Esmeralda Ramos Laboratorio de Inteligencia Artificial. Es...

Author: Francisco José Medina Murillo

1 downloads 0 Views 906KB Size

Report

Download PDF

Recommend Documents

An automatic Oral Cancer Classification using Data Mining Techniques

Classification of text documents

Partially Supervised Classification of Text Documents

Text Classification from Labeled and Unlabeled Documents using EM

Soil Classification Using Data Mining Techniques: A Comparative Study

Data Mining Techniques: Classification and Prediction

Text Classification using Naive Bayes

Data Mining Classification: Alternative Techniques. Introduction to Data Mining

CHR-based Text Mining and Classification of Google Search Results

Mining Knowledge from Text Using Information Extraction

Text Analytics (Text Mining)

Music Genre Classification Using Machine Learning Techniques

DISEASE PREDICTING SYSTEM USING DATA MINING TECHNIQUES

Urdu Text Classification using Majority Voting

Multi-label classification of computer science documents using fuzzy logic

Text Mining - Wissensrohstoff Text

Improving Text Classification Using EM with Background Text

Semi-automatic classification of cementitious materials using Scanning Electron Microscope

Information Extraction by Text Classification: Corpus Mining for Features

Automatic Classification of Music Signals

Representing discourse for automatic text summarization via shallow NLP techniques

Framework of Automatic Text Summarization Using Reinforcement Learning

Prediction of Thyroid Disease Using Data Mining Techniques

Los Angeles Classification of Esophagitis using Image Processing Techniques

Automatic classification of academic documents using text mining techniques Haydemar Núñez, Esmeralda Ramos Laboratorio de Inteligencia Artificial. Escuela de Computación. Facultad de Ciencias Universidad Central de Venezuela. Caracas. Venezuela {haydemar.nunez, esmeralda.ramos}@ciens.ucv.ve

Abstract—In this work an automatic classifier of undergraduate final projects based on text mining is presented. The dataset, comprising documents from four professional categories, was represented by means the vector space model with different index metrics. Also, a number of techniques for reduction dimensionality were applied over the word space. In order to construct the classification model the K-nearest neighbor algorithm was applied. Using 10-fold cross-validations we could obtain 82% of predictive accuracy. However, we achieved an accuracy of 95% with a recommendation of up to two categories taking into account the interdisciplinary in documents. This classifier was integrated into an application for automatic assignment of reviewers, which performs this assignation from teachers who belong to the areas recommended. Keywords: Text mining, classification models, K nearest neighbor algorithm, documents categorization

I.

INTRODUCCIÓN

La minería de texto (MT) se define como el proceso no trivial de extraer conocimiento válido, útil y novedoso, a partir de una colección de textos [1], [2], [3]. La MT es un campo multidisciplinario relativamente joven, que involucra otras áreas como la Recuperación de Información, Aprendizaje de Máquinas, Estadística y Procesamiento del Lenguaje Natural. Se diferencia de la Minería de Datos [4], en que la MT trabaja sobre datos no estructurados o semi-estructurados; sin embargo, ambas persiguen el mismo objetivo: procesar automáticamente grandes cantidades de datos para extraer patrones significativos que representen tendencias, relaciones, reglas y/o asociaciones, que se encuentren ocultos en los datos y que permitan apoyar la toma de decisiones y la resolución de problemas. Debido a que mucha de la información que se genera actualmente desde diferentes fuentes se encuentra almacenada como texto, la MT ha llegado a tener un gran potencial comercial y científico, como estrategia para develar conocimiento a partir de diversos tipos de documentos e información digital. Actualmente, es posible encontrar muchas aplicaciones de la MT en diferentes dominios tales como el filtrado de contenido en la Web [5], [6], análisis de literatura científica y académica [7], [8], [9], análisis de opiniones [10], gestión documental [11], [12], análisis de interacciones en

redes sociales para la detección de eventos [13], [14], entre otras. Una de las tareas más comunes de la minería de textos es la clasificación o categorización automática de documentos [16], [17], [18]. Ésta consiste en la asignación de una o más categorías predefinidas a un texto en base a su contenido. Su ámbito de aplicación es muy amplio, como por ejemplo la clasificación de noticias [6], construcción de sistemas de recomendación [19], detección de intrusos [20], entre otros. En este trabajo se describe cómo se aplicó el proceso de minería de textos para la construcción de un clasificador de de Trabajos Especiales de Grado (TEG), de la Licenciatura de Computación de la Universidad Central de Venezuela (UCV). La motivación principal está relacionada con la posibilidad de realizar una asignación automática de jurados o evaluadores, en función de los objetivos o temas abordados en los TEG. En muchos casos, debido a la interdisciplinariedad presente en estos documentos, esta tarea no es fácil de realizar por las comisiones designadas para tal fin, debido a que no se dispone de la experticia necesaria para decidir a cuál área u opción pertenece un TEG, lo cual es necesario para llevar a cabo una asignación adecuada de jurados. Este artículo se encuentra estructurado de la siguiente forma: en la siguiente Sección se describe el proceso de minería de textos. Luego, en la Sección 3 se explica cómo fue aplicado este proceso para construir el clasificador de documentos de grado y se presenta el análisis de los resultados obtenidos. La sección 4 describe la aplicación desarrollada para la asignación automática de jurados. Por último, se presentan las conclusiones y trabajos futuros. II.

PROCESO DE MINERÍA DE TEXTOS

El proceso de minería de textos es similar al proceso de minería de datos. La diferencia principal está relacionada con la fase de preprocesamiento de los datos (ver Figura 1), ya que es necesario transformar los textos en alguna representación estructurada para que puedan ser aplicados los algoritmos de aprendizaje. Para realizar esta tarea, se han propuesto varios formalismos de representación, donde el modelo de espacio vectorial es uno de los más utilizado [16], [17], [18]. Bajo este esquema, cada documento se representa mediante un vector en

978-1-4673-0793-2/12/$31.00 ©2012 IEEE

un espacio de términos. Cada término lleva asociado un coeficiente o peso que trata de expresar su importancia o grado de representatividad en un documento. A continuación, se describen las fases del proceso de MT siguiendo este modelo de representación:

diseñados para tal fin, los cuales utilizan algún criterio de calidad para determinar los atributos más relevantes en el conjunto de datos [4], [16]. Finalizada esta fase, se tiene entonces lo que se conoce como la vista minable, sobre la cual serán aplicados los algoritmos de aprendizaje para la estimación del modelo de clasificación.

A. Preprocesamiento de los datos. C. Estimación del modelo. Existen diversos algoritmos de aprendizaje supervisado que pueden ser aplicados en la construcción de un modelo de clasificación de textos [17], [21. Algunos de los más comúnmente utilizados en este contexto son: redes neuronales, K-vecinos más cercanos, máquinas de soporte vectorial, entre otros. Figura 1. Proceso de minería de textos

La primera tarea a realizar es determinar las palabras que serán utilizadas para definir el espacio de términos. Esta tarea conlleva la remoción de signos de puntuación y otras palabras que no aportan información (como artículos, preposiciones, pronombres, etiquetas HTML, etc). También es necesario, por cada documento, aplicar un proceso de lematización (stemming) para remover sufijos y determinar los lexemas que representen los grupos de palabras con el mismo significado conceptual. Como resultado, se obtiene un conjunto de términos T = {t1,…,td}, a partir del cual serán representados los documentos como vectores numéricos. Se construye entonces una matriz A de dimensionalidad nxd, donde n representa la cantidad de documentos en el conjunto de datos. A continuación, se determinan los valores o entradas aij de esta matriz (coeficientes o pesos), los cuales medirán o valorarán la importancia del término j en el documento i, en base a su contenido; este proceso se conoce como indexación o pesado. Existen muchas propuestas para determinar el valor de aij, la mayoría se basa en dos observaciones empíricas en lo que al texto se refiere, a saber: mientras más veces se presenta un término en un documento, éste es más relevante al tema tratado en el mismo. Por el contrario, mientras más veces se presenta una palabra en todos los documentos de la colección, ésta discrimina peor entre documentos [16], [21]. B. Reducción de la dimensionalidd. La matriz obtenida en la fase anterior puede ser visualizada como una tabla atributo-valor, donde cada fila representa un texto y cada columna, asociada a un término, será un atributo o característica que describe el conjunto de datos. El número de términos determina la dimensionalidad del espacio de entrada la cual, en este contexto, puede llegar a ser muy alta. Es conveniente entonces pasar por una fase de reducción de la dimensionalidad, donde se realiza una selección de los atributos más informativos para la tarea de clasificación. Esta selección puede llevarse a cabo aplicando algoritmos

D. Evaluación del modelo. Es importante evaluar el modelo generado utilizando una medida de rendimiento adecuada para el tipo de tarea. En el aprendizaje supervisado, las métricas que se utilizan comúnmente para evaluar el rendimiento de generalización de los modelos inducidos, son el error de clasificación y la exactitud predictiva. Sobre la base de la matriz de confusión (Figura 2), estas medidas se definen de la siguiente manera:

Figura 2. Matriz de confusión para un problema de clasificación de dos clases

(1)

(2) Otras métricas que son utilizadas y que permiten medir el rendimiento sobre cada una de las clases de manera independiente son la precisión y la sensibilidad (o recall), las cuales se definen a partir de la matriz de confusión de la siguiente forma: (3)

(4)

La precisión (o pureza) es una medida de la exactitud que determina, de los ejemplos clasificados como positivos, cuántos son clasificados correctamente. La sensibilidad o recall, es una medida de la completitud o exactitud positiva,

que indica cuántos ejemplos de la clase positiva fueron clasificados correctamente.

los documentos aplicando un proceso de comparación con el diccionario.

Para estimar el rendimiento del clasificador en base a la medida seleccionada, es necesario utilizar técnicas de evaluación para garantizar resultados estadísticamente confiables. Una de las más comúnmente utilizada es la validación cruzada de k particiones, la cual se implementa de la siguiente forma: el conjunto de datos se divide de manera aleatoria en k particiones disjuntas, Pi, i=1..k de similar tamaño. A continuación, cada partición Pi se utiliza como conjunto de validación para determinar el valor de la medida de rendimiento para un modelo entrenado con el resto de las particiones. Se generan entonces k valores, los cuales son promediados para estimar el resultado final.

 Una vez eliminadas las palabras no informativas, se realizó el proceso de lematización (stemming) sobre el resto, mediante la aplicación del algoritmo Porter Stemming [22], para el español.

III.

CONSTRUCCIÓN DEL CLASIFICADOR DE DOCUMENTOS DE GRADO

El corpus o conjunto de datos utilizado en esta investigación son documentos de Trabajos Especiales de Grado de la Licenciatura de Computación de la Universidad Central de Venezuela, para un período de dos años. Para la construcción del clasificador sólo se consideraron el título, resumen (o en su defecto la introducción) y palabras claves. Además, cada documento tiene asociado una etiqueta de clase correspondiente al área profesional al cual pertenece. La Tabla 1 muestra como se distribuyen los documentos recolectados entre las 4 opciones que fueron consideradas en este estudio. TABLA 1.

 Como resultado, se obtuvo un total de 3.747 lexemas a partir de los documentos recopilados, los cuales constituyen el espacio de términos T = {t1,…,td}, con d= 3.747. b) Indexación: Se calculó el peso aij del término j en el documento i aplicando tres de propuestas de indexación: tfc, ltc y entropía [16], [21]. Las mismas fueron seleccionadas ya que toman en cuenta aspectos como la diferencia de tamaños entre documentos, además de la gran efectividad que han registrado en los trabajos previamente revisados. Entonces, sea fij = frecuencia del término j en el documento i, nj = número total de veces que el término j aparece en la colección (D), N = cantidad de documentos en la colección (cardinalidad de D), M = cantidad de términos en la colección (cardinalidad de T); el valor de aij utilizando estas técnicas de indexación se determina de la siguiente forma:

(

NÚMERO DE DOCUMENTOS POR ÁREAS Área

No. documentos

Aplicaciones de Tecnología Internet (ATI)

50

Tecnología en Comunicaciones y Redes de Computadoras (Redes)

49

Bases de Datos (BD)

50

Inteligencia Artificial (IA)

49

Total

N = 198

A continuación, se detalla el proceso de minería de textos que se llevó a cabo, utilizando como esquema de representación el modelo de espacio de términos.

(

)

(5) √∑

(

(

[

(

(

)

)

)]

(

)

(6) √∑

(

)

[

(

)

(

)]

) )

(

( )

∑

( ))

(7)

Se obtuvieron tres matrices de documentos como la representada en la Tabla 2, una por cada tipo de pesado.

A. Preprocesamiento de los datos. TABLA 2.

Los pasos realizados para el preprocesamiento de los documentos se listan a continuación:

MATRIZ DE INDEXACIÓN (PESADO)

t1

…

tj

…

t3747

a) Definición del espacio de términos.

d1

a11

…

a1j

…

a1, 3747

 Se eliminaron los signos de puntuación y demás caracteres especiales. Los acentos también fueron removidos, para facilitar el análisis de los textos.

…

…

…

…

…

…

di

ai1

…

aij

…

ai, 3747

…

…

…

…

…

…

di

a198,1

…

a198,j

…

a198,3747

 Se construyó un diccionario de palabras frecuentes en el español que no aportan información para la tarea de clasificación de textos. Estas palabras fueron eliminadas de

B.

Reducción de la dimensionalidad

Debido a la alta dimensionalidad del espacio de términos (d = 3.747) se aplicaron técnicas para la selección de atributos. En este trabajo se utilizó para tal fin la herramienta Weka [23], la cual ofrece la posibilidad de seleccionar tanto la función de evaluación como el método de búsqueda a emplear para realizar la selección. Para determinar la relevancia de los términos en los documentos se consideraron los siguientes criterios de calidad: ganancia de información, chicuadrado(X2), coeficiente de correlación, razón de ganancia con entropía y consistencia. El número de características a considerar por cada tipo de indexación fue determinado mediante un esquema de votación simple: en base a los juicios de valoración sobre la importancia de cada atributo proporcionado por cada método, se seleccionaron aquellos que recibieron al menos 4 votos (fueron considerados por al menos 4 métodos de selección). Como resultado, se obtuvieron 3 vistas minables, una por cada tipo de indexación (ver Tabla 3). TABLA 3.

de decisión son: regla K-NN con rechazo (la clasificación sólo se realiza en el caso de que alguna de las clases reciba un número de votos mayor a un umbral pre-establecido), regla KNN por distancia media (se asigna la clase con distancia promedio menor), entre otros. La Figura 3 presenta el algoritmo en detalle.

NÚMERO DE ATRIBUTOS PARA CADA VISTA MINABLE

Vista minable

No. de atributos seleccionados

Pesado por tfc

41

Pesado por ltc

41

Pesado por entropía

35

C. Estimación del modelo de clasificación y evaluación. Para generar el modelo de clasificación se utilizó el algoritmo K-vecinos más cercanos (K-NN), el cual es ampliamente utilizado en la construcción de clasificadores con datos complejos, como textos e imágenes [4], [24]. Este algoritmo se basa en el aprendizaje basado en instancias o por analogía, es decir, la predicción o generalización de una etiqueta de clase a un nuevo dato (dato de test), toma en cuenta las clases asociadas a las instancias más cercanas a éste en el espacio de entrada. Éstas se conocen como los “vecinos más cercanos”. Un aspecto a resaltar es que estos algoritmos no construyen un modelo global a partir del conjunto de datos antes de realizar cualquier predicción (como lo hacen otras máquinas de aprendizaje, como las redes neuronales o los árboles de decisión, por ejemplo). Más bien, almacenan este conjunto y realizan una aproximación local al dato a generalizar en el momento en que éste se recibe. Es por esto que también se les conoce como métodos perezosos o lazy. La “cercanía” es definida en términos de una métrica de distancia, como la distancia Euclídea (también es posible utilizar medidas de similitud, como la función coseno). Para determinar el conjunto de vecinos más cercanos, es necesario calcular los valores de proximidad del dato a procesar con cada instancia del conjunto de datos. Una vez determinados los K vecinos, se utiliza algún criterio de decisión para seleccionar la etiqueta de clase a asignar. Uno de ellos es seleccionar la clase más frecuente en el conjunto de vecinos, conocido como criterio de decisión por mayoría. Otras reglas

Figura 3. Algoritmo K-vecinos más cercanos

Como se observa, el algoritmo K-NN es muy sencillo de implementar, pero la clasificación de un nuevo dato puede ser costosa computacionalmente cuando el conjunto de datos almacenado es muy grande, debido a la necesidad de calcular los valores de proximidad del dato a clasificar y cada instancia de este conjunto. Por otra parte, la calidad de las clasificaciones depende del valor de K (cuántos vecinos se toman en cuenta para realizar la predicción), el cual debe ser adaptado al conjunto de aprendizaje y generalmente se determina de manera experimental. Otro parámetro que puede influir en los resultados es la métrica de distancia a emplear. TABLA 4.

VALORES PROMEDIO DE LA EXACTITUD PARA CADA VISTA MINABLE

Distancia

Euclídea

Euclídea ponderada

Chebyshev

Chebyshev ponderada

K

tfc

ltc

entropía

1

78.78

78.28

80.81

3

80.80

82.32

80.81

5

77.27

81.31

76.76

7

75.75

80.30

74.75

1

78.78

78.28

80.81

3

80.80

81.81

79.79

5

79.79

81.81

82.32

7

78.78

80.80

80.81

1

76.77

80.30

76.77

3

69.69

78.28

73.73

5

70.20

73.73

76.77

7

77.27

69.19

76.77

1

76.76

80.30

76.77

3

70.70

81.81

77.27

5

71.21

80.30

76.76

7

78.78

79.29

76.77

En este sentido, se llevaron a cabo experimentos para configurar estos parámetros para cada matriz de indexación con valores de K = 1, 3, 5 y 7, y medidas de distancia Chebyshev o Euclídea; además de la posibilidad de utilizar distancia ponderada o no. La Tabla 4 muestra, para cada vista minable relacionada con un tipo de indexación, los valores promedios de la exactitud aplicando validación cruzada de 10 particiones. La regla de decisión empleada fue el criterio por mayoría. Para resolver los empates (que pueden presentarse para los valores de K = 3, 5 y 7, se utilizó el criterio de distancia promedio. Como se observa en los resultados destacados en esta Tabla, el mayor porcentaje de clasificaciones correctas fue de 82.32% para el pesado ltc y por entropía, con valores de K=3 y K=5, respectivamente. En el contexto de clasificación de este trabajo, en el que se consideran cuatro áreas profesionales como categorías, resulta más conveniente la elección de K=5, puesto que sólo se puede presentar un empate en el número de votos en dos áreas diferentes, lo cual puede resolverse en base al promedio de las distancias ponderadas de los dos documentos clasificados bajo cada una. Entonces, en base a los resultados obtenidos, se decidió implementar el clasificador con el pesado por entropía y con los siguientes parámetros: K = 5 y distancia Euclídea ponderada. La Tabla 5 muestra el desempeño de este clasificador para cada clase. TABLA 5.

DESEMPEÑO DEL CLASIFICADOR K-NN SELECCIONADO

kNN con K=5 y distancia Euclídea ponderada como 1/distancia Clasificaciones correctas

163

82,3232%

Clasificaciones Incorrectas

35

17,6768%

Medidas de Rendimiento

Precisión

Sensibilidad

Clase a = ATI Clase b = Redes

0,729 1,000

0,860 0,816

Clase c = BD

0,695

0,820

Clase d = IA

0,975

0,796

Promedio

0,848

0,823 a

Matriz de confusión Reales

IV.

Clasificador b c d

a

43

0

7

0

b

4

40

5

0

c

8

0

41

1

d

4

0

6

39

APLICACIÓN PARA LA ASIGNACIÓN AUTOMÁTICA DE JURADOS

Con el fin apoyar el proceso de asignación de jurados a Trabajos Especiales de Grado de la Licenciatura de Computación de la UCV, se construyó una aplicación que toma en cuenta la recomendación de la opción profesional proporcionada por el clasificador de documentos de grado. Como se observa en la Figura 4, la aplicación está compuesta por 4 módulos, los cuales se describen a continuación:

 Módulo de recomendación de áreas. Este módulo se encarga de preprocesar y clasificar el documento de TEG. Recibe como entrada, los datos correspondientes al título, resumen (o introducción) y palabras claves del TEG a clasificar y construye el vector numérico asociado, según el modelo de espacio vectorial definido por los atributos seleccionados, con indexación por entropía. Una vez preprocesado el documento, éste se clasifica considerando las áreas de los 5 vecinos más cercanos, mediante la aplicación de la regla de decisión por mayoría. De presentarse un empate, éste se resuelve por distancia promedio, como se explicó anteriormente. Sin embargo, el área “perdedora” no se descarta; también se recomienda debido a la posible interdisciplinariedad presente en los trabajos. De esta forma, este módulo es capaz de recomendar hasta dos áreas; una se considera principal y la otra secundaria o complementaria.  Módulo de asignación de jurados. Una vez clasificados los documentos, el módulo de asignación de jurados selecciona, según lo especifican un conjunto de reglas de elección de profesores, los docentes pertenecientes al área o áreas confirmadas. Estas reglas de elección consideran el número de jurados principales y suplentes a asignar, que el docente no se encuentre de permiso y que no haya superado el número máximo de asignaciones como jurado para el semestre lectivo, entre otros criterios.  Módulo de mantenimiento. Se encuentra disponible únicamente para el administrador de la aplicación, ya que permite configurar parámetros y realizar acciones que afectan directamente su desempeño. Dado que las asignaciones de jurados se hacen semestralmente, el módulo de mantenimiento tiene como utilidad principal la inicialización de las asignaciones de los docentes una vez finalizado cada semestre. Además, ofrece la posibilidad de modificar la cantidad máxima de asignaciones, como jurado principal y suplente, para un profesor en un semestre lectivo. También permite al administrador agregar, eliminar o modificar docentes, usuarios, áreas, así como asociar áreas a un docente.  Módulo de consulta. Permite realizar búsquedas personalizadas sobre el histórico de asignaciones de profesores como jurados de TEG, mediante la configuración de los parámetros de consulta a conveniencia del usuario Una vez desarrollada la aplicación, se realizaron diversas pruebas que consistieron en clasificar 23 documentos de TEG, pertenecientes a un corpus que fue coleccionado después de la construcción del clasificador. Cada documento en este corpus estaba asociado a una opción profesional; sin embargo, con el apoyo de expertos, en algunos casos se asignó una segunda área considerando la posible interdisciplinariedad presente en estos trabajos. Los resultados obtenidos se resumen en la Tabla 6. A partir de esta tabla se puede concluir:  Para aquellos documentos que tienen asociado una sola área profesional, el módulo de recomendación logra

Figura 4. Arquitectura de la aplicación de asignación de jurados

 predecir la opción asociada, como primera alternativa, con un rendimiento del 88,9 %.  Si se toma en cuenta la segunda alternativa que recomienda la aplicación, el porcentaje de aciertos asciende a 94%.

de clasificación con clases no balanceadas, ya que por las preferencias de los estudiantes al seleccionar un tema como TEG, algunas Opciones están muy poco representadas. TABLA 6.

RESULTADOS DE LA EVALUACIÓN REALIZADA A LA APLICACIÓN

 En general, si se estiman correctas las recomendaciones que consideran el área del TEG o al menos una de sus áreas, en el caso de pertenecer a más de una, el clasificador alcanza un 95,65% de documentos clasificados correctamente.

Nro. TEG

Categorización proporcionada por los expertos

Recomendación realizada por la aplicación

1 2

ATI REDES

ATI REDES y BD

Como muestra, se presenta en la Figura 5 una de las pantallas de la aplicación [25]. V.

CONCLUSIONES Y TRABAJOS FUTUROS

3

ATI

ATI

4

REDES

REDES

5

ATI y BD

BD y ATI

6

REDES

REDES

7 8

ATI y BD ATI

ATI ATI

9

REDES

REDES e IA

10

REDES

REDES

La aplicación desarrollada permite la asignación automática de jurados a trabajos de grado, tomando en cuenta la recomendación de la opción profesional realizada por un clasificador construido con técnicas de minería de textos. Además, según los resultados alcanzados, se considera efectiva la recomendación de dos áreas cuando existe un empate en las clasificaciones realizadas por el algoritmo KNN, puesto que en muchos casos los documentos no tienen relación con una sola área

11

ATI

ATI

12

ATI

ATI y BD

13 14

ATI IA

ATI REDES

15

REDES

REDES

16

ATI

BD y ATI

La principal ventaja del módulo de asignación de jurados, reside en que permite que la toma de decisiones con respecto a la elección de los profesores como jurados, se base en una valoración objetiva, que toma en cuenta criterios establecidos que buscan garantizar una elección equitativa con igualdad de condiciones. Como trabajo futuro se está considerando la posibilidad de utilizar medidas de similitud difusas, con el fin de manejar la posible interdisciplinariedad de los trabajos y la inclusión en el corpus de documentos de todas las opciones profesionales. Esto último conlleva investigar en la construcción de modelos

17

BD

BD

18 19

BD y ATI ATI

ATI y BD ATI

20

ATI y BD

BD y ATI

21

ATI

ATI

22

ATI y BD

BD

23

IA

BD e IA

REFERENCIAS [1]

[2]

A. Hotto, A. Nürnberger, G. Paaß. “A Brief Survey of Text Mining”. Journal for Computational Linguistics and Language Technology. (20)1:19-62. May, 2005. V. Gupta, G. Lehal. “A Survey of Text Mining Techniques and Applications”. Journal of Emerging Technologies in Web Intelligence. 1(1):60-76. Agosto, 2009.

Figura 5. Interfaz de la aplicación – Pantalla que muestra la recomendación del clasificador [3]

[4] [5]

[6]

[7] [8]

[9] [10]

[11]

[12]

[13]

[14]

[15]

[16]

K.A. Vidhya, G. Aghila. “Text Mining Process, Techniques and Tools: an Overview”. International Journal of Information Technology and Knowledge Management. 2(2):613-622. Julio-Diciembre, 2010. J. Han, M. Kamber, J. Pei. “Data Mining. Concepts and Techniques”. Third Edition. Morgan Kaufmann Publisher. 2011. J. M. Goméz, I. Giráldez, M. de Buenaga. “Text Categorization for Internet Content Filtering”. Revista Iberoamericana de Inteligencia Artificial. 8(22):147-160. 2004. A. Téllez, M. Montes, O. Fuentes, L. Villaseñor. “Using Machine Learning for Extracting Information from Natural Disaster News Reports”. Computación y Sistemas. 13(1):33-44. 2009. A. Cohen, W. Hersh. “A survey of current work in biomedical text mining”. Briefings in Bioinformatics. 6(1):57–71. Marzo, 2005. C. Gálvez. “Minería de Textos: La nueva generación de análisis de literatura científica en Biología Molecular y Genómica”. Encuentros Bibli. 25:1-14. Enero-Junio, 2008. R. Venegas. “Clasificación de textos académicos en función de su contenido léxico-semántico”. Revista Signos. 40(63):239-271. 2007. E. Martínez, M. T. Martín, J. Perea, A. Ureña. “Técnicas de clasificación de opiniones aplicadas a un Corpus en Español”. Revista Procesamiento del Lenguaje Natural. 47:163-170. Septiembre, 2011. E. Botta, J. Cabrera. “Minería de textos: una herramienta útil para mejorar la gestión del bibliotecario en el entorno digital”. Revista Acimed. 16(4). 2007. A. Cobo, R. Rocha, M. Alonso. “Descubrimiento de conocimiento en repositorios documentales mediante técnicas de Minería de Texto y Swarm Intelligence”. Revista Rect@. 10:105-124. Diciembre, 2009. N. Collier, S. Doan. “Syndromic classfication of Twitter messages”. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering. 91:186-195. 2012. D. Reinel, S. Rill, J. Scheidt, F. Wogenstein. “The Migraine Radar - A Medical Study Analyzing Twitter Messages?”. Proceedings First International Conference on Advances in Information Mining and Management, IMMM’2011. 103-106. 2011. J. Yang, X. Zhao, Q. Li. “Mining Social Response to Crisis via Electronic Media”. Proceedings 4th International Conference on Management of e-Commerce and e-Government, ICMeCG’2010. 3-9. 2010. K. Aas, L. Eikvil. “Text Categorization: A Survey”. Report No. 941. Norwegian Computing Center. June, 1999.

[17] F. Sebastiani. “Machine Learning in Automated Text Categorization”. ACM Computing Surveys. 34(1):1-47. Marzo, 2002. [18] S. Niharika, V. Sneha Latha, D.R. Lavanya. “A Survey on Text Categorization”. International Journal of Computer Trends and Technology. 3(1):39-45. 2012. [19] H. Mak. “INTIMATE: a Web-based movie recommender using text categorization”. Proceedings. IEEE/WIC International Conference on Web Intelligence. 602-605. 2003. [20] Y. Liao, V. Rao. “Using Text Categorization Techniques for Intrusion Detection”. Proceeding Proceedings of the 11th USENIX Security Symposium. 51-59. 2002. [21] A. Khan, B. Baharudin, L. Hong, K. Khan. “A Review of Machine Learning Algorithms for Text-Documents Classification”. Journal of Advances in Information Technology. 1(1):4-21. Febrero, 2010. [22] M. Porter. “An Algorithm for Suffix Stripping”. Program. 14(3):130137. 1980. [23] M. Hall, E. Frank, G. Holme, B. Pfahringer, P. Reutemann, I. Witten. “The WEKA Data Mining Software: An Update”. SIGKDD Explorations. 11(1). 2009 [24] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. McLachlan, A. Ng, B. Liu, P. Yu, Z. Zhou, M. Steinbach, D., Steinberg, D. Hand. “Top 10 algorithms in data mining”. Knowlgedge Information Systems. 14:1–37. 2008 [25] Torres, D. “Minería de textos para la asignación automática de jurados”. Trabajo Especial de Grado. Escuela de Computación. Universidad Central de Venezuela. Junio, 2011.