6. OTRAS PERSPECTIVAS DE ANALISIS DE DATOS TEXTUALES

6. OTRAS PERSPECTIVAS DE ANALISIS DE DATOS TEXTUALES En este capítulo se presentan algunas técnicas probadas con éxito en el proyecto de investigació...

Author: Alicia Farías Rubio

5 downloads 0 Views 153KB Size

Report

Download PDF

Recommend Documents

OTRAS HERRAMIENTAS DE ANALISIS

ANALISIS DE COYUNTURA Y PERSPECTIVAS MACROECONOMICAS HONDURAS

6. ANALISIS DE RIESGOS

REGISTROS, CUESTIONARIOS Y OTRAS FUENTES DE DATOS

6. ANALISIS DE COLUMNAS DE DESTILACION

LOS GEOGLIFOS DE PALPA: DOCUMENTACION, ANALISIS Y PERSPECTIVAS

JAUNNERSIDAD AUlUNOMA METROPOllTANA REVISTA DE TEORIA Y ANALISIS TEXTUALES. Departamento de Filosofia. julio-dieicmbre Ana 1

ANALISIS DE LOS DATOS DEL CENSO DE EMBARCACIONES

6. Incertidumbre de los datos

Anexo 6 Documento de Base de Datos

6. RECOLECCION DE DATOS. TRABAJO DE CAMPO

Primera Ley de Datos Personales COLIMA. Retos y perspectivas

TRATADO N 6 PROCEDIMIENTOS DE OTORGAMIENTO DE OTRAS AUTORIZACIONES

Documentos de Pre-Congreso Diciembre ANALISIS DE COYUNTURA DEL 2005 Y PERSPECTIVAS - CONSIDERACIONES OBJETIVAS Y PERSPECTIVAS PARA EL 2006

Bases de datos nacionales e internacionales: LILACS, IBECS y otras

FICHA DE DATOS DE SEGURIDAD PAGINA 1 DE 6

HOJA DE DATOS DE SEGURIDAD Hoja 1 de 6

Los avatares textuales de Abrir el ojo

TEMA 6: Tipos de datos estructurados

Perspectivas de mercado

0. CONCEPTO DE TEXTO. PROPIEDADES TEXTUALES

PERSPECTIVAS DE CARRERAS

MERCADO DE CEREALES PERSPECTIVAS

Perspectivas de cosechas y

6. OTRAS PERSPECTIVAS DE ANALISIS DE DATOS TEXTUALES

En este capítulo se presentan algunas técnicas probadas con éxito en el proyecto de investigación “El Brain Gain revisited a través del caso colombiano. Estudio de la red Caldas” en el cual participó uno de los autores de este texto (Montenegro,1996). El objetivo del proyecto era el estudio de la comunidad de científicos colombianos radicados en el exterior. Como parte del proyecto se realizó una encuesta a la población bajo estudio, la cual fué respondida por científicos y profesionales colombianos residentes en 27 países. El análisis de datos textuales fue utilizado en varias partes del trabajo. Dos técnicas estadísticas diferentes y complementarias fueron usadas. La primera técnica es el análisis de datos textuales por métodos factoriales estudiada hasta ahora en el presente texto. La segunda proviene de la cienciometría y es conocida como técnica de palabras asociadas, la cual se describe en este capítulo. Al presentar esta última técnica los autores buscan presentar una alternativa de análisis complementario que lleva a resultados de tipo estratégico muy valiosos.

Para efectos de la ilustración se han escogido dos ejemplos de estudios particulares que muestran la utilización del análisis de datos textuales por métodos factoriales, en algunos problemas diferentes al análisis de respuestas a preguntas abiertas. Adicionalmente, estos mismos ejemplos y la respuesta analizada en el capítulo 5 con analizados usando la técnica de palabras asociadas.

118

Alvaro Montenegro y Campo Elías Pardo

6.1 Análisis de datos longitudinales. Trayectorias Residenciales. En uno de los estudios particulares se pretendió caracterizar la población desde el punto de vista de sus trayectorias residenciales. Para ello se pidió a los encuestados registrar su trayectoria residencial, teniendo como unidad de permanencia la de estar al menos seis meses en un determinado país. Los encuestados registraron en el formulario cada una de sus estadías indicando fechas de inicio y el país respectivo. El propósito en ésta sección no es hacer una discusión acerca de las técnicas usadas para este tipo de análisis, para ello puede consultarse por ejemplo Barbary (1994). El análisis armónico cualitativo que es la técnica mas usada en este tipo de problemas y tiene la característica de que puede ser reducido de forma aproximada al análisis factorial de correspondencias simples, y las técnicas de interpretación

habituales

son válidas. Aquí se utiliza tal técnica con una posible

recodificación de los datos que fué usada en el proyecto mencionado arriba y que es relativamente diferente a otros tipos de recodificación propuestos en diferentes artículos sobre el tema. En la construcción de lo datos para el análisis se siguieron los siguientes pasos:

1. Completar la información biográfica. Periodos no referenciados son asumidos como residencia en el país nativo (la mayoría son Colombia) 2. Suponer que cada trayectoria puede verse como un texto asociado a cada individuo que se obtiene de la siguiente manera: a partir de los 16 años, edad a partir de la cual se desea hacer la observación se construye la historia completa año por año (se encontró que no era significativo conservar la unidad de 6 meses) de la siguiente manera: Si la persona permaneció en Colombia entre los 16 y 18 años, luego se desplaza a USA entre los 19 y 23 años y la persona tiene 23 años, entonces se codifica así:

colombia16 colombia17 colombia18 usa19 usa20 usa21 usa22 usa23.

Introducción al análisis de datos textuales

119

Eventualmente, si se desea hacer algunos acercamientos entre trayectorias por ejemplo permanencias en el mismo país en edades diferentes se agrega el nombre del país sin edad, y lo mismo si se desean acercamientos regionales como Europa Occidental se agrega el área continental a la respuesta. La tabla 6.1 presenta un ejemplo real de codificación a partir de la información original. Esta forma de codificación es diferente a otras propuestas con anterioridad, y ha demostrado tener buenos resultados. 3. Se realiza el análisis textual a las respuestas abiertas construidas a partir de la codificación propuesta. La figura 6.1 muestra el segundo plano factorial obtenido. Se deja al lector las posibles interpretaciones.

Lo que se puede afirmar finalmente es que esta técnica entrega resultados similares a los obtenidos mediante otras técnicas de recodificación. Sin embargo se tendrían al menos tres ventajas: 1. Las respuestas características muestran directamente las trayectorias más típicas en cada grupo obtenido. 2. La posibilidad de agregar información directamente permite introducir conceptos de cercanía. Es mas probable un movimiento dentro de la comunidad europea que desde allí hacia USA. 3.

No se tienen los problemas de clausura que se tienen en otros tipos de codificación.

120

Alvaro Montenegro y Campo Elías Pardo

Archivo de Historia Residencial Datos Originales Ide País FechaDesde FechaHasta EdadActual 0001 Alemania 1980 1985 34 0001 Brasil 1986 1989 34 0001 Argentina 1990 1994 34 0002 ................................................ Datos Codificados ----0001 COLOMBIA COLOMBIA16 COLOMBIA17 COLOMBIA18 COLOMBIA19 ALEMANIA COM_EUROPEA ALEMANIA20 ALEMANIA13 ALEMANIA22 ALEMANIA23 BRASIL SUR_AMERICA BRASIL26 BRASIL27 BRASIL28 BRASIL29 ARGENTINA SUR_AMERICA ARGENTINA30 ARGENTINA31 ARGENTINA32

----0002 Tabla 6.1: Codificación de trayectorias residenciales.

Figura 6.1: Plano factorial 2,3 obtenido en el análisis de trayectorias residenciales

Introducción al análisis de datos textuales

121

6.2 Análisis de Campos de investigación. Construcción de Mapas Científicos La construcción de mapas científicos es una de las grandes necesidades para quienes tienen que ver con la política científica. Un mapa topográfico de la ciencia muestra el posicionamiento conjunto de las disciplinas en las cuales se hace investigación. Sin embargo la construcción no es trivial. Para conseguir la representación y caracterización de la investigación en la población bajo estudio se procedió así:

En la encuesta se hicieron dos preguntas semiabiertas relacionadas que fueron: 1.1 ¿Cuál se su campo de investigación? (ejemplos: biología molecular, sociología de la ciencia, ingeniería de represas, literatura contemporánea) 1.2 Detalle con ayuda de palabras clave (entre 4 y 8) el contenido de su investigación (ejemplo: actor / transferencia de conocimiento / migraciones científicas / brain drain / internacionalización / red / ciencia y tecnología /.

La idea utilizada para el análisis es la construcción de respuestas abiertas a partir de las palabras provenientes del campo de investigación y las palabras clave. Sin embargo la gran variabilidad de los datos y la falta de normalización lleva a la agregación de nueva información presente en los datos pero en forma implícita. Esta agregación tiene una doble ventaja, ya que por un lado facilita la construcción de los diferentes grupos, y por el otro lado la lectura de los resultados resulta mejor contextualizada.

La agregación sin embargo debe hacerse de una manera técnica y no puede depender del criterio de quién codifique. Para la agregación se utilizó el sistema de clasificación de las bases de clasificación francesas Pascal (Para las ciencias básicas y tecnológicas y para las ciencias médicas y biológicas) y Francis (Para las ciencias sociales y económicas). El campo de investigación mencionado por el encuestado es normalmente encontrado en el tercer nivel

de clasificación, entonces las palabras que definen los tres niveles son

agregadas. Por ejemplo si la persona tiene por campo de investigación ecuaciones diferenciales, la agregación proveniente de Pascal es:

122

Alvaro Montenegro y Campo Elías Pardo

Ciencias_Básicas Aspectos_Generales Matemáticas.

La tabla 6.2 ilustra el proceso de codificación y en la figura 6.2 se muestra el primer plano factorial del análisis, que en la práctica es el mapa topográfico general del estado de la investigación de la ciencia en la población estudiada. Como se observa, se tienen tres grandes grupos de temáticas, las cuales aparecen forzadas por el sistema de clasificación, lo cual no está mal. Los tres grandes grupos que aparecen son: ciencias básicas y tecnológicas, ciencias medicas y biológicas y ciencias sociales y económicas. En la gráfica puede observarse por ejemplo la ubicación de algunas temáticas aisladas del los contextos generales como el caso de salud pública, biodiversidad o ambiental. Su ubicación parece indicar que los estudios en estas temáticas se hacen desde disciplinas ubicadas en grandes grupos diferentes. Esta sospecha es confirmada al observar los datos directamente. Por ejemplo la salud publica es tema de investigación de médicos y biólogos dentro del contexto médico y biológico, pero también es una temática estudiada desde el punto de vista social y económico por otros investigadores. Este ejemplo nos sirve para ilustrar una estrategia adicional de análisis. En este como en muchos problemas de análisis textual se presenta el caso de que como resultado del proceso de clasificación se obtienen grandes grupos mas o menos homogéneos, para los cuales la herramienta entrega descripciones macro. Si se requiere como en este caso una descripción más a fondo, la propuesta estratégica es obtener los primeros grandes grupos y construir la variable grupo, cada una de cuyas modalidades corresponde a uno de los grupos1. Una vez construida la variable grupo para el paquete, se inicia de nuevo el proceso de análisis, pero ahora no se seleccionan todos los individuos, sino que se seleccionan de acuerdo a la pertenencia o no a cada grupo.

1

En la documentación del software puede consultarse la sección de conservación de archivos temporales. Para la construcción de la variable puede requerirse el uso del paquete SPAD N, en la sección de recodificaciones.

Introducción al análisis de datos textuales

123

Archivo de Investigación CSocialesEconomicas NoTiene CSocialesEconomicas CMedicasBiologicas CSocialesEconomicas CMedicasBiologicas CSocialesEconomicas CMedicasBiologicas

0001 0001 0001 0001 0001 0002 0003 0003 0003 0003 0003 0003

CJuridicasInf NoTiene EconomGeneral Biologia EconoEnergia Biologia EconomGeneral Sicologia

ASIA ECONOMIA& PACIFICO AMERICA LATINA INTEGRACION NOTIENE INTERNACIONALES MODELO DESARROLLO ECONOMICO IDENTIDAD CULTURAL

ProbInformatJurid NoTiene EconInternacional AnimalProducc NuclearEnerg VertebAnatSico TeorHistoEconomi Sicoanalisis

CIENCIAS_POLITICAS NoTiene RELACIONES_INTERNAL APICULTURA#APITOXINA TECNOLOGIA_INDUSTR MEDICINA_VETERINARIA METODOLOG_ECONOMIA CARACTER_CIENTIFICO

----0001 CSocialesEconomicas CJuridicasInf ProbInformatJurid CIENCIAS_POLITICAS ASIA, ECONOMIA&, PACIFICO, AMERICA, INTEGRACION . ----0002 NoTiene NoTiene NoTiene NoTiene ----0003

Tabla 6.2: Construcción del archivo de palabras clave

La figura 6.3 presenta el primer plano factorial obtenido para el grupo de ciencias básicas y tecnológicas. Obsérvese la posición de la palabra clave modelo matemático en la región de la ciencias de la tierra, específicamente de la geología, que parece indicar una orientación en la investigación en tales áreas.

La figura 6.4 es un nuevo ZOOM o acercamiento pero esta vez en el área de Informática y electrónica. Este gráfico evidencia la presencia de 4 grupos de investigación bien definidos, en realidad hay un quinto que por defecto del graficador utilizado no aparece, pero que esta en la parte superior relativamente cerca de bases de datos.

124

Alvaro Montenegro y Campo Elías Pardo

Figura 6.2: Primer plano factorial del Análisis de campos de investigación Una rápida mirada al mapa muestra aspectos muy interesantes para el estudio en cuestión. Por ejemplo, la cercanía al centro de la palabra clave software indicaría que los trabajos tienen especial énfasis en el desarrollo de software. La presencia de la inteligencia artificial hace suponer un trabajo intenso en tal área, pero su fuerza de representación no es tan grande como la de las cinco áreas mencionadas abajo. En realidad la caracterización de los grupos finales revela que la inteligencia aparece como es lógico suponer en los grupos de temáticas ubicados en la parte superior del plano. Sin embargo su presencia parece indicar un diversidad en el utilización, con lo cual se puede concluir cuidadosamente, que habría más una utilización de los conceptos y técnicas de la inteligencia artificial que un desarrollo al interior de ella misma. Este pensamiento es confirmado con la observación de las respuestas completas por un lado y por otro lado con la edición de las concordancias de la forma inteligencia_artificial .

Introducción al análisis de datos textuales

125

Figura 6.3: Primer plano factorial del análisis de campos de investigación en ciencias básicas y tecnológicas.

Los grupos identificados son: lenguajes computacionales (que no aparece en este gráfico, por defecto del mismo, ubicado en la parte superior al lado derecho del eje vertical), bases de datos, robótica (automática), microelectrónica y telecomunicaciones. El éxito en la utilización de las herramientas en este ejemplo no está solamente en la obtención de una cartografía muy precisa de la investigación en la población estudiada. Una entidad interesada en la utilización de estos resultados bien puede pretender construir lo que se conoce como una base de datos de conocimientos, con informaciones provenientes de este análisis tales como: cartografías o mapas científicos, personas trabajando en cada área especializada (cada una de las personas de un grupo final), las temáticas abordadas en cada área (respuestas caraterísticas de cada grupo final), el trabajo individual de cada persona (la respuesta individual), la ubicación de una persona en la carta científica, la ubicación de una persona en un área, etc..

126

Alvaro Montenegro y Campo Elías Pardo

Figura 6.4: Cartografía de la investigación en Informática y electrónica.

Finalmente señalemos que la estadística descriptiva puede tomar una valor superlativo en este momento del análisis. La elaboración de conocimiento a partir de la información textual permite ahora la presentación de preguntas inteligentes. Por ejemplo, resulta estratégico para una entidad gubernamental, luego de obtener respuestas a los siguientes interrogantes: • ¿Como están distribuidos geográficamente las personas que trabajan en informática? • ¿Cuales son los niveles académicos que tienen los individuos que investigan en informática? • ¿En que sitios trabajan? • ¿Cuales son sus edades? • ¿Cual es la actitud de estas personas frente a la investigación en Colombia? • etc.

Introducción al análisis de datos textuales

127

Un análisis descriptivo sencillo sobre los individuos del grupo debe responder a cada uno de estos interrogantes.

Una pregunta un poco mas profunda como:

¿Que impacto tiene la investigación en informática en relación con las demás disciplinas? O dicho en otras palabras: ¿Que tan estratégico es el desarrollo en informática?

Esta pregunta no puede ser respondida directamente ni a partir de la información original ni a partir del conocimiento presente y ya identificado en la información.

Esta pregunta también puede hacerse con referencia a los datos del capítulo 5. En este caso la pregunta a las respuestas de los individuos es del tipo: ¿Cuales de las temáticas (problemáticas) expuestas por los jueces son más importantes o tienen una mayor influencia sobre el resto de temáticas? ¿Cuáles temáticas serían un poco mas especializadas?. Y en general ¿Cuales son las temáticas presentes en las respuestas?.

Se puede observar del tipo de pregunta anterior que el análisis factorial no entrega respuestas satisfactorias.

6.3 El método de las palabras asociadas Este método procedente de la cienciometria es uno de los bastiones en el desarrollo de la ingeniería del conocimiento. La base del método es la siguiente: Charum (1995) 1.

Se tiene un corpus documental de n textos a los que se han asociado formas gráficas clave. En total se tienen m formas diferentes para todo el corpus. Hasta aquí nuestra construcción para el análisis por métodos factoriales es casi la misma.2

2

Nótese que en el análisis a preguntas abiertas, siempre se hace un recorte de formas, buscando eliminar formas de construcción y conservando otras que dan contexto a las frases. Si se eliminan palabras repetidas dichas en el mismo contexto, se tiene un texto para este tipo de análisis. El principio que los autores proponen aplicar para respuestas a preguntas abiertas es que si una forma es pronunciada varias veces por un individuo con el mismo contexto, no es necesario conservarla sino una vez, debido a que para formar una asociación con otra forma diferente solo se requiere este la forma una sola vez.

128

2.

Alvaro Montenegro y Campo Elías Pardo

Se construye la matriz textos * formas. Es decir la tabla léxica. En esta tabla dispersa solamente hay ceros y unos según una forma esté presente o no en un texto.

3.

Para cada pareja de formas se construye su índice de asociación definido de la manera siguiente: si ci y c j son las frecuencias de las formas i y j respectivamente en todo el corpus, y cij es la frecuencia con que aparecen la formas i y j en un mismo texto (en una misma respuesta), entonces el índice de asociación entre las formas i y j se nota por E ij y se define por  cij   cij  E ij =     .  ci   c j 

(6.1)

Es decir el coeficiente de asociación entre la formas i y j es el producto de la probabilidad condicional de encontrar la forma j cuando aparece la forma i por la probabilidad condicional de encontrar la forma i cuando aparece la forma j. Este índice de asociación es un índice de similaridad entre formas y entonces permite la utilización de algunos métodos de clasificación. 4. Se construye la matriz simétrica m*m de los coeficientes de asociación. En realidad solo se requiere la parte triangular superior. 5. El resultado de un proceso de clasificación son grupos, en donde cada grupo contiene las palabras más asociadas entre sí. La fuerza del método está en que los grupos se forman por la intensidad de las asociaciones entre las palabras, y por tanto un grupo obtenido así lleva al descubrimiento de una temática presente en los textos. La caracterización de los grupos se hace a partir de las nociones de densidad y centralidad. La densidad mide la intensidad de las asociaciones internas, y puede definirse como el promedio de los índices de asociación internos. Un grupo es muy denso si el índice de asociación promedio es alto. Este índice está entre cero y uno. Dicho en otras palabras un grupo es muy denso si las formas que lo constituyen son mencionadas con mucha frecuencia en forma simultáneamente en los textos en donde aparecen. Un grupo que es poco denso se interpreta entonces como aquel en donde las palabras que lo constituyen

Introducción al análisis de datos textuales

129

están asociadas porque aparecen juntas en algunos textos, pero también aparecen en otros textos asociadas con otras palabras.

El concepto de centralidad tiene que ver con la relación de un grupo con los otros. Este índice puede medirse por ejemplo sumando los vínculos de las palabras de un grupo con las palabras de otro grupo. Un grupo es más central que otro si la suma de sus vínculos externos con los demás grupos es mayor que para el otro. En otras palabras, la centralidad tiene que ver con la importancia relativa de una temática con respecto a las demás. Entre mas central es una temática, mas impacto tiene sobre las demás.

Se llama diagrama estratégico a la ubicación de los diferentes grupos en un plano determinado por los ejes de densidad (eje vertical) y centralidad (eje horizontal). El centro del plano se ubica en la medianas de los valores de densidad y centralidad de los grupos.

Las asociaciones entre palabras hace aparecer una estructura de red, en donde un grupo puede representarse como un grafo conexo entre las palabras más fuertemente asociadas que se convierte en una unidad por eliminación de los vínculos a otras palabras con un menor coeficiente de asociación. El criterio para que una palabra pertenezca a un grupo es que su vínculo a otra palabra sea superior a un cierto umbral o que se acepte hasta un cierto número de palabras.

Una regla general para la ejecución de un análisis de palabras asociadas, con ayuda de un software es propuesta por los desarrolladores del programa LEXIMAPPE. Ellos indican que si

se tiene un archivo de entre 300 y 700 respuestas (originalmente referencias

bibliográficas) entonces se pueden usar los siguientes umbrales: • Frecuencia mínima de una palabra en el corpus: 3. • Frecuencia mínima de coocurrencias de una pareja de palabras: 3. • Número mínimo de palabras para constituir un grupo: 4. • Número máximo de palabras en un grupo: 10. 6.3.1 Ayuda a la interpretación

130

Alvaro Montenegro y Campo Elías Pardo

La figura 6.5 presenta un esquema del diagrama estratégico. Con información general para la interpretación.

D e n s id a d

Cuadrante 2 Temáticas desarrolladas pero poco centrales

Cuadrante 4 Temáticas poco desarrolladas y poco centrales Origen

Cuadrante 1 Temáticas centrales y desarrolladas

Centralidad Cuadrante 3 Temáticas centrales en desarrollo

Figura 6.5: Posicionamiento de las temáticas sobre el diagrama estratégico

En el cuadrante 2 se ubican las temáticas elaboradas (especializadas) que tiene poca influencia sobre el resto. La figura 6.6 presenta el análisis por el método de palabras asociadas de los campos de investigación presentados en la sección 6.2. En este diagrama se puede observar que la temática historia de la literatura esta en el primer cuadrante indicando su relativo desarrollo y poca influencia sobre el resto de las temática. La figura 6.8 presenta el análisis para la pregunta analizada en el capítulo cinco3. La temática comunes tiene una gran densidad pero no parece ser muy influyente en la problemática global, tratada por los encuestados. Esta temática está en el interior como secretarias y recursos comunes.

En el cuadrante 1 se ubican las temáticas elaboradas y centrales. Son aquellas temáticas maduras que además tienen gran importancia para las demás. En el ejemplo de los campos de investigación,

la física es una de la tales temáticas y la informática estaría

convirtiendose en una temática densa. Para el caso de la pregunta de opinión, en este 3

Para esta construcción se hizo una limpieza previa, eliminando formas de construcción (mas o menos de la misma manera como se preparan los datos para SPADT, con la eliminación de formas de poca longitud).

Introducción al análisis de datos textuales

131

cuadrante se ubican las temáticas (problemáticas para el caso) bastante identificadas por todo el mundo y que tendrían mayor influencia sobre las demás temáticas. La temática términos que al interior del grupo se contextualiza como reducción de por ejemplo 30 días y fuertemente relacionada con el artículo 446 del c*p*p, es una temática muy influyente e identificada por la mayoría como un problema importante.

Figura 6.6: Diagrama estratégico de las temáticas en el análisis de campos de investigación En el cuadrante 3 se ubican las temáticas en desarrollo. Son aquellas temáticas prometedoras, de gran desarrollo actual y que tendrían gran influencia actual y futura. Son aquella temáticas en expansión. En la figura 6.6 se observa que la temática inmunología esta siendo desarrollada fuertemente por la población bajo estudio, y este desarrollo tiene gran impacto sobre las demás temáticas. En el ejemplo de la figura 6.8

la temática

capacitación empieza a ser una temática densa y central, es decir, es una temática

Adicionalmente se contextualizaron algunas palabras y se eliminaron palabras repetidas con el mismo contexto en cada respuesta).

132

Alvaro Montenegro y Campo Elías Pardo

identificada por la mayoría. Por otro lado una temática que empieza a ser central es la identificada por sistematización, con tendencia a ser densa.

Figura 6.7: Diagrama de asociaciones del grupo de inmunología en el análisis de campos de investigación

En el cuadrante 4 se posicionan las temáticas que no han logrado aún un desarrollo importante. Son aquellas temáticas emergentes que pueden desaparecer en el futuro o pueden llegar a desarrollarse. En el caso de respuestas a preguntas abiertas son aquellas temáticas identificadas solo por algunas personas.

La figuras 6.7 y 6.9 muestran la constitución interna de los grupos inmunología en campos de investigación y téminos en el análisis de la respuesta a la pregunta abierta del capítulo 5 respectivamente. La figura 6.7 indica un fuerte trabajo principalmente en vacunas, parasitología y malaria, siendo esta una temática central en desarrollo. En el caso de la figura 6.9 En el interior del grupo términos se descubre información tan fina como las formas 30 días, artículo 446 y c*p*p (código de procedimiento penal).

Introducción al análisis de datos textuales

133

Figura 6.8: Diagrama estratégico de la respuesta a una pregunta abierta analizada en capítulo 5 Finalmente señalemos que los números que aparecen el final de las líneas de asociación de un grupo con otro muestran el grado de vinculación de una temática con otra. Por ejemplo en la figura 6.6 La mayor vinculación de inmunología es con la biología molecular y luego con las ciencias médicas. En la figura 6.8 el mayor vínculo del grupo términos es con la temática procesos y luego con prueba. Estas ayudas son valiosas para la interpretación.

Puede dejarse a los expertos la adecuada interpretación de los resultados, y a los políticos la toma de decisiones.

134

Alvaro Montenegro y Campo Elías Pardo

Figura 6.7: Diagrama de asociaciones del grupo términos en el análisis de la respuesta a la pregunta abierta del capítulo 5.

7. CONCLUSIONES

De acuerdo a lo expuesto en este texto, se puede afirmar que a pesar de las debilidades del software actual, las técnicas para el análisis de datos textuales son herramientas extremadamente útiles para el análisis de información de naturaleza textual.

Los ejemplos presentados en los capítulos 5 y 6 muestran las posibilidades de utilización de las técnicas provenientes del análisis factorial y adicionalmente en el capítulo 6 se presenta la técnica de palabras asociadas, que permite la obtención de lo que puede identificarse como la dinámica presente entre las temáticas mencionadas en los textos, para algunos tipos de textos especiales. Los autores han querido con esto ampliar el horizonte de posibilidades en el análisis de datos textuales.

Si el lector piensa que estas técnicas le son útiles para el tipo de investigaciones que realiza tenga en cuenta las siguientes consideraciones:

1.

Con el análisis factorial (SPADT) se busca principalmente investigar la existencia grupos de individuos que se caracterizan por la utilización de un lenguaje similar, es decir grupos de individuos que presentan perfiles léxicos similares. Esto implica que el conocimiento que se obtiene de los individuos está basado en la identificación de si dicen aproximadamente los mismo, y no en lo que dicen. De todas maneras la lectura de las diferentes salidas del análisis le permite al investigador tener una idea bastante general del conocimiento presente en las respuestas.

136

2.

Alvaro Montenegro y Campo Elías Pardo

En el análisis típico de respuestas a preguntas abiertas el contexto de las formas es ignorado por completo en la primera fase. La proyección de segmentos repetidos, el cálculo y edición de respuestas características, la proyección de variables nominales permiten por un lado la recuperación de los contextos de las formas y por otro lado la recuperación de los discursos con toda su carga emotiva. Debe tenerse en cuenta de todas maneras que en la base del método, existen sesgos debidos a la falta de contextualización . De acuerdo a la investigación que se realice y a la disponibilidad de tiempo y recursos el responsable del trabajo puede intentar mejorar los análisis, mediante la contextualización de ciertas formas clave. La edición de concordancias de formas tales como “y, sin, o, no, mas, falta,…” , puede ayudar a tales propósitos. Por ejemplo la frase “… a la falta de recursos técnicos y humanos”, bien podría reescribirse como “… a la falta de recursos_técnicos y recursos_humanos” , incluso si “recursos técnicos” esta presente en diferentes contextos como por ejemplo ausencia o presencia, se puede intentar reescribir como “… no_recursos_técnicos, no_recursos_humanos”. Estas decisiones de todas maneras dependen del tipo de investigación y del criterio del investigador.

3.

Otro problema presente siempre en estos análisis es el acercamiento o alejamiento indebido entre respuestas causados en el primer caso por formas gráficas de construcción no eliminadas en el proceso previo, y en el segundo caso por la utilización de plurales y sinónimos. Esta problemática es tema de investigaciones actuales, y aunque ya existen avances importantes la disponibilidad de herramientas para este tipo de análisis es restringida. El investigador no debe perder de vista estos problemas y tendría que tratar de minimizarlos cuanto sea posible. La edición del diccionario completo del todo el corpus puede ayudar a detectar algunos de tales problemas. Por ejemplo formas singulares y plurales e incluso algunos errores de mecanografía pueden ser rápidamente ubicados. La acción a tomar depende entonces de las circunstancias. Téngase en cuenta que algunas formas clave pueden resultar eliminadas de manera errónea por los defectos mencionados en este numeral.

4.

Si en una investigación se busca establecer las diferentes formas de expresión frente a un determinado tema en una población relativamente heterogénea, este tipo de

Introducción al análisis de datos textuales

137

análisis puede resultar muy provechoso. Por otro lado, si la población a ser interrogada es muy homogénea y la temática abordada es especializada y de dominio de la población , como es el caso del capítulo 5, se debe tener en cuenta que es normal llegar a la obtención de un gran grupo en donde se ubican la mayoría de las personas y formas gráficas, y la aparición de otros pequeños grupos que se distinguen mas por algunos matices especiales en su respuesta que por pensar realmente de una manera diferente. Nótese que para una pregunta no especializada, como puede ser el caso de un tema político, el análisis puede entregar mejores resultados. Becué (1991), propone que para este caso se siga el procedimiento desarrollado en el ejemplo de campos de investigación, en el sentido de hacer una nueva clasificación dentro del gran grupo resultante. Esto implica la obtención de una variable grupo como paso intermedio. Este procedimiento puede repetirse de nuevo de ser necesario. Está claro que el procedimiento puede ser muy costoso, pero en ocasiones puede ser la única alternativa de llegar a resultados de una mayor profundidad. De todas maneras este proceso debe ser posterior a los mencionados en los numerales anteriores. 5. Cuando la información presente en las respuestas ha sido filtrada y normalizada adecuadamente, se puede llegar a niveles de conocimiento bastante sofisticados. Esta es una particularidad verdaderamente interesante del análisis y constituye la base para la utilización de la técnica en muchos problemas prácticos, diferentes al análisis de respuestas a preguntas abiertas. Esta característica puede observarse en el ejemplo de los campos de investigación del capítulo 6. Cuando se construyen documentos a partir de palabras clave como se hizo en la investigación mencionada, se obtienen por lo menos cuatro ventajas claramente identificables. Primero, los documentos pueden ser tratados por técnicas diferentes con cambios menores. En el ejemplo de campos de investigación se usó complementariamente la técnica de palabras asociadas. Segundo, los individuos resultan clasificados por lo que dicen y no por como lo dicen. La forma como los individuos dicen las cosas introducen sesgos difíciles de medir como se mencionó antes. Tercero, la ausencia de repetición de formas hace que una respuesta se caracterice por la presencia o ausencia de las formas y no por su frecuencia de utilización. Algunos autores como Bécue (1991), señalan esta característica como un problema para la

138

Alvaro Montenegro y Campo Elías Pardo

interpretación en el análisis de respuestas a preguntas abiertas. Sin embargo, en el caso textos construidos a partir de palabras clave es precisamente esta caracterización de las respuestas lo que permite que los individuos si sean clasificados por lo que dicen. Si una palabra clave está puesta en un texto de este tipo, es simplemente por que esa palabra clave caracteriza al individuo y no hay duda. De todas maneras en esta clase de trabajo debe tenerse en cuenta la contextualización de las formas siempre que sea necesario. Por ejemplo la palabra clave control puede ser utilizada por muchas personas, pero en contextos bien diferentes, como control automático en el sentido de la robótica o la teoría del control, control de la natalidad, o control de calidad que evidentemente no tiene cognitivamente nada que ver entre sí. Observe el lector la forma contextualizada sistema_tiempo_real en la figura 6.4. Cuarto, el sesgo presente en el cálculo de las formas, y respuestas características por la utilización del modelo hipergeométrico es disminuido, debido a que en este caso las formas que constituyen una respuesta pueden ser colocadas en cualquier orden. 6. Las técnica del análisis de datos textuales derivada de los métodos factoriales puede ser utilizada en una gran variedad de problemas diferentes al análisis de respuestas a preguntas abiertas. Si en una investigación se llega a problemas en donde las variables identificadas son muchas o tienen demasiadas categorías, se puede pensar que ésta técnica puede ser muy útil. Los ejemplos de campos de investigación y de trayectorias residenciales del capítulo 6 son apenas una muestra de las posibilidades. Quizá uno de los aportes más importantes de la técnica es la posibilidad de utilizar categorías de una manera relativamente diferente a la tradicional. Recuerde el lector que cada forma gráfica presente en los análisis es tratada como una categoría de la variable léxica. Por lo que las categorías en un problema general pueden caracterizarse por formas gráficas adecuadas. Sin embargo, el investigador debe ser fiel a los datos hasta donde sea posible. Por ejemplo, en algunos intentos de codificación publicados para el caso de seriaciones como en el estudio de datos biográficos, las trayectorias son codificadas como ccc vvvv para indicar una permanencia de tres periodos en el sitio c y cuatro periodos en el sitio v. Se deja al lector la interpretación respectiva.

Introducción al análisis de datos textuales

139

7. Para terminar, téngase en cuenta que algunas otras técnicas para el análisis de información de tipo textual pueden ser utilizadas alternativa o complementariamente. En este texto hemos presentado la alternativa del método de palabras asociadas, pero el lector debe saber que existen otras menos difundidas. Desde el punto de vista de los autores las técnicas son totalmente complementarias. De hecho las técnicas factoriales y la técnica de palabras asociadas están en la base de lo que hoy se conoce como ingeniería del conocimiento.

BIBLIOGRAFIA Barbary, O. (1994). Análisis de Datos Biográficos. Simposio de Estadística, Departamento de Matemáticas y Estadística, Universidad Nacional de Colombia, Santafé de Bogotá. Bécue, M. (1991). Análisis de Datos Textuales. Métodos Estadísticos y Algoritmos. CISIA, París. Benzecri, J. P. (1976). L’ Analyse des Données, Tome 1: La Taxonomie, Tome 2: L’ Analyse des Correspondence. Dunod, París (“2da ed. 1976). Centre de la Sociologie de L´Innovation (1994). LEXIMAPPE - DOC, INIST, Paris. Courtial, J. P. (1994). Science Cognitive et sociologie des sciences, Presses Universitaires de France, Colection sous la direction de J. P. Courtial, Paris. Crivisqui, E. (1993). Análisis factorial de correspondencias un instrumento de investigación en ciencias sociales. Laboratorio de Informática Social Universidad Católica de Asunción, Asunción. Hausler L. (1993). Des phrases et des itinéraires, en "Actes des secondes journées internationales d'analyse statistique de données textuelles", Montpellier 21-22 de octubre de 1993, Ecole Nationale Supérieure des Télécommunications, Paris. Houzel Y. y LE Vaillant M: [1994] : Analyse statistique de données textuelles et traitement des données de calendriers : application à l'analyse de l'insertion professionnelle des élèves issus des écoles d'art, en "Actes des journées CEJEE-CEREQ sur les données longitudinales dans l'analyse du marché du travail", Toulouse, octubre de 1993, Ecole Nationale Supérieure des Télécommunications, Paris. Lebart, L., Morineau, A., and Warwick, K. (1984). Multivariate Descriptive Statistical Analysis. Correspondence Analysis and Related Techniques for Large Matrices. John Wiley & Sons, USA. Lebart, L., Morineau, A., and Fenelon J. P. (1979) Traitement des Données Statistiques, Méthodes et Programmes. Dunod, París.

142

Alvaro Montenegro y Campo Elías Pardo

Lebart, L., Salem A. (1994). Statistique Textuelle. Dunod, París. Montenegro A. (1996). Encuesta Redes Colombia. Memorias del Primer Coloquio sobre Ciencia Tecnología y Cultura, Academia Colombiana de Ciencias Exactas Físicas y Naturales, Colección Memorias, No.6. Pags 101-114, Santafé de Bogotá. Pardo, C.E. (1992). Análisis de la Aplicación del Método de Ward de Clasificación al caso de Variables Cualitativas. Tesis para optar al título de M.Sc. Estadística. Universidad Nacional de Colombia. Santafé de Bogotá.