INSTITUTO TECNOLÓGICO AUTÓNOMO DE MÉXICO





SARCRAD



SISTEMA DE ADMINISTRACIÓN DE RECURSOS CONCEPTUALES Y DE REFERENCIACIÓN AUTOMÁTICA DIFUSA



ENCICLOMEDIA: UNA APLICACIÓN ESPECÍFICA





T E S I S

QUE PARA OBTENER EL TÍTULO DE:

INGENIERO EN COMPUTACIÓN 

P R E S E N T A :

ELISEO STEVE RODRÍGUEZ RODRÍGUEZ





MÉXICO, D.F. MAYO DEL 2001 





Índice

2

PRÓLOGO 9

1. INTRODUCCIÓN 13

1.1. PROBLEMAS DE INFORMACIÓN EN MATERIA DE EDUCACIÓN NACIONAL 13

1.2. ALGUNOS AVANCES DEL SOPORTE TECNOLÓGICO PARA LA EDUCACIÓN EN MÉXICO 14

1.2.1. RED ESCOLAR 14

1.2.2. LIBROS DE TEXTO GRATUITOS EN HTML 15

1.3. REVOLUCIÓN EN LA CONSULTA DE INFORMACIÓN 16

1.3.1. SITUACIÓN ACTUAL DE LOS SITIOS DE BÚSQUEDA 16

1.3.2. HTML, EL POTENCIAL DE LAS LIGAS 18

1.4. INTEGRACIÓN DE DOCUMENTOS HTML CON CONTENIDO CLASIFICADO 20

1.4.1. APLICABILIDAD DE LA INTEGRACIÓN AUTOMÁTICA DE CONTENIDO EN MÚLTIPLES ÁREAS 21

1.5. ENCICLOMEDIA, UN SISTEMA DE APOYO PARA LA EDUCACIÓN NACIONAL 23

1.5.1. NECESIDAD DE UN ACERVO DE MATERIAL EDUCATIVO 23

1.5.2. POTENCIACIÓN DE LOS LIBROS DE TEXTO GRATUITOS 24

1.5.3. ORIGEN DE ENCICLOMEDIA 24

1.5.4. FUNCIONAMIENTO DE ENCICLOMEDIA 25

1.5.5. POTENCIAL DEL PROYECTO ENCICLOMEDIA 27

1.6. OBJETIVO 27

1.7. ALCANCES 28

1.8. ORGANIZACIÓN DEL DOCUMENTO 28

2. MARCO TEÓRICO Y SU RELACIÓN CON SARCRAD 30

2.1. CARACTERÍSTICAS PRINCIPALES DEL ESQUEMA CONCEPTUAL REQUERIDO EN

SARCRAD 30

2.1.1. CLASIFICACIÓN Y ORDENAMIENTO DE RECURSOS 30

2.1.2. PLURALIDAD TANTO EN TIPOS DE RECURSOS COMO EN FUENTES 32

2.1.3. LIGADO AUTOMÁTICO DE CONCEPTOS 32

2.2. AVANCES TECNOLÓGICOS RELACIONADOS CON LA CONSULTA DE INFORMACIÓN 34

2.2.1. SITIOS DE BÚSQUEDA 34

2.2.2. META SITIOS DE BÚSQUEDA 42

2.2.3. AUTOMATIZACIÓN DE REFERENCIAS 46

2.2.4. CLASIFICADORES TEXTUALES 51

2.3. CONFORMACIÓN DE SARCRAD 57





3. LIGADO CONCEPTUAL-DIFUSO 59

3.1. POLISEMIA PONDERADA 60

3.1.1. CONJUNTOS DE TÉRMINOS, CONCEPTOS Y RELACIONES PONDERADAS 60

3.1.2. ASIGNACIÓN DE LOS PONDERADORES DE RELACIÓN. 62

3.2. CLASIFICACIÓN TAXONÓMICA TEXTUAL 66

3.2.1. ACERVO CONCEPTUAL 67

3.2.2. ASIGNACIÓN DE CLASES DE UN DOCUMENTO 68

3.3. ALGORITMO CONCEPTUAL-DIFUSO 71

3.3.1. CAPA DE CLASIFICACIÓN TAXONÓMICA TEXTUAL 72

3.3.2. CAPA DE FILTRADO 74

4. ANÁLISIS DEL SISTEMA 76

4.1. METODOLOGÍA DE TRABAJO 76

4.2. REQUERIMIENTOS DE SARCRAD 76

4.2.1. REQUERIMIENTOS DE FUNCIONALIDAD BÁSICA 77

4.2.2. REQUERIMIENTOS DE FUNCIONALIDAD TOTAL 79

4.3. CONSIDERACIONES PRINCIPALES 88

4.3.1. INDEPENDENCIA CON ENCARTA. 88

4.3.2. INDEPENDENCIA CON ENCICLOMEDIA 90

5. DISEÑO DEL SISTEMA 91

5.1. FORMULACIÓN DEL MODELO GENERAL 91

5.1.1. GENERAR CONTENIDO DE HIPERTEXTO 92

5.1.2. ADMINISTRAR RECURSOS CONCEPTUALES 95

5.1.3. NAVEGAR EN EL SISTEMA 96

5.2. DISEÑO DE ELEMENTOS INEXISTENTES 98

5.2.1. CATÁLOGO CONCEPTUAL (MODELO DE DATOS) 99

5.2.2. MÓDULO DE ADMINISTRACIÓN DE RECURSOS CONCEPTUALES 103

5.2.3. MÓDULO DE LIGADO AUTOMÁTICO 106

5.2.4. MÓDULO DE OBTENCIÓN DE RECURSOS CONCEPTUALES 121

6. IMPLANTACIÓN DEL PROTOTIPO 125

6.1. ARQUITECTURA GENERAL DEL SISTEMA 125

6.2. COMPONENTES DESARROLLADOS 127

6.2.1. SITIO DE ADMINISTRACIÓN DE RECURSOS CONCEPTUALES 127

6.2.2. MENÚ CONCEPTUAL 128

6.2.3. HYPERTEXTER 129

6.2.4. CATÁLOGO CONCEPTUAL 132

6.3. COMPONENTES INTEGRADOS 132

6.4. VERSIONES DEL SISTEMA 133

6.4.1. HISTORIAL DEL SITIO DE ADMINISTRACIÓN DE RECURSOS CONCEPTUALES 133

6.4.2. HISTORIAL DE HYPERTEXTER 134

6.4.3. HISTORIAL DEL MENÚ EN WEB 135

6.5. FUNCIONAMIENTO DEL PROTOTIPO 136

6.5.1. FUNCIONAMIENTO DE HYPERTEXTER 136

6.5.2. FUNCIONAMIENTO DEL SITIO DE ADMINISTRACIÓN DE RECURSOS CONCEPTUALES 141

6.5.3. FUNCIONAMIENTO DEL MENÚ CONCEPTUAL 142

6.6. EVALUACIÓN DEL SISTEMA 145

7. CONCLUSIONES 149

7.1. PROBLEMAS ENCONTRADOS 149

7.2. CARACTERÍSTICAS DEL SISTEMA 151

7.2.1. APLICABILIDAD GENERAL 151

7.2.2. CAPACIDAD DE CRECIMIENTO 153

7.3. CARACTERÍSTICAS DE LA ARQUITECTURA 155

7.3.1. ARQUITECTURA DE LOS MÓDULOS 155

7.3.2. INTEGRIDAD DE LAS REFERENCIAS A CONCEPTOS 156

7.3.3. REFERENCIACIÓN A NUEVOS TIPOS DE RECURSOS 156

7.3.4. LIGADO SUBJETIVO 157

7.4. LIMITACIONES 157

7.4.1. LIMITACIONES DE LAS BÚSQUEDAS 157

7.4.2. LIMITACIONES DEL LIGADO AUTOMÁTICO. 157

7.4.3. LIMITACIONES DEL LIGADO CONCEPTUAL-DIFUSO. 158

7.4.4. NECESIDAD DE UN ACERVO COMPLETO 158

7.4.5. NECESIDAD DE UN PROCESO PARA AUTOMATIZAR LA ASIGNACIÓN DE LOS

PONDERADORES DE RELACIÓN 159

7.4.6. NECESIDAD DE LA INCLUSIÓN DE VISUALIZADORES ESPECÍFICOS 159

7.5. APLICABILIDAD DEL SISTEMA 159

7.6. COMPARACIÓN DE ENCICLOMEDIA 160

7.6.1. COMPARACIÓN DE MENÚS 161

7.6.2. COMPARACIÓN DE ACERVOS 162

7.6.3. COMPARACIÓN DE PROGRAMAS GENERADORES DE LIGAS. 162

7.6.4. DESARROLLOS ADICIONALES 163

7.7. CONTRIBUCIONES 163

7.7.1. CLASIFICACIÓN DE DOCUMENTOS 164

7.7.2. SITIOS DE BÚSQUEDA 164

7.8. LÍNEAS FUTURAS 166

7.8.1. ADMINISTRACIÓN GENERAL 167

7.8.2. SUGERENCIA DE RECURSOS 167

7.8.3. BUSCADOR CONCEPTUAL 167

7.8.4. SERVIDORES PROPIOS 168

7.8.5. VERIFICADOR DEL ESTADO DE LOS RECURSOS 168

7.8.6. MÓDULO DE APRENDIZAJE 168

7.9. CONCLUSIONES PERSONALES 169

BIBLIOGRAFÍA 171

8. APÉNDICE 175

8.1. HTML: ESTRUCTURA Y FUNCIONAMIENTO 175

8.1.1. TAGS Y SUS DELIMITADORES 175

8.2. ALGORITMOS RELEVANTES 176

8.2.1. LOCALIZACIÓN DEL INICIO DEL CUERPO DE UN DOCUMENTO HTML 176

8.2.2. CAMBIO DE COLORES DEL DOCUMENTO 176

8.2.3. CONDICIONES PARA EL LIGADO 177

8.2.4. PARSER DE TEXTO EN DOCUMENTOS HTML 178

8.2.5. HEURÍSTICA PARA ENCONTRAR TÉRMINOS (PALABRAS O FRASES) DENTRO DEL

DOCUMENTO 180

8.2.6. LLENADO DEL CATÁLOGO CONCEPTUAL CON EL CONTENIDO DE ENCARTA 184



Índice de figuras



Número de Figura Página



Figura 1.1: Libros de Texto Gratuitos en el sitio de la SEP en Internet 16

Figura 1.2: Algunos resultados de los principales sitios de búsqueda a la consulta de la

frase "Emiliano Zapata" __________________________________________ 18

Figura 1.3: Liga conceptual con múltiples recursos 21

Figura 1.4: Ligado automático de palabras a conceptos 21

Figura 1.5: Propuesta de integración de los libros de texto con Encarta 25

Figura 2.1: Multiplicidad de recursos para un concepto 30

Figura 2.2: Múltiples recursos ordenados en clases 31

Figura 2.3: El concepto "Grecia" con posibles recursos clasificados 31

Figura 2.4: Sintaxis de un URL [Berners, 1994] 32

Figura 2.5: Protocolos en Internet referenciables por un URL [Berners, 1994] ________ 32

Figura 2.6: Protocolo propietario "msee" en un URL 32

Figura 2.7: Principales sitios de búsqueda en Internet 35

Figura 2.8: Arquitectura básica de los buscadores 36

Figura 2.9: Esquema básico de un catálogo en un sitio de búsqueda 37

Figura 2.10: Estructura de un catálogo para peticiones booleanas en un sitio de búsqueda 40

Figura 2.11: Principales meta-sitios de búsqueda en Internet 43

Figura 2.12: Arquitectura básica de los meta-buscadores [Dreilinger, 1997] 44

Figura 2.13: Representación de árboles de conceptos en archivos [Beltrán, 1998] 54

Figura 2.14: Articulo procesado por Clasitex + [Beltrán, 1998] 56

Figura 2.15: Automatización de referencias conceptuales a material ordenado 57

Figura 3.1: Polisemia y referencia de un concepto por varios términos 59

Figura 3.2: Conjuntos de términos, conceptos y relaciones válidas 61

Figura 3.3: Elementos del conjunto de relaciones válidas _________________________ 61

Figura 3.4: Ponderadores de relación de un término i hacia sus conceptos relacionados 62

Figura 3.5: Relación inversa entre la polisemia de un término y sus ponderadores 63

Figura 3.6: Asignación de ponderadores de relación por grado de polisemia y 

aprendizaje ____________________________________________________ 64

Figura 3.7: Definición de ponderadores de relación 65

Figura 3.8: Clases centrales de un documento 66

Figura 3.9: Árbol de clases, conceptos y términos 67

Figura 3.10: Ejemplo de clasificación por relaciones de frecuencia conceptual 69

Figura 3.11: Ejemplo de clasificación por relaciones de ponderación conceptual 71

Figura 3.12: Temas textuales tratados en un documento y su relación de importancia 72

Figura 3.13: Asignación de gama de clasificación 73

Figura 3.14: Efectos en la dispersión de ligas vía la modificación de parámetros de 

filtrado _______________________________________________________ 75

Figura 4.1: Requerimientos de funcionalidad básica 79

Figura 4.2: Esquema de presentación de requerimientos 80

Figura 5.1: Actores de SARCRAD ____________________________________________ 91

Figura 5.2: Casos de Uso de Responsable y Usuario 91

Figura 5.3: Generar contenido de hipertexto 92

Figura 5.4: Estructura para crear documentos HTML 92

Figura 5.5: Creación de referencias conceptuales 93

Figura 5.6: Estructura para crear referencias automáticamente 94

Figura 5.7: Estructura de la administración de recursos conceptuales 95

Figura 5.8: Creación de referencias conceptuales 96

Figura 5.9: Estructura de la obtención de documentos de hipertexto 96

Figura 5.10: Estructura de la consulta de referencias conceptuales 97

Figura 5.11: Procesos y subprocesos del sistema 98

Figura 5.12: Subprocesos asignados a elementos del sistema 99

Figura 5.13: Diagrama lógico con atributos de la base de datos 100

Figura 5.14: Diagrama físico de la base de datos 102

Figura 5.15: Administrar recursos conceptuales 103

Figura 5.16: Diagrama de secuencia de validación de Responsable 103

Figura 5.17: Diagrama de secuencia para elegir el concepto a administrar 104

Figura 5.18: Diagrama de secuencia para administrar un concepto 105

Figura 5.19: Diagrama de secuencia para consultar los recursos de un concepto 105

Figura 5.20: Diagrama de secuencia para modificar los recursos de un concepto 106

Figura 5.21: Configurar módulo de ligado automático 107

Figura 5.22: Configuración del módulo de ligado automático 107

Figura 5.23: Diagrama de secuencia para configurar propiedades de ligado 108

Figura 5.24: Conceptos y referencias en el ligado simple 108

Figura 5.25: Diagrama de secuencia para configurar la fuente de datos 110

Figura 5.26: Estructura mínima para ligado simple 110

Figura 5.27: Diagrama de secuencia para configurar el destino de ligado 111

Figura 5.28: División de un URL ___________________________________________ 111

Figura 5.29: Ejemplos de estructuración de ligas simples 112

Figura 5.30: Ejemplo de conceptos con identificadores únicos ____________________ 112

Figura 5.31: Ejemplo de estructuración de peticiones de búsqueda 112

Figura 5.32: Diagrama de secuencia para configurar los colores de un documento 

HTML ______________________________________________________ 113

Figura 5.33: Ligar documentos automáticamente 113

Figura 5.34: Acciones para ligar un documento 114

Figura 5.35: Diagrama de secuencia para ligar un documento ____________________ 114

Figura 5.36: Diagrama de secuencia para ligar varios documentos 115

Figura 5.37: Diagrama de secuencia para ligar un sitio completo 116

Figura 5.38: Diagrama de secuencia para procesar un documento 118

Figura 5.39: Apoyo al ligado manual 119

Figura 5.40: Diagrama de secuencia de la integración con editores HTML 119

Figura 5.41: Diagrama de secuencia para crear ligas conceptuales 120

Figura 5.42: Administrar recursos conceptuales 121

Figura 5.43: Obtención de clases según el tipo de referencias de un concepto 122

Figura 5.44: Consultar el menú 123

Figura 5.45: Diagrama de secuencia para seleccionar recursos del menú 124

Figura 5.46: Diagrama de secuencia para seleccionar recursos de las entradas del menú 124

Figura 6.1: Arquitectura general del sistema 126

Figura 6.2: Arquitectura de tres capas del Sitio de administración de recursos

conceptuales __________________________________________________128



Figura 6.3: Integración del Menú conceptual con los Libros de Texto Gratuitos 129

Figura 6.4: Hypertexter con una arquitectura de dos capas 131

Figura 6.5: Hypertexter con una arquitectura de una capa 131

Figura 6.6: Interfaces de menú anteriores a la versión 1.2 del Menú conceptual 136

Figura 6.7: Interfaz de ligado 137

Figura 6.8: Interfaces de búsqueda de contenido y ligas 137

Figura 6.9: Pantallas de configuración de Hypertexter 139

Figura 6.10: Ejemplo de documento a ligar automáticamente 140

Figura 6.11: Ejemplo de documento ligado automáticamente con dispersión máxima 140

Figura 6.12: Ejemplo de documento ligado automáticamente con dispersión mínima 141

Figura 6.13: Interfaces de autenticación y de listado de conceptos 142

Figura 6.14: Interfaz de concepto y solicitud de clases de recursos 142

Figura 6.15: Interfaz de menú 143

Figura 6.16: Interfaz de entrada de menú 143

Figura 6.17: Lección de los Libros de Texto Gratuitos (documento original) 143

Figura 6.18: Lección de los Libros de Texto Gratuitos integrada al Menú conceptua

(documento ligado) ____________________________________________ 144

Figura 6.19: Requerimientos de sistemas de hipermedia cubiertos en SARCRAD 146

Figura 7.1: Listado entregado por Microsoft___________________________________ 154

Figura 7.2: Tabla de comparación de Hipertexto y Enciclomedia 161

Figura 7.3: Pantalla de Libros de Texto Gratuitos integrados con "Hipertexto" 162

Figura 7.4: Comparación de clasificadores relevantes 164

Figura 7.5: Arquitectura de líneas futuras 166

Figura 8.1: Estructura básica del encabezado y cuerpo de un documento HTML 176

Figura 8.2: Cambio de códigos latinos en HTML por caracteres latinos 178

Figura 8.3: Cambio de caracteres latinos por códigos latinos en HTML 178

Figura 8.4: Tags y contenidos textual de un documento HTML 179

Figura 8.5: Diagrama de estados del parser de HTML 179

Figura 8.6: Diagrama de "estado lectura" 181

Figura 8.7: Diagrama de "estado búsqueda no encontrado" 182

Figura 8.8: Diagrama de "estado búsqueda encontrado" 183

Figura 8.9: Diagrama de "concepto encontrado" 183





Prólogo

En la actualidad existe una gran cantidad de material tanto en Internet como en las redes internas empresariales, institucionales, y de diverso orden. Dicho material comúnmente comparte una característica: su dispersión. La idea básica de este trabajo radica en realizar un sistema que pueda organizar e integrar material de distintas fuentes, para conformar un gran acervo de información. Integrado el material, dará la oportunidad de fusionarlo con el contenido de documentos que se encuentran en hipertexto. De este modo, cada documento no sólo estará compuesto por su contenido específico, sino que de manera automática permitirá al lector adentrarse en una vasta cantidad de información relacionada con cada tema o concepto explícitamente referido en el texto, ahorrándole así tiempo y esfuerzo en localizar la información.



Actualmente, se tiene un prototipo funcional denominado Sistema de Administración de Recursos Conceptuales y de Referenciación Automática Difusa (SARCRAD) Una aplicación de este sistema, denominada Enciclomedia, fue implementada para soportar un proyecto específico de gran relevancia para la educación nacional. Hoy en día, Enciclomedia es utilizada por pedagogos de la Universidad Pedagógica Nacional (UPN) y con ella han integrado varias lecciones de los Libros de Texto Gratuitos con el contenido más relevante de sus desarrollos personales, aquel que encuentran en Internet y el que consideran importante dentro de la Enciclopedia Encarta. Los resultados de Enciclomedia han sido satisfactorios, y actualmente SARCRAD constituye una base sólida para que sobre sus cimientos se puedan seguir construyendo y concretando nuevas ideas.



Aunado a los buenos resultados obtenidos con SARCRAD, este sistema cumple con una meta muy personal. En SARCRAD, además de identificar léxicamente ciertas entidades conceptuales de un documento, se simula un proceso con el que se puede decidir cuáles son los tópicos más relevantes del texto y, además, qué palabras, dentro de estos tópicos, son las más importantes para referenciar al contenido del acervo. Cabe recalcar que una característica específica de dicho proceso radica en ser subjetivo, y que difícilmente podría ser modelado solamente mediante lógica booleana. Para esto se diseñó un módulo que, además de la lógica booleana, mezcla la posibilidad y la lógica difusa con la finalidad de obtener una interacción de una gran variedad de valores internos. Así, mediante dicha interacción, se define un determinado comportamiento en la toma de decisiones del proceso y se simula su inherente subjetividad. Aunque desarrollos que contemplan probabilidad y lógica difusa no son nuevos en el universo de la computación, el hecho de poder integrar en un desarrollo propio algo que no dependa únicamente de la lógica tradicional tiene un enorme significado, al menos, desde un punto de vista personal.



1. Introducción 

1.1. Problemas de información en materia de educación nacional



La educación es la base para el progreso de una nación, pues a partir de ella se forman los recursos humanos que permiten su desarrollo. En México, a pesar de los avances logrados en materia educativa, aún existen grandes deficiencias en este rubro. Uno de los principales elementos que contribuyen a los rezagos es, sin lugar a dudas, la insuficiencia de los sistemas para la recuperación y el abastecimiento de información.



Actualmente, un estudiante puede contar con varios medios para buscar información, entre los que destacan los procesos de investigación y búsqueda en enciclopedias, monografías, libros, páginas en Internet y otros documentos. Estas fuentes, aunque sean diversas, en conjunto tienen características en común que repercuten seriamente en sus procesos informativos: dispersión y desorden. Para ubicar la información que necesita, el estudiante frecuentemente debe adentrarse en un universo de datos desordenados, irrelevantes para el tema de su búsqueda o redundantes, lo que puede incluso ocasionar que no encuentre la información que verdaderamente necesita.



En materia de abastecimiento de información, por otro lado, los profesores e instituciones trabajan en la elaboración de contenido que usan como material didáctico. Sin embargo, el material desarrollado únicamente apoya a los procesos educativos de un ínfimo conjunto de estudiantes (aquéllos que tienen relación directa con el profesor o la institución), y queda fuera del alcance de todos los demás alumnos a quienes también les podría ser de utilidad. Este alcance limitado reduce a una minúscula fracción las posibilidades de aprovechamiento de dicho material educativo.



Como es de suponerse, ambos problemas en materia informativa tienen impacto en varias áreas. En conjunto, conducen a situaciones en las que no se puede saber acerca del material existente, dónde obtenerlo y cómo colaborar para su creación. Es decir, tanto para un alumno puede resultar extremadamente difícil encontrar el material apropiado que se relacione con sus cursos y tareas, como para un educador hacer contribuciones en algún tema. Claramente, en ambos casos se generan repercusiones sobre la educación nacional, limitándola en cierto modo. 





1.2. Algunos avances del soporte tecnológico para la educación en México

"Los progresos tecnológicos, el advenimiento de la era de la información y el impacto de estas transformaciones en los distintos órdenes de la vida, imponen nuevas demandas sobre la formación de personas. El anhelo de equidad en el acceso a servicios de educación de calidad se convierte así en una condición para el desarrollo de los países" [Nieto, 1997].



El Programa de Desarrollo Educativo 1995-2000 señala entre los principales desafíos para la educación en los años venideros la equidad, la calidad y la pertinencia de la educación. Entre los métodos planteados para hacer frente a tales retos, sugiere el "empleo intensivo de los medios electrónicos y de comunicación masiva y el manejo de la informática". Esto con el fin de usarlos como recursos viables que sirvan para "llevar los servicios educativos a la población que carece de ellos y, al mismo tiempo, para ampliar las posibilidades de la educación" [Nieto, 1997].

1.2.1. Red Escolar

Actualmente se están haciendo grandes inversiones de infraestructura de cómputo en las escuelas públicas con el fin de solucionar sus necesidades tecnológicas. Entre los esfuerzos realizados en este sentido, cabe mencionar que, "el Gobierno Federal ha impulsado el Programa de Educación a Distancia, a través de la Red Escolar, mediante el establecimiento de Aulas de Medios que disponen de plataformas de cómputo y telecomunicaciones. Lo anterior con el propósito de mejorar la calidad de la educación y brindar mejores ambientes de aprendizaje mediante el uso de nuevas tecnologías" [ILCE, 1999].



La Red Escolar propone "llevar a las escuelas de educación básica y normal un modelo tecnológico flexible, que pueda adaptarse fácilmente a las necesidades particulares de cada entidad federativa". El modelo tiene como fin proveer a cada escuela con "información actualizada y relevante, y con un sistema de comunicación eficiente que permita a estudiantes y maestros compartir ideas y experiencias" [ILCE, 1999].



Para lograr sus objetivos, tecnológicamente provee a las escuelas de "computadoras multimedia, una conexión a Internet, antena y decodificador para la señal de Edusat, una televisión, una video-casetera y una amplia gama de contenidos educativos" [ILCE, 1999]. Asimismo, "diseña actividades que propician la búsqueda de información, la experimentación y el diálogo. Se familiariza a los participantes con el uso del vídeo, CD-Roms, cómputo y televisión educativos. A través de los diferentes proyectos se busca contribuir a la aplicación de los enfoques pedagógicos de la educación básica, así como valorar la consulta, la expresión de testimonios, el diálogo y el debate respetuoso como parte de la formación del alumnado y del magisterio" [ILCE, 1999].



Sin lugar a dudas el plan, a pesar de proporcionar una gran visión a futuro, no obstante, tiene algunos puntos débiles. El plan revela en su texto concerniente a las "Estrategias para implantación y crecimiento" [ILCE, 1999], que en términos computacionales básicamente está enfocado a brindar apoyo mediante la provisión de máquinas. Comparativamente, las aportaciones contempladas en cuanto a desarrollos de cómputo (software) que soporten sus proyectos actuales, son realmente mínimas. Por ende, existe una gran brecha entre lo que actualmente se tiene y lo que puede llegar a ser la Red Escolar (sobre todo, porque el potencial de su objetivo final es realmente considerable). 

1.2.2. Libros de Texto Gratuitos en HTML

Adicionalmente al soporte de infraestructura en México, la adopción de tecnología ha permitido la expansión de varios proyectos en beneficio de la educación nacional. Un claro ejemplo de esta situación radica en que en nuestro país, el uso de Internet ha propiciado la digitalización de documentos educativos. Entre los más importantes se encuentran los Libros de Texto Gratuitos que elabora la Comisión Nacional de Libros de Texto Gratuitos (CONALITE) para la Secretaría de Educación Pública (SEP). Estos libros desde hace aproximadamente dos años se encuentran disponibles en formato Hypertext Markup Language (HTML) en Internet (Figura 1.1).



En el proceso de digitalización, los Libros de Texto Gratuitos fueron creados como una copia fiel de los libros originales (obviamente sin ligas). Al ya estar en formato de hipertexto, es importante aprovecharlos y explotar la tecnología en la que se encuentran inmersos. Mediante la creación de ligas en su contenido, será posible integrarlos con los recursos de Internet. 



La ausencia de ligas en los Libros de Texto Gratuitos tiene serias repercusiones. Esencialmente, le complica a cualquier estudiante la posibilidad de ampliar y profundizar en los conceptos que los libros contienen. Es decir, por tratarse de textos planos, no existe forma de acceder a referencias que aumentarían las posibilidades de aprendizaje para los alumnos. En consecuencia, para poder obtener información, el estudiante es orillado a realizar búsquedas en otras fuentes, que en el caso de Internet, comúnmente son los sitios de búsqueda. En dichos sitios, el contenido difícilmente está organizado y, peor aún, no está supervisado. 



Figura 1.1: Libros de Texto Gratuitos en el sitio de la SEP en Internet

1.3. Revolución en la consulta de información

1.3.1. Situación actual de los sitios de búsqueda

Internet contiene una cantidad inimaginable de información que se mantiene en constante aumento. Esto se debe, principalmente, al auge que ha tenido uno de sus tantos servicios en los últimos años: la Web. La Web es un "cuerpo de hipertexto de complejidad enorme, cuya expansión continúa de modo fenomenal" y que "puede verse como una intrincada forma de hipermedia popular, en la que millones de participantes, crean contenido" [Kleinberg, 1999]. Así, la Web se ha vuelto una de las fuentes más importantes de las que se puede obtener información en Internet.



Para facilitar la búsqueda del contenido creado, surgieron los sitios de búsqueda (search engines). Estos se encargan de navegar en Internet y de recopilar ciertas características del material encontrado (básicamente elementos de su contenido textual y su ubicación), con el fin de que pueda ser usado por los usuarios. De este modo, no es necesario que los usuarios de Internet naveguen a ciegas en la complejidad que caracteriza a la red, sino que con la ayuda de estos sitios, pueden realizar búsquedas para localizar el contenido que requieren.



A pesar de la labor de apoyo desempeñada por los sitios de búsqueda en el proceso de localización de información, su tarea informativa tiene múltiples deficiencias. Muchas de ellas se originan porque no hay una organización planeada que comprenda a todo el contenido desarrollado (ya que los distintos usuarios que difunden información a través de Internet, tienen metas diversas y a menudo conflictivas en su creación de material y sitios) [Kleinberg, 1999]. Sin embargo, una parte importante de dichas deficiencias es inherente al proceso que realizan los sitios de búsqueda para recopilar y entregar contenido.



Para realizar una búsqueda, un usuario introduce textualmente lo que requiere dentro del sitio especializado y espera por el material relacionado. Sin embargo, el sitio de búsqueda puede entregar una cantidad exorbitante de referencias de diversa índole y sin organización alguna, y ocasionar que el usuario se pierda en dicho complejo. Se puede ejemplificar lo anterior realizando la consulta de la frase "Emiliano Zapata" en los principales sitios de búsqueda (figura 1.2). En este caso, los buscadores entregan información abundante sin clasificación conceptual, y obviamente, sin consideraciones con respecto a la relevancia de su contenido. Tal acción repercute seriamente en el proceso informativo, pues "el usuario debe visitar y filtrar él mismo las ligas sugeridas, con el fin de encontrar la información que requiere" [Gould, 1998]. 





Figura 1.2: Algunos resultados de los principales sitios de búsqueda a la consulta de la frase "Emiliano Zapata"

1.3.2. HTML, el potencial de las ligas

El hipertexto ha cambiado la manera en que se consulta la información en un texto. Algunos autores [Balasubramanian, 1993; Beeman, 1987; Gould, 1998; 4-6] han señalado las ventajas de esta nueva forma de navegar en contraste con los documentos planos, principalmente relacionadas con la formación de un conocimiento plural y con el rompimiento de la linealidad en la lectura. Estos beneficios tienen su origen en la inclusión de un elemento primordial en un documento de hipertexto: las ligas.



La creación de ligas es una acción revolucionaria en la consulta de información que, debido a la falta de tecnología y de los medios adecuados, tuvo una utilización limitada en el pasado. Dicha situación, dado el desarrollo tecnológico existente y la creciente expansión de Internet, se ha tornado completamente distinta y el hipertexto actualmente ha mostrado su enorme potencial. Gracias al Web y al lenguaje de hipertexto dominante en Internet llamado HTML (Hypertext Markup Language), se ha logrado que distintos documentos puedan relacionarse con todo tipo de fuentes alrededor del mundo. Esta integración mundial se ha logrado con el simple hecho de crear ligas.



Como es de suponerse, el potencial inherente a una liga en un documento que se encuentre en Internet es realmente extraordinario. Debido a esto, en la actualidad existe un sinfín de herramientas que permiten a una persona crear ligas de hipertexto en documentos HTML. Desafortunadamente, la creación de ligas es un proceso muy laborioso y, en ocasiones, tedioso. En dicho proceso, el responsable de establecer las ligas normalmente consume una gran cantidad de tiempo tanto en identificar cuáles podrían ser relevantes dentro del documento, como en encontrar el material al que quisiera referenciar (puesto que a veces tiene que realizar búsquedas exhaustivas para dar con el mismo). Aunado a tales complicaciones, el proceso tiene ciertas deficiencias: las ligas pueden romperse, no se comparten, o su administración puede ser tardada.



En los últimos años, diversos investigadores [Allan, 1996; Chidi, 1999] han reconocido estas limitaciones. Sin embargo, poco se ha avanzado en el desarrollo de sistemas que permitan automatizar este proceso que tanto puede incrementar las capacidades y posibilidades de un simple documento. 

1.4. Integración de documentos HTML con contenido clasificado

Hoy en día existe una considerable cantidad de información que, representada como recursos electrónicos, bien podría servir para explicar de manera más amplia y profunda los temas tratados en un documento HTML. En vista de lo anterior, lo idóneo sería que tales recursos estuvieran relacionados con los conceptos esenciales contenidos en los documentos, con el fin de que los lectores tuvieran la oportunidad de abundar en estos y satisfacer así su necesidad informativa. Sin embargo, lograr esto resulta excesivamente complejo puesto que no existe un verdadero apoyo para organizar recursos o para relacionarlos con el contenido de los documentos. De la conjunción de las carencias que actualmente tienen los sitios de búsqueda (1.3.1) y el desaprovechamiento del potencial inherente a las ligas (1.3.2), surge la idea de apoyar ambos esquemas con el fin de mejorar el proceso informativo.



Para apoyar la creación de referencias dentro del contenido de un documento HTML, primero es necesario contar con un acervo que permita localizar los recursos pertinentes a un determinado tópico. En la actualidad, los medios más viables para realizar esta labor son los sitios de búsqueda (pues son los que se encargan de recopilar recursos). No obstante, el uso de los sitios no resulta viable para dirigir directamente al lector hacia el material pertinente, puesto que con ellos se tiene que hurgonear entre los recursos referidos para localizar dicho material.



En respuesta a las deficiencias de los sitios de búsqueda es necesario estructurar acervos más complejos. Entre otras cosas, esto implica que en ellos exista la posibilidad de realizar búsquedas conceptuales (y no meramente de palabras, pues estas pueden tener múltiples acepciones), con el fin de ofrecerle al lector toda la información relevante a un determinado concepto. Es decir, el conjunto de recursos relevantes debe encontrarse ordenado por entidades conceptuales.



La conformación de un acervo conceptual puede dar lugar a que se explote un potencial actualmente latente que tiene relación con la creación de referencias en los documentos de hipertexto. Es decir, dado que los documentos adentran conceptos en su contenido textual ¿por qué no aprovechar y enriquecer los textos con los recursos del acervo conceptual? Para lograr esto, se pueden generar ligas conceptuales de las palabras de un documento a los conceptos del acervo, y así, obtener todos los recursos asignados a cada concepto (Figura 1.3).



Figura 1.3: Liga conceptual con múltiples recursos

La creación de referencias al acervo indudablemente puede ser un proceso laborioso; sin embargo, dadas las características conceptuales de dicho acervo, se puede idear algún modelo en el que cada concepto sea referido por palabras o expresiones (términos). Mediante tal acción, se lograría ubicar dentro de un documento todas las expresiones conceptuales y crear, de modo automático, las referencias pertinentes hacia los conceptos del acervo (figura 1.4). En consecuencia, un acervo conceptual no sólo podría apoyar la recuperación de información relevante a un concepto en específico (operación que no realizan los sitios de búsqueda), sino que también podría ser la base para que con éste se pueda automatizar el complejo proceso de creación de referencias en un documento de hipertexto.



Figura 1.4: Ligado automático de palabras a conceptos

1.4.1. Aplicabilidad de la integración automática de contenido en múltiples áreas

El hecho de relacionar automáticamente el contenido de documentos con información relevante, claramente puede ser útil para una gran diversidad de áreas. Básicamente, éstas son todas aquéllas que deseen mejorar los procesos informativos de sus usuarios (puesto que la integración de contenido les brinda la oportunidad de aprovechar de mejor modo la información que consultan). Sin embargo, los beneficios de la integración no son iguales en todas las áreas, y evidentemente son mayores en aquéllas que tienen dos necesidades muy específicas: contar con mucha información que requieran mostrar y administrar, y/o poseer muchos documentos en los que sería útil ligar su contenido de manera automática. 



Un ejemplo claro de un área que requiere cubrir ambas necesidades, es la prensa escrita. La primera necesidad deriva del objetivo de informar a sus usuarios finales, lo cual seguramente se mejoraría si en las noticias se incluyera la oportunidad de explicarle al lector acerca de cierta información de contexto, antecedentes, eventos, personajes, organizaciones y otros elementos encontrados en su contenido. Por otro lado, la segunda necesidad radica en que los periódicos diariamente generan una gran cantidad de documentos de texto (básicamente noticias) en los que sería extremadamente útil que las relaciones de contenido se realizaran de manera automática.



Actualmente los periódicos más conocidos de la Ciudad de México que informan a través de su sitio en Internet (El Universal, Reforma, Excélsior y La Jornada), son un claro ejemplo de tantos sitios que no han aprovechado la posibilidad de relacionar contenido automáticamente. Aunque algunos han incursionado en la labor de vincular noticias y así permitir que el lector conozca sobre hechos relacionados (como lo ha hecho el periódico Reforma), ninguno ha aprovechado una verdadera ventaja competitiva que resultaría de explicar algunos elementos de su contenido. Es decir, su mayor avance estriba en informarle al lector acerca de noticias relacionadas, pero no de conceptos más puntuales que puedan ser básicos para un mejor entendimiento y comprensión de los sucesos.



Si bien la prensa es un buen ejemplo de las áreas que podrían ser beneficiadas mediante la organización de contenido y su relación automática, evidentemente no se trata del único caso. Además de los periódicos, la utilidad podría extenderse a portales como El Foco, Es Más y El Sitio (para relacionar y tener un mejor control de la enorme cantidad de información que manejan); intranets empresariales (para organizar material elaborado por sus distintas áreas); instituciones educativas (para llevar al estudiante a definiciones y conceptos básicos); organizaciones comerciales (para llevar al cliente a información relacionada con los productos o servicios específicos que ofrecen); y demás áreas. Como es de intuirse, el elemento común en los ejemplos mencionados radica en el enriquecimiento de sus documentos. Por ende, la aplicabilidad del sistema puede extenderse a toda aquella área que pueda beneficiarse de la creación de contenido, integrando éste con los documentos de hipertexto que generen.

1.5. Enciclomedia, un sistema de apoyo para la educación nacional 

Uno de los principales conflictos concernientes a la educación nacional está relacionado con la recuperación y abastecimiento de la información educativa (1.1). La solución a este problema puede tener un buen apoyo del desarrollo tecnológico, puesto que la creación de infraestructura de cómputo en Internet (1.2.1 y 1.2.2) puede soportar proyectos en los que se integre la información educativa a nivel nacional, y en consecuencia, mejorar sus procesos de obtención y suministro. Para esto, es necesario conformar un acervo educativo y ofrecer un medio con el que se facilite su consulta.

1.5.1. Necesidad de un acervo de material educativo

Haciendo referencia al abastecimiento de información, actualmente se cuenta con muchos desarrollos en Internet por parte de instituciones diversas que bien pueden ser usados como material didáctico. De igual manera, existe material ya transformado en software que sin problema alguno puede ser integrado a esta compleja red. Sin embargo, aunque sí existe material didáctico en medios de cómputo, actualmente no se cuenta con arquitectura alguna en Internet que pueda integrar dicho material. Es decir, es necesario construir una arquitectura con la cual se pueda administrar toda la información concerniente a la educación nacional y así propiciar y soportar el desarrollo de material didáctico. 



Con referencia a la recuperación de información en Internet, actualmente es común que los alumnos usen sitios de búsqueda para localizar información. Este punto es de tomar en consideración, puesto que en Internet existe una multiplicidad de temas e información que está muy lejos de tener fines académicos (1.3.1). Por ende, es necesario proveer un medio a través del cual los estudiantes puedan encontrar la información que requieren, y que ésta se encuentre ya filtrada con fines didácticos. Así, la conformación de un acervo didáctico supervisado podría ser de gran apoyo para la recuperación de información educativa.

1.5.2. Potenciación de los Libros de Texto Gratuitos 

Teniendo presente la necesidad de formar un acervo educativo, el siguiente punto a resolver es cómo integrarlo de modo a que pueda ser usado a nivel nacional. De aquí surge el aprovechamiento de los Libros de Texto Gratuitos en Web, puesto que al incursionar en tecnologías de hipertexto (como actualmente lo hacen en Internet) y mantenerse en texto plano, es evidente que dejan latente un enorme potencial que podría ser explotado.



Dado que los Libros de Texto Gratuitos de la Secretaría de Educación Pública (SEP), son la forma natural de integrar, organizar y presentar el material correspondiente a los planes de estudios de nuestro país, resultan viables para lograr la integración del material didáctico recopilado. Es decir, éstos pueden ser aprovechados de mejor modo si brindan la oportunidad de profundizar en los conceptos que contienen. En consecuencia, los Libros de Texto Gratuitos claramente pueden constituir una arquitectura de soporte con la cual se pueda llevar al estudiante al acervo de material didáctico, y así, apoyarlo en la consulta del material de sus cursos en forma inmediata. 

1.5.3. Origen de Enciclomedia

Reconociendo las necesidades en materia de apoyo tecnológico para la educación nacional, Enciclomedia tiene su origen en una idea del Dr. Felipe Bracho, encargado de la Red de Desarrollo e Investigación en Informática (REDII). En dicha idea, se expresaba la necesidad de un sistema que permitiera integrar los Libros de Texto Gratuitos encontrados en la Web con los artículos de la Enciclopedia Encarta de Microsoft y con otras fuentes de información dentro de ésta, mediante la relación automática de su contenido (figura 1.5).

Figura 1.5: Propuesta de integración de los libros de texto con Encarta

Como parte de las actividades del programa REDII en el Instituto Tecnológico Autónomo de México (ITAM), se me invitó a colaborar en el proyecto (asumiendo la responsabilidad del ámbito tecnológico), gracias al Centro de Tecnologías para la Educación (CETEE). En tal labor, además de la adición de ideas, se contempló el análisis, diseño e implantación de la arquitectura, de tal forma que ésta constituyera un buen soporte para el crecimiento del proyecto y apoyara posibles necesidades futuras. Como resultado, una aplicación originalmente denominada Hypertexter (dada la necesidad inicial de ligar los Libros de Texto Gratuitos a la Enciclopedia Encarta, figura 1.5), se volvió un sistema mucho más ambicioso denominado Enciclomedia.



A inicios del proyecto, CONACYT y Microsoft de México firmaron un convenio de colaboración para poder relacionar el contenido de los Libros de Texto Gratuitos con artículos de la Enciclopedia Encarta. En este convenio, se acordó que dicha enciclopedia estuviera disponible para todas las escuelas públicas de nuestro país mediante donaciones por parte de Microsoft. Por ende, desde el principio del proyecto se puede contar con material suficiente y atractivo para los estudiantes, el cual es un magnífico inicio para conformar un gran acervo didáctico.

1.5.4. Funcionamiento de Enciclomedia

Enciclomedia es un sistema en Internet que permite integrar los Libros de Texto Gratuitos con un acervo conceptual integrado por múltiples fuentes de conocimiento. Para cada uno de los conceptos, el libro lleva al estudiante, a través de ligas de hipertexto, a un menú que cuenta con contenido clasificado asociado al concepto y su correspondiente liga a la Enciclopedia Encarta. Dependiendo de la naturaleza de cada concepto y del material relacionado que en determinado momento se tenga, cada entidad conceptual puede llevar a recursos de distinto tipo e incluir, en un principio, el artículo correspondiente en Encarta (para lo cual obviamente se debe contar con dicha enciclopedia instalada). Por ejemplo, la palabra "Grecia" en el libro de texto llevaría al estudiante a un menú en el que se podría escoger entre distinto tipo de contenido organizado por tópicos ("Sitios relacionados", "Niños interesados", "Mapas", "Bibliografía", "Videos", "Foros de discusión", "Tareas", y a la entrada correspondiente al artículo de Grecia en la enciclopedia), mientras que la expresión "raíz cuadrada" llevaría a otro menú en el que se podría optar por tópicos completamente distintos ("Ejercicios para practicar", "Explicaciones del concepto", "Algoritmos matemáticos" y "Programas relacionados").

1.5.4.1. Constitución del Acervo

El acervo gira alrededor de los principales conceptos tratados en los cursos o tareas de los estudiantes. Para esto, cada concepto se asigna a un responsable (un maestro o escuela) para que se pueda distribuir organizadamente la conformación de material didáctico, y así, capitalizar el trabajo colectivo. 



En la asignación de material, cada responsable administra el contenido de sus conceptos (mediante referencias a recursos), así como los temas a los que éstos pertenecen. Con el fin de mejorar el contenido del concepto o conceptos a su cargo, cada responsable puede recibir opiniones y propuestas. Esto es, si alguna persona hace referencia a un concepto dentro de los Libros de Texto Gratuitos, se le muestra el contenido relacionado con ese concepto y se le brinda la oportunidad de comunicarse con el responsable de éste. De esta forma, además de apoyar en la mejora del contenido del acervo mediante comunicación, también se fomenta la creación de comunidades virtuales alrededor de los temas de interés para el plan de estudios de cada materia.

1.5.4.2. Ligado automático

Con el fin de aprovechar de mejor manera el acervo que puede crearse, y dado que éste se compone de estructuras conceptuales, también puede ser usado para la generación de ligas automáticas. Es decir, la idea principal radica en que de manera ágil y sencilla se realicen casi todas las referencias de los conceptos contenidos en los textos al material del acervo. Esto no sólo sería útil para ligar los Libros de Texto Gratuitos, sino que posteriormente podría ser la base para ligar cualquier documento educativo al acervo nacional.



Además de realizar ligas en los Libros de Texto Gratuitos al contenido del acervo, el ligado automático puede servir para referir los textos únicamente a la Enciclopedia Encarta. En el caso de que se ligara únicamente a la enciclopedia, el sistema podría ser útil para apoyar a todas aquellas escuelas que no contaran con conexión a Internet. Así, se podría proporcionar a los planteles un conjunto de Discos Compactos (CDs) o un DVD (Digital Versatile Disk) tanto con los Libros de Texto Gratuitos ligados como con la Enciclopedia Encarta, con el fin de que los usuarios puedan tener una enciclopedia relacionada con sus libros. Obviamente, la opción más benéfica sería que se utilizaran los libros integrados al acervo nacional. Sin embargo, en situaciones en las que no se contara con la infraestructura completa, esta segunda medida podría ser útil para apoyar (aunque en menor grado) los procesos educativos.

1.5.5. Potencial del proyecto Enciclomedia

Con respecto a las carencias actuales concernientes a la recuperación y abastecimiento de información en materia educativa, el uso de Enciclomedia puede tener un gran impacto en el fortalecimiento del sistema educativo nacional. Esto es, mediante Enciclomedia, los Libros de Texto Gratuitos podrán fusionarse con contenido vivo y cambiante que sirva, a la vez, de referencia a material relacionado con un tema, y como método para incrementar y organizar el material didáctico (capitalizando el trabajo colectivo). Por otro lado, el establecimiento de comunicación vía Internet permitiría dar apoyo, resolver dudas y propiciar comunidades virtuales con los mismos intereses educativos. En consecuencia, el sistema a desarrollar además de ser un claro apoyo para el proceso de enseñanza-aprendizaje en nuestro país, puede volverse un gran soporte para las inversiones en infraestructura de cómputo de planes como la Red Escolar. 

1.6. Objetivo

El objetivo de esta tesis consiste en desarrollar un prototipo funcional del Sistema de Administración de Recursos Conceptuales y de Referenciación Automática Difusa (SARCRAD). El sistema debe permitir:



· Automatizar la creación de referencias representadas por Uniform Resource Locators (URLs) en archivos HTML, a partir de un acervo de conceptos.

· Obtener, clasificar y desplegar los URLs del acervo que estén asociados con un concepto específico.

· Crear manualmente nuevos URLs en forma distribuida para cada concepto (mediante la labor de los responsables de conceptos).

· Administrar, por dichos responsables, los URLs creados.



El sistema debe tener la capacidad de soportar una aplicación específica llamada Enciclomedia, e integrar, como recursos, los artículos de la Enciclopedia Encarta. Aunado a dicha implementación, SARCRAD debe contemplar una arquitectura robusta que soporte nuevas necesidades, resultado del desarrollo tecnológico futuro en Internet, así como la adición de nuevos módulos.

1.7. Alcances

Esta tesis se limita a analizar, diseñar e implantar tres módulos básicos del sistema:



1) Un ligador automático de contenido que permita realizar ligas de hipertexto del contenido textual de un documento HTML a un acervo de información.

2) Un menú que obtenga todo lo relacionado con un concepto perteneciente al acervo central de información, y lo despliegue al usuario final.

3) Una herramienta que permita la administración distribuida de recursos dentro del acervo.

1.8. Organización del documento

El documento se encuentra organizado en ocho capítulos. Los capítulos restantes son:



2. Marco teórico y su relación con SARCRAD. Contempla las necesidades requeridas en SARCRAD (el prototipo del sistema generado). Muestra un panorama general de los avances en aquellas áreas que se consideran relevantes por su relación con el funcionamiento requerido: sitios de búsqueda, meta-buscadores, automatizadores de creación de referencias en sistemas de hipertexto y clasificadores textuales. Asimismo, se compara el funcionamiento requerido en SARCRAD con cada elemento del marco teórico.



3. Ligado conceptual-difuso. Explica un algoritmo diseñado para automatizar el ligado de conceptos en un documento. Dicho algoritmo es híbrido, resultado de la mezcla de clasificadores y ligadores automáticos.



4. Análisis del sistema. Recopila los requerimientos básicos y totales del sistema. Incluye consideraciones primordiales para que éste pueda soportar una aplicabilidad general y facilitar su uso en múltiples áreas.



5. Diseño del sistema. Diseña en alto nivel el funcionamiento del sistema, contemplando sus principales procesos. Asigna dichos procesos a módulos, con el fin de ubicar aquellos ya existentes y desarrollar únicamente los restantes. Diseña los módulos faltantes en el sistema, necesarios para su conformación.



6. Implantación del prototipo. Explica la estructura de la arquitectura general del sistema, y describe la de cada componente (módulo) generado. Especifica el proceso de implantación de los componentes desarrollados mediante un historial de cada versión generada. Ilustra el funcionamiento de los componentes creados, e incluye sus pantallas principales. Evalúa el desarrollo dados ciertos puntos a cubrir en sistemas de hipermedia de nueva generación.



7. Conclusiones. Delinea las características del sistema desarrollado, sus alcances y limitaciones. Describe los principales problemas encontrados y las aportaciones realizadas. Compara la arquitectura de Enciclomedia con la arquitectura de un proyecto similar denominado Hipertexto. Incluye las líneas futuras del sistema.



8. Apéndice. Incluye una descripción de la estructura de documentos HTML así como los principales algoritmos diseñados en la elaboración del sistema.





2. Marco teórico y su relación con SARCRAD

2.1. Características principales del esquema conceptual requerido en SARCRAD 

Dadas ciertas necesidades existentes en cuanto a la consulta de información, el sistema a constituir debe contar con algunas características primordiales con las que se pueda dar apoyo al proceso informativo. Dichas características básicas pueden resumirse en los siguientes puntos.

2.1.1. Clasificación y ordenamiento de Recursos

En un esquema conceptual, cada concepto puede tener una multiplicidad de recursos de diversa índole (figura 2.1). Dicha situación representa una clara desventaja si los recursos no se encuentran clasificados, pues un esquema así de simple no resulta un verdadero apoyo en la consulta de información. Esto se debe a que, al no existir un orden en los recursos, un usuario tiene que consultar cada referencia en espera de que ésta contenga la información o el servicio que busca (puesto que en ocasiones un solo concepto puede abarcar recursos muy distintos). Por ejemplo, si un usuario desea pertenecer a una lista de discusión para obtener apoyo sobre un concepto en específico, llámese "Integrales", tal vez tendría que navegar en una gran cantidad de recursos relacionados con la "Integral" y encontrarse con explicaciones, bibliografía relacionada, fórmulas de integración, ecuaciones no integrables, y otros tipos de información relacionada, hasta encontrar la lista de discusión que busca. 

Figura 2.1: Multiplicidad de recursos para un concepto

Puesto que los recursos pueden ser de diversa índole y estar en desorden, en SARCRAD se requiere tanto la creación de una clasificación taxonómica de recursos (en la que cada uno pueda ser ubicado), como el ordenamiento de éstos de acuerdo a una determinada relevancia (con el fin de que el interesado sepa cuál es el primer recurso que debe consultar, de acuerdo con el objetivo de su búsqueda). Esto permitirá que los usuarios vayan directamente a las clases viables de recursos vinculados a un concepto, y encuentren ahí aquellos más relevantes al tema (sin tener que navegar en una multiplicidad de recursos desordenados para encontrar lo que buscan, figura 2.2). En consecuencia, la creación de clases y la asignación de relevancia de recursos dentro de cada una, serán medidas de apoyo a los procesos de consulta de los usuario (dado que de antemano se le podrá indicar qué tipo de recursos existen para el concepto que busca, así como los más relevantes dentro de cada clase).



Figura 2.2: Múltiples recursos ordenados en clases

Un ejemplo retomando de 1.5.4, en el que posibles recursos conceptuales de Grecia pueden encontrarse ordenados dentro de distintas clases, se muestra en la figura 2.3.

Figura 2.3: El concepto "Grecia" con posibles recursos clasificados

2.1.2. Pluralidad tanto en tipos de recursos como en fuentes

En la estructuración de un acervo, se debe prever su crecimiento y otorgarle el potencial para incluir cualquier tipo de recurso (ya sea un determinado archivo o un servicio). En Internet, los recursos son descritos usando Uniform Resource Locators (URLs), que sirven para indicar la máquina; la ubicación del recurso en la máquina (directorio y/o archivo en donde reside); el usuario y contraseña (si es que el recurso lo requiere); y el protocolo necesario para accederlo [Berners, 1994; Gould, 1998]. Con esta finalidad, un URL se forma por la sintaxis definida en la figura 2.4.

Figura 2.4: Sintaxis de un URL [Berners, 1994]



Como es de suponerse, uno de los grandes beneficios de los URLs radica en que pueden apoyar la referencia a recursos en Internet sin importar el protocolo del que se trate (figura 2.5), situación que debería ser contemplada en SACRAD. Sin embargo, para apoyar a Enciclomedia el hecho de que se integren los principales protocolos de Internet no es suficiente, pues también es necesario que se puedan hacer referencias a los artículos de la Enciclopedia Encarta. Para lograr tal integración se requiere incluir un nuevo tipo de protocolo definido por Microsoft, que se registra en el sistema operativo al instalar la enciclopedia, y que a diferencia de los protocolos de Internet, es un protocolo propietario que únicamente trabaja en la máquina local (figura 2.6).



Protocolo definido por Microsoft Definición en un URL

Microsoft Encarta Encyclopedia msee 

Figura 2.6: Protocolo propietario "msee" en un URL

2.1.3. Ligado automático de conceptos

En el proceso de creación de referencias en un documento de hipertexto, normalmente una persona distingue aquello que debe y no debe referenciar. Dicho procedimiento se caracteriza por ser subjetivo, y así, "si se crean ligas en el documento basadas en un entendimiento personal, tal vez éstas no sean relevantes con respecto al entendimiento resultante de la lectura del hipertexto por parte de otra persona" [Glushko, 1989]. En adición a la subjetividad, el proceso también se caracteriza por ser realmente complejo. Esto se debe, básicamente, a que para crear ciertas referencias se requiere analizar el texto en un nivel en el que es imprescindible la intervención humana (pues dicho análisis todavía no puede ser realizado con los resultados obtenidos de las investigaciones del lenguaje natural) [Allan, 1996]. 



La complejidad inherente a la creación de referencias en un documento de hipertexto claramente puede dificultar la automatización de dicho proceso. Sin embargo, si se limita el nivel de entendimiento requerido en la creación de referencias, la complejidad disminuirá y, en consecuencia, seguramente se podrá comenzar un acercamiento viable para la automatización del proceso de ligado. Es decir, si en vez de tratar de entender el texto para hacer referencias complejas (en las que la intervención humana puede resultar imprescindible), se intenta llegar a un nivel léxico (para crear referencias conceptuales), se facilitaría la automatización. Ciertamente esta medida no podría servir para relacionar ideas, no obstante, podría ser muy útil para ayudar en el entendimiento conceptual de las principales expresiones tratadas en un texto.



Con el objetivo de lograr la automatización del ligado a nivel conceptual, es conveniente simular ciertas acciones que realizaría un humano para encontrar los principales conceptos tratados en un texto. Básicamente una persona podría clasificar taxonómicamente un documento después de leerlo y, de acuerdo a las principales clases encontradas, determinar qué conceptos deben ser referenciados (con el fin de que las referencias tengan consistencia con los temas centrales del documento). De acuerdo con dicho procedimiento, se tendrían que mecanizar los siguientes sucesos para poder crear referencias conceptuales de manera automática:



1. Leer el documento y descubrir los temas tratados;

2. Definir cuáles de los temas tratados en la lectura son los más relevantes;

3. Encontrar mediante expresiones textuales, los conceptos tratados en el documento;

4. Separar las expresiones textuales que tienen relevancia con los temas principales de la lectura, de aquellas que no la tienen;

5. Encontrar el material relacionado con los conceptos del documento; y

6. Realizar las referencias de las expresiones textuales al material encontrado.





Como se puede observar, el proceso para automatizar la referenciación conceptual tiene elementos subjetivos (sobre todo en la elección de las clases más relevantes de la lectura y en la determinación de las expresiones textuales que deben ser relacionadas con los conceptos). Evidentemente, la subjetividad podría omitirse, pero al hacerlo se volvería un proceso rígido en el que seguramente sería preferible realizar las referencias de modo manual (dado que no se podría personalizar la creación de referencias como una persona quisiera, desaprovechando así el proceso de automatización). Es decir, tal vez la omisión de ciertos parámetros de subjetividad no permitiría una automatización en la cual la creación de referencias en un documento fuera realizada de modo flexible tal y como lo haría una determinada persona. Para poder enfrentar esta situación, básicamente lo que se tiene que contemplar es la simulación de algún proceso que permitiese determinar cuántas y cuáles son las principales clases del documento, así como qué palabras se deben relacionar según dichas clases (pues en estos procesos es donde puede darse la subjetividad según las personas encargadas de la creación de ligas). Por ende, para automatizar el ligado conceptual, SARCRAD debe simular en cierto grado el proceso que se seguiría si la creación de referencias de conceptos se realizara manualmente (3).



2.2. Avances tecnológicos relacionados con la consulta de información

2.2.1. Sitios de búsqueda

Internet ha crecido desmesuradamente durante los últimos años, situación que ha llevado a la existencia de una gran cantidad de documentos en esta red mundial. De esta manera, la acumulación de material representa una gran riqueza de información que ha originado una necesidad muy específica: apoyar la localización de documentos de interés en las fuentes potenciales de Internet [Gravano, 1999]. Para realizar esa labor surgieron los sitios de búsqueda, herramientas que actualmente son indispensables para localizar contenido en esta inmensa red (ej.: Altavista, Excite, Lycos y Yahoo, figura 2.7).



Figura 2.7: Principales sitios de búsqueda en Internet

2.2.1.1. Funcionamiento básico

Los sitios de búsqueda son desarrollados principalmente por compañías comerciales, y su funcionamiento ha sido escasamente abordado en la literatura [Lesk, 1997]. En esencia, un buscador se compone por tres componentes básicos que le permiten realizar sus funciones específicas. Dichos componentes son el robot, el catálogo y el procesador de peticiones (figura 2.8), mismos que se describen a continuación.

Figura 2.8: Arquitectura básica de los buscadores

2.2.1.1.1. Robot

El robot es un programa que recorre automáticamente parte de la estructura de hipertexto de la Web, y toma documentos HTML para consultar recursivamente aquellos con los que se relacionan [Koster, 1995]. Su finalidad radica en entregar referencias a documentos para que éstos puedan ser localizados en un futuro por el sitio de búsqueda. Es decir, el robot suministra referencias al catálogo del sitio para que sean añadidas al material de consulta.



Para seleccionar documentos, el robot comienza con una lista de URLs, visita cada documento al que se haga referencia, y recorre el contenido de cada uno para decidir si se debe entregar o no al sitio de búsqueda. Para realizar esto, cada robot cuenta con un determinado algoritmo para navegar en la Web y determinar si la página debe ser regresada al catálogo. El robot toma sus decisiones con base en las palabras que encuentra en el título del documento, los primeros párrafos, el documento completo o tags especiales como el meta-tag [Koster, 1995]. 



El proceso que realiza el robot es uno de los más importantes en el funcionamiento de los sitios de búsqueda (principalmente en aquéllos que recuperan automáticamente documentos de hipertexto). Esto se debe a que si el robot no regresa una determinada página Web o algún documento en la que se le haga referencia, ésta no formará parte del catálogo. En consecuencia, nunca podrá ser encontrada por el sitio cuando un usuario la busque, dado que no se cuenta con información alguna sobre ésta [Chidi, 1999].

2.2.1.1.2. Catálogo

El catálogo (o índice) esencialmente es una base de datos que contiene información acerca de las páginas Web (básicamente sobre las palabras que contienen, con el fin de que puedan ser encontrados los documentos cuando se realicen búsquedas utilizando dichas palabras). Dado que el robot es quien le entrega las páginas, es innegable que éste determina en gran parte aquello que existe en el catálogo. Adicionalmente, no todos los catálogos contienen la misma información (principalmente debido a que los listados de sitios a consultar son diferentes para cada sitio de búsqueda, además de que pueden usar distintos tipos de Robots) [Chidi, 1999; Gould, 1998].



Para conformar el catálogo, se cuenta con un motor que decide qué palabras o frases serán usadas para hacer referencia a cada página [Chidi, 1999]. Para esto existen varios esquemas, entre los cuales algunos toman en cuenta la estructura del documento (una palabra en el título puede ser más importante que una palabra en el texto), otros identifican palabras claves de aquellas que no contribuyen en las búsquedas con el fin de no incluirlas (ej.: "de", "la", "los", "un", etc.), otros tantos analizan el documento mediante inteligencia artificial y algunos llegan a tomar todas las palabras encontradas en el documento [Boute, 1996]. 



Al encontrar las palabras clave, existe una técnica popular que radica en combinar el texto de todos los documentos en un índice. En tal proceso, se relaciona el conjunto de palabras obtenidas (vocabulario) a los documentos en los que éstas ocurren (figura 2.9). Más información, además de las palabras clave, puede ser utilizada para crear el índice. Por ejemplo, también se puede tomar el número de ocurrencias de los términos tanto en cada documento como en todos (una palabra que esté mencionada más veces en el texto será más importante, pero si se encuentra en muchos documentos seguramente no lo será), y la localización exacta de cada término en el documento (permitiendo la búsqueda de frases, pues se ubican palabras juntas que estén en un determinado orden). Claramente, el hecho de añadir información permite una mayor funcionalidad en el sitio de búsqueda (pues hay más elementos a explotar); sin embargo, ésta se da al costo de mantener un índice mucho más extenso [Dreilinger, 1997].

Figura 2.9: Esquema básico de un catálogo en un sitio de búsqueda

2.2.1.1.3. Procesador de peticiones

El procesador de peticiones es la parte que se encarga tanto de recibir las palabras o frases que el usuario solicita para realizar la búsqueda, como de presentarle las referencias a los documentos encontrados que contienen información relevante. Normalmente, el proceso involucra el uso del catálogo para comparar las palabras introducidas por el usuario con las entradas en el índice, para después regresar un conjunto constituido por las referencias y descripciones de los documentos que en cierto grado cumplen con la búsqueda [Chidi, 1999].



Para localizar documentos relevantes a las peticiones de los usuarios, un sitio de búsqueda puede recurrir a dos modelos con los cuales se puede recuperar documentos del catálogo. Estos modelos son el booleano y el vectorial, descritos a continuación. 

2.2.1.1.3.1. Modelo vectorial

En el modelo vectorial, los documentos y las peticiones de búsqueda de un usuario se representan por medio de vectores. Dicha representación permite realizar ciertas operaciones en éstos con el fin de obtener magnitudes escalares que se usan para definir la similitud de cada documento en la petición. Así, mediante los grados de similitud obtenidos, se determina el subconjunto de documentos más parecidos a la búsqueda, el cual se le entrega al usuario como resultado de su consulta.



Para definir la relevancia de los documentos conforme a una búsqueda, popularmente se usa el algoritmo de posicionamiento (Frecuencia del término por el inverso de la su frecuencia en los documentos), dado que explota dos características importantes en los textos en lenguaje natural [Dreilinger, 1997]. 



1. Frecuencia del término. Si un término ocurre frecuentemente en un documento, el documento es considerado más relevante que todos aquéllos que en los que existieron pocas o ninguna ocurrencia del mismo término.



2. Inverso de la frecuencia del documento. En una petición con múltiples palabras, los términos más raros (aquellos que ocurren en muy pocos textos) reciben mayor peso para determinar su relevancia en el documento. Por ejemplo, si una petición de búsqueda es "historia medieval", los documentos que contengan la palabra "medieval" serán catalogados como más relevantes que aquellos que únicamente contengan la palabra "historia".







Para realizar recuperaciones relevantes, el algoritmo de posicionamiento indica, mediante estadística, la importancia que tiene cada palabra en un documento. Para esto, se define el peso de cada palabra mediante su fórmula , donde:





= número de veces en los que la aparece en el documento

= número de documentos en los que aparece la 

n = número total de documentos en la colección [Boute, 1996; Gravano, 1999]. 



Referente a la representación vectorial, si m palabras distintas pueden ser usadas para localizar documentos (figura 2.9), un documento d es representado como un vector de m dimensiones , donde es el peso asignado a la palabra número "j" en el vocabulario. Si dicha palabra no se presenta en el documento, entonces su peso es cero. Obtenido dicho vector D, finalmente se normaliza al dividir cada peso por [Gravano, 1999]. 



Las peticiones en el espacio vectorial también son estructuradas como vectores normalizados. Para esto, al igual cada documento, las peticiones se representan por un vector de la forma (donde cada elemento del vector indica la importancia de cada palabra en la búsqueda realizada por el usuario). Dado que casi siempre las peticiones de búsqueda se escriben en lenguaje natural, típicamente es una función del número de veces en las que la palabra "j" se encuentra en dicha petición, multiplicada por el factor iFD correspondiente a cada palabra [Gravano, 1999]. 



Para encontrar la similitud entre una petición q y un documento d, sim (q,d), se realiza el producto punto de los vectores Q y D. Es decir, . Cabe recalcar que los rangos de similitud van de cero a uno, puesto que Q y D están normalizados [Gravano, 1999]. Así, mientras más se parezca un documento a una petición, el producto punto tenderá al valor unitario, y de modo contrario, mientras menos se parezcan, tenderá a cero (puesto que no tendrán palabras en común).



Dado que idealmente un usuario busca documentos con la mayor similitud a su petición, es importante indicar que la similitud siempre es relativa a la colección del catálogo de cada sitio de búsqueda. Esto es, el mismo documento puede estar representado por vectores diferentes en distintos buscadores, dado que cada uno puede usar sus propios factores iFD. En consecuencia, lo que un buscador puede entregar como relevante para una petición, otro no [Gravano, 1999]. 

2.2.1.1.3.2. Modelo booleano

El modelo booleano es más primitivo que el vectorial, pero todavía es usado en muchos sitios de búsqueda para responder a las peticiones lógicas de los usuarios. En este modelo, los documentos se representan por palabras, en las que cada una tiene información respecto a su posición en el documento (figura 2.10) [Gravano, 1999]. 





Figura 2.10: Estructura de un catálogo para peticiones booleanas en un sitio de búsqueda

Las peticiones son expresiones compuestas por las palabras a buscar, operaciones de contéo (como "por lo menos debe existir en el texto una determinada palabra n veces"), y conectores lógicos ("AND", "OR" y "NOT"). El resultado de una petición es el conjunto de todos los documentos que satisfacen de modo booleano a la expresión de búsqueda. Cabe recalcar que en este modelo no existen similitudes entre documentos y peticiones de búsqueda (a diferencia del modelo vectorial), pues se basa en que un documento satisface o no una determinada petición lógica [Gould, 1998; Gravano, 1999]. 



2.2.1.2. Requisitos de SARCRAD no cubiertos por buscadores

Del funcionamiento actual de los sitios de búsqueda, pueden distinguirse algunos elementos que conflictúan la consulta de información requerida en SARCRAD. Entre estos destacan:



· Búsqueda no conceptual. Dado que los sitios de búsqueda recopilan palabras en vez de conceptos (2.2.1.1), se dificulta la posibilidad de realizar búsquedas conceptuales. Es decir, "se debe seleccionar información pertinente e indexar conceptos en vez de palabras. Si no se puede indexar por concepto, el usuario seguramente se perderá en una cantidad de información cuando reciba los resultados de su búsqueda" [Boute, 1996]. Así, para las búsquedas por palabras, "existen resultados empíricos que indican que no hay un sitio de búsqueda que regrese más del 45% de resultados relevantes" [Glover, 1999]. 



· Cantidad de referencias y relevancia de las mismas. Actualmente, un sitio de búsqueda puede arrojar una cantidad de referencias demasiado grande para ser analizada por un ser humano. Como resultado de este problema de abundancia (con el que se dificulta la ubicación del material que verdaderamente se requiere), se origina un problema de calidad, puesto que la calidad de lo encontrado necesariamente requiere de evaluación personal (sobre todo en términos subjetivos de las nociones de relevancia y de apoyo al proceso informativo). Lo anterior complica seriamente la labor automática de los sitios de búsqueda, pues actualmente se carece de funciones concretamente definidas que correspondan a las nociones humanas de calidad, dentro de sus procesos de recopilación y entrega de información [Kleinberg, 1999]. 



· Clasificación de referencias. En vista de la abundancia de referencias que pueden encontrar los sitios de búsqueda, se torna difícil ordenarlas o agruparlas. Aún cuando algunos sitios de búsqueda permiten a los usuarios buscar en su contenido agrupado en temas (ej.: Yahoo), sus referencias no se encuentran clasificadas. Hoy en día no existen sitios que clasifiquen las referencias según el tipo de material que contienen. Por ejemplo, algunos tipos de referencias que podrían ser muy útiles para encauzar a los usuarios al tipo de material que buscan, son: bibliografías, programas ejecutables, sonidos, videos, listas de discusión, etc. Al no proveer de una clasificación del contenido, se orilla a los usuarios a navegar en cada referencia hasta que localizan el material específico que requieren.



· Protocolo único. Los sitios de búsqueda básicamente relacionan información de un solo protocolo. Esto limita la opción de obtener información de distintas fuentes en Internet, dado que la Web no es su única fuente de información. En su mayoría, los sitios de búsqueda llevan a documentos que pueden ser referidos mediante HTTP, aunque existen sitios específicos para recursos referidos mediante otros protocolos como FTP (archivos), MAILTO (direcciones de correo electrónico y listas de discusión), y NEWS (grupos de noticias), entre otros (2.1.2). Al buscar recursos de un solo tipo en especifico, se dificulta la integración de material de diversas fuentes.



· Integración de la Enciclopedia Encarta con Enciclomedia. Los sitios de búsqueda no incluyen nuevos protocolos propietarios como el "msee" (Microsoft Encarta Encyclopedia, 2.1.2). Este protocolo es indispensable para poder referenciar a artículos dentro de la Enciclopedia Encarta.



2.2.2. Meta sitios de búsqueda

Del surgimiento de una diversidad de sitios de búsqueda en Internet, entre los cuales cada uno cuenta con material distinto, se originan los meta-sitios de búsqueda. Puesto que "los buscadores normales no cubren más del 16% del total de la información en Internet" [Glover, 1999], los meta-buscadores se dan a la tarea de realizar consultas de información más exhaustivas, e incrementar dicho porcentaje. Para esto, extienden las búsquedas de un usuario a diferentes sitios al mismo tiempo, y algunos llegan hasta a definir cuáles son los buscadores más apropiados para realizar consultas específicas. Entre los principales meta-sitios de búsqueda se encuentran Dogpile, Metacrawler, y C|Net Search (figura 2.11).



Figura 2.11: Principales meta-sitios de búsqueda en Internet

2.2.2.1. Funcionamiento básico

Los meta-buscadores son herramientas que de manera automática y simultánea, consultan varios sitios de búsqueda en Internet, interpretan los resultados y los despliegan en un formato uniforme [Dreilinger, 1997]. Para ello, se encargan de ubicar ciertos sitios de búsqueda según el material que puede encontrarse en éstos, deciden a qué fuentes se debe enviar una determinada petición, modifican dicha petición para que cumpla con el formato específico de cada buscador, reciben los resultados que los buscadores entregan, los ordenan y finalmente los muestran al usuario [Dreilinger, 1997; Glover, 1999].



Puesto que la opción de extender las consultas en distintos buscadores de la Web es relativamente nueva, actualmente los meta-buscadores tienen varios esquemas de funcionamiento en los que re-utilizan las ideas de los sitios de búsqueda (por ejemplo, modifican el algoritmo de posicionamiento (2.2.1.1.3.1) para determinar, en vez de documentos relevantes, buscadores relevantes para una determinada petición). Si bien existen en los meta-buscadores implantaciones con ideas distintas para seleccionar los sitios de búsqueda a consultar, se puede hablar de que en general cuentan con una estructura básica de tres componentes: el mecanismo de selección, los agentes de interfase y el mecanismo de despliegue (figura 2.12), mismos que se explican brevemente a continuación [Dreilinger, 1997]. 

Figura 2.12: Arquitectura básica de los meta-buscadores [Dreilinger, 1997]

2.2.2.1.1. Mecanismo de selección

De modo similar en que los sitios de búsqueda usan robots (2.2.1.1.1) para saber dónde se encuentra la información a la que puedan llevar al usuario, los meta-sitios usan a los buscadores convencionales para entregar referencias relevantes. A diferencia de los sitios de búsqueda que acceden al cuerpo de los documentos para crear su catálogo, los meta-buscadores se valen de un mecanismo de selección (ya sea un algoritmo o un método de toma de decisiones) para determinar a qué sitios enviar sus peticiones de búsqueda [Dreilinger, 1997]. Éste puede consistir en un mecanismo simple que meramente envíe la petición a todos los sitios de búsqueda contemplados por el meta-buscador (y con el cual no se aprovecharían los recursos del modo más eficiente), o se puede tratar de un mecanismo que con base en meta-datos decida qué sitios de búsqueda podrán otorgar referencias relevantes para una determinada petición [Gravano, 1999]. 



Puesto que éxito de las meta-búsquedas depende de seleccionar cuidadosamente qué recursos usar, el uso de meta-datos es la opción más conveniente. En esta labor, los meta-buscadores se valen de un meta-índice para seleccionar los sitios de búsqueda a consultar. Dicho índice puede estar compuesto por diversas entidades que contemplen, por ejemplo, un resumen de la información de los catálogos de los buscadores (una adaptación del modelo que incluye, por mencionar algo, cuántas veces ocurre cada término en cada sitio de búsqueda), las palabras más comunes que pueden encontrarse en la petición de un usuario y los lugares en que debe consultarse (ej.: si incluye "e-mail" se debe consultar en buscadores de correos mientras que si incluye "archivo" se debe realizar la petición en buscadores FTP), así como la experiencia previa de los resultados positivos o negativos de búsquedas anteriores, con el fin de determinar el desempeño reciente de los buscadores consultados. La creación de un meta-índice es muy útil para un meta-buscador, pues cuando recibe una petición de búsqueda, puede hacer uso de los meta-datos recolectados y sugerir correctamente los buscadores a consultar [Dreilinger, 1997; Gravano,1999]. 

2.2.2.1.2. Agentes de interfase

Ya definidos los sitios que deben ser consultados para una determinada petición, el meta-buscador recurre a los agentes de interfase para realizar las búsquedas. Cada agente es un programa que maneja la interacción con un sitio de búsqueda específico (figura 2.12), y modifica el formato de la petición del usuario para que en cada caso se adapte al formato requerido por el buscador [Dreilinger, 1997]. La necesidad de usar agentes es muy clara, pues además de que cada sitio cuenta con parámetros propios que son usados para consultar su catálogo de una forma determinada, las solicitudes hechas a los sitios que realicen búsquedas vectoriales evidentemente serán distintas de aquellos que realicen búsquedas booleanas (pues en los segundos se debe incluir operadores lógicos como "AND, +" o "NOT, -", 2.2.1.1.3.2). 



Con relación a la solicitud de peticiones de consulta, los agentes de interfase también son responsables de interpretar los resultados entregados por los sitios de búsqueda [Dreilinger, 1997]. Es decir, éstos también se encargan de recuperar las referencias, descripciones y datos adicionales (como el grado de similitud a la búsqueda) que entrega cada sitio. Una vez obtenidos todos los resultados, el meta-buscador usa el mecanismo de despliegue para mostrarlos al usuario.

2.2.2.1.3. Mecanismo de despliegue

Probablemente la decisión más importante realizada por un meta-sitio de búsqueda radica en cómo ordenar los resultados que obtiene de los buscadores [Glover, 1999]. Para esto, los meta-buscadores se valen de un mecanismo de despliegue, que sirve para integrar las referencias adquiridas por los agentes de interfase, y desplegarlas al usuario. También puede encargarse de verificar el estado de las referencias adquiridas y de encontrar aquellas que estén duplicadas (con el fin de eliminarlas y no mostrar resultados redundantes) [Dreilinger, 1997].



Con el fin de mostrar al usuario el producto de la meta-búsqueda, los resultados se ordenan ya sea por agrupación de cada sitio consultado (mostrando las referencias encontradas por cada uno), o por integración (conjuntando todas las referencias y ordenándolas por relevancia). En el caso de que se integren, dado que un típico sitio de búsqueda califica las referencias basándose en el grado de similitud entre las palabras de la petición de búsqueda y los términos de los documentos que tiene en su catálogo (2.2.1.1.3.1), comúnmente los meta-buscadores pueden ordenar los resultados calificándolos de acuerdo a dichos valores entregados con el simple hecho de normalizar todos los resultados (aunque también pueden obtener cada referencia, analizar su contenido y calificarlo de acuerdo a una función de similitud definida por el meta-buscador). Finalmente, una vez ordenadas las referencias (ya sea integradas o agrupadas por sitio de búsqueda), éstas son mostradas al usuario [Dreilinger, 1997; Glover, 1999].

2.2.2.2. Requisitos de SARCRAD no cubiertos por meta-buscadores

Los meta-buscadores pueden resolver varios de los conflictos que se presentan en los buscadores, como son las limitaciones en la cantidad de referencias y la posibilidad de entregar referencias que se usen diversos protocolos. Sin embargo, dado que los meta-sitios de búsqueda se basan en los resultados arrojados por los buscadores (que realizan búsquedas por medio de palabras), los problemas derivados de la imposibilidad de realizar búsquedas conceptuales, la dificultad para encontrar referencias verdaderamente relevantes y clasificadas por tipos, y la incapacidad para integrar a la Enciclopedia Encarta (puesto que tampoco manejan nuevos protocolos), son idénticos a los de los sitios de búsqueda (2.2.1.2). 

2.2.3. Automatización de referencias

Muy poco trabajo se ha hecho en el área del ligado automático, sobre todo en la creación de ligas basadas en el análisis semántico del texto. Básicamente, la investigación desarrollada que impulsa la automatización de ligas se ha dado en sistemas de hipertexto antecesores al HTML (como aquellos estructurados en SGML, Standard Generalized Markup Language), dado el gran esfuerzo de edición necesario para insertar ligas en los documentos de sus sistemas [Balasubramanian, 1993]. Con respecto a los avances realizados en dichos sistemas de hipertexto, a continuación se mencionan los más relevantes.

2.2.3.1. Aprendiz superficial de ligas 

Un aprendiz de ligas es un programa que examina un documento y crea las ligas apropiadas, basándose en el análisis semántico del texto. Puesto que la construcción de aprendices "inteligentes" es demasiado difícil (dados los problemas de interpretación que todavía no son alcanzados por la investigación de lenguaje natural, 2.1.3), Bernstein sugirió un aprendiz superficial para apoyar en esta labor. Dicho aprendiz es un sistema que busca documentos similares a una determinada página y entrega al usuario las veinte páginas más parecidas a su página actual [Balasubramanian, 1993]. 



Para sugerir páginas con el fin de apoyar la automatización de referencias, el aprendiz realiza un análisis superficial del texto (estadístico y de propiedades léxicas) sin analizar significado. Para lograr esto, se vale de un filtro denominado "Bloom", con el cual se realiza la búsqueda de texto similar. En dicho filtro, cada documento de hipertexto es asignado a una tabla en la que cada palabra ocurrida es indexada. Finalmente, para definir la similitud entre dos documentos, se toma la normal del producto de sus tablas (2.2.1.1.3.1) [Balasubramanian, 1993]. 

2.2.3.2. HieNet

HieNet es un mecanismo de ligado entre documentos que genera nuevas ligas basándose en un historial de referencias creado por los usuarios. Esto es, al generar una referencia de un documento fuente a un documento destino, el sistema brinda la oportunidad de hacer ligas en documentos similares.



Dado que los sistemas de hipertexto guardan las ligas y sus atributos en una base de datos, en HieNet se aprovecha este recurso y se incluyen dos atributos más para cada liga. Estos atributos extienden las ideas incorporadas en el aprendiz superficial de ligas de Bernstein (2.2.3.1), y constituyen las representaciones vectoriales del contenido textual tanto del documento origen como del documento destino. La descripción del contenido se calcula usando el modelo vectorial (2.2.1.1.3.1), en el que el peso de cada término se obtiene dividiendo su frecuencia en el texto entre su ocurrencia en todos los documentos (2.2.1.1.3.1) [Chang, 1993]. 



Cuando el usuario crea una liga entre dos documentos, HieNet encuentra en su historial de referencias nodos parecidos tanto al documento origen como al documento destino. Para esto, si un nodo tiene una medida de similitud (2.2.1.1.3.1) equiparable a la del documento de procedencia (mayor a un determinado umbral), entonces se pone dentro del conjunto de documentos origen "O". Lo mismo sucede con relación a los nodos similares al documento destino, ubicándolos en el conjunto "D". Conformados ambos conjuntos (O y D.), HieNet crea ligas entre cada uno de sus elementos. [Chang, 1993]. 

2.2.3.3. Smart

En apoyo a la automatización de ligas entre documentos de un sistema de hipertexto denominado SMART, Allan desarrolla un método basado en una taxonomía de referencias. Para esto, presenta diferentes tipos de ligas agrupadas dentro de tres categorías principales: ligas de igualación de patrones, ligas manuales y ligas automáticas. La taxonomía realizada es la siguiente:



1. Ligas de igualación de patrones. Las ligas de igualación de patrones son aquéllas que, en la mayoría de los casos, relacionan una palabra o frase con un determinado documento. Éstas ocurren no importando el contexto en el que se encuentren (el documento destino siempre será el mismo independientemente de dónde ocurra la palabra o frase). Un ejemplo de este tipo de referencias es una liga de tipo definición, que puede ser encontrada al igualar palabras de un diccionario.



Dentro de las ligas de igualación de patrones se encuentran las ligas estructurales. Estas son aquellas que representan la forma o estructura de un documento (ej.: capítulos, referencias a figuras, citas bibliográficas, etc.).



2. Ligas manuales. A diferencia de las ligas de igualación de patrones que pueden detectarse automáticamente, las ligas manuales son aquéllas que no pueden ser localizadas sin la intervención humana. Algunos ejemplos de este tipo de ligas son aquellas que llevan a la descripción de circunstancias, debates de argumentos e implicaciones lógicas.



3. Ligas automáticas. Entre las ligas manuales y las de igualación de patrones se encuentran las ligas automáticas. Estas ligas no pueden encontrarse trivialmente al localizar patrones, pero pueden ser identificadas mediante métodos automáticos. Dentro de este tipo de ligas se encuentran:



· Ligas de revisión. Se refiere a ligas usadas para llevar a versiones de documentos (Ligas entre descendientes y ascendientes). 

· Ligas de condensación y expansión. Son aquéllas que pueden llevar de un tópico a su forma condensada y viceversa.

· Ligas de equivalencia. Ligas entre documentos que tratan acerca del mismo tema.

· Ligas de comparación y contraste. Son las que llevan a similitudes y diferencias entre textos.

· Ligas tangenciales. Son aquellas ligas que se relacionan con tópicos de modo inusual. 

· Ligas agregadas. Son ligas que llevan de un documento a varios documentos relacionados [Allan, 1996].

2.2.3.3.1. Creación de ligas de identificación automática

El acercamiento realizado para relacionar ligas entre dos documentos, únicamente contempla la creación de las ligas pertenecientes a la categoría de ligas automáticas. Este proceso se basa en el análisis estadístico entre partes del documento, y comprende tres pasos:



1. Identificación de ligas candidato en un conjunto de documentos. El proceso de identificación de documentos potenciales en los cuales puedan crearse ligas, se realiza mediante búsquedas usando el modelo vectorial (2.2.1.1.3.1). Se juzga que los documentos similares (siguiendo el acercamiento usado por Bernstein, 2.2.3.1) de alguna forma están relacionados por su contenido, y se interconectan unos con otros.



2. Identificación de ligas tangenciales. Este tipo de ligas son aquellas que no tocan el tema de modo usual, pero que podrían ser de interés para algún usuario. Como los documentos que tratan sobre un determinado tema ya fueron relacionados unos con otros, estas ligas se pueden identificar si existen documentos que no estén bien conectados con todo el conjunto. Para esto, se obtiene el promedio de relaciones por documento, y aquéllos que cuenten con una fracción de dicho promedio, se consideran como referencias tangenciales (pues no tienen relación con temas tratados en los demás documentos).



3. Identificación de ligas agregadas. Las ligas agregadas son aquellas que agrupan documentos por una razón particular (típicamente por razones estructurales o de contenido). Dentro de este tipo de ligas se encuentran las estructurales y las de discusión sobre material similar. Las ligas estructurales comprenden agrupaciones de documentos correspondientes a un capítulo o a todo un libro, y se identifican fácilmente debido a que, durante la construcción de los documentos, las divisiones estructurales de éstos son anotadas por el lenguaje de hipertexto. A diferencia de las ligas estructurales, las ligas de discusión sobre material similar no se dan por la organización un escrito, sino por las diversas relaciones que pueden existir entre el contenido de los documentos (revisión, equivalencia, comparación condensación y expansión, 2.2.3.3). Para encontrarlas se realiza el siguiente proceso:



a) Se descompone cada uno de los documentos obtenidos en partes más pequeñas (ej.: párrafos y oraciones).

b) Se compara cada parte obtenida de un primer documento con cada parte de un segundo. Se toman en cuenta todos los pares que tienen una similitud diferente de cero.

c) Para cada par identificado, se aplican reglas estrictas de similitud para seleccionar aquellos documentos que sean relevantes. Este tipo de pares se describen como "suficientemente relacionados", y aquéllos con poca similitud se describen como "tenuemente relacionados".

d) Cualquier par "suficientemente relacionado" que tenga una similitud arriba de un umbral se marca como "fuertemente relacionado", los demás se marcan como "débilmente relacionados". El valor de similitud se obtiene automáticamente calculando un valor medio y seleccionando aquél que excluya el 50-75% de las ligas.

e) Se simplifican las conexiones entre las partes de los documentos fusionándolas con sus partes cercanas.

f) Se identifican patrones en el conjunto simplificado, y se usan reglas y medidas de similitud para describir el tipo de liga [Allan, 1996]. 

2.2.3.3.2. Resultado de la creación de ligas de identificación automática

A pesar del gran esfuerzo realizado en SMART, los resultados, de acuerdo con las conclusiones del autor, no fueron los esperados. A continuación se describe el producto de las referencias creadas automáticamente en SMART:



· "Las porciones de documentos que fueron ligadas, comúnmente eran distintas al texto en el que se desarrollaban. Por ende, había un problema con la fusión de ligas.

· Algunas porciones ligadas en documentos estaban bien enfocadas, pero únicamente contenían un tópico en su discusión. Esto implicaba que la fusión de sus partes realmente no era relevante.

· La medida de similitud usada fue una medida mediocre para definir la relación entre textos.

· Las medidas para identificar temas expandidos trabajaban bien, pero sólo cuando los textos estaban bien relacionados" [Allan, 1996]. 



En conclusión, el trabajo realizado da pie a una mayor investigación, sobre todo, en el estudio de las medidas de similitud [Allan, 1996].

2.2.3.4. Requisitos de SARCRAD no cubiertos por ligadores automáticos

Básicamente, la investigación realizada para crear ligas de manera automática en documentos de hipertexto, relaciona documentos dentro de sus sistemas, siguiendo un esquema de localización de palabras y no de conceptos.



En SARCRAD, en lugar de crear ligas entre documentos, el objetivo es ligar de un documento a un acervo conceptual. Para esto, es necesario identificar los conceptos tratados en un documento, hecho que no se puede lograr considerando únicamente técnicas de similitud entre palabras. En lo referente a la relación de documentos, el sistema debe facilitar la integración de recursos de cualquier fuente y no sólo aquéllos del sistema. Por ende, el acercamiento realizado por los ligadores automáticos dista de ser una solución a las necesidades de SARCARD.

2.2.4. Clasificadores textuales

Dado que es necesario demarcar los principales temas tratados en un texto para poder encontrar cuáles palabras deben ser referenciadas en un documento de hipertexto y cuáles no (2.1.3), a continuación se presentan dos clasificadores textuales que tienen relevancia con el presente trabajo. El primero de ellos es un clasificador de documentos basado en el Clasificador Simple de Bayes (el cual ha tenido muy buenos resultados en distintas aplicaciones, por tratarse de un algoritmo de aplicación general, [Mitchell, 1997]), y el segundo es Clasitex +, un sistema que clasifica documentos con base en los conceptos que contienen.

2.2.4.1. Clasificador Textual Bayesiano

El clasificador textual basado en el Clasificador Simple de Bayes (Naive Bayes Clasifier) es un algoritmo que sigue un acercamiento probabilístico para determinar a qué clase puede pertenecer un documento. En éste, la interacción de probabilidades de todas las palabras encontradas en el texto es la que define a qué categoría pertenece (pues cada palabra lleva, con un cierto grado de probabilidad, a una determinada clase).

2.2.4.1.1. Funcionamiento de Clasificación

Para entender el clasificador textual bayesiano, considérese que cada documento x está compuesto por una conjunto de palabras, y que, además, existe una función objetivo f(x) con la que se puede asignar cada documento a cualquiera de las posibles clases encontradas dentro de un conjunto finito V. Es decir, la meta del clasificador textual bayesiano es determinar la clase correcta para una nueva instancia de x [Carrillo, 2000; Mitchell, 1997]. Para esto, el clasificador asigna a x (x con n palabras y descrito por una tupla de la forma ) si se maximiza la siguiente expresión:



Usando el teorema de Bayes, dicha expresión se puede re escribir como:



Ahora, mediante la suposición de que las variables son independientes del valor de la función objetivo, y de que no hay correlación entre ellas, la probabilidad de la conjunción de atributos es igual al producto de sus probabilidades independientes [Carrillo, 2000]. De esta manera, la expresión finalmente queda de la siguiente forma:



Con esta expresión, la designación de un documento a una determinada categoría j depende tanto de la probabilidad de ocurrencia en dicha clase de todas las palabras i encontradas en el texto( ), como de qué tan probable es que tal categoría sea designada en la clasificación de los documentos ( ). De esta manera, si existen varias clases dentro de V, aquella que tenga la mayor probabilidad conforme a lo mencionado, será la elegida.

2.2.4.1.2. Aprendizaje del clasificador textual bayesiano 

Para poder clasificar correctamente, primero se deben definir los valores de probabilidad tanto de cada posible clase, como de que cada palabra se encuentre en ésta. Para esto, el clasificador textual bayesiano contempla una etapa de aprendizaje con el fin de entrenar a la función objetivo f(x) antes de realizar las clasificaciones. En consecuencia, se utiliza un conjunto de documentos de entrenamiento ( ) y se procede a realizar los pasos demarcados por el siguiente algoritmo:



1. Recolectar todas las palabras y puntuación de los documentos que comprenden el conjunto de entrenamiento .

· Componer el Vocabulario por todas las palabras que ocurren en cualquier documento textual encontrado en . constituir

2. Calcular los términos y requeridos.

· Para cada clase en V realizar:

· = el subconjunto de documentos de que pertenecen a la clase .

· 

· = un solo documento creado por la concatenación de todos los elementos de .

· n = número total de palabras de .

· Para cada palabra en el Vocabulario:

· = número de veces en las que la aparece en .

· [Mitchell, 1997].

2.2.4.1.3. Requisitos de SARCRAD no cubiertos por parte del clasificador textual bayesiano

El clasificador textual bayesiano lleva directamente a las clases textuales de un documento, sin informar sobre los conceptos tratados. Esto es, las palabras tienen una relación directa con las clases, pero nunca se relacionan con los conceptos ubicados en éstas (dicha acción no está contemplada en el clasificador). Puesto que en SARCRAD es importante contar con ambas labores para definir tanto el número de clases a considerar como de conceptos a ligar, difícilmente la clasificación bayesiana podría ser usada para apoyar al ligado automático.



A diferencia del clasificador textual bayesiano, el sistema denominado Clasitex +, que se describe a continuación, sí encuentra los conceptos tratados en un documento. 

2.2.4.2. Clasitex +

Clasitex + es un sistema que analiza un documento y lo clasifica conceptualmente. Para hacer el análisis, Clasitex + usa una base de conocimiento con la que se apoya para encontrar los conceptos referidos en el documento. Después, para definir su clasificación conceptual, Clasitex + se basa en la frecuencia con la que aparece cada concepto en el documento. Así, los conceptos que tengan la mayor frecuencia de aparición en un documento serán los principales temas tratados.



Como es de observarse, el supuesto fundamental del sistema es que el concepto más repetido en un texto es el tema central del mismo. Cabe recalcar que el concepto más repetido no necesariamente es la palabra con un mayor número de ocurrencias, ya que a un concepto puede estar asociadas más de una palabra. Es decir, a un concepto se le puede referenciar por más de una palabra [Beltrán, 1998]. 



Para encontrar a qué concepto se refiere cada palabra, los conceptos son designados mediante términos. Además, cada término (palabra, frase nominal) puede representar varios conceptos o acepciones. Los conceptos, a diferencia de los términos, no son ambiguos (por definición). Si un término presenta polisemia y el número de acepciones diferentes es N, entonces ese término se desdobla en (o genera) N conceptos diferentes [Beltrán, 1998]. 

2.2.4.2.1. Base de conocimiento

En Clasitex +, la base de conocimiento se forma por árboles de conceptos no especializados, que han sido recolectados por diversas personas. Un árbol de conceptos es un grafo acíclico en el que cada nodo es un término que representa a un concepto, y las aristas representan relaciones entre los conceptos. Cada sub-árbol tiene una profundidad uno, y se incluye tanto el nombre del padre de dicho sub-árbol como el de los hijos con los que tiene relación (figura 2.13) [Beltrán, 1998]. 



Figura 2.13: Representación de árboles de conceptos en archivos [Beltrán, 1998]

En la base de conocimiento de Clasitex + se añaden, además de los árboles de conceptos, archivos llamados diccionarios. En estos archivos se tienen todos los conceptos en orden alfabético, y se incluye un listado de los términos con los que se puede hacer referencia a cada concepto (todos sus hijos). Además, existen otros archivos en los que se enlistan términos que no llevan a ningún concepto. Esto se debe a que, a priori, se sabe que por si solos no tienen significado alguno (ej.: artículos, pronombres personales, preposiciones, etc.) [Beltrán, 1998].

2.2.4.2.2. Análisis de documentos

El módulo más importante dentro de Clasitex + es el que realiza el análisis del documento. Por análisis del documento se entiende la determinación de la repetición de los conceptos en el mismo. En esta tarea se consideran todos los árboles de conceptos que se han dado como base de conocimiento para el sistema, y se buscan los conceptos que aparecen en el texto. Para lo cual es necesario barrer el documento completo, y buscar no sólo palabras aisladas, sino pares, tríos, cuartetos, de palabras, en general términos, averiguando para término si denota algún concepto o no. En caso de denotar algún concepto, entonces se cuenta al concepto correspondiente. Como resultado final de este proceso se tendrá que algunos conceptos fueron contados más veces que otros y son precisamente éstos los que sin duda constituyen o denotan temas en el texto [Beltrán, 1998]. 

2.2.4.2.3. Requisitos de SARCRAD no cubiertos por parte de Clasitex + 

En la constitución de SARCRAD, es necesario encontrar los temas centrales de un documento para designar qué términos serán ligados a qué conceptos (2.1.3). Con relación al funcionamiento de Clasitex +, puede complicarse la distinción de los temas centrales, puesto a que cada a concepto es un posible tópico del documento. Por ejemplo, tal vez el concepto "niño" (figura 2.14), puede ser algo vago para crearle una clase dentro de una taxonomía de temas. 



Además de clasificar documentos de acuerdo a temas textuales, un punto en el que cabe hacer hincapié sobre la forma en que Clasitex + analiza un documento, radica en que únicamente se basa en la ocurrencia de las palabras para designar los temas centrales. Es decir, no se distingue la cantidad de información que puede dar cada término para llevar a cada concepto, puesto que todas las relaciones entre términos y conceptos son iguales. Por ejemplo, si se encuentran en un texto los términos "Friedrich Nietzche" y "Ciudad de México" con la misma frecuencia, Clasitex + indicará que el texto de la misma manera puede clasificarse en dos temas: "Friedrich Nietzche" y "Ciudad de México", y hará lo propio si en otro texto encuentra, con la misma frecuencia, los términos "Friedrich Nietzche" y "estrella". A diferencia del primer caso, en el segundo indicará que el documento puede pertenecer de la misma manera a cuatro temas (por los cuatro conceptos a los que se puede hacer referencia): "Friedrich Nietzche", "estrellaastronómica", "estrellainsignia" y "estrellafamosa". 

Figura 2.14: Articulo procesado por Clasitex + [Beltrán, 1998]

En cuanto a probabilidad, la frecuencia con la que ocurren los términos no es el único indicador para determinar cuáles son los conceptos tratados en un texto. También existe información en la forma en que cada término puede ser usado para hacerle referencia. Por ejemplo, si un término únicamente está relacionado con un concepto, la ocurrencia de éste indudablemente nos proporciona más información que aquél que pueda ser usado para referir a varios (puesto que con el primero tenemos una certeza, mientras que con el segundo existe un cierto nivel de incertidumbre). De esta manera, una forma para obtener mayor información inherente a cada término puede ser tomando en cuenta su polisemia.

2.2.4.3. Requisitos de SARCRAD no cubiertos por los clasificadores

Dado que los clasificadores están hechos, valga la redundancia, con la finalidad de clasificar documentos, cabe recalcar que con éstos no se pueden referenciar automáticamente los conceptos tratados en un documento de hipertexto. Adicionalmente, los clasificadores presentados no contemplan la posibilidad de ser personalizados y modificar así el funcionamiento de su clasificación. El proceso que siguen para clasificar los documentos es rígido, por lo que no se puede responder a la necesidad de clasificación subjetiva por parte del usuario. Los clasificadores no cumplen con los requisitos de SARCRAD, puesto que no permiten delimitar cuántas clases serán tomadas como relevantes en el documento, ni qué palabras serán las más importantes dentro de dichas clases.

2.3. Conformación de SARCRAD

Debido a las deficiencias en la entrega de información por parte de los sitios de búsqueda (y meta-sitios de búsqueda) y de las necesidades en el proceso de automatización de referencias en documentos HTML, se construyó un sistema denominado SARCRAD (Sistema de Administración de Recursos Conceptuales y de Referenciación Automática Difusa) con el que se fusionaron características de ambas áreas con el fin de apoyar de mejor manera al proceso informativo. Para esto, SARCRAD entrega ordenadamente el material relacionado con cada concepto (dentro de clases definidas por el contenido de las referencias) y puede referenciar automáticamente cualquier documento de hipertexto con el contenido conceptual que en un determinado momento se encuentre en el sistema (figura 2.15). 

Figura 2.15: Automatización de referencias conceptuales a material ordenado

Para crear a SARCRAD, se contemplaron las siguientes características:



· Creación de un catálogo conceptual con contenido relevante. Dado que la definición de material verdaderamente relevante para un tema requiere de la evaluación por parte de humanos [Kleinberg, 1999], se propuso elaborar un catálogo conceptual (2.2.1.1.2) en el que las referencias a los distintos recursos fueran añadidas y administradas manualmente. Para esto, se planteó que cada concepto fuera administrado por un responsable con conocimientos sobre el tema (ya fuera una persona o un grupo de personas), quedando este a cargo de suministrar las referencias que se consideraran relevantes, clasificarlas según el material contenido y designarles un valor indicando su calidad. De esta forma, además de que el catálogo estaría compuesto por material que cumpliera con nociones humanas de calidad y estuviera ordenado por contenido, su conformación se llevaría a cabo de forma distribuida (debido a la existencia de responsables de conceptos), aligerando así la ardua tarea que representa la creación de un acervo.



· Inclusión de cualquier tipo de material. Puesto que existe material que puede ser alcanzado únicamente a través de un protocolo específico, se planteó integrar el catálogo por URLs, con el fin de referenciar a cualquier recurso sin importar su tipo ni el protocolo en el que se encuentre (2.1.2). En adición a los beneficios inherentes a los URLs, la creación de un catálogo en el que se pudiera contar con cualquier tipo de protocolo, permitiría que la aplicación particular de SARCRAD, denominada Enciclomedia, hiciera referencia al material la Enciclopedia Encarta (puesto que sus artículos pueden ser referidos por URLs).



· Entrega ordenada y clasificada de material conceptual. El sistema se ideó con el fin de entregar todo el material referente a un concepto que en un determinado momento se encuentre en su catálogo. Dicho material se entregaría clasificado según la indicación de cada responsable, y ordenado según la relevancia definida. Asimismo, se permitiría tener contacto vía e-mail con su responsable, con el fin de poder brindarle apoyo o realizarle comentarios, preguntas o sugerencias. Con relación a la aplicación Enciclomedia, ésta incluiría una referencia al artículo de Encarta relacionado con cada concepto.



· Referenciación automática de conceptos. Se planteó que el sistema automáticamente hiciera referencia a los términos textuales encontrados en un documento de hipertexto con el contenido conceptual del acervo. Es decir, que se identificaran los conceptos tratados en el documento y se relacionaran con aquéllos del acervo, para así obtener el material relacionado con las entidades conceptuales. Con esta finalidad se formuló crear un clasificador textual compuesto por conceptos y términos parecido a Clasitex +, pero con algunas modificaciones. Primero, debería contar con la posibilidad de ser personalizado para definir un número determinado de clases a considerar, como las palabras a ser referenciadas. Segundo, debería contener clases dada una taxonomía textual, mismas que englobarían a los conceptos (y no meramente conceptos). Finalmente, el clasificador no debería contemplar únicamente la frecuencia de las ocurrencias de los términos para encontrar las posibles clases, sino que también debería tomar en cuenta cierta información contenida en la polisemia de los términos.



· Referenciación manual de conceptos. En la elaboración del sistema se propuso tomar en cuenta la existencia de referencias que únicamente pueden ser creadas de modo manual [Allan, 1996]. Para esto, el desarrollo debería integrarse con editores de HTML, con el fin de apoyar en la construcción de referencias manuales. Asimismo, debería soportar la búsqueda de conceptos y generar las ligas correspondientes, para que éstas fueran usadas por los editores.



3. Ligado conceptual-difuso

El ligado conceptual-difuso es una alternativa para automatizar el proceso de creación de referencias conceptuales en un documento de hipertexto (2.1.3). En éste, se contempla tanto la posibilidad de que varios términos puedan ser usados para hacer referencia a un mismo concepto, como el hecho de que sean polisemánticos (figura 3.1). Además, para delimitar la dispersión de las ligas, se ubica de forma difusa a cada documento dentro de sus principales clases textuales (para referenciar únicamente los términos relacionados con éstas), y se aplican filtros personalizados por el Responsable para tipificar las referencias.

Figura 3.1: Polisemia y referencia de un concepto por varios términos

En la estructuración del ligado conceptual-difuso, primero se idearon formas tanto para manejar la polisemia como para clasificar de forma difusa a un documento. Finalmente, se diseñó un algoritmo (que engloba tales ideas), para automatizar el ligado. Este proceso se explica a detalle en las siguientes secciones.

3.1. Polisemia ponderada

Del lenguaje pueden extraerse elementos fundamentales como son los términos (palabras o grupos de palabras) y los conceptos a los que hacen referencia. Para lograr que un término haga referencia a un concepto, se crea una relación entre ambos. De este modo, las relaciones son el medio con el cual los términos se vinculan a los conceptos.



La idea principal de la polisemia ponderada se basa en que si se encuentra un término en forma aislada (sin incluirlo en un contexto constituido por otros términos), se puede llevar a cada uno de sus conceptos relacionados en un distinto grado. Es decir, al presentar de forma aislada un término, se pueden asumir sus conceptos relacionados con diferentes grados de certeza. Para lograr esto, se realizó un modelo que contempla términos, conceptos, y las relaciones ponderadas entre éstos. En dicho modelo, se define a cada ponderador como la magnitud de certeza con la que se asume a cada concepto (obviamente cuando el término relacionado se muestra sin un contexto). Así, mediante un enfoque cuantitativo de las ponderaciones en las relaciones de un término, la magnitud es una guía que indica el grado con el que se puede hacer referencia a cada concepto. 

3.1.1. Conjuntos de términos, conceptos y relaciones ponderadas

Para crear las relaciones entre términos y conceptos, primeramente se debe pensar en dos conjuntos: uno compuesto por términos usados para hacer referencia a conceptos, y el segundo, por los conceptos mismos (figura 3.2-A). La forma más simple de entender cómo se pueden relacionar los elementos de ambos conjuntos es realizar el producto cartesiano (formado por todos los posibles pares ordenados, resultado de la mezcla de los elementos pertenecientes a ambos conjuntos). Como es de suponerse, muchos pares ordenados no tendrán una relación lingüística (en el lenguaje, demasiados términos no tendrán nada que ver con todos los elementos del conjunto "conceptos"), y deberán ser eliminados. Sin embargo, todas aquellas relaciones que sí tengan validez (términos y conceptos vinculados en el lenguaje), servirán para componer al "subconjunto de relaciones válidas" (figura 3.2-B). 

Figura 3.2: Conjuntos de términos, conceptos y relaciones válidas

Cada elemento del subconjunto de relaciones válidas, formado por , indica que el puede ser usado para hacer referencia al (figura 3.3); sin embargo, es necesario determinar el grado en que se presenta dicha relación. Para simular el grado, se incluyó en cada par ordenado un valor designado como el ponderador de relación( ) tal y como se muestra en la figura 3.4. Dicho ponderador puede tomar valores dentro del rango real [0-1] (mientras más tiende a 1 la ponderación, se asume que un término lleva en un mayor grado al concepto relacionado), y, para conservar una magnitud de correspondencia entre términos y conceptos, se definió que la suma de todos los ponderadores de relación de un término fuera igual a 1. 



Figura 3.4: Ponderadores de relación de un término i hacia sus conceptos relacionados

3.1.2. Asignación de los ponderadores de relación.

Puesto que no existe una función numérica con la cual se asignen los pesos de los miembros no-numéricos (términos y conceptos), se hicieron dos métodos alternos para definir los valores de los ponderadores de relación ( ). El primer método consiste en asignar el valor de estos mediante la relación inversa del grado de polisemia de cada término. El segundo método se basa en asignar el valor de cada ponderador dado un proceso de aprendizaje. Cada método se describe a continuación.

3.1.2.1. Valores definidos por el grado de polisemia

Dado que los términos pueden estar relacionados con un número variable de conceptos, en un inicio se asignaron los ponderadores de relación de cada por el inverso del grado de su polisemia ( ). Esta forma de asignación cumple con la correspondencia de magnitud en la que la suma de todos los ponderadores de un término equivale a 1 (3.1.1). 



Cada ponderador de relación, por la forma en que se asigna, inherentemente expresa la dispersión con la que un término puede ser usado para hacer referencia a sus conceptos relacionados (pues la relación que existe entre sus ponderadores y su grado de polisemia es inversamente proporcional). Por ejemplo, si un término puede ser usado para hacer referencia únicamente a un concepto, su ponderador de relación será alto ( ) y su dispersión baja (con un valor de 1). De modo contrario, mientras más relaciones tenga un término, sus ponderadores de relación serán bajos (tendiendo a cero, ) y su dispersión, al ser inversa, será alta (tendiendo a ). Tales casos se pueden observar en la figura 3.5.

Figura 3.5: Relación inversa entre la polisemia de un término y sus ponderadores

3.1.2.2. Valores definidos por aprendizaje

La acción de definir los ponderadores de relación por (3.1.2.1), únicamente es útil para la automatización de su asignación inicial y para tener una noción acerca de la dispersión de los términos. En el caso de los términos con la mínima dispersión (aquellos que son usados para hacer referencia a un solo concepto), su ponderador de relación ya es óptimo y no requiere ser cambiado (figura 3.6-A). Sin embargo, la situación es muy distinta en los términos polisemánticos, ya que, al tener igualados sus ponderadores de relación (3.1.2.1), no es posible distinguir cuáles conceptos relacionados con un mismo término se asumen en mayor grado.



En el caso de términos polisemánticos, se puede considerar que el objetivo es que los ponderadores no sólo sirvan para definir el inverso del número de relaciones (figura 3.6-B), sino que indiquen el grado de certeza de la relación conceptual. Por ejemplo, en la figura 3.6-C se muestra un término con el que se puede referir con mucha certeza a un primer concepto, con poca a un segundo y con una certeza casi nula a un tercero. 



El proceso para indicar los valores de ponderación, ciertamente implica un aprendizaje. Para esto, se distinguieron dos procesos con los que se pueden asignar dichos valores: aprendizaje por indicación y aprendizaje por entrenamiento. El aprendizaje por indicación radica en que un experto asigne los valores de los ponderadores de relación de cada término. Por otro lado, el aprendizaje por entrenamiento no hace uso directo del conocimiento del experto, sino que se basa en un proceso automático con el cual dichos valores se actualizan.



En el presente trabajo únicamente se plantea la opción del aprendizaje por indicación, mientras que el aprendizaje por entrenamiento se deja como una línea futura (7.8.6). El proceso del aprendizaje por indicación se describe a continuación.

3.1.2.2.1. Aprendizaje por indicación

Mediante el aprendizaje por indicación, el experto debe asignar por cada término sus ponderadores de relación. Para esto, debe definir la certeza con la que se puede hacer referencia a un dado un , y asignar el valor correspondiente al ponderador tal y como se muestra en la figura 3.7. 

Figura 3.7: Definición de ponderadores de relación 

Con el fin de uniformizar la labor de asignación de los valores de ponderación, se formularon las siguientes reglas:



· Si un término define perfectamente a un concepto (el uso de dicho término no puede tener otro significado), su ponderador de relación debe ser igual a 1 (alto grado de certeza total).

· Si un término define muy bien a un concepto (pueden existir otros significados para dicho término pero casi siempre se da por hecho uno), su ponderador de relación debe encontrarse en el rango (0.75,1), mismo que está comprendido dentro de la certeza alta-total.

· Si un término define bien a un concepto (pueden existir otros significados para dicho término pero comúnmente se da por hecho uno), su ponderador de relación debe encontrarse en el rango (0.5, 0.75] dentro de la certeza media-alta.

· Si un término puede ser usado para describir a varios conceptos de igual modo, su ponderador de relación debe ser igual a . Por ende, el máximo valor que puede tener un ponderador de este tipo es de 0.5 (valor de los ponderadores de dos conceptos) y dependiendo del número de conceptos que se asuman de igual manera, se inserta dentro del rango (0.0, 0.5] que puede indicar desde una certeza nula hasta la certeza media.

· Si un término define pocas veces a un concepto (existiendo otro que es el que comúnmente se sobreentiende), su ponderador de relación debe encontrarse en el rango (0.25, 0.5)dentro de la certeza baja a media.

· Si un término casi nunca define a un concepto (en su mayoría es usado para definir a otros conceptos), su ponderador de relación debe estar dentro del rango [0,0.25), mismo que denota una certeza entre nula y baja.

3.2. Clasificación taxonómica textual

La clasificación taxonómica textual, mediante la localización de los principales temas tratados en un escrito (figura 3.8), tiene como finalidad apoyar al ligado conceptual. El apoyo que brinda esta clasificación se concentra en dos puntos: la uniformación del ligado y la asignación de las ligas más importantes de un texto. La uniformidad del ligado se logra realizando referencias a conceptos que pertenezcan a los temas tratados en el documento. Por otra parte, las ligas más importantes se obtienen asignando los conceptos que se relacionan en mayor grado con los temas más discurridos del texto. Este segundo punto también sirve para tratar con la polisemia, puesto que se asigna a un término aquel concepto que sea más relevante de acuerdo con lo tratado en el escrito.

Figura 3.8: Clases centrales de un documento

3.2.1. Acervo conceptual

Para lograr la clasificación, se parte de la premisa de que los conceptos más tratados en un texto son la base para definir los temas más importantes del documento. Para esto, se localizan los conceptos del texto y se comparan con aquellos pertenecientes a un acervo conceptual organizado. En dicho acervo, los conceptos se encuentran agrupados en distintas clases de acuerdo con una clasificación taxonómica textual y, así, es posible determinar las clases en las que un documento se encuentra inmerso. 



El acervo conceptual se estructura por un árbol de taxonomías textuales, (figura 3.9) en el que las clases se van adentrando según se requiera profundizar en el tema (ej.: "Historia" à "Historia de México" à "Historia de la Conquista" à "Personajes de la Conquista"). El grafo termina hasta llegar a un nivel que ya no contiene más clases textuales, denominado "clase terminal", que constituye la frontera del árbol en la que finalmente se adentran los conceptos. (ej.: "Personajes de la Conquista" à {"Hernán Cortés", "La Malinche",..., "Cuauhtémoc"}). Finalmente, los últimos nodos del árbol son los términos usados para hacer referencia a cada concepto.

Figura 3.9: Árbol de clases, conceptos y términos

3.2.2. Asignación de clases de un documento

Para determinar cuáles son las clases más importantes en un documento, se utilizaron dos alternativas basadas en la localización de términos, la obtención de los conceptos relacionados y las clases textuales en las que están ubicados (figura 3.9). La primera alternativa consiste en asignar la importancia de las clases de acuerdo a la frecuencia de los conceptos relacionados con ellas. La segun