UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO PROGRAMA MAESTRÍA Y DOCTORADO EN LINGÜÍSTICA GENERACIÓN AUTOMÁTICA DE UNA GRAMÁTICA DE ESTADOS FINITOS PARA LA MORFOLOGÍA DEL ESPAÑOL TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN LINGÜÍSTICA PRESENTA: CARLOS FRANCISCO MÉNDEZ CRUZ TUTORES PRINCIPALES DR. ALFONSO MEDINA URREA DR. GERARDO SIERRA MARTÍNEZ INSTITUTO DE INGENIERÍA, UNAM COMITÉ TUTOR DRA. CHANTAL MELIS VAN EERDEWEGH INSTITUTO DE INVESTIGACIONES FILOLÓGICAS, UNAM DR. GRIGORI SIDOROV MÉXICO, D. F. OCTUBRE 2013 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. A todas las personas que amablemente creen en mí 1 Resumen El presente trabajo de investigación propone un método no supervisado de segmentación morfológica automática que infiere parte de la morfotáctica del español. Su principal inte- rés ha sido el descubrimiento de patrones morfotácticos que describan el orden y secuencia- lidad de unidades morfológicas a partir de datos empíricos (corpus). Ya que la morfotáctica de una lengua puede llegar a ser muy compleja, este trabajo se aboca únicamente al descubrimiento de bases y secuencias de sufijos (sufitáctica). Con estas unidades se crea un aparato de descripción formal que describe su orden y secuencia- lidad. Así, los objetivos planteados son: 1. Descubrir, a partir de corpus y mediante un método no supervisado de segmen- tación morfológica automática, los sufijos y sufitáctica de la lengua española. 2. Generar, a partir de los sufijos y sufitáctica descubiertos, una gramática de esta- dos finitos que describa la morfotáctica del español. Estos objetivos se llevaron a cabo mediante el procesamiento automático del Corpus del Español Mexicano Contemporáneo, que fue creado bajo criterios estadísticos como muestra representativa del léxico del español mexicano. Para lograr el primer objetivo, se modificó el método propuesto por Medina (2000; 2003), que cuantifica la afijalidad de segmentos al interior de una palabra. Este método propone que los valores más altos de afijalidad dan cuenta de fronteras morfológicas. Después de un primer acercamiento – en el que se desarrolló un truncador morfoló- gico que demostró su efectividad para la tarea de resumen automático de documentos – y diversos experimentos de segmentación morfológica, se determinó la mejor estrategia para 2 el descubrimiento de bases y sufijos de acuerdo a una evaluación hecha mediante un corpus segmentado manualmente. Para el logro del segundo objetivo, se desarrolló un procedimiento que genera un autómata de estados finitos a partir de las unidades descubiertas. Como parte de la experi- mentación, dos autómatas fueron generados, uno a partir de la representación ortográfica del corpus y otro a partir de su representación fonológica. El autómata generado de esta última representación mostró patrones morfotácticos que no estaban presentes en el otro autómata, por lo que se tomó como mejor descripción de la morfotáctica del corpus. Mediante la evaluación cualitativa de una muestra de patrones morfotácticos inmer- sos en el autómata, se observó que la gran mayoría son pertinentes y dan cuenta de distintas regularidades morfológicas del español. De esta manera, el método desarrollado incluye los siguientes pasos: 1. Cuantificar la afijalidad de segmentos al interior de la palabra. 2. Descubrir las bases y sufijos mediante una estrategia de segmentación basada en la afijalidad. 3. Descubrir los patrones morfotácticos mediante la generación de un autómata de estados finitos. Este método ofrece distintas ventajas, como la posibilidad de describir automática- mente la morfotáctica (bases y sufijos) de lenguas predominantemente afijales. Además, permite sentar las bases para futuras investigaciones en el descubrimiento de la morfotácti- ca mediante la inferencia de su aparato de descripción y no mediante su construcción ma- nual. Esto es importante porque se estudia la lengua sin presuponer sus unidades y su se- cuencialidad. 3 Índice general Resumen ..................................................................................................................... 1 Índice de tablas ........................................................................................................... 7 Índice de figuras ......................................................................................................... 9 Agradecimientos ....................................................................................................... 13 Introducción .............................................................................................................. 15 Planteamiento del problema ................................................................................. 17 Preguntas y objetivos de investigación ................................................................. 23 Delimitación ......................................................................................................... 25 Metodología .......................................................................................................... 27 Plan de la tesis ...................................................................................................... 33 1. Morfotáctica.................................................................................................... 36 1.1. Definición de morfotáctica ......................................................................... 36 1.2. La naturaleza de la morfotáctica ................................................................. 39 1.2.1. Constituyentes inmediatos ................................................................... 40 1.2.2. Restricciones sintácticas ...................................................................... 41 1.2.3. Principio de espejo entre sintaxis y morfología ................................... 41 1.2.4. Universales lingüísticos ....................................................................... 43 1.2.5. Morfología léxica ................................................................................. 45 1.3. La morfotáctica del español ........................................................................ 47 1.3.1. Morfología sufijal del español ............................................................. 48 1.4. Procedimiento para determinar esquemas morfotácticos .......................... 60 4 2. Métodos de segmentación morfológica automática ...................................... 64 2.1. Generalidades sobre los métodos de segmentación ................................... 65 2.2. Linguistica .................................................................................................. 71 2.3. Morfessor .................................................................................................... 75 2.4. Optimización mediante algoritmos genéticos ............................................. 81 2.5. Índice de afijalidad ...................................................................................... 84 2.5.1. Medida de cuadros ............................................................................... 85 2.5.2. Medida de entropía ............................................................................... 86 2.5.3. Medida de economía ............................................................................ 88 2.5.4. Combinación de medidas ..................................................................... 89 2.5.5. Aspectos computacionales ................................................................... 93 2.6. Observaciones sobre los métodos de segmentación .................................. 94 3. Gramáticas formales y autómatas de estados finitos ..................................... 98 3.1. Conceptos básicos ....................................................................................... 98 3.2. Gramáticas formales ................................................................................. 100 3.2.1. Antecedentes ...................................................................................... 100 3.2.2. Definición ........................................................................................... 105 3.2.3. Tipos de gramáticas y lenguajes ........................................................ 108 3.3. Autómatas de estados finitos .................................................................... 110 3.3.1. Definición ........................................................................................... 110 3.3.2. Tipos ................................................................................................... 112 3.3.3. Representaciones ................................................................................ 114 3.3.4. Equivalencia entre gramática y autómata .......................................... 119 3.3.5. Autómatas probabilísticos y modelos ocultos de Markov ................. 121 5 3.4. Representación computacional de la morfotáctica .................................. 123 4. Experimentos de segmentación morfológica automática ............................ 128 4.1. Primer acercamiento a la segmentación automática ................................ 129 4.2. Definición del conjunto de experimentos ................................................. 140 4.2.1. Estrategias de segmentación propuestas anteriormente ..................... 140 4.2.2. Antecedentes sobre el cálculo de la afijalidad ................................... 142 4.2.3. Reflexiones sobre las medidas de afijalidad ...................................... 144 4.2.4. Intuiciones sobre la segmentación morfológica ................................. 148 4.2.5. Experimentos ..................................................................................... 155 4.3. Evaluación de la segmentación automática .............................................. 164 4.3.1. Constitución del corpus de evaluación ............................................... 165 4.3.2. Resultados de la evaluación ............................................................... 172 4.4. Observaciones finales ............................................................................... 188 5. Generación automática del autómata de estados finitos .............................. 191 5.1. Procedimiento para la generación del autómata ....................................... 191 5.1.1. Planteamiento general para construir el autómata ............................. 192 5.1.2. Algoritmo para construir el autómata ................................................ 199 5.2. Experimentos de generación del autómata ............................................... 204 5.3. Resultados y evaluación de los autómatas ................................................ 206 5.3.1. Evaluación .......................................................................................... 210 5.3.2. Tendencias observadas ....................................................................... 232 5.4. Método para descubrir la morfotáctica ..................................................... 235 6. Conclusiones ................................................................................................. 237 6.1. Resumen de experimentos ........................................................................ 239 6 6.2. Revisión de objetivos ................................................................................ 242 6.3. Problemas del método y trabajo futuro ..................................................... 245 6.4. Conclusiones finales ................................................................................. 251 7. Anexos .......................................................................................................... 253 A. Inventario de sufijos derivativos ............................................................... 253 B. Ejemplos de autómatas ............................................................................. 263 C. Los cien patrones morfotácticos más frecuentes ...................................... 269 D. Descripción del disco compacto ............................................................... 273 Bibliografía ............................................................................................................. 277 7 Índice de tablas Tabla 0.1 Base estadística de DEM .......................................................................... 29 Tabla 0.2 Índices de afijalidad para la palabra DEFINICIONES ............................. 31 Tabla 0.3 Índices de afijalidad para la palabra ALARMANTES ............................. 31 Tabla 1.1 Segmentación de verbos regulares del DEM y de Alcoba ....................... 53 Tabla 2.1 Medidas de afijalidad para la palabra /KASA/ ......................................... 91 Tabla 2.2 Medidas de afijalidad para la palabra /PASTELES/ ................................ 91 Tabla 2.3 Medidas de afijalidad de la palabra /ENSEÑANSA/ ............................... 92 Tabla 3.1: Convenciones para elementos de una gramática formal ....................... 106 Tabla 3.2 Ejemplo de una tabla de transiciones ..................................................... 118 Tabla 4.1 Índices de afijalidad de la palabra UTILIZADOS .................................. 130 Tabla 4.2. Configuración de experimentos de truncamiento .................................. 134 Tabla 4.3 Conjunto de experimentos para la evaluación extrínseca ....................... 135 Tabla 4.4 Índices de afijalidad de la palabra ALARMANTES .............................. 141 Tabla 4.5 Medidas de entropía para las palabras NIÑO y DEFINICIÓN .............. 145 Tabla 4.6 Entropías para CANCIÓN, CANTAREMOS y VENGANZA .............. 145 Tabla 4.7 Medidas de afijalidad para NIÑO y CANCIÓN .................................... 146 Tabla 4.8 Medidas de afijalidad para ELIMINAR y NIÑOS ................................. 147 Tabla 4.9 Medidas de afijalidad para ELIMINACIÓN, DIBUJANTE y CONFIANZA ..................................................................................................................... 147 Tabla 4.10 Medidas de afijalidad para la palabra CANTAREMOS....................... 148 Tabla 4.11 Medidas de afijalidad para la palabra CANTEN .................................. 152 8 Tabla 4.12 Medidas de afijalidad para la palabra CANCIÓN ................................ 156 Tabla 4.13 Medidas de afijalidad para la palabra ALARMANTES ....................... 157 Tabla 4.14 Índice de afijalidad para la palabra NIÑOS .......................................... 158 Tabla 4.15. Condiciones involucradas en la segmentación .................................... 159 Tabla 4.16. Experimentos de segmentación realizados .......................................... 160 Tabla 4.17 Porcentajes de cada fenómeno en el corpus de evaluación .................. 165 Tabla 4.18 Fuentes utilizadas para el corpus de evaluación ................................... 165 Tabla 4.19 Medidas de precisión para palabras regulares ...................................... 173 Tabla 4.20 Ejemplos de segmentaciones para flexión nominal .............................. 177 Tabla 4.21 Ejemplos de segmentaciones para derivación nominal ........................ 179 Tabla 4.22 Ejemplos de segmentaciones para flexión verbal ................................. 181 Tabla 4.23 Ejemplos de segmentaciones para derivación verbal ........................... 183 Tabla 4.24 Ejemplos de segmentaciones para enclíticos ........................................ 185 Tabla 4.25 Ejemplos de segmentaciones para alomorfos del sufijo (V)(C)ión ...... 189 Tabla 5.1 Modificaciones a caracteres para representación fonológica ................. 205 Tabla 5.2 Características generales de los autómatas obtenidos ............................ 206 Tabla 7.1 Inventario de sufijo de Moreno de Alba ................................................. 253 Tabla 7.2 Los cien patrones morfotácticos más frecuentes .................................... 269 9 Índice de figuras Figura 0.1. Ejemplo de grafo para algunos sufijos flexivos nominales .................... 32 Figura 1.1 Estructura de constituyentes inmediatos de discontentedness ................ 40 Figura 2.1. Estructuras combinatorias (signatures) .................................................. 73 Figura 2.2 Ejemplo de segmentación del método morfessor categories-MAP ........ 81 Figura 3.1 Ejemplo de un diagrama de estados ...................................................... 115 Figura 3.2 Ejemplo de gramática y autómata equivalentes .................................... 120 Figura 3.3 Ejemplo de autómata para una parte de la morfología del inglés ......... 124 Figura 3.4 Ejemplo de red de discriminación o trie ............................................... 125 Figura 3.5 Ejemplo de transductor de estados finitos ............................................. 126 Figura 4.1 Matriz γ de ocurrencias de palabras por enunciado en CORTEX ............ 132 Figura 4.2 Resultados de la evaluación extrínseca para español ............................ 137 Figura 4.3 Resultados de la evaluación extrínseca para francés ............................. 137 Figura 4.4 Resultados de la evaluación extrínseca para inglés ............................... 138 Figura 4.5 Utilizar entropía y cuadros para descubrir la base ................................ 150 Figura 4.6 Utilizar entropía y economía para descubrir último sufijo .................... 151 Figura 4.7 Valor máximo de afijalidad para descubrir sufijos y luego base .......... 153 Figura 4.8 Valor máximo de afijalidad para descubrir base y luego sufijos .......... 153 Figura 4.9 Afijalidad mayor a 0.5 para descubrir base y sufijos ............................ 153 Figura 4.10 Procedimiento recursivo para descubrir bases y sufijos ...................... 155 Figura 5.1. Autómata que produce una palabra inexistente .................................... 195 Figura 5.2. Autómata construido con la estrategia conservadora ........................... 197 10 Figura 5.3. Ejemplo de autómata con grupos de bases ........................................... 199 Figura 5.4 Autómata generado para el segmento ~MOS........................................ 203 Figura 5.5 Autómatas generados para el segmento /~AMENTE/ .......................... 208 Figura 5.6 Autómatas generados para el segmento /~AR/ ..................................... 209 Figura 5.7 Autómata generado para el segmento /~D/ ........................................... 213 Figura 5.8 Autómata generado para el segmento /~GO/ ........................................ 213 Figura 5.9 Autómata generado para el segmento /~GA/ ........................................ 214 Figura 5.10 Autómata generado para el segmento /~SO/ ....................................... 215 Figura 5.11 Autómata generado para el segmento /~L/.......................................... 217 Figura 5.12 Autómatas generados para el segmento /~LA/ .................................... 218 Figura 5.13 Autómatas generados para el segmento /~LE/ .................................... 219 Figura 5.14 Autómata generado para el segmento /~Ó/ ......................................... 220 Figura 5.15 Autómata generado para el segmento /~IÓ/ ........................................ 222 Figura 5.16 Autómata generado para el segmento /~ASIÓN/ ................................ 222 Figura 5.17 Autómata generado para el segmento /~SIÓN/ ................................... 223 Figura 5.18 Autómata generado para el segmento /~ÓN/ ...................................... 225 Figura 5.19 Autómata generado para el segmento /~ISASIÓN/ ............................ 226 Figura 5.20 Autómata generado para el segmento /~IÓN/ ..................................... 226 Figura 5.21 Autómata generado para el segmento /~AMENTE/ ........................... 228 Figura 5.22 Autómata generado para el segmento /~MENTE/ .............................. 229 Figura 5.23 Autómata generado para el segmento final /~AR/ .............................. 230 Figura 5.24 Autómata generado para el segmento /~MA/...................................... 232 Figura 5.25 Esquema general del método propuesto .............................................. 236 Figura 6.1 Ejemplo de autómata hipotético para sufijo –tiv(o) .............................. 246 11 Figura 6.2 Ejemplo de autómata hipotético para sufijo –er(o) ............................... 247 Figura 6.3 Ejemplo de otro autómata hipotético para sufijo –er(o) ........................ 248 Figura 7.1 Comportamiento de la frecuencia de patrones morfotácticos ............... 272 Figura 7.2 Página principal del disco compacto ..................................................... 273 Figura 7.3 Página que permite visualizar autómatas .............................................. 275 Figura 7.4 Página con autómata asociado al segmento ABA ................................. 275 Figura 7.5 Página con autómata y lista de bases del segmento ABA ..................... 276 12 13 Agradecimientos Agradezco enormemente a mis tutores, no sólo por el apoyo para la realización de este tra- bajo, por sus críticas y aportaciones, sino también por ser una guían fundamental en mi formación como investigador. En especial, le doy gracias a Alfonso Medina por su entu- siasmo y disposición por entablar innumerables charlas sobre la naturaleza del lenguaje, por su gran disposición a compartir su conocimiento y por incluirme en numerosos proyectos que me han permitido tener una visión de lo que es la lingüística y la manera de hacer cien- cia. También, agradezco a Gerardo Sierra por su incansable preocupación por mantener a flote el gran proyecto llamado Grupo de Ingeniería Lingüística y permitirme ser parte de él. Además, quiero dar gracias a Juan Manuel Torres por todas sus enseñanzas, que me han permitido entender más a fondo la labor de hacer ciencia, y por el gran apoyo recibido durante mi estancia en su grupo de investigación de la Universidad de Aviñón. Agradezco también a Chantal Melis, Grigori Sidorov y Ramón Zacarías por la lectura crítica y las re- comendaciones realizadas a este trabajo de investigación. Agradezco al proyecto del Diccionario del Español de México por el permiso para utilizar el Corpus del Español Mexicano Contemporáneo, pieza imprescindible de mi inves- tigación. Además, agradezco al Dr. Grigori Sidorov del Laboratorio de Procesamiento de Texto y Lenguaje Natural del Centro de Investigación en Computación por el permiso para utilizar la lista de palabras del System for automatic morphological analysis of Spanish. Finalmente, esta tesis se realizó gracias al apoyo otorgado por el Consejo Nacional de Ciencia y Tecnología (CONACYT) mediante las siguientes becas otorgadas: una de es- tudios de posgrado, una para realizar estancia en el extranjero (beca mixta) y una del pro- 14 yecto “Detección y medición automática de similitud textual” con clave 178248 para dar los últimos detalles a este trabajo de investigación. Además, gracias al apoyo del proyecto IN400312 “Análisis estilométrico para la detección de similitud textual” del Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) de la UNAM. 15 Introducción De entre los distintos niveles de estudio del lenguaje, este trabajo de investigación se sitúa en el nivel morfológico. En términos generales, la morfología estudia cómo están constitui- das las palabras de una lengua y los fenómenos involucrados en su formación1, esto conlle- va conocer las unidades que las forman y los fenómenos relacionados con la interacción de estas unidades2. El interés por estudiar el lenguaje, y en especial las palabras, es muy antiguo; pién- sese por ejemplo en la gramática de Panini 350 años a. C. para el sánscrito. Aunque este interés nunca se perdió, fueron los estructuralistas los que pusieron énfasis en estudiar uni- dades morfológicas (Hockett, 1971; Bloomfield, 1961), gracias al concepto de signo lin- güístico, y en determinar procedimientos sistemáticos para descubrirlas (Nida, 1949). Sur- gió entonces la propuesta de que las palabras están formadas de morfemas y se vio a éstos como las unidades mínimas del análisis morfológico. 1 Dejaré de lado las discusiones de carácter lingüístico a propósito de la pertinencia del concepto pa- labra y de considerar al morfema como una unidad mínima con o sin significado. Para efectos de mi trabajo, adoptaré estos términos como las unidades mínimas del análisis morfológico, reconociendo que las palabras están formadas por morfemas. Para discusiones sobre el concepto de palabra véase Anderson (1985, págs. 150-156), González Calvo (1998, págs. 11-37), Lara (2004, págs. 401-408) y Pena (1999, págs. 4327-4328). Diversas definiciones de morfema como unidad con significado son las de Hockett (1971, pág. 125) y Nida (1949, pág. 1); definiciones distintas o que cuestionan su característica de unidad con significado son las de Aronoff (1976, pág. 15), Anderson (1985, pág. 161) y Lara (2006, pág. 62). Por otro lado, en las descripciones y discusiones de corte computacional, así como en la experientación de mi trabajo, me referiré a la palabra como la cadena de caracteres separada por espacios o signos en un corpus (palabra gráfica). 2 Pena establece como objetivos de la morfología: “a) delimitar, definir y clasificar las unidades del componente morfológico, b) describir cómo tales unidades se agrupan en sus respectivos paradigmas y c) explicar el modo en que las unidades integrantes de las palabras se combinan y constituyen conformando su estructura interna” (1999, pág. 4307). 16 Dividir las palabras en morfemas trajo como consecuencia la necesidad de describir su orden y secuencialidad (Hockett, 1971, pág. 131). Así, buena parte del análisis morfoló- gico de una lengua ha consistido en la determinación de los morfemas y su morfotáctica3. Siguiendo a Lara (2006, pág. 65), la morfotáctica es la característica de las lenguas de or- denar sus morfemas en secuencias determinadas4. El nivel básico de una descripción morfotáctica suele ser el orden que presentan en la lengua los morfemas ligados con relación a la base5 de la palabra. Éstos pueden ser prefi- jos (por ejemplo in-confesable), sufijos (por ejemplo blanc-o) o circunfijos (por ejemplo en-roj-ecer) dependiendo de que aparezcan antes, después, o de que rodeen la base. Todos estos segmentos son llamados afijos. El siguiente nivel de descripción morfotáctica es la secuencialidad de estos afijos y las restricciones que hacen que ciertas secuencias no sean permitidas. Diversas han sido las propuestas para explicar la naturaleza de estas restricciones de ordenamiento, pero aún no parece haber consenso en cuál puede dar cuenta de todos los casos posibles6. Conocer la secuencialidad de prefijos y sufijos7 permite estudiar los fenómenos de flexión y derivación, o el orden entre afijos que expresan categorías gramaticales o sintácti- 3 La idea de morfotáctica como secuencialidad está muy ligada a la morfología concatenativa, donde los fenómenos morfológicos se basan en la adición de material fonológico o escrito. Si bien el presente traba- jo de investigación se basa en este tipo de morfología, entiendo que la complejidad morfológica rebasa este tipo de fenómenos y las posibilidades son muy amplias en las distintas lenguas humanas (reduplicación, eli- minación, cambio vocálico, etcétera.) 4 Discutiré el concepto de morfotáctica al inicio del capítulo 1. 5 Usaré el término base como el segmento de la palabra sobre el que se dan los procesos de flexión o derivación, véase Pena (1999, pág. 4318). 6 Revisaré algunas de estas propuestas en la sección 1.2. 7 Me referiré al orden y secuencialidad de los afijos de una lengua como afitáctica o morfotáctica afi- jal. Asimismo, a la secuencialidad de los sufijos de una lengua le llamaré sufitáctica o morfotáctica sufijal. 17 cas; por ejemplo, estudios sobre universales lingüísticos (Greenberg, 1963; Bybee, 1985) han propuesto que algunas categorías aparecen antes que otras en la mayoría de las lenguas. Por otra parte, en lenguas aglutinantes, la secuencialidad de prefijos, bases y sufijos es fun- damental para estudiar la formación de palabras. Así, el objetivo de este trabajo de investigación es desarrollar un procedimiento au- tomatizado que describa parte de la morfología del español. Específicamente, se trata de obtener un método automático que reciba el mínimo de información lingüística a priori y descubra, a partir de un corpus, los sufijos y su secuencialidad en dicha lengua. Contar con un método como éste, podría permitir al lingüista estudiar el sistema morfológico de la lengua con una mirada neutra, permitiendo que emerjan las regularidades del sistema lingüístico. Podría decirse que la idea de este proyecto de investigación es, a la manera de lingüistas como Harris o Hockett, proponer un método que permita descubrir las unidades morfológicas y la morfotáctica de una lengua desconocida. Expondré en este capítulo los problemas de investigación que intento resolver. Además consigno los objetivos que pretendo alcanzar, las preguntas de investigación que guían mi trabajo y la metodología utilizada para desarrollar el método. También ofrezco un resumen del contenido de cada capítulo de esta tesis. Planteamiento del problema En esta sección presento distintos problemas que he observado, por un lado, sobre algunas propuestas prominentes de análisis morfológico automático y, por otro, sobre la poca aten- ción que las mismas han puesto en el descubrimiento automático de la morfotáctica. 18 Hasta la fecha, la manera común en lingüística computacional8 para describir la morfología de las lenguas es mediante un conjunto de reglas elaboradas a partir del cono- cimiento del lingüista y no descubiertas automáticamente a partir de corpus. En general, se dan por sentados los morfemas de la lengua y su ordenamiento, con lo cual se crean reglas de reconocimiento y de generación de palabras. Aunque este tipo de métodos computacionales basados en reglas tienen tiempo de ser estudiados y engloban conocimiento lingüístico relevante (por lo que no deben ser des- cartados) corren el riesgo de volver su objeto de estudio el aparato de descripción y no la lengua. Además, ante una lengua desconocida, pueden intentar forzarla al conjunto de re- glas prestablecidas. Actualmente, el método estándar de análisis morfológico computacional está basado en lo que se conoce como fonología de dos niveles (Koskenniemi, 1983; 1984; Antworth, 1990)9. Este método permite reconocer y generar palabras de una lengua a partir de una lista de morfemas, sus rasgos sintácticos y un conjunto de reglas fonológicas de transfor- mación, todos estos elementos previamente elaborados por el investigador. Por otra parte, hoy en día predominan los modelos morfológicos generativistas que suelen presuponer los morfemas con los que se formulan reglas para describir su ordena- miento (Spencer, 1991). Cuando los lingüistas computacionales adoptan estos modelos 8 Definiré la lingüística computacional como el estudio de las lenguas naturales mediante procedi- mientos computacionales Para mí, el objeto de estudio de esta disciplina es la lengua; sin embargo, se han dado distintas definiciones que involucran otros aspectos. Por ejemplo, Kay (2003) menciona dos objetivos de la lingüística computacional: avanzar en la teoría lingüística y desarrollar soluciones prácticas. También se ha visto a esta disciplina como el estudio de los sistemas computacionales que permiten interpretar (comprender) y generar lenguaje natural (Grishman, 1991, pág. 15). 9 Describiré este método más adelante en la sección 3.4. 19 asumen que existe una morfología única e ideal, y que ésta puede describirse a partir sola- mente de la reflexión de un hablante. Por lo anterior, inspirado en el trabajo de los lingüistas prechomskianos, la idea cen- tral de este trabajo no es presuponer los morfemas, sino descubrirlos y examinarlos en su entorno para encontrar y describir, mediante una gramática de estados finitos, las regulari- dades de su ordenamiento. Para descubrir unidades morfológicas, el distribucionalismo hizo propuestas para identificarlas a partir solamente de la forma, dejando de lado el significado. Por ejemplo, Harris propuso un método para segmentar morfemas basado en la variedad de fonemas an- teriores y posteriores a un posible corte morfológico. Entre más variedad de fonemas, es mayor la probabilidad que dicho corte sea una frontera morfológica (Harris, 1955). Esta propuesta se puede considerar el primer trabajo no supervisado de segmentación morfoló- gica. En términos generales, un método de segmentación no supervisado carece de una entrada de información lingüística explícita, obtenida de la reflexión y el análisis del lin- güista. Más bien, esta información se obtiene del análisis automático del corpus. De esta manera, el método de Harris no recibía información explícita de dónde cortar las palabras, sino que a partir del conteo de fonemas se proponían los cortes. Diversos métodos no supervisados de segmentación morfológica han surgido desde entonces. Uno de ellos fue propuesto a partir de la teoría matemática de la comunicación formulada por Shannon y Weaver (1964). El método consiste en medir la cantidad de in- formación (entropía) asociada a una segmentación. Otro, de la primera mitad de los años 20 sesenta, se debe a un equipo de investigadores rusos a cargo de N. D. Andreev y está basa- do en la idea de que los afijos son más frecuentes que las bases10. Una propuesta adicional fue dada por De Kock y Bossaert (1978) que toma sus fun- damentos del principio de economía de signos o rentabilidad del sistema. Este principio permite suponer que, dados dos segmentos, si el primero pertenece a un conjunto pequeño de segmentos muy frecuentes, mientras el segundo pertenece a un conjunto potencialmente infinito de segmentos de baja frecuencia, se puede proponer un corte morfológico entre esos dos segmentos. Finalmente, también han sido usadas estadística de digramas para de- terminar valores de independencia o de no asociación entre segmentos (Kageura, 1999). Recientemente han surgido nuevos métodos no supervisados de segmentación mor- fológica como los basados en el modelo de longitud de descripción mínima (Goldsmith, 2001; 2006; Creutz y Lagus, 2002; 2004; 2005), optimización mediante algoritmos genéti- cos (Gelbukh, Alexandrov y Han, 2004) y cálculo de medidas de afijalidad (Medina, 2000; 2003)11. Los métodos anteriores descubren unidades morfológicas a partir del procesamiento de corpus y sin reglas o descripciones elaboradas a priori. Desafortunadamente, sólo el de Creutz y Lagus (2004; 2005) descubre una morfotáctica y la gran mayoría sólo segmenta las palabras en dos unidades, bases y sufijos, o máximo tres, si considera también los prefi- jos. En otras palabras, no se descubren las secuencias de sufijos. Se puede observar entonces que las propuestas de análisis computacional de la mor- fología de las lenguas no han tomado suficientemente en cuenta el descubrimiento de la 10 Una descripción de este método puede verse en Medina (2003, págs. 75-80). 11 Estos métodos serán descritos con detalle en el capítulo 2. 21 morfotáctica; y las propuestas basadas en reglas, aunque sí lo han hecho, no infieren esa información del corpus y requieren de un aparato de descripción preconcebido. Dos hechos, al menos, pueden explicar la falta de trabajos sobre descubrimiento au- tomático de la morfotáctica. El primero es que la segmentación morfológica tiene su princi- pal uso en la regularización de las palabras de un documento para su procesamiento auto- mático, por ejemplo, para la recuperación de información o la minería de textos (Hull, 1996; Paik et al., 2011). En este proceso de regularización lo que importa es eliminar los afijos de las palabras y no rescatarlos para su análisis, este proceso se llama truncamiento (stemming). El segundo hecho es la abundancia de experimentos en lenguas de morfología sim- ple, como la del inglés. En esta lengua la combinación morfológica se da con una base y algunos prefijos y sufijos. En lenguas aglutinantes como el alemán o el finlandés, por el contrario, es posible encontrar concatenados afijos y bases en múltiples combinaciones. De hecho, son algunos trabajos para el finlandés los que comienzan a tomar en cuenta el des- cubrimiento de una morfotáctica (Creutz y Lagus, 2004; 2005). Estos trabajos no sólo mejoraron sus resultados al involucrar la morfotáctica de las palabras, sino que también lograron determinar qué afijo pertenecía a qué base. De lo ante- rior se explica que estudiar métodos utilizados en lenguas aglutinantes haya sido importante para esta investigación. Por otro lado, muchos de estos métodos no supervisados también asumen que existe una morfología ideal por lo que abordan el problema de descubrirla como la búsqueda de un modelo optimizado que no admite variación diatópica ni diacrónica. Lo desafortunado de esto es que los detalles del método para buscar este modelo se vuelven lo más importan- te y deja de ser importante el estudio del lenguaje. 22 Un método que no asume una morfología única e ideal, y que aborda el problema de descubrirla mediante conceptos y descripciones lingüísticas es el desarrollado por Medina (2000; 2003). Éste ha permitido obtener catálogos de prefijos y sufijos del español y otras lenguas no emparentadas como el chuj (lengua maya) (Medina y Buenrostro, 2003), la len- gua checa (Medina y Hlaváčová, 2005) y el tarahumara (Medina y Alvarado, 2006). Por estas razones éste será el método que utilizaré para desarrollar mi investigación. El proble- ma es que este método no separa las secuencias de afijos, por lo que será necesario hacer las modificaciones pertinentes. Pensando que es posible obtener de forma automática una descripción morfológica del español (sufijos y su morfotáctica), otro problema es definir la mejor manera de repre- sentarla. En lingüística computacional, son los autómatas de estados finitos12 (equivalentes a una gramática de estados finitos) los que se utilizan clásicamente para representar la mor- fología incluso de las lenguas más complejas (Sproat, 1992; Jurafsky y Martin, 2009; Goldsmith, 2010). Emplear un autómata o gramática de estados finitos para describir la morfotáctica sufijal del español no es sólo una cuestión de representación del resultado del método que propondré, también es la suposición de que es posible tratar la morfología de una lengua como un lenguaje regular13. De hecho, para la morfología de la lengua española se intuye que una representación así es suficiente. Es pertinente recordar que la gramática de estados finitos será una representación de la descripción morfológica del español que se construirá automáticamente a partir del corpus y no será diseñada manualmente. 12 Más adelante (capítulo 3) defino en qué consiste un autómata de estados finitos y una gramática de estados finitos, así como su equivalencia. 13 Una discusión sobre la pertinencia de usar estas gramáticas para la morfología de las lenguas se puede ver en Sproat (1992) y Anderson (1992). 23 Una ventaja de hacerlo de esta manera es la posibilidad de motivar numerosos traba- jos futuros de investigación de variación morfológica. Esto es, los fenómenos de variación, tanto dialectal como diacrónica, podrán hacerse visibles al aplicarles a muestras de varios registros el método que se espera desarrollar. Esto es, para diferentes estados de lengua cabe esperar diferentes conjuntos de morfemas que caractericen a cada estado y, por ende, diferentes gramáticas de estados finitos. Así, el método que se desarrollará podrá facilitar comparaciones dialectales y diacrónicas de una misma lengua en el nivel morfológico. Una vez generada la gramática de estados finitos, valdrá la pena comparar esta in- formación de carácter morfológico, inherente a los corpus, con la información elaborada por lingüistas mediante la introspección y/o métodos empíricos manuales. Esto es, se pue- den descubrir datos interesantes aún para lenguas ya estudiadas porque el conocimiento que aporta el método es empírico, en el sentido de basarse en información dura presente en cor- pus y no en la intuición educada de un ser humano. También, ya que el método será no supervisado (sin información lingüística explíci- ta a priori) podrá ser utilizado en distintos corpus de distintas lenguas. Además, como ya se mencionó, es posible pensar que servirá para realizar comparaciones en el plano diacrónico y diatópico de una misma lengua. Preguntas y objetivos de investigación Planteo en esta sección las preguntas que trataré de responder en mi trabajo de investiga- ción y los objetivos que deberé cumplir para intentar dar solución a algunos problemas planteados en la sección anterior. 24 Como expuse, existen métodos de análisis morfológico automático que describen la morfotáctica de algunas lenguas naturales, pero crean esta descripción de forma manual (son métodos supervisados) y generalmente a partir de la reflexión de un solo hablante. Por otro lado, los métodos no supervisados que descubren unidades morfológicas a partir de corpus no toman en cuenta el descubrimiento de su morfotáctica y los que lo hacen sólo han tratado lenguas aglutinantes. Así, se puede decir que no hay un método automático no supervisado que descubra la morfotáctica de lenguas predominantemente afijales. Ya que los fenómenos morfológicos son vastos y complejos en las distintas lenguas, este proyecto de investigación se centrará sólo en la lengua española y especialmente en su morfología concatenativa afijal (sufijación). Dado lo anterior, surge la pregunta: ¿es posible la generación automática de un apa- rato formal de descripción morfológica a partir de corpus, que dé cuenta de los sufijos y sufitáctica del español? Se intuye que sí es posible generarlo y se propone como aparato de descripción una gramática de estados finitos. Describir la afitáctica de una lengua mediante una gramática de estados finitos con- lleva el ver a esta parte de la morfología como un lenguaje regular (de estados finitos). Da- do que se ha criticado el uso de estas gramáticas para estudiar la morfología14, cabe la si- guiente pregunta ¿una gramática de estados finitos es suficiente como aparato formal de descripción morfológica de los sufijos y sufitáctica del español? Al respecto, se intuye que sí es suficiente. Por tanto, el presente trabajo de investigación tiene el objetivo de desarrollar un mé- todo automático no supervisado para generar, a partir de corpus y mediante una gramática 14 Véase por ejemplo Sproat (1992) y la crítica de Anderson (1992, págs. 387-391). 25 de estados finitos, una descripción morfológica del español, acotada al descubrimiento de sus sufijos y su morfotáctica. Este objetivo puede descomponerse en los siguientes objetivos específicos: 1. Descubrir, a partir de corpus y mediante un método no supervisado de segmen- tación morfológica automática, los sufijos y sufitáctica de la lengua española. 2. Generar, a partir de los sufijos y sufitáctica descubiertos, una gramática de esta- dos finitos que describa la morfotáctica del español. Delimitación Pongo en esta sección algunas consideraciones a propósito del alcance de mi investigación. En primer lugar, desarrollaré mi propuesta tomando como lengua de estudio el español, aunque cabe recordar que el método será no supervisado, por lo que se espera que funcione en otras lenguas de morfología similar, en especial lenguas flexivas como el italiano, fran- cés, portugués o inglés. De los numerosos fenómenos morfológicos del español, limitaré mi estudio a la morfología concatenativa y solamente la sufijal. Esto se explica porque mi interés está en descubrir la morfotáctica y considero que limitando la cantidad de fenómenos concatenati- vos a la sufijación es más factible formular un primer método automático que sirva de base para incorporar a futuro los demás15. 15 No tomo en cuenta la composición porque impone el descubrimiento de varias bases en la palabra. Tampoco la prefijación por su peculiar comportamiento en español, que ha llevado a considerarla más como composición que derivación o flexión (Moreno de Alba, 1996; Varela y García, 1999). La parasíntesis es otro fenómeno que queda fuera de mi investigación, ya que las gramáticas de estados finitos no pueden representar fenómenos discontinuos. 26 En lo que corresponde a la descripción que espero obtener automáticamente, no planteo hacer una distinción entre derivación y flexión, es decir, el método no marcará au- tomáticamente cuáles sufijos son flexivos y cuáles derivativos16. Tampoco se propone invo- lucrar la clase de palabra en el análisis automático para separar, por dar un ejemplo, bases y afijos nominales de verbales17. Esta distinción sería importante para discriminar afijos for- malmente parecidos, piénsese en la –a como marca verbal (cant-a) y en la marca de género (niñ-a). Otros aspectos no involucrados en el desarrollo del método son la identificación de alomorfos, en el sentido de que el método no propondrá si un sufijo es o no un alomorfo de otro. Además, aunque la relación entre fonología y morfología es muy estrecha, dejaré de lado el estudio de los fenómenos morfofonológicos y me centraré sólo en aspectos morfo- lógicos. Esto no quiere decir que no sea importante tomar en cuenta la fonología. Cabe recordar que para obtener la descripción morfológica del español procesaré computacionalmente un corpus18, lo que implica la ausencia de análisis semántico sobre los textos. A propósito del corpus, no haré ninguna modificación para corregir errores de escri- tura o transcripción. Finalmente, no adoptaré una postura teórica o corriente lingüística para definir dón- de “deberían” ser segmentadas las palabras. Aunque sea difícil despegarse de la formación 16 Aunque desde la lingüística se ha estudiado mucho la distinción entre flexión y derivación (Beard, 1998; Stump, 1998; Anderson, 1985), computacionalmente es muy difícil distinguirlas cuando se dan por afijación. En este sentido podría ayudar que se ha observado que la flexión siempre está más lejos de la base, esto es, más pegada al límite de la palabra (Greenberg, 1963). 17 No se propone esto porque sería necesaria mi intervención para etiquetar las palabras a procesar, lo que cambiaría el carácter no supervisado del método; aunque sería interesante considerar a futuro métodos no supervisados de agrupamiento de palabras. 18 Describiré el corpus de estudio en la siguiente sección. 27 que uno ha adquirido, preferiré tener, en la medida de lo posible, la mirada de un lingüista que se enfrenta a la tarea de describir una lengua desconocida19. Metodología En esta sección se puntualizan dos aspectos importantes de mi trabajo. Por un lado, las perspectivas metodológicas adoptadas y, por otro, los pasos que llevé a cabo para desarro- llar mi investigación. Mi trabajo está guiado por la perspectiva metodológica de la lingüística compu- tacional. Esta perspectiva tiene la ventaja de trabajar con instrumentos lógicos llamados programas de computadora que procesan grandes cantidades de datos lingüísticos. En esta disciplina es posible repetir varias veces un experimento mediante la ejecución de estos programas con distintas modificaciones. Por lo anterior, los experimentos realizados fueron planteados de esta manera. Ya que este método fue desarrollado a partir del procesamiento automático de cor- pus, es decir, a partir de datos empíricos, fue necesario contar con una muestra representa- tiva de la lengua de estudio. De esta manera se puede esperar que la morfotáctica inferida del corpus sea la morfotáctica del español. Según Biber (1993), para que un corpus logre el mayor grado de representatividad su diseño debe cumplir con algunas características, siendo las más importantes las siguien- tes. Primero se partir de una definición lo más precisa posible de la población que se intenta estudiar. Segundo se debe elaborar una estratificación de esta población, esto es, definir los 19 Una virtud de los métodos automáticos no supervisados es que permiten que el investigador se ale- je de la lengua de estudio ya que el método por sí mismo no toma preferencias por uno u otro análisis, sólo sigue mecánicamente los pasos predefinidos por el investigador. 28 géneros, temas y registros de los documentos que integrarán el corpus. También es reco- mendable definir el tamaño de muestra textual, es decir, qué cantidad de texto será extraído de cada documento. Finalmente se debe decidir la estrategia de recopilación de las muestras textuales, por ejemplo, mediante una selección aleatoria. En lugar de construir un nuevo corpus para esta investigación, se decidió utilizar como corpus de estudio el Corpus del Español Mexicano Contemporáneo (CEMC) ya que cumple con las características expuestas. Además, es el único corpus existente diseñado bajo criterios estadísticos como una muestra representativa del léxico del dialecto mexicano del español (Lara y Ham Chande, 1974). Si está representado el léxico, se puede pensar que también está representada gran parte de la morfología del español mexicano, por lo que los resultados que se obtengan de mi trabajo podrán asumirse como regularidades de esta va- riante dialectal. Por otra parte, como establecen McEnery y Wilson (1996, pág. 32), un corpus re- presentativo de una lengua suele verse como una referencia estándar de esa lengua, por lo que se espera que esté disponible para diversos estudios. La ventaja de utilizar un corpus representativo ya estudiado en nuevas investigaciones es que los resultados pueden ser comparados. Además, como indica esos autores, si los resultados entre estudios varían, se deberá en menor medida a los datos y más a la metodología utilizada para el análisis. A propósito de lo anterior, el CEMC ya había sido utilizado como corpus de estudio para desarrollar un método de segmentación morfológica automática que descubre sufijos y prefijos. Por tanto, debido a todas las características mencionadas, se considera justificado el uso del CEMC como corpus de estudio para esta investigación. En seguida describiré brevemente sus características generales. 29 El CEMC cuenta con aproximadamente dos millones de palabras (ocurrencias) dis- tribuidas en diversos géneros seleccionados para representar tres niveles de lengua: culta, sub-culta y no-estándar. El corpus se forma de párrafos obtenidos aleatoriamente (no con- secutivos) de alguna de las 996 obras o transcripciones de grabaciones. Cada texto tiene una longitud de alrededor de dos mil palabras. Con el fin de mostrar la variedad de géneros y el porcentaje de datos por cada uno, replico la base estadística del DEM en la Tabla 0.1, tomada de Lara y Ham Chande (1974, pág. 260). Tabla 0.1 Base estadística de DEM Tomada de Lara y Ham Chande (1974, pág. 260) Total de la muestra: 100% Porcentajes por géneros Lengua Culta: 66.80% 100% Literatura 22.45 Periodismo 26.34 Ciencia 26.94 Técnica 15.26 Discurso político 2.69 Religión 1.79 Habla de la Ciudad de México 4.49 Lengua Sub-culta: 11.70% 100% Literatura popular 53.00 Conversaciones grabadas 47.00 Lengua No-estandar 21.50% 100% Textos regionales 60.46 Documentos de antropólogos 15.34 Jergas 13.95 Conversaciones grabadas 10.25 Adoptar la perspectiva de la lingüística computacional y un corpus representativo del español mexicano fueron dos decisiones metodológicas primordiales de mi investiga- ción. Ahora presento los pasos que desarrollé para llevar a cabo mi trabajo. 30 El primero paso fue el estudio y caracterización de la morfotáctica en general y de la morfotáctica sufijal del español en particular. Con ello fue posible conocer el fenómeno lingüístico que describí automáticamente. Además resaltó el hecho de que para descubrir la morfotáctica primero era necesario descubrir las unidades morfológicas. Por lo anterior, el segundo paso fue conocer las características de algunos métodos no supervisados que descubren unidades lingüísticas mediante segmentación morfológica automática. En este paso se revisó a fondo el método seleccionado para segmentar los tipos de datos del corpus de estudio. Éste método (Medina, 2000; 2003) calcula un índice de afi- jalidad para cada posible corte morfológico de una palabra. Este índice de afijalidad se obtiene mediante la cuantificación de tres características lingüísticas de los afijos: son segmentos más gramaticales que las bases, no ocurren aisla- dos y se combinan con muchos otros segmentos de baja frecuencia (bases). Las medidas utilizadas para cuantificar dichas características son la entropía asociada a un segmento, la cantidad de cuadros en los que participa el segmento y un índice de economía que mide la capacidad combinatoria del segmento20. El trabajo de ese autor permitió obtener un catálogo de afijos del español mediante la segmentación de las palabras una sola vez en el valor máximo de afijalidad, esto es, se dividía la palabra en una base y un sufijo (o en una base y un prefijo). Por tanto, el sufijo resultante podía ser un sufijo individual o varios sufijos concatenados. Entonces, fue nece- sario indagar cómo modificar este método para obtener todos los sufijos posibles. 20 Los detalles de este método se presentarán en la sección 2.5. 31 Véase por ejemplo la Tabla 0.2 con los índices de afijalidad para la palabra DEFI- NICIONES. Segmentar en el valor más alto da como resultado DEFINI~CIONES, propo- niéndose un segmento ~CIONES que deberá dividirse en dos sufijos (~CION~ES). Tabla 0.2 Índices de afijalidad para la palabra DEFINICIONES Otro caso es el de la Tabla 0.3, donde se pueden ver los índices de afijalidad de la palabra ALARMANTES. Cortar en el valor máximo separaría el segmento final ALAR- MANTE~S, dejando adherido a la base un segmento pertinente que también debería ser segmentado: ~ANTE~. Tabla 0.3 Índices de afijalidad para la palabra ALARMANTES Después de la revisión sobre métodos de segmentación morfológica, decidí estudiar las gramáticas y autómatas de estados finitos. Este estudio tuvo como metas entender las bases de estos formalismos, determinar cuál de los dos era mejor estrategia para describir la morfotáctica del español y establecer su equivalencia. Se decidió que era mejor idea crear la gramática como un autómata de estados finitos. Para el problema de la representación de la morfología de una lengua, se puede ver un autómata de estados finitos como un conjunto de estados, representados por la letra q, de los cuales sólo hay un estado inicial (q0) y uno o varios estados finales21. Además incluye un conjunto de morfemas y un conjunto de transiciones que indican los estados de salida a 21 Los detalles de la definición de autómata de estados finitos, su equivalencia con una gramática y la manera de representarlo como un grafo se presentarán en el capítulo 3. D E F I N I C I O N E S 0 0 0 0.2304 0.3333 0.8398 0.1269 0.581 0.1628 0.1087 0.2254 A L A R M A N T E S 0 0 0.1738 0.3634 0.5021 0.1061 0.536 0.07867 0.8298 32 partir de un estado de entrada y un morfema (estas transiciones describen la secuencialidad de los morfemas). La representación gráfica de un autómata de este tipo se realiza mediante un grafo donde los estados se representan con nodos (vértices) en forma de círculos y las transicio- nes con flechas dirigidas llamadas arcos. Los estados finales se representan con doble círcu- lo. Así, una posible salida del método automático propuesto es mostrada en la Figura 0.1. Figura 0.1. Ejemplo de grafo para algunos sufijos flexivos nominales En el grafo se puede ver la descripción de la secuencialidad de algunos sufijos flexi- vos. Por ejemplo, la secuencia de estados q0, q1, q3, q4 describen la secuencialidad de mor- femas de la palabra mant-a-s. De esta manera, siguiendo la dirección de los arcos se puede avanzar en el grafo y ver las posibilidades de orden y secuencialidad. Se incluyen dos pala- bras con índices de afijalidad para hacer notar que los segmentos morfológicos que se in- corporen al autómata serán propuestos por estos índices. 33 El siguiente paso en el desarrollo de la investigación fue el descubrimiento de las unidades morfológicas a partir del corpus de estudio. Se modificó el método de segmenta- ción morfológica basado en el cálculo de un índice de afijalidad para obtener todos los sufi- jos posibles por palabra. Para ello se realizaron diversos experimentos de segmentación probando distintas variantes para calcular los índices de afijalidad. Con el experimento que ofreció mejores resultados se determinó el método de segmentación y se procesó el corpus para producir una lista de tipos de palabras segmentados. Finalmente, el último paso consistió en la generación automática de la gramática de estados finitos para describir la sufitáctica del español. Un programa de computadora fue creado para tomar los tipos de palabras segmentados y construir el autómata. En este paso también se realizó la evaluación de resultados. Plan de la tesis Presento en esta sección de forma resumida el contenido de cada capítulo de la tesis. En la presente introducción, además de este plan, se presenta el planteamiento del problema, que puntualiza la falta de un método automático no supervisado de descubrimiento de la morfo- táctica. Luego se exponen las preguntas y los objetivos de investigación de este trabajo. En seguida se hace una delimitación del alcance del método automático que se propondrá. Fi- nalmente se exponen las perspectivas metodológicas adoptadas y los pasos que se llevaron a cabo para realizar este trabajo de investigación. El capítulo uno, Morfotáctica, presenta la caracterización de este fenómeno lingüís- tico. Para ello se brinda su definición y algunas explicaciones sobre su naturaleza. Después se describe la morfotáctica sufijal del español, consignando los sufijos flexivos y derivati- 34 vos, tanto nominales como verbales. Al final se presenta un procedimiento para determinar esquemas morfotácticos de las lenguas humanas. El segundo capítulo está dedicado a los métodos no supervisados de segmentación morfológica. Después de algunas generalidades, se describen cuatro métodos. El primero es el método más referenciado en este tipo de trabajos computacionales (Linguistica), el se- gundo es un método desarrollado para lenguas aglutinantes (Morfessor), el tercero es un método basado en optimización mediante algoritmos genéticos, y el cuarto calcula un índi- ce de afijalidad para descubrir unidades morfológicas. Este último fue el método empleado en la tesis. El capítulo cierra con algunas observaciones generales sobre estos métodos. En el capítulo tres, se presentan en primer lugar algunos conceptos básicos para en- tender las gramáticas formales y los autómatas de estados finitos. Luego se da la definición de una gramática formal y se describen sus tipos. En seguida se presentan la definición, tipos y representaciones de los autómatas de estados finitos. Después se consigna la equiva- lencia entre gramáticas regulares y autómatas. Se presentan también dos variantes de autó- mata: los autómatas probabilísticos y los modelos ocultos de Markov. Finalmente se detalla la manera en cómo la morfología computacional ha representado la morfotáctica de las len- guas. El capítulo cuatro, Experimentos de segmentación morfológica automática, presenta los experimentos realizados para modificar el método de segmentación basado en el cálculo de afijalidad. Primero se describe un experimento que sirvió como primer acercamiento al problema. Luego se explica el proceso para definir un conjunto de experimentos para bus- car la estrategia final de segmentación. En seguida se detalla la manera de evaluar estos experimentos, que incluye la constitución de un corpus de evaluación segmentado manual- 35 mente. Después se discuten los resultados de los experimentos y se brindan algunas conclu- siones sobre el proceso de segmentación automática. El capítulo cinco está dedicado al experimento de generación automática del autó- mata. Se presenta primero el procedimiento general para construirlo con el fin de discutir algunos aspectos de diseño del mismo. Luego se consigna el algoritmo computacional. En seguida se abordan los detalles de los experimentos realizados. Después se discuten los resultados y se presenta la evaluación del autómata final. El capítulo de conclusiones ofrece un resumen de experimentos, la descripción final del método propuesto y la revisión de objetivos y preguntas de investigación. Además, se puntualizan los problemas del método propuesto, sus ventajas y el trabajo futuro, antes de presentar las conclusiones finales. 36 1. Morfotáctica En este capítulo expondré la definición del concepto de morfotáctica y revisaré diferentes posturas que tratan de explicar su naturaleza. Después, revisaré brevemente la morfología sufijal del español y su morfotáctica, con el fin de sentar las bases para mi trabajo de inves- tigación. Así, el objetivo de este capítulo es caracterizar mi objeto de estudio y mostrar la factibilidad de crear un método que pueda describirlo automáticamente. 1.1. Definición de morfotáctica Esta sección está dedicada a establecer la definición de morfotáctica que utilizaré en ade- lante, para ello, partiré de algunas definiciones propuestas por distintos autores. Los trabajos en morfología de distintas lenguas, especialmente los que adoptan una mirada tipológica, han dejado bien claro que los fenómenos morfológicos son variados y complejos (Sapir, 1954; Bybee, 1985; Anderson, 1992). También han establecido que exis- te predominio de la morfología concatenativa (Sproat, 1992, pág. 44) y en especial de la sufijal: “Cada idioma posee uno o más métodos formales para indicar la relación de un concepto secundario con respecto al concepto primario del elemento radical. Algunos de estos procedimientos gramaticales, como la sufijación, están extraordinariamente difundi- dos” (Sapir, 1954, pág. 71). Al respecto, como se verá en seguida, todo indica que los estudios de morfotáctica se basan en este tipo de morfología, ya que la adición de material fonológico (o escrito) 37 permite hablar de orden y secuencialidad22. Entonces, ya que el español exhibe principal- mente una morfología concatenativa y predominantemente sufijal, merece un estudio desde esta perspectiva. Si se observan las palabras del ejemplo (1.1), cabe preguntar ¿por qué en (1.1a) se intuye un orden correcto de los segmentos de la palabra y en los ejemplos de (1.1b) no? 23 La respuesta es que los fenómenos morfológicos concatenativos están guiados por ciertas pautas de ordenamiento, es decir, las lenguas tienen una morfotáctica. (1.1) a. cre~ar~la b. *cre~la~ar, *ar~cre~la Por ejemplo, Lara llama morfotáctica “a la característica que tienen todas las expre- siones verbales de una lengua, de ordenar sus morfemas en una secuencia determinada o en varios esquemas secuenciales” (2006, pág. 65). Una definición similar dice que “the study of the arrangement of morphemes in linear sequence, […], is morphotactics” (Crystal, 2003, pág. 300). En primer lugar se puede ver que la morfotáctica de una lengua tiene que ver con el orden y secuencialidad de los morfemas en las palabras. Por una parte, el orden se refiere a la posición de los morfemas ligados con respecto a la base de la palabra. Nida (1949, págs. 68-71) llamó a esto relaciones estructurales y posicionales entre morfemas y Hockett (1971, pág. 287) las llamó clases posicionales. 22 En el caso de morfologías no concatenativas, es posible pensar que las reglas de transformación sean parte de su morfotáctica; sin embargo, esto no será indagado en mi investigación. 23 Es posible ver en este ejemplo otras segmentaciones, una de ellas podrías ser la separación de la vocal temática de la raíz verbal (cre~a~r~la), otra quizás separaría la vocal final como marca de género del enclítico (cre~ar~l~a). Sin embargo, lo pertinente en este caso es la intuición que como hablantes tenemos de un orden de elementos. 38 Es posible clasificar a los morfemas ligados por su orden de aparición en prefijos (in-confesable), si preceden a la base, y sufijos (blanc-o), si aparecen después. Se han pro- puesto también los infijos, cuando el segmento si se insertan al interior de la base. Según Pena (1999), en español hay presencia de infijos en la derivación apreciativa24, por ejemplo, con el segmento –it– en: lej-it-os, azuqu-ít-ar. Otro tipo de afijos son los circunfijos. Estos son discontinuos y rodean la base, son la combinación de un prefijo y un sufijo dependien- tes entre sí, por ejemplo: sombra > en-sombr-ec-er, rojo > en-roj-ec-er Es posible llamar de manera genérica a todos estos segmentos como afijos25. La secuencialidad, por otra parte, se refiere al encadenamiento de morfemas. Ho- ckett (1971, pág. 131) se refirió a ésta como ordenamiento morfemático. Para Nida (1949, pág. 76) se trata de un análisis distribucional de morfemas, específicamente de estructuras morfológicas complejas. Este autor propone tres estructuras: tema ligado más morfema ligado, tema libre más morfema ligado, y tema libre o ligado más tema ligado o libre. Las secuencias de morfemas ligados presentan un ordenamiento fijo (capital-iz-ar vs *capital-ar-iz). Es generalmente aceptado que dicho ordenamiento está determinado por un mecanismo que impone restricciones. Como mencionan Jurafsky y Martin, la morfotác- tica es “the model of morpheme ordering that explains which classes of morphemes can follow other classes of morphemes inside a word” (2009, pág. 53). De manera concreta, como lo dice Sproat, la morfotáctica es “the ordering restrictions on morphemes” (1992, pág. 83). 24 Si en realidad se trata de infijación es un problema que no atenderé por el momento, aunque hay debate al respecto. 25 No menciono los interfijos ya que en español presentan ciertas inconsistencias en su definición (Pena, 1999, pág. 4326). 39 Así, la morfotáctica también es el estudio que describe las restricciones de ordena- miento de morfemas y paradigmas de morfemas. Para lograr describir estas restricciones es necesaria la intervención humana, ya que éstas se explican generalmente con relación a las categorías gramaticales y sintácticas de la palabra cuando se adhiere cada afijo. Para efectos de mi trabajo de investigación, que busca proponer un método no su- pervisado, conviene más definir la morfotáctica como la característica de las lenguas de ordenar sus morfemas en secuencias determinadas, dejando de lado por el momento el es- tudio de sus restricciones de ordenamiento. Con base en esta definición de morfotáctica, para este trabajo la afitáctica o morfotáctica afijal se entenderá como la descripción de or- den y secuencialidad de los afijos de una lengua. De la misma forma, la sufitáctica o morfo- táctica sufijal será el orden de sufijos de una lengua. 1.2. La naturaleza de la morfotáctica En esta sección se revisarán brevemente algunas posturas teóricas que tratan de explicar las restricciones de ordenamiento de afijos. A pesar de que el método que se propondrá no to- mará en cuenta un análisis de este tipo, es pertinente conocer algunos aspectos sobre la na- turaleza de la morfotáctica. Como se verá, no parece haber una postura que explique todos los tipos de ordena- miento en la palabra. En términos generales, en las restricciones de ordenamiento están involucrados los siguientes aspectos. Primero, la tendencia a preferir que algunos afijos estén más cerca de la raíz o base debido a la relevancia que para el hablante tenga la infor- mación asociada al morfema. Segundo, utilizar la aparición de los afijos como rastro de algún cambio en la sintaxis. Tercero, en la adjunción de morfemas se involucran las catego- 40 rías de palabras (adjetivo, sustantivo, etcétera) tanto de la base como de la base más los afijos. 1.2.1. Constituyentes inmediatos El estructuralismo propuso un análisis de la palabra basado en una jerarquía de constituyen- tes inmediatos. Un ejemplo de este análisis puede verse en la Figura 1.1, tomado de Ander- son (1992, pág. 13). Figura 1.1 Estructura de constituyentes inmediatos de discontentedness Tomada de Anderson (1992, pág. 13) Para el estructuralismo, la clase de palabra determina los morfemas que pueden o no adherirse en la construcción de una palabra (Sproat, 1992, págs. 83-84). De esta manera, se tendrían afijos que sólo pueden unirse a verbos, adjetivos o sustantivos. Además, cada mor- fema traería consigo un cambio de categoría para la palabra que se está formando, producto de su unión con otro morfema. Esto último se puede ver en el árbol de constituyentes que muestra la Figura 1.1. 41 1.2.2. Restricciones sintácticas Por otro lado, la gramática generativa propuso que la naturaleza de la morfotáctica era to- talmente sintáctica. Se decidió que el ordenamiento de morfemas podía explicarse mediante los mismos esquemas que la sintaxis, por tanto, para esta corriente de la lingüística no era necesario el estudio de la morfotáctica (Anderson, 1992, págs. 15-17). Según esta postura, los componentes de la gramática de una lengua son las reglas de estructura de frase y las transformaciones, que producen la representación superficial de una oración. Por ejemplo, Chomsky (1984) explica las variantes morfológicas de los verbos auxiliares del inglés mediante una regla que selecciona el verbo junto con un afijo. Luego una transformación pone al afijo en el lugar correcto en la estructura superficial. El hecho de que las reglas y transformaciones tuvieran acceso libre a los morfemas de la lengua no hizo necesario un componente morfológico para los generativistas. De la misma forma, la morfotáctica fue vista como una parte de la sintaxis. Hoy en día la morfo- logía tiene su lugar también en esta postura teórica y se sigue estudiando la relación entre estos dos niveles (Piera y Varela, 1999). 1.2.3. Principio de espejo entre sintaxis y morfología Es claro que ciertos fenómenos morfológicos tienen una conexión estrecha con la sintaxis. Un ejemplo de éstos son los cambios de valencia de un verbo que se marcan morfológica- mente. Me refiero a los procesos de construcción de pasivas, antipasivas, aplicativas y cau- sativas, llamados, en términos de la gramática generativa, reglas o procesos de cambio de función gramatical. Normalmente, cuando la correspondencia entre la función semántica y la función gramatical se interrumpe por uno de estos procesos, el verbo sufre cambios morfológicos 42 (Katamba y Stonham, 2006, pág. 287). Se cree que estas marcas morfológicas que sufre el verbo permiten al oyente recuperar la función sintáctica subyacente, aunque esto está en discusión. Al respecto, lo pertinente para esta investigación es que en muchas lenguas cada cambio de función gramatical corresponde a un cambio morfológico. Esto es conocido co- mo principio de espejo (Mirror Principle). El siguiente ejemplo de la lengua luganda (1.2), tomado de Katamba y Stonham (2006, pág. 289), lo muestra claramente26: (1.2) a. Sujeto Verbo Abaana basoma Niños leer ‘Los niños leen’ b. Causativa Sujeto Verbo Objeto Nnaaki asom-es-a abaana Nnaaki leer-CAUS-BSV niños ‘Nnaaki hace que los niños lean’ c. Causativa pasiva Sujeto Verbo Objeto Abaana basom-es-ebw-a Nnaaki niños leer-CAUS-PASS-BSV Nnaaki ‘Los niños son puestos a leer por Nnaaki’ CAUS= causativa, BSV=sufijo verbal básico, PASS= pasiva Según lo expuesto en (1.2) se da primero el proceso de creación de la causativa y después el de la pasiva. Morfológicamente hay una correspondencia ya que se adhiere pri- mero el sufijo de causativa (~es) y después el de pasiva (~ebw). La idea detrás es que cada adición de rol en la construcción sintáctica se ve reflejada en la morfología del verbo con la adición de un morfema. 26 También pueden verse más ejemplos en Sproat (1992, pág. 85). 43 El principio de espejo ha sido cuestionado con evidencia en distintas lenguas27, por lo que resulta difícil sostener que éste baste para explicar la naturaleza de la morfotáctica. Katamba y Stonham (2006, págs. 291-293) mencionan algunos ejemplos donde se viola el principio de espejo. Uno es del náhuatl clásico, donde la adjunción de morfemas sigue un orden definido sin aparente relación con tal principio. El otro es del bantú, en esta lengua todo sufijo verbal pronunciado con un solo sonido tiende a aparecer después de todos los otros sufijos, lo que habla de una motivación más bien fonológica. 1.2.4. Universales lingüísticos Greenberg (1963) hace una serie de observaciones de carácter tipológico sobre la morfolo- gía de un conjunto de 30 lenguas. Según este autor, existe predominio de la sufijación sobre la prefijación y de éstas sobre fenómenos de morfología afijal discontinua28. Observa ade- más que lenguas exclusivamente prefijales son muy raras, mientras que las exclusivamente sufijales no lo son. Producto de sus observaciones, Greenberg propone una serie de universales lingüís- ticos de los cuales rescataré aquí sólo los que son pertinentes para mi trabajo de investiga- ción. Según el universal 28, la derivación siempre estará más cerca de la base cuando apa- rezca con flexión; no importa si se dan por prefijación o sufijación. El universal 29 establece que si una lengua tiene flexión, siempre tiene derivación. En cuanto a las categorías flexivas verbales, siempre que se presenten en la lengua catego- rías de persona y número o de género, habrá también categorías de modo y tiempo (univer- sal 30). Sobre el orden de categorías flexivas nominales, se reporta en el universal 39 que si 27 Para leer una discusión al respecto véase Katamba y Stonham, (2006), sección 12.6. 28 Incluye aquí la infijación, intercalación (por ejemplo, el cambio vocálico en lenguas semíticas) y ambifijación (llamada tradicionalmente circunfijación o parasíntesis). 44 aparecen las de número y caso, ambas como prefijos o sufijos, la de número casi siempre está más cerca de la raíz. Los universales llevan a Greenberg a proponer la idea de jerarquías de proximidad, esto es, que ciertos elementos deben estar más cerca de un elemento central29. Éste podría ser la base o raíz de la palabra. Una consecuencia de esta jerarquía sería que elementos más cercanos a la raíz (por ejemplo el número gramatical) aparezca en mayor número de len- guas. Bybee (1985) también realiza un estudio de diversas lenguas. Coincide con Green- berg en el orden entre derivación y flexión. Además, propone que se trata de un nivel de relevancia de significado lo que determina el hecho de que la derivación aparezca más cer- cana a la base. De acuerdo con esta relevancia sería posible predecir el orden de morfemas: a mayor relevancia, mayor cercanía (Bybee, 1985, pág. 34). Bajo esta mirada, Bybee explica el universal 39 de Greenberg: la categoría flexiva de número aparece más cerca de la base o raíz por ser más relevante para el significado del sustantivo en el que aparece (una entidad o varias entidades). El caso gramatical, por su parte, es relevante al interior de la oración y por eso aparece más lejos en comparación con el número. Bybee analiza 50 lenguas y encuentra pocas excepciones en su predicción del orde- namiento de morfemas. El orden de categorías flexivas que propone sería: aspecto, tiempo, modo y persona. Según esta autora, es bastante estricto el orden de aspecto y tiempo (no encontró contraejemplos), y más flexible el de modo y persona. 29 No es claro si esta proximidad es de tipo semántico o de relevancia para el hablante. 45 1.2.5. Morfología léxica Una idea básica de esta propuesta teórica (llamada LPM por sus siglas en inglés: Lexical Phonology and Morphology) es que el elemento principal del análisis morfológico es la palabra y no el morfema. Además, propone como principio fundamental que existe un lazo muy fuerte entre las reglas morfológicas, que construyen la palabra, y las reglas fonológi- cas, que determinan la manera de pronunciarla. Ambas reglas se distribuyen en niveles je- rarquizados (strata) dentro del léxico, uno debajo del otro, dando organización al compo- nente morfológico de una lengua (Katamba y Stonham, 2006). Según esta postura, la naturaleza de la morfotáctica está basada en esto niveles je- rarquizados (Kiparsky, 1983; Sproat, 1992). Cada nivel se encarga de cierta parte de la morfología, por ejemplo, de ciertos afijos. Así, dependiendo del nivel al que pertenece el afijo, se da el ordenamiento. Además, cada nivel contiene reglas particulares, de manera que el producto de las reglas de un nivel alimenta al siguiente, de allí el ordenamiento de morfemas. En esta postura los afijos del inglés se pueden dividir en neutrales, que no cambian fonológicamente la base a la que se adhieren, y no neutrales, que sí afectan fonológicamen- te algún segmento de la base. Por ejemplo, –less sería un sufijo neutral ya que no cambia de lugar el acento de la base a la que se une home/home-less; por otro lado, el sufijo –ic sería no neutral porque sí cambia de lugar el acento de la base strategy/strategic. La división de afijos del párrafo anterior permite ordenarlos en niveles. El nivel I se- ría el de los afijos no neutrales. El nivel II sería el de afijos neutrales. Su orden de adjun- ción en la base se explica por el orden de los niveles, esto es, siempre se adhieren primero los afijos de nivel I y luego los de nivel II. 46 Se puede ver un ejemplo en (1.3), tomado de Kiparsky (1983, pág. 3). El sufijo –ian pertenece al nivel I, por eso aparece primero. Luego se adhiere el sufijo –ism, que pertenece al nivel II. (1.3) a. Mendel-ian-ism, mongol-ian-ism. b. *Mendel-ism-ian, *mongol-ism-ian. En este caso, el sufijo –ian es no neutral (nivel I) porque mueve el acento a la sílaba anterior. Por el contrario, –ism es un sufijo neutral (nivel II), esto es, no mueve el acento de la base a la que se adhiere (Kiparsky, 1983; Katamba y Stonham, 2006). En el caso de afijos del mismo nivel también existe un orden determinado en la pa- labra. Sin embargo, este ordenamiento no está predefinido, más bien se presenta de acuerdo con el proceso de formación de la misma. Cada regla morfológica incluye la clase de pala- bra sobre la que actúa y la clase de palabra que entrega. Así, el orden de afijos está deter- minado por la clase de palabra de la base. En (1.4) se puede ver un ejemplo tomado de Ka- tamba y Stonham (2006, pág. 115). (1.4) a. 'homeN-lessA-nessN b. *'homeN-nessN-lessA Tanto –less como –ness son sufijos neutrales, por lo que ambos pertenecen al nivel II. El orden de estos sufijos está determinado por la clase de palabra de la base de deriva- ción. Así, el sufijo –ness no puede unirse a sustantivos (1.4b), sino a adjetivos, por lo que aparece después del sufijo –less, que sí puede unirse a sustantivos y los convierte en adjeti- vos (1.4a). Ahora bien, cuando ocurren en la misma palabra afijos derivativos y flexivos que pertenecen al mismo nivel, los primeros se adhieren a la base antes que los segundos. En 47 otras palabras, entra en juego otro ordenamiento de reglas: las reglas de derivación suceden antes de las de flexión. La propuesta de la morfología léxica ha sido debatida principalmente porque el or- denamiento puede ser explicado de otras maneras, dejando de lado los niveles jerarquizados (Sproat, 1992, pág. 88)30. 1.3. La morfotáctica del español Las secciones anteriores han permitido conocer el concepto de morfotáctica y algunas pos- turas que tratan de explicar su naturaleza. Indagaré ahora sobre el objeto de estudio de mi investigación: la morfotáctica del español. En primer lugar, hay que decir que el español puede concatenar un número conside- rable de afijos, como se puede ver en el ejemplo (1.5), aunque estas formas no son muy frecuentes. En el ejemplo hay dos prefijos unidos a una base, a la que después se unen tres sufijos. (1.5) Anti-re-elec-cion-ista-s Como se puede ver, para estudiar la morfotáctica es necesario conocer los elementos que se concatenan. Por tanto, describiré en seguida, de forma general, la morfología sufijal del español, ya que, como dije en la introducción de esta tesis, para mi investigación sólo tomaré en cuenta los sufijos. Los prefijos y otros fenómenos concatenativos se dejarán para trabajo futuro. 30 Una crítica extensa sobre esta postura teórica puede verse en el capítulo 7 de Katamba y Stonham (2006). 48 No intentaré hacer un estudio extenso y detallado de los fenómenos involucrados en la sufijación, ya que mi interés está únicamente en poner las bases para el desarrollo de mi trabajo. Por ello no abundaré ni en posturas teóricas ni en explicaciones semánticas. Trato, más bien, de dar una aproximación de lo que espero descubrir con el método automático, así que pondré especial énfasis en determinar cuáles son los segmentos morfológicos con los que se realizan los fenómenos flexivos y derivativos del español. 1.3.1. Morfología sufijal del español El español cuenta con diversos fenómenos morfológicos tanto concatenativos como no concatenativos, aunque indudablemente es una lengua predominantemente sufijal. Tanto la flexión como la derivación se dan por medio de la concatenación de segmentos finales. Es más, todas las marcas gramaticales, tanto verbales como nominales (género, número, tiem- po, modo, aspecto y persona) se realizan mediante sufijación, con excepción de algunos casos supletivos más o menos comunes (padre vs madre, soy vs fui). 1.3.1.1. Flexión La flexión es el fenómeno morfológico que modifica una palabra para crear paradigmas que permitan expresar variaciones funcionales o gramaticales de la palabra original. También se ha propuesto que la unidad que se flexiona no es la palabra sino el tema (Hockett, 1971; Pena, 1999) o el lexema (Stump, 1998). Los paradigmas flexivos suelen ser muy regulares en el sentido de que una palabra acepta todas las variantes morfológicas de un paradigma determinado, aunque existen ex- cepciones como los verbos que se conjugan sólo en algunas personas o la presencia de for- mas supletivas. También, se puede decir que las marcas flexivas de una palabra son obliga- 49 torias. Además, para hablar de flexión es común poner como condición que la palabra fle- xionada no cambie de categoría gramatical. En español existe tanto flexión nominal como verbal y ambas son realizadas me- diante la adición de sufijos. En los apartados subsecuentes esbozaré algunas características de estas flexiones. 1.3.1.1.1. Flexión nominal Las formas nominales en español presentan flexión de género y número. Por un lado, el número se expresa formalmente con la ausencia o presencia de los sufijos –s o –es, siendo un fenómeno morfológico con bastante regularidad. El género, por otro lado, no es tan re- gular y está asociado a los sufijos –a, –e, y –o (Ambadiang, 1999). El género Según Ambadiang (1999), en la flexión nominal de género es posible encontrar pa- res regulares (gato/gata), palabras que alternan sufijo pero que cambian semánticamente (manzana/manzano), unidades léxicas independientes (padre/madre), y palabras únicas que no tiene género opuesto (víctima). En el caso de pares semánticamente distintos, pero que alternan segmento final de género (manzana/manzano), éstos suelen analizarse como casos de derivación y no de fle- xión. De esta manera, la terminación –o de manzano sería un sufijo derivativo que formaría derivados con significado de “árbol que produce”. En el caso de los sustantivos animados, el género corresponde habitualmente con el sexo de los referentes (niño/niña). Si no se da esta correspondencia, la tendencia es encon- trar una sola forma ya sea femenina o masculina (víctima). 50 Aunque la correlación entre género gramatical y sexo del referente es bastante gene- ral, no existe una relación obligatoria. Se pueden encontrar sustantivos que pertenecen a un determinado género sin importar el referente (foca, piloto). En estos casos se suele marcar el género mediante una palabra adjunta (foca macho, la piloto). En términos generales, la asignación del género en los sustantivos inanimados se da con base en una organización en clases léxicas (Ambadiang, 1999, pág. 4854). Por ejemplo, los días, meses, años, siglos, idiomas, vinos y puntos cardinales son masculinos; mientras que las carreteras, horas, islas, montañas y letras del alfabeto son sustantivos femeninos. Claro que hay excepciones en esta organización, como en las estaciones del año: el invierno (masculino) y la primavera (femenino). En otros casos es posible encontrar pala- bras que mantienen su significado en ambos géneros (la azúcar/ el azúcar), las que pueden tener ambos géneros en singular, pero no en plural (el mar/la mar/los mares/*las mares)31, y las que cambian de significado con el cambio de género (la capital/el capital). Según Ambadiang (1999, pág. 4872), hay dos posturas para el análisis morfológico del género. La más restrictiva sólo considera que hay morfemas de género cuando se dan pares de palabras con alternancia de segmentos (desinencias) y estas conservan un solo significado (niño/niña). En los casos de pares con cambio de significado o formas léxicas independientes, los segmentos finales no son considerados morfemas, aunque éstos coinci- dan formalmente con las marcas prototípicas (naranja/naranjo, caballo/yegua). La otra postura, menos restrictiva, considera que el género puede presentarse me- diante diversas marcas, por lo que los segmentos –o, –e, –a y –Ø son considerados alomor- fos del morfema de género. Para efectos de mi investigación, asumiré esta postura y tomaré 31 Utilizo el asterisco (*) como marca de agramaticalidad. 51 a los segmentos –a, –e, –o como marcas de género. Con lo anterior esperaría que estos segmentos aparezcan en la morfotáctica generada automáticamente. El número El número se formula de manera muy regular en español. En el caso del singular no hay marca asociada, mientras que el plural se expresa con las terminaciones –s o –es. En cuanto a su semántica, el número no sólo significa una oposición cuantitativa (casa/casas), sino también una diferencia de intensidad (agua/aguas), cambio de matiz de significado (belle- za/bellezas) o no produce cambio (pantalón/pantalones) (Ambadiang, 1999, págs. 4886- 4889). La selección del segmento que marca plural se puede explicar por las siguientes re- glas. Si la palabra en singular termina en vocal no acentuada o –é, entonces se añade –s. Si la palabra en singular acaba en consonante distinta de –s o vocal acentuada seguida de –s entonces se añade –es. Si la palabra en singular termina en vocal no acentuada seguida de – s no hay cambio en plural. Finalmente, aunque la norma sea la adición de –es, los sustanti- vos terminados en vocal acentuada –í, –ú, –á y –ó presentan doble forma de plural, una con –s y otra con –es (colibrís, colibríes). Hay tres posturas que intentan explicar morfológicamente la presencia del segmento –es en los plurales del español (Ambadiang, 1999, pág. 4892). La primera toma este seg- mento como alomorfo de –s, la segunda propone el apócope de –e– en la forma singular, y la tercera plantea la epéntesis de –e– en el plural. En lo que respecta a los pronombres, sólo hay adjunción de –s en ella/ellas, la/las, le/les, lo/los. Por otro lado, la mayoría de los adjetivos posesivos, demostrativos y artículos 52 presentan plural regular. Además, la marcas de plural –es y –s aparecen en pronombres relativos, interrogativos, cuantificadores, conjunciones y números ordinales. Ya que el plural es muy regular en español, es de esperarse que la representación morfológica generada incluya ambos sufijos. 1.3.1.1.2. Flexión verbal Los verbos del español se agrupan en tres conjugaciones de acuerdo con la terminación de su infinitivo. La forma de infinitivo se ha utilizado tradicionalmente como representante de una conjugación o grupo de variantes de un verbo. Así, se tiene el grupo de verbos de la primera conjugación, que asocia infinitivos terminados en –ar (trabajar); el de la segunda conjugación, que incluye infinitivos terminados en –er (obtener); y los verbos de la tercera conjugación con infinitivos terminados en –ir (vivir). Según Alcoba (1999) es posible analizar la estructura del verbo en dos componentes principales. El primero es una parte invariable llamada raíz, que da el significado léxico. El segundo es una parte variable, formada por la vocal temática (VT) específica de cada con- jugación (–a–, –e–, –i–) y por la terminación o desinencia, constituida por los morfemas de tiempo-aspecto-modo (TAM) y número-persona (NP). Cabe resaltar que hay otras propues- tas sobre la estructura del verbo, también consignadas por Alcoba, que proponen más o menos los mismos constituyentes. Casos especiales son las llamadas formas no finitas o no personales del verbo: infi- nitivo, gerundio y participio. En éstas están presentes sólo la raíz verbal, la vocal temática y una marca específica para cada forma: –r para infinitivo, –ndo para gerundio y –do para participio. Según Alcoba (1999, pág. 4923) estas marcas deben considerarse flexivas, aun- que hay discusión al respecto. 53 Las variantes flexivas del verbo (conjugaciones) siguen patrones bastante regulares, de tal manera que pueden asociarse a tres modelos, uno para cada conjugación. A los ver- bos con este comportamiento se les llama verbos regulares. Existen también otros verbos, algunos de uso muy frecuente, que se comportan de manera irregular, esto es, que no siguen los patrones normales de conjugación. Estos son llamados verbos irregulares. Más allá de discutir una postura teórica que explique la estructura del verbo en es- pañol, mi objetivo es conocer algunas posibilidades de segmentación para compararlas con las que emerjan del corpus de estudio mediante el método automático. Por tanto, en seguida consigno dos propuestas de segmentación para verbos regulares de las tres conjugaciones. La primera es del Diccionario del Español de México (DEM)32 y la segunda es de Alcoba (1999). Tabla 1.1 Segmentación de verbos regulares del DEM y de Alcoba DEM ALCOBA 1ª conjug. AMAR 2ª conjug. COMER 3ª conjug. SUBIR 1ª conjug. CANTAR 2ª conjug. TEMER 3ª conjug. PARTIR INDICATIVO PRESENTE (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –o –o 2s –as –es –a–s –e–s 3s –a –e –a –e 1p –amos –emos –imos –a–mos –e–mos –i–mos 2p –an –en –a–n –e–n 2p –áis –éis –ís –á–is –é–is –í–s 3p –an –en –a–n –e–n 32 Diccionario del Español de México (DEM) http://dem.colmex.mx, El Colegio de México, A.C., [15 de noviembre de 2012] 54 Tabla 1.1 Segmentación de verbos regulares del DEM y de Alcoba (continuación) DEM ALCOBA 1ª conjug. AMAR 2ª conjug. COMER 3ª conjug. SUBIR 1ª conjug. CANTAR 2ª conjug. TEMER 3ª conjug. PARTIR PRETÉRITO (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –é –í –é –í 2s –aste –iste –a–ste –i–ste 3s –ó –ió –ó –ió 1p –amos –imos –a–mos –i–mos 2p –aron –ieron –a–ro–n –ie–ro–n 2p –asteis –isteis –a–ste–is –i–ste–is 3p –aron –ieron –a–ro–n –ie–ro–n FUTURO (amar–) (comer–) (subir–) (cant–) (tem–) (part–) 1s –é –a–ré –e–ré –i–ré 2s –ás –a–rá–s –e–rá–s –i–rá–s 3s –á –a–rá –e–rá –i–rá 1p –emos –a–re–mos –e–re–mos –i–re–mos 2p –án –a–rá–n –e–rá–n –i–rá–n 2p –áis –éis –a–ré–is –e–ré–is –i–ré–is 3p –án –a–rá–n –e–rá–n –i–rá–n COPRETÉRITO (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –aba –ía –a–ba –í–a 2s –abas –ías –a–ba–s –i–a–s 3s –aba –ía –a–ba –í–a 1p –ábamos –íamos –á–ba–mos –í–a–mos 2p –aban –ían –a–ba–n –í–a–n 2p –abais –íais –a–ba–is –í–a–is 3p –aban –ían –a–ba–n –í–a–n POSPRETÉRITO (amar–) (comer–) (subir–) (cant–) (tem–) (part–) 1s –ía –a–ría –e–ría –i–ría 2s –ías –a–ría–s –e–ría–s –i–ría–s 3s –ía –a–ría –e–ría –i–ría 1p –íamos –a–ría–mos –e–ría–mos –i–ría–mos 2p –ían –a–ría–n –e–ría–n –i–ría–n 2p –íais –a–ría–is –e–ría–is –i–ría–is 3p –ían –a–ría–n –e–ría–n –i–ría–n 55 Tabla 1.1 Segmentación de verbos regulares del DEM y de Alcoba (continuación) DEM ALCOBA 1ª conjug. AMAR 2ª conjug. COMER 3ª conjug. SUBIR 1ª conjug. CANTAR 2ª conjug. TEMER 3ª conjug. PARTIR SUBJUNTIVO PRESENTE (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –e –a –e –a 2s –es –as –e–s –a–s 3s –e –a –e –a 1p –emos –amos –e–mos –a–mos 2p –en –an –e–n –a–n 2p –éis –áís –é–is –á–is 3p –en –an –e–n –a–n PRETÉRITO (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –ara/ase –iera/iese –a–ra/–a–se –ie–ra/ie–se 2s –aras/ases –ieras/ieses –a–ra–s/–a–se–s –ie–ra–s/–ie–se–s 3s –ara/ase –iera/iese –a–ra/–a–se –ie–ra/ie–se 1p –áramos /ásemos –iéramos/iésemos –á–ra–mos/ –á–se–mos –ié–ra–mos/ –ié–se–mos 2p –aran/asen –ieran/iesen –a–ra–n/–a–se–n –ie–ra–n/–ie–se–n 2p –arais/aseis –ierais/ieseis –a–ra–is/–a–se–is –ie–ra–is/–ie–se–is 3p –aran/asen –ieran/iesen –a–ra–n/–a–se–n –ie–ra–n/–ie–se–n FUTURO (am–) (com–) (sub–) (cant–) (tem–) (part–) 1s –are –iere –a–re –ie–re 2s –ares –ieres –a–re–s –ie–re–s 3s –are –iere –a–re –ie–re 1p –áremos –iéremos –á–re–mos –ié–re–mos 2p –aren –ieren –a–re–n –ie–re–n 2p –areis –iereis –a–re–is –ie–re–is 3p –aren –ieren –a–re–n –ie–re–n IMPERATIVO (am–) (com–) (sub–) (cant–) (tem–) (part–) 2s –a –e –a –e 2s –e –a 2p –ad –ed –id –a–d –e–d –i–d 2p –en –an 56 Tabla 1.1 Segmentación de verbos regulares del DEM y de Alcoba (continuación) DEM ALCOBA 1ª conjug. AMAR 2ª conjug. COMER 3ª conjug. SUBIR 1ª conjug. CANTAR 2ª conjug. TEMER 3ª conjug. PARTIR NO PERSONALES (am–) (com–) (sub–) (cant–) (tem–) (part–) –ar –er –ir –a–r –e–r –i–r –ando –iendo –a–ndo –ie–ndo –ado –ido –a–do –i–do Considero que estas propuestas dan muestra de dos extremos. Por un lado, el DEM propone pocas segmentaciones ya que no descompone los elementos flexivos, lo que da como resultado que siempre haya dos segmentos. Además, en el caso del futuro de indicati- vo y del pospretérito, propone mantener completa la forma de infinitivo (amar-é, amar-ía). Por otro lado, Alcoba, como ya lo había mencionado, propone varios cortes que correspon- den a la separación de vocal temática, terminaciones de tiempo-aspecto-modo y termina- ciones de número-persona. 1.3.1.2. Derivación La derivación es el fenómeno morfológico que modifica una palabra para crear una nueva con un significado diferente y por lo general con una nueva categoría gramatical. De acuerdo con Pena (1999), la derivación se encarga de la generación de nuevos temas (uni- dades que queda después de eliminar los morfemas flexivos). En las siguientes secciones presento algunas generalidades sobre la derivación no- minal y verbal del español. Al igual que en la flexión, mi interés estará puesto en determi- nar los sufijos y su ordenamiento, ya que esperaría que ambos se reflejaran en la descrip- ción morfológica que generaré automáticamente. 57 1.3.1.2.1. Derivación nominal El estudio de la derivación nominal del español enfrenta algunos retos que presentaré de manera breve con el fin de entender la complejidad de este fenómeno morfológico. De acuerdo con Santiago y Bustos (1999, pág. 4507), estos problemas se presentan al tratar de determinar los siguientes aspectos de los sufijos derivativos: a) su inventario y característi- cas formales, b) su segmentación, c) sus fenómenos morfofonológicos, d) su semántica, e) sus alternancias y f) su variación dialectal. Según estos autores, no hay consenso en el inventario de sufijos derivativos nomina- les del español. Por un lado, hay sufijos que derivan tanto sustantivos como adjetivos, lo que dificulta proponer la separación entre derivación nominal y derivación adjetival. Por otro lado, no resulta sencillo determinar si algunos segmentos son sufijos independientes o alomorfos de un solo sufijo. Al respecto, hay dos posturas generales. La primera considera que hay sufijos distintos cuando se dan cambios formales. La segunda prefiere ver como alomorfos a los sufijos en distribución complementaria y parecido formal. Otros problemas se agregan cuando se trata de separar el sufijo de la base33. Éstos se pueden dar en casos donde los sufijos muestran diferencias formales mínimas con una dis- tribución dudosa o impredecible. También en derivados deverbales que producen indeci- siones; por ejemplo, si tomar la vocal temática como parte de la base o del sufijo. Final- mente, en situaciones donde la segmentación produce bases de derivación muy dudosas. Complicaciones adicionales al estudio de la derivación nominal presentan los fenó- menos morfofonológicos que se dan principalmente en la base, algunos de manera inconsis- tente. Ejemplos de estos son: monoptongaciones (sentimiento/sentimental), alternancias 33 Véase también Moreno de Alba (1986). 58 vocálicas (joven/juventud), perdida de vocal final (vano/vanidad) y alternancias consonán- ticas (público/publicidad), entre otros. Los últimos problemas que mencionan Santiago y Bustos (1999) tienen que ver con la inconsistencia en la asignación de contenido semántico por parte de los sufijos, muchas veces porque asignan contenido muy especializado. Además, la poca sistematicidad en la alternancia de sufijos, principalmente por la presencia de diferentes sufijos que asignan el mismo contenido semántico. Finalmente, la existencia de variaciones dialectales que afec- tan la productividad, la semántica y la selección de algunos sufijos. Considero que los problemas anteriores dan muestra, por un lado, de la complejidad de elaborar un método que descubra automáticamente el inventario de sufijos derivativos y, por otro, de que los resultados de un método automático no coincidirán completamente con el análisis humano. Por otro lado, si descubrir la lista de sufijos y su ordenamiento ya es complicado, intentar distinguir entre sufijos flexivos y derivativos lo es más, por lo que no trato este problema en mi investigación. Tomaré de Moreno de Alba (1986) su inventario de sufijos derivativos del español, ya que el estudio que hizo para obtenerlos se basa en corpus y en especial en uno de espa- ñol mexicano, lo que coincide con mi metodología de trabajo. La Tabla 7.1 del anexo A muestra la lista de sufijos, sus alomorfos, una brevísima descripción y un ejemplo tomado de su estudio. Este inventario de sufijos derivativos del español permite ver, al menos, dos pro- blemas con los que tendrá que lidiar el método automático. El primero es la diversidad de alomorfos de ciertos sufijos, por ejemplo –adura, –atura, –idura, –tura y –ura. Lo más pro- bable es que el método busque regularidades y no obtenga tanta variedad de sufijos. El se- gundo es la coincidencia formal entre ciertos sufijos derivativos y flexivos, piénsese en los 59 segmentos finales –ía, –aría, –o y –a. Éstos coinciden con marcas flexivas verbales y nomi- nales. 1.3.1.2.2. Derivación verbal En español se pueden derivar verbos de distintas categorías como: adjetivos (blan- co/blanquear), sustantivos (burbuja/burbujear), verbos (dormir/adormecer), pronombres (tú/tutear) y adverbios (adelante/adelantar). La derivación se puede dar por concatenación de sufijo o por adjunción de sufijo y prefijo, lo que se ha llamado parasíntesis (en-roj-ecer). Para mi investigación, como ya había mencionado, no tomaré en cuenta procesos parasinté- ticos del español. Tradicionalmente, se reconocen como sufijos derivadores de verbos a los siguientes: –ar, –ear, –ecer, –ificar e –izar (Serrano-Dolader, 1999; Beniers, 2004). Además, hay una serie de segmentos que pueden anteceder a los mencionados sufijos y que se unen a la base de derivación, como –et– en toquetear o –urr– en canturrear. Al respecto, Beniers (2004, pág. 143) los agrupa como alomorfos de un sufijo –VC. En seguida haré una breve descripción de los sufijos derivativos basándome en Be- niers (2004), quien realizó un estudio sobre el mismo corpus que utilizo en mi investiga- ción, el CEMC. Pondré énfasis en el aspecto formal, más que en el semántico, por la natu- raleza de mi investigación. El sufijo –ar genera verbos a partir de sustantivos, adjetivos y adverbios. Algunos de los fenómenos que ocurren en la base son: elisión de vocal final (adelante/adelantar) o cie- rre de vocal final (concepto/conceptuar). También se dan casos de producción de un verbo en forma transitiva e intransitiva (adelante/adelantar/adelantarse). Como dice Beniers (2004, pág. 72), este tipo de derivación produce vacilación en su direccionalidad, ya que es 60 igual de válido derivar sustantivos de verbos que verbos de sustantivos (¿abogar > aboga- do o abogado > abogar?). El sufijo –ear permite derivar verbos de sustantivos (boicot/boicotear), adjetivos (redondo/redondear) y verbos (bailar/bailotear). Entre los fenómenos morfofonológicos que ocurren se puede dar elisión de vocal (cábula/cabulear) y, al igual que para el sufijo – ar, el acento pasa a la marca de infinitivo (líder/liderear). En el caso del sufijo –ecer, se forman verbos preferentemente de adjetivos (cla- ro/esclarecer) y en menor medida de sustantivos (flor/florecer) y verbos (dor- mir/adormecer). El sufijo –ificar forma verbos de adjetivos (eléctrico/electrificar) y de sustantivos (código/codificar); también es común encontrar bases de derivación cultas, co- mo petrificar. Finalmente, -izar produce verbos a partir de sustantivos (mártir/martirizar), algunas veces con presencia de sufijo –AL (norma/normalizar); y también de adjetivos, muchos terminados en –al (vital/vitalizar). En estos tres sufijos también se da pérdida de vocal final de la base. 1.4. Procedimiento para determinar esquemas morfotácticos En Lara (2006) encontré una propuesta para determinar los esquemas morfotácticos de una lengua. Para este autor, estos esquemas son como los esquemas silábicos, es decir, “patro- nes canónicos” propios de una lengua. La propuesta para determinar el esquema morfotác- tico de una palabra es la siguiente (Lara, 2006, pág. 66): 61 (1.6) a) Segmentar la secuencia [de fonemas o letras] en morfemas. b) Probar la cohesión que hay entre ellos. c) Determinar el orden en que aparecen. Considero pertinente discutir esta propuesta para ver si es posible proponer un mé- todo automático que se base en ella. Por tanto, en los siguientes párrafos analizaré cada uno de los pasos. La segmentación de palabras en morfemas ha sido una de las tareas más importantes de los estudios morfológicos. Por su parte, la morfología computacional cuenta también con propuestas para descubrir morfemas de manera automática. Así, llevar a cabo el primer paso que propone el método de (1.6) es factible, por lo que en el capítulo 2 revisaré algunos métodos automáticos de segmentación morfológica. Para analizar el segundo paso (1.6b), es necesario entender el término cohesión. Al hablar de este término, Lara se refiere a “una especie de pegamento o 'glutinosidad'” (2006, pág. 67) entre morfemas. Esta idea de glutinosidad fue propuesta por Medina (2000; 2003). Para Lara, la cohesión se puede detectar al intentar insertar elementos entre ellos. Ésta pue- de ser alta, como sería entre la raíz verbal y la vocal temática del español, entre las cuales no es posible intercalar ningún segmento. También puede ser cohesión media, por ejemplo entre bases nominales y flexiones de género, ya que es posible insertar algunos morfemas derivativos (-it- o -uch-). Finalmente, la cohesión puede ser tan baja como entre palabras, aunque algunas tienden a aparecer muy pegadas con otras, como los clíticos. Es en el estudio de lenguas aglutinantes donde cobra mayor relevancia el análisis de cohesión entre morfemas y el descubrimiento de esquemas morfotácticos, ya que estas len- guas pueden encadenar grupos de alta cohesión (núcleos morfemáticos) para formar nuevos 62 significados34. Por otro lado, en lenguas como el español la tendencia es que las palabras tengan un solo núcleo morfemático. Si bien Lara habla de intercalar elementos para medir la cohesión entre morfemas, utilizaré para mi investigación un método automático que propone cuantificar esta glutino- sidad mediante el cálculo de ciertas medidas de afijalidad (Medina, 2000; 2003), el cuál revisaré en el capítulo 2. Es este método el que propone la idea de glutinosidad para referir- se a la fuerza de adhesión entre unidades lingüísticas. El último paso (1.6c) consiste en determinar el orden de morfemas en la palabra. Es- te orden sigue un esquema morfotáctico específico de la lengua, que forma parte de un con- junto de esquemas posibles. En morfologías concatenativas, estos esquemas describirían los morfemas que se prefijan y se sufijan a las bases. Lara (2006, pág. 81) propone los siguien- tes esquemas morfotácticos más frecuentes del español, véase (1.7). (1.7) Lexema ligado (raíz verbal) + gramema de persona: am+o. Lexema libre: ducha. Lexema ligado + gramema de género + gramema de número: niñ+o+s. Lexema ligado + gramema derivativo + gramema de género + gramema de núme- ro: niñ+it+o+s. Gramema preposicional + lexema ligado + gramema derivativo + gramema de género + gramema de número: anti+american+ist+a+s. Idear un método automático que ofrezca los resultados que propone Lara no es nada sencillo. Se requeriría distinguir entre morfemas libres y ligados, entre derivación y flexión, y entre categorías flexivas (nominales y verbales). Por eso, el método que propondré para inferir la morfotáctica involucrará sólo el análisis de segmentos, con la única distinción entre bases y sufijos. 34 En el capítulo 2 revisaré un método automático desarrollado para lenguas aglutinantes que preci- samente se preocupa por analizar la morfotáctica de cada palabra. 63 El método seguirá, en términos generales, la propuesta de Lara. Para los pasos uno y dos, utilizaré un método automático de segmentación morfológica que plantea calcular la glutinosidad como medida de adhesión entre segmentos mediante un índice de afijalidad. Este método lo explicaré en el capítulo 2, junto con otros métodos de segmentación. Luego, para el paso final de describir el ordenamiento, utilizaré un autómata de es- tados finitos. Este “dispositivo” abstracto, usado regularmente en la morfología compu- tacional, será descrito en el capítulo 3. Finalmente, a partir del autómata, será posible gene- rar una lista de patrones que describan la morfotáctica del español. Los llamaré patrones morfotácticos para distinguirlos de los esquemas morfotácticos de la propuesta de Lara. El siguiente capítulo estará dedicado al estudio de algunos métodos de segmenta- ción morfológica automática, dentro de los cuales se encuentra el método que utilizaré para realizar mi propuesta. 64 2. Métodos de segmentación morfológica automática El capítulo anterior me permitió definir mi objeto de estudio. Presenté primero la definición de morfotáctica y algunas posturas que tratan de explicar su naturaleza. Luego consigné datos sobre la morfología sufijal del español con el fin de conocer su morfotáctica y su in- ventario de sufijos. Al final, analicé un procedimiento para determinar esquemas morfotác- ticos que coincide con el método automático que propondré. Como se vio, para describir la morfotáctica del español es necesario identificar los segmentos morfológicos que forman las palabras. Por lo anterior, en este capítulo expondré algunas propuestas automáticas de segmentación morfológica. Pondré especial atención en propuestas no supervisadas, esto es, que requieran el mínimo de información lingüística a priori. Haré primero una revisión general sobre diversos métodos, para luego describir en detalle algunos de ellos. El primero es el método más referenciado en trabajos de segmen- tación automática no supervisada para lenguas flexivas. El segundo es un método desarro- llado para lenguas aglutinantes que toma en cuenta la morfotáctica de la palabra. El tercero es una propuesta de optimización con algoritmos genéticos. Finalmente, el cuarto es un método para cuantificar la fuerza de adhesión entre segmentos (glutinosidad). 65 2.1. Generalidades sobre los métodos de segmentación No han sido pocos los acercamientos con los que se ha abordado el problema de descubrir automáticamente unidades morfológicas en corpus, por lo que en esta sección brindo un panorama muy general sobre algunos de ellos y de las características que distinguen unos de otros35. La morfología computacional es el tratamiento de los fenómenos morfológicos de las lenguas naturales mediante procedimientos automáticos (simbólicos, estadísticos o una combinación de ambos). Dada la complejidad de la morfología, estos estudios son de diver- sa naturaleza. Por ejemplo, están aquellos cuyo fin es la generación de un conjunto de reglas de reconocimiento y generación de palabras. Otros estudios buscan encontrar reglas para ma- nipular los cambios en la morfofonología (morfofonémica) de los segmentos morfológicos. Un ejemplo más es el conjunto de estudios centrados en el descubrimiento de unidades morfológicas principalmente en lenguas de morfología concatenativa, como el inglés o es- pañol. Es en este último grupo de estudios que se centra mi trabajo. 35 Para leer sobre otros métodos de segmentación morfológica automática no considerados en este apartado pueden consultarse las siguientes fuentes. En Medina (2003) hay una revisión de las primeras pro- puestas de métodos automáticos desde la de Harris. En los artículos de Creutz y Lagus (2002; 2004; 2005) y Creutz, (2003) se revisan, aunque brevemente, distintos métodos contemporáneos. Goldsmith (2010) ofrece una revisión más amplia de diversos métodos en el marco de la segmentación morfológica general. Finalmen- te, Hammarström y Borin (2011) ofrecen un estudio comparativo de casi 200 métodos de segmentación mor- fológica no supervisada desde el método de Harris. 66 En términos generales, el descubrimiento de unidades morfológicas se lleva a cabo mediante un procedimiento de segmentación. Es decir, tomar decisiones sobre dónde cortar una cadena hablada o una cadena de texto. Las dos unidades que se descubren son: palabras y morfos36. Por un lado, el descubrimiento de palabras cobra relevancia en leguas escritas que no usan espacios entre palabras o en la segmentación de discurso hablado (cadenas de fonemas o fonos). Por otro lado, los morfos se descubren a partir de las palabras ya identifi- cadas en un texto. Para visualizar el alcance y las limitantes de los procedimientos de segmentación automática, conviene recordar la amplia diversidad de fenómenos morfológicos en las dis- tintas lenguas humanas. Esto conlleva que no serán las mismas estrategias las que se tomen en lenguas de poca morfología, que en lenguas aglutinantes donde el encadenamiento de unidades puede ser considerable, véase un ejemplo del turco en (2.1) tomado de Sproat (1992, pág. 20). (2.1) çöp+lük+ler+imiz+de+ki+ler+den+mi+y+di gargabe+AFF+PL+1P/PL+LOC+REL+PL+ABL+INT+AUX+PAST ‘was it from those that were in our garbage cans?’ Existen métodos computacionales que utilizan recursos lingüísticos prefabricados que incluyen el análisis morfológico de un humano (métodos supervisados). Estos se con- traponen a los métodos donde no hay recursos de ese tipo y el mismo método propone cier- to análisis a partir del mínimo de información lingüística a priori (métodos no supervisa- dos). Para esta tesis, los segundos son fundamentales. 36 Hockett (1971) propone el término morfo como la representación de un morfema. En lingüística computacional, se ha adoptado este término como la realización gráfica (ortográfica) de un morfema (Sproat, 1992, pág. 247). 67 Ejemplo del primer tipo de métodos es el trabajo de Sproat et al. (1996), quienes propusieron un método para segmentar, en palabras, textos de caracteres chinos. Recuér- dese que el chino o el japonés no utilizan espacios para delimitar palabras escritas. Por el contrario, en lenguas como el español es posible utilizar el espacio y los signos de puntua- ción como marcadores de segmentación de palabras, aunque con esto no todos los proble- mas estén resueltos37. Como anotan estos autores, la segmentación de palabras depende del sistema de es- critura de la lengua. En algunas, como el español, se tendrá la posibilidad de hablar de pa- labras ortográficas (separadas por espacio o signos), en otras no, como el chino. Por tanto, el problema de segmentar palabras en chino es más difícil que en español. Su método está basado en una lista de palabras y afijos creada manualmente y mo- delada (representada) como un transductor de estados finitos38. La secuencia de símbolos chinos (hanzis) a segmentar se modela con un autómata de estados finitos (un aceptador, computacionalmente hablando). Para la segmentación, un procedimiento transforma el au- tómata aceptador en transductor cuya ruta menos costosa es la segmentación propuesta co- mo correcta. Otra propuesta que incluye recursos hechos a mano es la de Teahan et al. (2000), también para la segmentación de palabras en chino. Estos autores utilizan un corpus seg- mentado previamente por un humano. El procedimiento de segmentación está basado en 37 Piénsese en las abreviaturas, cantidades o cifras, contracciones, etcétera. 38 El concepto de transductor de estados finitos está basado en el concepto de autómata de estados fi- nitos, que explicaré en el capítulo 3. Por ahora puedo adelantar que un autómata es una representación de una cadena de símbolos (lenguaje). El transductor representa pares de símbolos que se corresponden, algunas veces por reglas lingüísticas que convierten un símbolo en otro. 68 crear un modelo de compresión de texto que se utiliza para insertar espacios en el corpus a segmentar. Es cierto que, como dicen estos autores, lo único necesario para contar con un seg- mentador para otra lengua es otro corpus segmentado, ya que el procedimiento de segmen- tación sería el mismo, pero estos recursos no abundan ni son fáciles de conseguir o adaptar. Cada día hay más corpus etiquetados de más lenguas, pero las diferencias en los criterios de constitución y etiquetado pueden llegar a dificultar su adopción. Además, existen lenguas de bajos recursos computacionales, como muchas lenguas mexicanas, de las que no se cuenta con corpus electrónicos en particular porque no tienen sistema de escritura. He mencionado dos métodos para segmentar palabras a partir de un corpus. Pero son de mayor interés para mi investigación los métodos para segmentar palabras en morfos. A propósito de ellos, es importante decir que la gran mayoría se ha desarrollado para len- guas de morfología concatenativa relativamente simple, como el inglés. En este capítulo también tomaré en cuenta métodos desarrollados para lenguas como el español, que tiene una morfología flexiva más compleja que la del inglés, y un método desarrollado para len- guas aglutinantes para llevar esta investigación a un extremo interesante. Los métodos de segmentación morfológica pueden obtener, en términos generales, dos salidas. La primera es una lista de bases y afijos (comúnmente llamado lexicón de mor- fos39) donde se pierde la relación de qué afijos pertenecen a qué bases. La segunda es una descripción morfológica, que puede incluir paradigmas de bases y afijos, o la morfotáctica 39 Utilizaré el término lexicón en sentido computacional para referirme a la lista de bases y afijos uti- lizada para procesamiento automático. 69 de cada palabra. Cuando la descripción incluye una morfotáctica, ésta puede tener los si- guientes niveles de detalle40: (2.2) a) prefijo–base–sufijo b) (prefijo*–base–sufijo*)+ La primera representación (2.2a) es la que comúnmente obtienen los métodos auto- máticos que se han desarrollado para lenguas flexivas con poca morfología, como el inglés, o con más morfología como el español o el francés. Lo que me gustaría resaltar es que estos métodos sólo cortan dos veces la palabra, una para determinar un prefijo y otra para deter- minar un sufijo, por lo que pueden obtener resultados como los siguientes (para una palabra del español y otra del francés), tomados de Goldsmith (2001, págs. 180-181): aconteci- miento-s y abolitionniste-s, donde no hay separación de los sufijos derivativos. La otra representación (2.2b) se ha obtenido principalmente para lenguas aglutinan- tes donde se puede encontrar un conjunto de prefijos unidos a una base seguida de varios sufijos y todo esto seguido de otra base con sus respectivos afijos. Esta descripción también sería necesaria para lenguas como el español con la idea de obtener varios sufijos por pala- bra (acontec-imiento-s) o en compuestos morfológicos como saca-corcho-s. Este último nivel de detalle es más complejo porque conlleva cierta jerarquía de elementos que indique qué afijo corresponde a qué base, por ejemplo [saca-[[corcho]-s]]41. Es posible clasificar los distintos métodos de segmentación morfológica por la estra- tegia principal que utilizan; aunque algunos son realmente una combinación de varias estra- 40 En esta notación utilizada en la representación de lenguajes regulares, el asterisco ‘*’ significa que el término anterior se repite cero o más veces y el signo ‘+’ que se repite una o más veces (Karttunen, Chanod y Grefenstette, 1996, pág. 308; Hopcroft, Motwani y Ullman, 2001) 41 Véase Val Álvarado (1999, págs. 4788-4799) para una descripción de este tipo de compuestos. 70 tegias. Primero están los métodos basados en un conteo de letras anteriores y posteriores a una posible segmentación. Harris (1955) propone este método y se convierte en el primer método no supervisado de segmentación morfológica42. El método se basa en contar la variedad de fonemas potenciales anteriores y poste- riores a un posible corte morfológico (se prueban todos los posibles cortes de una palabra). Entre más variedad de fonemas potenciales, mayor la probabilidad de una frontera morfo- lógica, ya que esa variedad representa mayor incertidumbre (Harris, 1955). Otros métodos basados en el método de Harris son los de Déjean (1998), Ando y Lee (2000) y parte del de Goldsmith (2001). También se pueden encontrar métodos basados en similitud semántica (Schone y Jurafsky, 2000; 2001), que utilizan la propuesta llamada Semántica Latente, y otros basados en similitud ortográfica (Neuvel y Fulop, 2002; Baroni, Matiasek y Trost, 2002). Otro tipo de métodos engloba un conjunto bastante grande de propuestas para crear modelos probabi- lísticos. La siguiente lista muestra algunos ejemplos de estos trabajos:  Longitud de descripción mínima (Deligne y Bimbot, 1997; De Marcken, 1995; Creutz y Lagus, 2002; 2005; Kit y Wilks, 1999; Goldsmith, 2001).  Entropía del modelo morfológico (Redlich, 1993).  Probabilidad máxima (Maximum Likelihood) (Creutz y Lagus, 2002).  Modelos bayesiano (Brent, 1999; Creutz, 2003; Creutz y Lagus, 2004). Finalmente también hay métodos de optimización del modelo morfológico (Gelbukh, Alexandrov y Han, 2004; Gelbukh et al. 2008; Lara Reyes, 2008). En las si- 42 Harris propone también distintas variantes del método que no describiré, como contar los distintos fonemas una y dos posiciones antes del posible corte. 71 guientes secciones profundizaré en algunos de estos métodos con el fin de compararlos con el método que utilicé en mi trabajo de investigación. 2.2. Linguistica En este apartado describiré con detalle el algoritmo para segmentación morfológica que propone Goldsmith (2001; 2006; 2010). Este algoritmo fue implementado en un programa de computadora llamado Linguistica y hoy en día es comúnmente usado como estándar de comparación (gold standard) para trabajos de segmentación morfológica del inglés y otras lenguas. El trabajo de Goldsmith, a decir de él mismo, tiene dos objetivos. Un objetivo prác- tico que consiste en contar con un analizador morfológico para varias lenguas que pueda ser usado en tareas como recuperación de documentos o traducción automática. También tiene un objetivo teórico que es conocer cuánta información a priori requiere un dispositivo (programa) de inducción de morfología capaz de hacer un análisis sobre la estructura del lenguaje muy cercano al que haría un lingüista. Para comenzar a entender su método de descubrimiento morfológico, se puede decir que lleva a cabo dos grandes pasos: 1. Utilizar un conjunto de heurísticas para proponer segmentaciones. 2. Evaluar el proceso de segmentación con el modelo de Longitud de Descripción Mí- nima (Minimum Description Length, MDL). Para el primer paso, utiliza dos tipos de heurísticas. Las primera son heurísticas “de fuerza bruta” (bootstraping), que proponen segmentaciones de palabras en bases y afijos. Las segundas son heurísticas que este autor llama incrementales, éstas proponen modifica- 72 ciones a las primeras segmentaciones. Luego, de acuerdo con una evaluación con base en el modelo MDL, se decide cuáles modificaciones se aceptan y cuáles se rechazan. El modelo MDL, adaptado al problema de segmentación morfológica, establece una medida de longitud de descripción del corpus (C) tomando en cuenta un modelo morfológi- co probabilístico (M). Dicha descripción se obtiene mediante la suma de la longitud del modelo morfológico más la longitud de la compresión del corpus. La manera de calcular la longitud de descripción mínima se puede ver en la ecuación (2.3), tomada de Goldsmith (2006, pág. 355). ( ) ( ) ( ) (2.3) Como puede verse, la longitud de compresión del corpus se calcula mediante el lo- garitmo base 2 del recíproco de la probabilidad asignada al corpus (C) dado el modelo mor- fológico (M). Entre más alta sea la probabilidad condicional de que la morfología describa al corpus, prob(C|M), mejor será la morfología como modelo, pero ya que se utiliza el recí- proco, entonces el número menor será indicador del mejor modelo morfológico. En resumen, la morfología M que minimice la función de (2.3) es la mejor morfolo- gía del corpus. El primer término de esa función expresa qué tan compacta es la morfología y el segundo expresa qué tan bien esa morfología describe al corpus en cuestión. Para determinar la longitud de la morfología, Goldsmith usa tres elementos que se generan automáticamente mediante las heurísticas antes mencionadas:  La lista de bases.  La lista de afijos. 73  La lista de estructuras combinatorias (signatures) que almacenan qué bases pueden aparecen con qué afijos. En la Figura 2.1 se puede ver un ejemplo de una de estas estructuras combinatorias. Así, parte del tamaño del modelo morfológico está basado en el cálculo de los apuntadores que asocian los afijos y las bases. { } { } Figura 2.1. Estructuras combinatorias (signatures) Tomada de Goldsmith (2006, pág. 355) El método de Goldsmith determina segmentaciones iniciales mediante las siguientes heurísticas:  Método de Harris usando sólo los sucesores frecuentes.  Búsqueda de estructuras combinatorias entre los segmentos propuestos por el méto- do de Harris. La idea de usar los sucesores frecuentes consiste en contar el número de letras dis- tintas que aparecen inmediatamente después de un segmento. Entre más sucesores, mayor es la probabilidad de una segmentación. Por ejemplo, en (2.4a) el número de sucesores fre- cuentes después del segmento gover- es de uno (sólo la letra n). En cambio, después del segmento govern- hay seis: e, i, m, o, s, espacio/signo (2.4b). (2.4) a) gover-n, gover-ned, gover-ning, gover-nment, gover-nor, gover-ns. b) govern, govern-ed, govern-ing, govern-ment, govern-or, govern-s. Goldsmith restringe el método de Harris para segmentar sólo cuando se propongan bases de tres o más letras y cuando el valor del sucesor frecuente de la letra anterior y pos- 74 terior sea exactamente igual a 1. Una vez obtenidos dos segmentos por palabra se forman estructuras combinatorias tomando el primer segmento como base y el segundo como sufi- jo. En seguida se filtran algunas de estas estructuras de acuerdo con los siguientes criterios:  Se aceptan las estructuras donde los sufijos aparezcan en por lo menos tres palabras.  Se aceptan las estructuras con más de 25 bases asociadas.  Si las estructuras tienen menos de 25 bases, se aceptan aquellas con al menos dos sufijos de al menos dos letras de longitud. El siguiente paso es revisar las estructuras para evaluar si es posible pasar letras fi- nales de las bases a los sufijos. Para saber cuántas letras pasar, se calcula la entropía de los segmentos finales no mayores de cuatro letras. Cualquier cambio en las segmentaciones es evaluado mediante el modelo MDL. Después se llevan a cabo más ajustes a las segmentaciones:  Se revisan las bases para saber si alguna puede segmentarse usando las bases y sufi- jos ya descubiertos.  Se revisan bases y sufijos para determinar más estructuras combinatorias.  Se toman palabras que comiencen con las bases determinadas y se establecen los segmentos finales como sufijos si aparecen en al menos tres palabras.  Se toman las palabras que terminan con los sufijos descubiertos, los segmentos ini- ciales se establecen como bases si forman con el sufijo una estructura combinatoria ya existente. Cuando no forman una estructura se evalúa la aceptación del segmento como base si disminuye la longitud de descripción del modelo. Finalmente, se buscan alomorfos de bases ya descubiertas usando dos procedimien- tos. El primero es buscar alomorfos que cambien sólo por la pérdida de la letra vocal final 75 (lov-/ love-). El segundo es buscar alomorfos donde uno de ellos sufra cambio en la letra vocal final, por ejemplo y > i. Sobre la evaluación, el método obtuvo 72% de exactitud (ac- curacy) en las primeras 300,000 palabras del corpus Brown. Llama la atención de este método el uso de las estructuras combinatorias (signatu- res) para validar las segmentaciones. Esto ayuda a que los segmentos propuestos por el método sean morfológicamente más pertinentes, ya que su pertenencia a una de estas es- tructuras resalta su carácter combinatorio. También resulta interesante cómo esta propuesta trata el problema de descubrir la morfología de una lengua como la búsqueda de un conjunto “óptimo” de bases, afijos y estructuras combinatorias; sin embargo, esta estrategia conlleva la presuposición de que existe una morfología única e ideal a la que el método aspira a llegar, lo cual es discutible. 2.3. Morfessor Morfessor es el nombre que Creutz y Lagus (2005) le dieron a un conjunto de métodos que han desarrollado al menos desde al año 2002 para segmentar palabras del finlandés en mor- fos. En esta sección reviso estos métodos ya que, como lo he mencionado, estudiar la seg- mentación automática en una lengua aglutinante permite tener una perspectiva más amplia de la complejidad computacional del problema a resolver. Además, algunos de estos méto- dos toman en cuenta la morfotáctica de la palabra. Los dos métodos desarrollados inicialmente por estos autores son llamados morfes- sor baseline (Creutz y Lagus, 2002; Creutz, 2003). El primero está basado en la generación de una lista de morfos (lexicón) a partir de segmentaciones aleatorias de las palabras y eva- luadas por funciones de costo. El menor costo de una función significa el lexicón más com- pacto que mejor describe el corpus. 76 El segundo consiste en generar un lexicón de un corpus de entrada y generar un cor- pus artificial a partir de este lexicón mediante procedimientos probabilísticos. Cada palabra del corpus artificial es segmentada n veces hasta que el corpus generado es exactamente el corpus de entrada. El tamaño del lexicón de morfos, la longitud de cada uno de ellos, los caracteres que los forman, su orden y su frecuencia intervienen en el cálculo de funciones de probabilidad. Sus resultados para el inglés, comparados con Linguistica, fueron peores o semejantes. Por otra parte, en finlandés estos métodos superaron al método de Goldsmith. Según los autores, uno de los problemas de estos métodos es que palabras muy fre- cuentes quedan sin segmentar y las poco frecuentes muy segmentadas. Esto se debe princi- palmente a que al poner la palabra más frecuente de manera completa en el lexicón se logra el menor costo. Es importante mencionar que el lexicón es plano, en el sentido de que no refleja la estructura interna de las palabras, por ejemplo, qué sufijo pertenece a qué base. El siguiente método propuesto por Creutz y Lagus (2004) es llamado morfessor ca- tegories-ML. Usa probabilidad máxima (Maximun Likelihood , ML) y asocia los morfos a tres categorías: prefijos, sufijos y bases. En este método se descubre una morfotáctica gra- cias a las transiciones de una categoría a otra. Al reflexionar en la complejidad del finlandés, decidieron analizar la palabra como una combinación de bases y afijos alternando libremente, y resolvieron tomar en cuenta dependencias en la secuencia de los morfos (morfotáctica). Se basan en tres supuestos: a) Los morfos pueden pertenecer a tres categorías: bases, prefijos y sufijos. b) No se pueden tener ciertas secuencias como sufijo a inicio de palabra, prefijo a final de palabra y prefijo seguido de sufijo sin pasar por una base. c) Las categorías tienen ciertas características: 77 i. Lo afijos tienen información sintáctica, son de propósito general. Éstos son usados con un gran número de otros morfos. ii. Las bases tienen información semántica y forman un conjunto más grande que el de los afijos. iii. Las bases no son muy cortas con el fin de distinguirse unas de otras. Para asignar probabilidades a cada posible segmentación de una palabra utilizaron modelos ocultos de Markov43. La probabilidad de una segmentación para una palabra w en varios morfos µ1µ2…µk está dada por la fórmula de (2.5), tomada de Creutz y Lagus (2004, pág. 45). ( ) [∏ ( ) ( ) ] ( ) (2.5) En la fórmula anterior, ( ) expresa la probabilidad de transición de la cate- goría de un morfo a la siguiente. Además, la probabilidad de un morfo µ i dada una catego- ría para ese morfo está expresada por ( ). Finalmente, representa el final de palabra, por lo que ( ) expresa la probabilidad de transición de la categoría del último morfo hacia el final de la palabra. En resumen, la probabilidad de una segmentación está dada por el producto de las probabilidades de transición entre categorías, desde el inicio de palabra, , hasta el final de palabra, , y la probabilidad de que cierta categoría se asigne a cada morfo. 43 Un modelo oculto de Markov es un autómata de estados finitos cuyas transiciones tienen asignadas probabilidades (Charniak, 1996, pág. 32). 78 Una característica interesante del método (y del finlandés) es que permite que un morfo pueda funcionar como base o como afijo dependiendo de la palabra44. En seguida pongo los pasos generales del procedimiento de segmentación: a) Segmentación inicial con el método de Creutz y Lagus (2002). b) Dada la segmentación anterior se asignan las categoría más probables: i) Prefijo, si es difícil predecir el siguiente morfo usando la medida de perpleji- dad45. ii) Sufijo, si es difícil predecir el anterior morfo usando la medida de perplejidad. iii) Base, mediante una función basada en la longitud en letras. iv) Se agrega la categoría ruido (noise) para morfos que no caen en ninguna de las anteriores. c) Se segmentan palabras formadas por otros morfos ya descubiertos, excepto: i) Si se segmenta en morfos ruido. ii) Si es una secuencia de categorías no permitida. iii) Si los segmentos tienen baja probabilidad. d) Se eliminan los morfos ruido. Se unen al morfo adyacente, prefiriendo: i) Morfos pequeños. ii) Morfos ruido. iii) Bases. 44 Según estos autores pää es prefijo en la palabra ‘pää+aihe+e+sta’ y base en ‘pää+hän’ (Creutz y Lagus, 2004, pág. 49). 45 La perplejidad es una medida basada en la entropía cruzada (cross entropy). En palabras de Manning y Schütze “a perplexity of k means that you are as surprised on average as you would have been if you had had to guess between k equiprobable choices at each step” (1999, pág. 78). 79 Para evaluar el método, compararon sus resultados con los de un corpus segmentado con un analizador morfológico hecho manualmente. Para el finlandés este método resultó mejor que el método del 2003 y que Linguistica de Goldsmith. Sus resultados fueron del 79% de precisión para 16 millones de palabras en finlandés. Según los autores, el método disminuyó errores gracias a la concatenación de mor- fos ruido, a la resegmentación de palabras con morfos ya descubiertos y al uso de catego- rías. Sin embargo, generalizó y segmentó sufijos donde no había. Un ejemplo de segmenta- ción y de asignación de categorías para una palabra del finlandés puede verse en (2.6), ba- sado en Creutz y Lagus (2004, pág. 49). (2.6) bahama – saar – et BASE – BASE – SUFIJO Bahama – isla – PL. ‘Islas Bahamas’ El último método propuesto por estos autores, morfessor categories-MAP (Creutz y Lagus, 2005), usa el enfoque de Máximo a Posteriori (MAP), equivalente al modelo de Longitud de Descripción Mínima descrito en el apartado (2.2). Algunas características im- portantes del método son que genera un lexicón jerárquico, donde cada palabra está forma- da por cadenas de caracteres o por morfos, que a su vez pueden estar formados recursiva- mente por otros morfos. Nuevamente se toma en cuenta una representación de la morfotáctica de las pala- bras, ya que cada una se representa como un modelo oculto de Markov que incluye cuatro categorías de morfos: prefijo (PRE), sufijo (SUF), base (STM) y no-morfema (NON). Este método propone encontrar, mediante funciones de probabilidad, el mejor lexi- cón de morfos, esto es, el conjunto más compacto de morfos que describa lo mejor posible 80 al corpus. El problema entonces se puede ver como la búsqueda de un lexicón que maximi- ce la probabilidad condicional ( ), esto es, la probabilidad de un lexicón dado en corpus. La ecuación de (2.7), tomada de Creutz y Lagus (2005), expresa el cálculo de esta probabilidad donde indica que se buscan los valores que maximicen las probabilidades. ( ) ( ) ( ) (2.7) Por una parte, la probabilidad de que el corpus sea descrito por el lexicón, ( ), se obtiene de los modelos ocultos de Markov que representan la mor- fotáctica de las palabras del corpus de entrada. Por otra parte, la probabilidad del lexicón de morfos, ( ), se determina a su vez por dos probabilidades que, a grandes rasgos, intentan describir la forma y “significado” de los morfos. La forma se describe mediante la probabilidad de que el morfo esté formado de le- tras o de que esté formado por submorfos. El “significado” se describe mediante las proba- bilidades de la frecuencia del morfo, su tamaño en letras y la perplejidad a su izquierda y derecha (qué tanto se puede predecir el morfo anterior o siguiente). Como reportan los autores, este método superó bastante los resultados de Linguisti- ca para el finlandés y logró rebasar sus métodos anteriores (morfessor baseline y morfessor categories-ML). Un ejemplo de la segmentación para la palabra finlandesa “oppositio- kansanedustaja” (miembro del parlamento de la oposición) se puede ver en la Figura 2.2. 81 Figura 2.2 Ejemplo de segmentación del método morfessor categories-MAP Tomado de Creutz y Lagus (2005, pág. 108) Una diferencia interesante entre las primeras propuestas de estos autores (morfessor baseline) y las últimas (morfessor categories) es la incorporación de características lingüís- ticas. Las primeras trataron el problema del descubrimiento morfológico solamente como un proceso de encontrar un lexicón compacto de segmentos aleatorios, lo que no dio buenos resultados. Después, en las últimas propuestas, a los segmentos aleatorios se les ve como parte de una morfotáctica, lo que mejora los resultados. También se formulan probabilísticamen- te algunas características lingüísticas de los morfos, como su tamaño, su contenido de in- formación (semántica o gramatical) y su nivel combinatorio; aspectos que también benefi- cian al método. Es interesante que los resultados finales reflejen la complejidad morfológi- ca de una lengua aglutinante. 2.4. Optimización mediante algoritmos genéticos En esta sección describo, a grandes rasgos, un método que asume el problema de segmenta- ción morfológica como un problema de optimización para el cual utiliza un algoritmo gené- tico. 82 Gelbukh, Alexandrov y Han (2004) proponen este método para determinar segmen- tos flexivos de lenguas sufijales como el español o el inglés. Se basan en la idea de obtener un modelo morfológico óptimo, cuya principal característica es la de contar el mínimo nú- mero de bases y sufijos capaces de describir el corpus de análisis (prefiriendo un conjunto menor de sufijos que de bases). Toman dos hipótesis de partida: (i) las palabras del corpus se forman de dos segmentos, una base y un sufijo, y no se toma en cuenta ningún otro tipo de fenómeno morfológico; (2) para el aprendizaje de una lengua se requiere del mínimo esfuerzo, por lo que se requiere del mínimo número de bases y sufijos. Definen tres conjuntos, V para el conjunto de palabras, S para el conjunto de bases y E para el conjunto de segmentos finales. La idea es entonces buscar el mínimo tamaño de S+E, prefiriendo los casos donde E es menor. Utilizan la estrategia de algoritmos genéticos46 para encontrar el mejor grupo de ba- ses y sufijos. En términos generales, forman cadenas binarias (cromosomas) que indican la ausencia (0) o presencia (1) de una base o sufijo. El tamaño del cromosoma es igual al ta- maño de S+E. La función a minimizar en cada mutación se puede ver en (2.8), tomada de Gelbukh, Alexandrov y Han (2004, pág. 436). 46 Como método computacional, los algoritmos genéticos simulan el proceso de evolución de los or- ganismos vivos con la idea de resolver problemas de diversa índole. Una de sus características principales es la búsqueda de una solución a partir de la exploración de una enorme cantidad de posibles soluciones (Holland, 1992). Éstas se representan como cadenas de ceros y unos, así el objetivo se vuelve la búsqueda de una cadena particular. Estas cadenas pueden verse como cromosomas formados de secuencias de genes que representan individuos de una población. Para explorar diversas soluciones (crear nuevas generaciones de individuos), las cadenas son modificadas repetidamente mediante operaciones de mutación, cruza y reproduc- ción. Una función matemática de aptitud o idoneidad (fitness) selecciona sólo algunas cadenas para producir la siguiente generación. El procedimiento se detiene cuando se ha llegado a un estado deseable, por ejemplo, que la función ya no se pueda minimizar más. 83 ( ) (2.8) En la fórmula anterior, representa el número de bases, representa el número de segmentos finales y la expresión ( ) representa el número de palabras de V que no fueron segmentadas dados los elementos de S y E (donde el símbolo indica dife- rencia de conjunto). Para dar preferencia a un conjunto más pequeño de elementos de E, se utiliza el producto . Los resultados de este método fueron prometedores. Posteriormente se hicieron modificaciones a este método y se realizaron nuevos ex- perimentos (Lara Reyes, 2008). Uno de ellos fue con palabras desprovistas de marcas flexi- vas, con el objeto de encontrar sufijos derivativos (Gelbukh et al., 2008). En este nuevo experimento, la principal modificación al método fue la búsqueda de paradigmas de sufijos. En el primer paso del nuevo método se obtiene una lista de bases y sufijos. Además, se determinan todos los paradigmas posibles, esto es, grupos de sufijos que acompañan a varias bases. Luego, se eliminan de la lista inicial los sufijos que no sean parte de algún paradigma de al menos dos elementos o cuando pertenezcan a un paradigma de baja fre- cuencia. En cuanto al uso del algoritmo genético, este método incluyó básicamente los mismo pasos que el anterior. En una comparación manual de cien tipos de palabras del español segmentadas con este método y con el método de Goldmith, se obtuvieron resultados muy similares: 84% de precisión para este método contra 87% de precisión de Linguistica. Uno de los aspectos más interesantes de la propuesta presentada en esta sección es cómo se adoptó un procedimiento computacional que simula la evolución de los seres vivos al problema del análisis morfológico de una lengua. Desafortunadamente, ya que un algo- 84 ritmo genético explora una enorme cantidad de posibles soluciones, llegar a la solución final suele tomar bastante tiempo. También se puede resaltar que el primer acercamiento de este método intentó des- cubrir la morfología sólo a partir del tamaño de los conjuntos de bases y sufijos. Lo anterior conlleva ver a la morfología sólo como un conjunto mínimamente redundante de morfemas. Esta idea no es el mejor, ya que la morfología de una lengua natural, además de la econo- mía, también involucra aspectos combinatorios. Esto se reflejó en los últimos experimentos realizados por los autores, en los cuales se utilizaron combinaciones de bases y sufijos para validar segmentaciones. 2.5. Índice de afijalidad Esta sección está dedicada al método que utilizaré para realizar mi investigación. Es un método no supervisado que obtiene una lista de bases y afijos (prefijos y sufijos) a partir de un corpus. Considero que es una buena opción para el desarrollo de mi propuesta ya que cuenta con las siguientes características: no es supervisado, está basado en conceptos y ca- racterizaciones lingüísticas, fue probado en español, y obtuvo buenos resultados incluso en otras lenguas no emparentadas al español. Medina (2000; 2003) propone este método no supervisado de segmentación morfo- lógica basado en la cuantificación de qué tan gramatical es una unidad lingüística. Una uni- dad es más gramatical si aporta más estructura que significado a la lengua. Al interior de la palabra, las unidades más gramaticales son los afijos, al exterior son principalmente las conjunciones, preposiciones, pronombres (especialmente los clíticos) y artículos. Para medir que tan gramatical es un segmento al interior de la palabra, ese autor propone cuantificar su afijalidad. Para el exterior, propone calcular la cliticidad de las pala- 85 bras. Según su propuesta, ambas medidas pueden entenderse como caracterizadoras de una misma fuerza de adhesión entre unidades lingüísticas: la glutinosidad. Ya que mi investiga- ción involucra sólo la segmentación de palabra en unidades más pequeñas, tomaré de su propuesta la parte que corresponde a la cuantificación de la afijalidad. Para obtener una medida de afijalidad, Medina propone cuantificar tres característi- cas de un afijo. Así, se espera que los afijos de una lengua tengan mayor afijalidad que las bases. Ya que la glutinosidad indica qué tanto se adhieren dos segmentos, habría mucha glutinosidad entre una base y un sufijo. Al interior de las bases cabe esperar la máxima glu- tinosidad posible. Las características cuantificadas de los afijos son: (i) no ocurren aislados, sino como parte de las palabras, (ii) ocurren en contextos similares y se combinan con bases de relati- va baja frecuencia, y (iii) tienen contenido más gramatical. Para cuantificar la característica (i) se utiliza una medida de cuadros, para la (ii) se usa una medida de economía, y para la (iii) se calcula la entropía. En seguida describo cada una de estas medidas. 2.5.1. Medida de cuadros Esta subsección explica el concepto de cuadro propuesto por Greenberg (1967) como pri- mera medida de afijalidad. Un cuadro se puede entender como una estructura combinatoria en donde participan cuatro segmentos, dos iniciales (cas~, sill~) y dos finales (~a, ~ita) que al combinarse forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita). En un cuadro es posible tener un segmento nulo (ø) como en in~cauto, in~feliz, ø~cauto, ø~feliz. La medida de cuadros de un segmento se determina por el número de cuadros en el que participa. Para contarlos se toma en cuenta sólo aquellos donde el segmento fijo perte- 86 nece a un conjunto más pequeño de segmentos más frecuentes que el conjunto de segmen- tos alternantes (Medina, 2003, pág. 105). Dada una segmentación ai,j::bi,j, donde i es el índice de la palabra examinada y j el índice de la posición en la palabra donde se hace la segmentación, entonces el número de cuadros del segmento j de una palabra i se denota por ci,j. 2.5.2. Medida de entropía La segunda medida de afijalidad involucrada es la medida de entropía. La entropía (Shannon y Weaver, 1964) es usada como una medida de la cantidad de información que contienen todos los segmentos con que se combina el afijo. La idea es que los segmentos más gramaticales (afijos) contienen menos cantidad de información que los segmentos de contenido (bases). Por tanto, dado que una base contiene más información comparada con la de un afi- jo, es posible encontrar picos de entropía al interior de una palabra que indiquen fronteras entre bases y afijos. Esta propuesta sigue la intuición de Harris de contar la cantidad de fonemas anteriores y posteriores a un corte morfológico. Así, dada una segmentación ai,j::bi,j, se calcula la entropía a la izquierda ( ) de una segmentación j de la palabra i de la siguiente manera, véase (2.9) tomada de Medina (2003, pág. 108), que es una adaptación de la fórmula de Shannon. ( ) ∑ ( | ( ) ) ( ( | )) (2.9) En la fórmula anterior, ( | ) se refiere a la probabilidad asociada a cada seg- mento que alterna con ai,j, esto es, la probabilidad de seleccionar ese segmento del conjunto 87 de posibles segmentos alternantes. Una descripción de esta probabilidad se puede ver en la fórmula de (2.10), tomada de Medina (2003, pág. 107), donde Bi,j es el conjunto de los segmentos a la derecha de ai,j con posibilidad de ser seleccionados y | Bi,j | el tamaño de este conjunto. ( | ) ( ) ( ) (2.10) En la fórmula anterior, ( ) es la frecuencia de cada segmento del conjunto y ( ) es la frecuencia asociada al segmento ai,j. Para entender mejor el cálculo de esta probabilidad daré un ejemplo tomado del mismo autor. Para la segmentación p::reviamente se tuvieron asociados 7,206 tipos de palabras que comenzaban con p– y 2,184 tipos que comenzaban con pr–. Entonces, ( ) , ( ) , ( ) . Luego la entropía asociada a la segmentación p::r es: ( ) . Finalmente la entropía total de la segmentación p::Bi,1 se calcula a partir de todas las entropías de las segmentaciones que comienzan con p–. Según los experimentos de ese au- tor, los picos de entropía calculados de derecha a izquierda son mejores indicadores del final de una base y por tanto del inicio del sufijo. 88 2.5.3. Medida de economía Explicaré en esta subsección la medida de economía. Para calcular esta medida se retoma el principio de economía de signos de De Kock y Bossaert, utilizado en su propuesta de seg- mentación morfológica: “mientras menos signos de más frecuencia existan en el nivel mor- fológico, que den lugar a más signos (de baja frecuencia) del nivel sintáctico, la lengua será más económica” (Medina, 2003, pág. 111). Este principio coincide con el hecho de que los afijos tengan alta capacidad combi- natoria, lo que permite caracterizarlos como unidades que aportan economía al sistema lin- güístico. Así, para medir esta capacidad combinatoria de los afijos es necesario cuantificar la cantidad de signos con los que se combinan. Entonces, dada una segmentación ai::bi, si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes, mientras que bi pertenece a un conjunto pequeño de segmentos muy frecuentes, entonces ai sería una base y bi un afijo . Las fórmulas de (2.11) permiten calcular los índices de economía de las segmenta- ciones para prefijos y sufijos. En esas expresiones, Ai,j es el conjunto de segmentos alter- nantes a la izquierda del segmento bi,j y Bi,j es el conjunto de alternantes de ai,j, donde ai,j ϵ Ai,j y bi,j ϵ Bi,j. Además, |Ai,j| es el tamaño de Ai,j y |Bi,j| es el tamaño de Bi,j. Hay algunas restricciones que deben cumplir los elementos de los conjuntos men- cionados. La primera impide contar segmentos con menor frecuencia que la de su acompa- ñante, la idea detrás es eliminar posibles bases de los dos lados, ya que las bases deben ser menos frecuentes que los afijos. Por tanto, sería el conjunto de supuestos prefijos y el de supuestos sufijos, donde y , además | | es el número de ele- mentos de y | | el número de elementos en . 89 a) Prefijos: | | (2.11) b) Sufijos: | | La segunda restricción elimina del conteo de segmentos alternantes aquellos que comparten el mismo fonema adyacente a la segmentación. Según la propuesta de De Kock y Bossaert, si en los supuestos afijos hay alguno que aparece con varias bases que coinci- dían en el mismo fonema (o letra) adyacente al afijo, se puede suponer que ese fonema es del supuesto afijo y no de la base. Igualmente, si en las supuestas bases hay una que apare- cía con varios afijos que tengan el mismo fonema adyacente a la base, se puede suponer que el fonema pertenece a la base. La tercera restricción requiere que los elementos de los conjuntos de supuestos afi- jos y supuestas bases participen en por lo menos un cuadro. Así, la economía de una seg- mentación se obtiene al comparar los tamaños de los conjuntos después de haberles aplica- do las restricciones. Si a la izquierda de una segmentación hay mayor cantidad de supuestas bases (| | | |) que de supuestos afijos a la derecha (| |), entonces el segmento bi,j es una sufijo. También, si hay mayor cantidad de supuestas bases a la derecha (| | | |) que de supuestos afijos de la izquierda (| |), el segmento ai,j es un prefijo. 2.5.4. Combinación de medidas Ya revisadas las tres medidas de afijalidad, en esta subsección expongo la forma en que son combinadas para obtener el índice de afijalidad que permite la segmentación morfológica de palabras. Medina pone a competir estas medidas de segmentación entre ellas, y con otras basadas en estadísticas de digramas, con la idea de conocer su eficiencia en la tarea de 90 segmentación. La evaluación en 836 tipos de palabras del CEMC propuso como mejores medidas la de cuadros, entropía y economía. De hecho, la combinación de economía y en- tropía resultó aún mejor (95% de aciertos). Ese autor atribuye los resultados a que las medidas caracterizan verdaderas propie- dades lingüísticas de los afijos. Esto permite ver a un afijo como una unidad que se ha des- gastado fonológica y semánticamente, de tal manera que aparece adherido a otras unidades, es muy frecuente y participa en gran número de estructuras combinatorias. Además, contie- ne poca cantidad de información (en sentido técnico) y se adhiere a muchas unidades para darles estructura. En consecuencia, se propuso un índice de afijalidad que se obtiene con el promedio normalizado de las tres medidas, véase la fórmula de (2.12) tomada de Medina (2003, pág. 130). Este índice fue calculado a partir de los tipos de palabras del CEMC sin modificacio- nes y modificando algunos caracteres para lograr una representación fonológica del mismo. Luego se segmentaron todos los tipos de palabra y los resultados fueron del 90.41% de ti- pos bien segmentados en una muestra de 836 tipos. ( ) (2.12) Con la idea de ejemplificar el resultado de cuantificar la afijalidad de las posibles segmentaciones de una palabra, en seguida pongo algunos ejemplos47. En la Tabla 2.1 se puede ver el ejemplo del cálculo de medidas de derecha a izquierda para la palabra casa, 47 Estos ejemplos los obtuve con medidas calculadas de derecha a izquierda y con la representación fonológica propuesta por Medina (2003, pág. 358). Para distinguir esta representación de la representación ortográfica utilizaré para la primera las diagonales, véanse más detalles en la sección 5.2 y Tabla 5.1. 91 representada fonológicamente como /KASA/. Dado que es una representación fonológica, también incluye la forma verbal caza. Tabla 2.1 Medidas de afijalidad para la palabra /KASA/ Como se puede ver, la medida de entropía calculada es más alta al final del segmen- to /KAS~/, debido a que esta palabra alterna con otras similares como /KASITA/ o /KASOTAS/. La medida de cuadros también es más alta en este segmento, de hecho es muy alta, lo que refleja la capacidad combinatoria del segmento /~A/ en posición final. En cambio, la medida de economía es más alta en la segmentación /K~ASA/, aunque no rebasa por mucho a la segunda segmentación /KAS~A/. Finalmente, el índice de afijalidad que combina las tres medidas propone la segmentación esperada y separa la marca de flexión que puede ser nominal (cas-a) o verbal (caz-a). Otro ejemplo es el de la Tabla 2.2. En él se puede observar cómo la medida de en- tropía es más alta en la segmentación /PAST~ELES/, que se explica por la relación de esta palabra con otras similares, como /PAST~A/ y /PAST~O/. Después del segmento /PAST~/, la variedad de signos es más alta y por tanto es más difícil predecir el siguiente. De hecho, esta segmentación coincide con la separación del sufijo derivativo –el concatenado con la marca de flexión de plural –es: /PAST~ELES/. Tabla 2.2 Medidas de afijalidad para la palabra /PASTELES/ K A S A Entropía 2.459 1.726 2.628 Cuadros 267 0 14669 Economía 0.9963 0 0.9466 Afijalidad 0.6512 0.2189 0.9834 P A S T E L E S Entropía 0 0 1.673 2.22 1.62 2.039 1.362 Cuadros 0 0 0 72 0 929 160 Economía 0 0 0 0 0 0.9903 0.9438 Afijalidad 0 0 0.2512 0.3333 0.2432 0.9729 0.5795 92 En este ejemplo, son las medidas de cuadros, de economía y el índice de afijalidad las que coinciden en el valor más alto, proponiendo la segmentación /PASTEL~ES/, que separa de manera pertinente la flexión de número48. Pongo un ejemplo final para mostrar que el índice de afijalidad también presenta problemas en algunas segmentaciones. En la Tabla 2.3 se pueden ver las medidas de afijali- dad calculadas para la palabra /ENSEÑANSA/. Tabla 2.3 Medidas de afijalidad de la palabra /ENSEÑANSA/ Esta vez, ninguno de los valores más altos de las tres medidas, ni el del índice de afijalidad, proponen la segmentación en el sufijo derivativo esperado: –anza. En su lugar la medida de entropía propone un segmento /~A/ asociado a una marca flexiva inexistente en esta palabra. Las medidas de cuadros y economía proponen la segmentación /ENSEÑAN~SA/, que si bien no es la esperada, seguramente responde a la economía del segmento final /~SA/, que debe aparecer en muchas otras palabras, y a la aparición de la forma libre /ENSEÑAN/. Resulta pertinente recordar que el resultado de aplicar este método al corpus de es- tudio fue un catálogo de afijos. Dentro de éste había tanto afijos individuales como afijos concatenados, es decir, sólo se segmentaba una sola vez cada tipo de palabra. Ya que éste 48 Si se usara el índice de afijalidad para proponer más segmentaciones en la palabra, tomando sus valores más altos, el segundo valor más alto propondría la segmentación /PASTEL~E~S/. Esto es lógico ya que la economía asociada al segmento /~S/ es muy alta porque corresponde a una marca flexiva de plural, aunque no en esta palabra. Los problemas asociados a utilizar este índice para obtener varias segmentaciones los expondré con mayor detalle en la sección 4.2.3. E N S E Ñ A N S A Entropía 0 0 0 0 2.44 1.01 1.726 2.628 Cuadros 0 0 0 0 68 26 243 0 Economía 0 0 0 0 0.2794 0 0.9835 0 Afijalidad 0 0 0 0 0.4974 0.1281 0.8855 0.3333 93 será el método que utilizaré en mi investigación, deberé hacer las modificaciones y experi- mentos pertinentes para determinar cómo obtener todos los sufijos posibles de cada tipo de palabra, esto se describe en el capítulo 4. En cuanto a la aplicación de este método a otras lenguas, sólo comentaré que se ha utilizado para distintas lenguas no emparentadas y para determinar afijos (sufijos y prefijos) tanto flexivos como derivativos (Medina, 2007). Por ejemplo, se ha empleado para obtener un catálogo de prefijos derivativos en lengua checa (Medina y Hlaváčová, 2005); afijos de flexión verbal en chuj, lengua maya (Medina y Buenrostro, 2003); y sufijos derivativos en tarahumara, lengua de la familia yuto-azteca (Medina y Alvarado, 2006). 2.5.5. Aspectos computacionales Este apartado describe brevemente la estructura de almacenamiento de los tipos de palabras del corpus, que sirve para medir la afijalidad entre segmentos. El programa que crea y utili- za esta estructura está desarrollado con el lenguaje de programación C++. Para el cálculo de las medidas, los tipos de palabra del corpus son representados en dos estructuras arbóreas donde cada nodo corresponde a una letra. Una de las estructuras está organizada a partir de la primera letra y hasta la última, la otra está organizada en sen- tido contrario, de la última a la primera. El nodo raíz de la primera estructura lleva a los nodos que corresponden a la primera columna de letras de todos los tipos de palabras, y de éstos se puede ir a los nodos de la segunda columna, y así sucesivamente. En cada nodo se almacenan distintas frecuencias, además de cada una de las medi- das de afijalidad y el índice que combina las tres. Haciendo uso de estas estructuras arbó- reas, se proponen las segmentaciones en los valores más altos del índice de afijalidad de los tipos de palabras del corpus. Además, un procedimiento del programa permite incorporar 94 nuevas palabras a las estructuras arbóreas, calcular sus índices y segmentarlas. Finalmente, otro procedimiento obtiene el catálogo de afijos del corpus. 2.6. Observaciones sobre los métodos de segmentación Expongo en esta sección mis observaciones sobre los métodos de segmentación que descri- bí en las secciones anteriores. Comparo sus características generales y las perspectivas con las que abordan el problema de segmentación. En cuanto a la perspectiva para resolver el problema, observo una clara preferencia por intentar construir lo que computacionalmente se llama modelo morfológico49. Luego, mediante diversas estrategias se busca “el mejor modelo” que describa el corpus. Linguisti- ca, Morfessor y el método de algoritmos genéticos trabajan de esta manera. Partir de la idea de crear un modelo de este tipo y buscar optimizarlo conlleva la suposición de que existe una morfología única, óptima o ideal50. Por otra parte, el método del índice de afijalidad no propone de inicio un modelo morfológico que va mejorando, sino que descubre las unidades morfológicas mediante la cuantificación de características lingüísticas. 49 Aquí modelo morfológico se refiere el conjunto de unidades que se descubren y no al método utili- zado para descubrirlas. Como dice Goldsmith “Thus morphological models offer a level of segmentation that is typically larger than the individual letter and smaller than the word” (2010, pág. 7). 50 Si bien éste no es el lugar para desarrollar una discusión sobre la construcción de la gramática en la mente de los hablantes, sí quiero dejar sentada esta pregunta lingüística ¿existe una morfología ideal, un mo- delo único y optimizado, o será más bien que cada hablante construye su propia morfología? No son pocos los cuestionamientos implicados en esta pregunta, por lo que evito entrar en mayor detalle al respecto. 95 En términos generales, los tres métodos que proponen y buscan un modelo morfoló- gico ideal tratan de que sea el más compacto, pero que al mismo tiempo contenga segmen- tos pertinentes. Linguistica y Morfessor lo hacen a través de métodos probabilísticos. El método del algoritmo genético no usa probabilidades sino una función que debe ser mini- mizada. Esta idea del modelo más compacto coincide con el comportamiento económico del sistema lingüístico y en especial con la economía que se da en la morfología. El método del índice de afijalidad también contempla esta característica de la morfología al calcular la medida de economía de cada segmento. Es interesante que el método de algoritmos genéticos requiera el mínimo de infor- mación lingüística y el mínimo de elaboración de su modelo; sin embargo, es el que prueba la mayor cantidad de posibles segmentaciones en las que muchas pueden ser poco pertinen- tes, porque así funcionan los algoritmos genéticos. Inclusive, en la versión que utiliza es- tructuras combinatorias para filtrar segmentos, la cantidad de posibles segmentaciones que prueba el algoritmo es bastante grande. En este sentido, Linguistica utiliza muchas heurísticas y estructuras combinatorias (signatures) para disminuir la cantidad de segmentaciones posibles a evaluar. Por su parte, Morfessor (Morfessor-MAP) usa un elaborado conjunto de probabilidades para guiar las segmentaciones e incorpora una morfotáctica que le permite mejorar sus resultados, espe- cialmente para el finlandés. Esto es lógico, ya que el inglés necesita considerar poco o nada una morfotáctica debido a su morfología flexiva simple. El método del índice de afijalidad no elabora un modelo probabilístico o función de optimización para evaluar las segmentaciones. Si bien utiliza algunas heurísticas para con- dicionar ciertos cálculos, básicamente obtiene medidas para todo corte dentro de la palabra. 96 Este método también utiliza estructuras combinatorias que son los llamados cuadros, aun- que en la salida del método no se presenten como lo hace Linguistica. A pesar del complejo entramado de probabilidades condicionales que incluye el mé- todo de Morfessor, es interesante la manera en como incorpora conceptos lingüísticos. Este método modela probabilísticamente características formales y “semánticas” de los segmen- tos. También llama la atención cómo elabora probabilidades para la morfotáctica de las palabras, tanto para la secuencia de categorías, como para la secuencia de segmentos. Todos los métodos dejan clara la importancia de utilizar estructuras combinatorias para obtener segmentos morfológicos más pertinentes. Además, el uso de la morfotáctica de la palabra en el caso de Morfessor brindó la posibilidad de describir una jerarquía de mor- fos de las palabras. Lo anterior apunta a que utilizar características lingüísticas mejora el resultado de los métodos morfológicos automáticos no supervisados. Piénsese en los expe- rimentos dedicados sólo a minimizar la redundancia de la lista de morfos, sus resultados no fueron los mejores porque el descubrimiento de la morfología no es solamente un proceso de compresión de datos. Sobre el resultado que ofrecen estos métodos, sin contar las últimas propuestas de Creuz y Lagus, los demás métodos sólo separan la base de un prefijo y/o de un sufijo, pero no dan cuenta del encadenamiento de afijos. Esto es, sólo se separa la palabra en dos ele- mentos, base y un sufijo o base y un prefijo. El interés de mi investigación es dar un paso hacia adelante y descubrir la morfotáctica, esto es, la secuencia de afijos51. 51 A futuro sería muy interesante buscar un método como el Creutz y Lagus utilizable en español pa- ra generar una jerarquía de bases y afijos. Esto ayudaría al estudio de la composición. Por ahora, dado que sólo contemplo a los sufijos, considero que es posible prescindir de esta jerarquía. 97 Por tanto, considero que para la perspectiva de mi trabajo, que no presupone una morfología ideal, el método que calcula un índice de afijalidad es la opción más pertinente. Este método parte de conceptos y caracterizaciones lingüísticas. Además, toma en cuenta estructuras combinatorias. Fue probado para español y otras lenguas con buenos resultados. Otra característica es que se basa en la cuantificación de la adhesión entre unidades lingüís- ticas (glutinosidad), que fundamenta parte de la propuesta para la determinación de esque- mas morfotácticos de Lara (véase la sección 1.4). Finalmente, hablando del método que propondré para la descripción morfotáctica del español, resta analizar la manera de representar la secuencialidad de sufijos. Como se mencionó, ha sido tradicional en la morfología computacional el uso de gramáticas forma- les en forma de autómatas de estados finitos. Por eso, el siguiente capítulo estará dedicado a revisar estos formalismos computacionales. 98 3. Gramáticas formales y autómatas de estados finitos En la introducción de mi trabajo de investigación mencionaba que parte de la morfología concatenativa de las lenguas naturales puede verse como un lenguaje regular. Esto conlleva que dicho lenguaje deba describirse mediante una gramática del mismo tipo. Por esta razón, en este capítulo describiré diversos aspectos relacionados con las gramáticas formales. Además, en el capítulo 1 consigné la necesidad de contar con una manera de repre- sentar la secuencialidad de morfemas una vez que éstos han sido identificados en las pala- bras de una lengua. Luego, esta descripción permitiría conocer los patrones morfotácticos de la lengua de estudio. Ya que los mecanismos estándar en morfología computacional para representar la morfotáctica han sido los autómatas de estados finitos, en este capítulo tam- bién presento los fundamentos para conocer estos mecanismos. Creo conveniente presentar ambos formalismos en el mismo capítulo ya que la teo- ría de las gramáticas formales y la teoría de autómatas tienen muchos aspectos en común. 3.1. Conceptos básicos En esta sección presento algunos conceptos básicos que me permitirán exponer de manera más clara los conceptos de gramáticas formales y autómatas. Las definiciones que expondré se enmarcan en las áreas de la lingüística matemática y computacional, por lo que no coin- cidirán necesariamente con las definiciones que provengan de otras perspectivas lingüísti- cas. 99 El primer concepto es el de alfabeto. Desde la lingüística matemática, éste se puede definir como un conjunto de símbolos, finito y no vacío, que se representa con la letra grie- ga ∑. En (3.1) se pueden ver dos ejemplos de alfabetos. El primero (3.1a) es un alfabeto binario que incluye sólo dos elementos: 0 y 1. El segundo (3.1b) es un alfabeto que corres- ponde al conjunto de todas las letras minúsculas. (3.1) a) Un alfabeto binario: ∑ = {0, 1}. b) El conjunto de todas la letras minúsculas: ∑ = {a, b, ..., z}. Dado el concepto de alfabeto, es posible definir el concepto de cadena como una secuencia finita de símbolos seleccionados de un alfabeto. Por ejemplo, la secuencia 01101 es una cadena obtenida del alfabeto binario presentado en (3.1a). Un tipo de cadena espe- cial es la cadena vacía, que contiene cero símbolos y es representada comúnmente con los símbolos e o є. El conjunto de todas las cadenas obtenidas de un alfabeto se representa como ∑*. Por ejemplo, en (3.2) se da una expresión que representa todas las cadenas posibles del al- fabeto binario ejemplificado arriba. (3.2) {0, 1}* = {e, 0, 1, 00, 01, 10, 11, 000, ...} Una operación común entre cadenas es la concatenación, que permite obtener una cadena formada por la yuxtaposición de las cadenas originales. Por ejemplo, si se tiene la cadena x = 01101 y la cadena y = 110, su concatenación sería xy = 01101110. El tercer concepto importante es el de lenguaje formal. Se puede definir como un conjunto de cadenas que pertenecen al conjunto de todas las cadenas posibles generadas de un alfabeto (lo que arriba se definió como ∑*). El concepto de lenguaje formal es importan- te para la lingüística porque, como dicen Hopcroft, Motwani y Ullman (2001, pág. 30), de 100 una manera simple se puede ver a toda lengua natural como un conjunto de cadenas. Un lenguaje formal puede formarse de un conjunto infinito de cadenas, pero siempre estará restringido a un conjunto finito de símbolos de un alfabeto. Con estos tres conceptos es posible exponer ahora dos formalismos muy importan- tes para la lingüística computacional, en primer lugar las gramáticas formales y en segundo los autómatas de estados finitos. 3.2. Gramáticas formales Si se adopta la perspectiva matemática de considerar un lenguaje como un conjunto de ca- denas construidas a partir de un alfabeto finito de símbolos, se debe tener una gramática que describa de manera precisa dicho conjunto de cadenas. Este tipo de gramática se cono- ce como gramática formal y en esta sección expondré sus antecedentes matemáticos, su definición y sus características principales. 3.2.1. Antecedentes Esta subsección dará cuenta de los antecedentes matemáticos que dieron fundamento al concepto de gramática formal, impulsado por Chomsky durante los años 50. La teoría de las gramáticas formales está basada en los llamados sistemas semi-Thue (Wall, 1972, pág. 207). Por tanto, con el fin de conocer los fundamentos de estos sistemas, revisaré en seguida algunos sistemas que sirven de antecedente. El primero es el sistema axiomático, definido como un conjunto de tres elementos (A, S, P) donde: 1. A es un conjunto finito de símbolos llamado alfabeto. 2. S es un conjunto de cadenas formadas a partir de A llamadas axiomas. 101 3. P es un conjunto de relaciones que se establece entre todas las cadenas posibles de A (A*). Estas relaciones, llamadas producciones o reglas, están formadas por dos ele- mentos, como se verá en seguida. Las reglas de un sistema axiomático pueden describirse como dos secuencias de ca- denas (x1, x2,…, xn-1, xn), donde se dice que xn se deduce de (x1, x2,…, xn-1). Una notación alternativa es x1, x2,…, xn-1 → xn. Una secuencia ordenada de cadenas, como y1, y2,…, ym, se llama derivación de ym si y sólo si cada cadena en la secuencia es un axioma o se deriva de una regla de P. Además, si una cadena es obtenida a partir de una derivación, se dice que es un teorema del sistema. Un ejemplo de un sistema axiomático tomado de Wall (1972, pág. 198) mostrará los conceptos anteriores, véase (3.3). (3.3) A = {a, b} S = {aa, bb} P = {(x, y) є A* × A*| y = axa v y = bxb} La regla de P se explicaría como la inserción del primer elemento de la regla (x) en el segundo elemento de la misma (y), lo que obliga a que se haga ya sea entre dos a (axa) o entre dos b (bxb), de acuerdo con el segundo elemento de la regla. Este sistema axiomático produciría el conjunto infinito de pares ordenados: {(e, aa), (e, bb), (a, aaa), (a, bab), (b, aba), (b, bbb), (aa, aaaa),...}, con una notación alternativa: {e → aa, e→ bb, a→ aaa, a→ bab, b→ aba, b→ bbb, aa→ aaaa,...}. Estos pares son también el conjunto de reglas posi- bles del sistema. Decía que este tipo de sistemas puede producir derivaciones y teoremas. En seguida ejemplifico esto. Una derivación del sistema expuesto en (3.3) sería la secuencia bb, abba, aabbaa, ya que la cadena aabbaa es deducida de la regla abba → aabbaa, la cadena abba 102 es deducida de la regla bb → abba, y la cadena inicial bb es un axioma. Además, ya que aabbaa fue obtenida a partir de una derivación, se puede decir que sería un teorema del sistema. Por el contrario, la secuencia bb, baab no es una derivación, ya que la cadena baab no proviene de ninguna regla en P. Tampoco la secuencia ab, aaba, baabab es una deriva- ción, debido a que la cadena inicial ab no es un axioma. A partir de estos sistemas surgen los sistemas axiomáticos extendidos, con la dife- rencia de que existen dos tipos de símbolos en el alfabeto. De esta manera se tendrían dos alfabetos, el básico y el auxiliar, los cuales no comparten ningún símbolo. Otra diferencia con los sistemas axiomáticos es que en los sistemas extendidos los teoremas sólo contienen símbolos del alfabeto básico. Formalizando, se puede definir un sistema axiomático extendido como un conjunto de cuatro elementos (A, B, S, P) donde: 1. A es un conjunto finito de símbolos llamado alfabeto auxiliar. 2. B es un conjunto finito de símbolos llamada alfabeto básico, que no comparte símbolos con A (ni A con B). 3. S es el conjunto de todas las cadenas posibles formadas por la unión de los dos alfabetos, llamadas axiomas. Éstos podrían ser expresados por un conjunto finito de axiomas esquemáticos. 4. P es un conjunto de relaciones que se establece entre todas las cadenas posibles de la unión de A y B, (A U B)*. Estas relaciones, llamadas producciones o re- glas, podrían ser expresadas por un conjunto finito de reglas esquemáticas. 103 En este tipo de sistemas, no todas las derivaciones terminan en un teorema. Sólo son teoremas aquellas cadenas finales formadas por elementos de B. Cuando la derivación ter- mina en un teorema se llama prueba. Se toma nuevamente un ejemplo de Wall (1972, pág. 200) para ejemplificar un sis- tema axiomático extendido, véase (3.4). (3.4) A = {M} B = {a, b} S = {M} P = { αMβ → αaMaβ αMβ → αbMbβ αMβ → αaaβ αMβ → αbbβ} Dado el sistema axiomático extendido anterior, donde α y β son cualquier cadena formada por la unión de símbolos de A y B, (A U B)*, se pueden revisar algunas secuencias de cadena para ejemplificar una derivación, un teorema y una prueba. La secuencia de cadenas M, aMa, aaMaa, aabMbaa puede considerarse una deriva- ción, ya que todas las cadenas se producen por una regla del sistema o son un axioma; sin embargo, no se puede considerar una prueba, ya que la cadena final aabMbaa contiene un símbolo del alfabeto auxiliar (M). Por otro lado, la secuencia de cadenas M, aMa, aaMaa, aabbaa, además de ser una derivación, sí termina en un teorema (cadena formada sólo por elementos del alfabeto básico, B) y por tanto es una prueba. Ya definidos los sistemas axiomáticos extendidos, puedo explicar los sistemas semi- Thue. Se llamaron así porque fueron estudiados por primera vez por Axel Thue. Éstos son 104 sistemas axiomáticos extendidos, es decir, formados por los mismos cuatro elementos (A, B, S, P), donde las reglas son binarias y de la forma52: αxβ → αyβ En estas reglas x e y son cadenas fijas formadas a partir de la unión de los dos alfa- betos (A U B)*, mientras que α y β son cadenas variables tomadas de la misma unión (A U B)*. Esta diferencia con los sistemas axiomáticos extendidos se traduce en que las reglas están restringidas, esto es, que reemplazan una cadena fija por otra cadena fija. Otra diferencia es que los sistemas axiomáticos anteriores tenían la posibilidad de contar con reglas del tipo x1, x2,…, xn-1 → xn. En cambio, los sistemas semi-Thue sólo tie- nen una cadena a la derecha y una a la izquierda. Esta situación modifica el concepto de derivación. En un sistema semi-Thue, una derivación es una secuencia ordenada de cadenas y1, y2,…, ym donde obligatoriamente ym es un axioma y cada cadena, excepto y1, es deduci- da de la cadena inmediata anterior por una regla de P. Véase el siguiente ejemplo (3.5). (3.5) A = {C, D, E, F, G, H} B = {a} S = {HFGa} P = { FG → DGaa FD → DF HD → HC CD → FC CG → FFGa HF → E EF→ E EG → E Ea → a} 52 La diferencia entre un sistema Thue y un semi-Thue es que el primero incluye el esquema inverso αyβ → αxβ. 105 Dado el sistema semi-Thue anterior, tomado de Wall (1972, págs. 203-204), una de- rivación de a sería la que muestro en (3.6). A un lado de cada cadena se muestra la regla que la produjo. Véase como la derivación parte de un axioma y termina en un símbolo del alfabeto básico. (3.6) HFGa (axioma) EGa (por HF → E) Ea (por EG → E) a (por Ea → a) 3.2.2. Definición Una vez expuestos los antecedentes de la sección anterior, en esta sección expondré la defi- nición de gramática formal y algunas de sus características. La teoría de gramáticas formales parte de los sistemas semi-Thue con algunas modi- ficaciones (Wall, 1972, pág. 207). El alfabeto básico es llamado vocabulario terminal (VT) y el alfabeto auxiliar es llamado vocabulario no terminal (VN). Estos dos vocabularios no comparten elementos entre sí y a la unión de ambos se le llama vocabulario (V). Las producciones de la gramática son llamadas reglas gramaticales y consisten en un conjunto finito de reglas esquemáticas de la forma abreviada φ → ψ, las cuales se leen como ‘φ es reescrito como ψ‘. Otra diferencia es que una gramática cuenta con un sólo axioma, que es el símbolo S de sentence. Así, se pude definir formalmente una gramática G como un conjunto de cuatro elementos (VN, VT, P, S) (Hopcroft y Ullman, 1969, pág. 11). Chomsky propuso el uso de algunas convenciones para representar los elementos de una gramática formal. En términos generales, los símbolos son representados con las prime- 106 ras letras del alfabeto y las cadenas de símbolos con las letras finales. La Tabla 3.1 muestra estas convenciones en forma detallada. Tabla 3.1: Convenciones para elementos de una gramática formal Símbolos individuales (primeras letras del alfabeto) Cadenas (últimas letras del alfabeto) No terminal A, B, C,... ..., X, Y, Z Terminal a, b, c,... ..., x, y, z No especificado α, β, γ,... ..., χ, ψ, ω En una gramática formal, una derivación sucede cuando todas las cadenas son obte- nidas de alguna regla, sin ser requisito que la primera cadena sea un axioma. Dado lo ante- rior, se dice que la primera cadena domina a la última. Una derivación puede ser una deri- vación terminada si y solo si la última cadena no puede ser reescrita por ninguna regla de la gramática. Este concepto permite definir una cadena terminal (x), ésta es generada por una derivación terminal que comienza con el axioma S y debe estar formada por símbolos ter- minales ( ). El término de cadena terminal es la base para definir el lenguaje asociado a una gramática L(G). Éste es el conjunto de cadenas terminales generadas por la gramática. De manera formal se puede establecer la siguiente expresión (Hopcroft y Ullman, 1969, pág. 11): ( ) ⇒ (3.7) Si dos gramáticas y generan el mismo lenguaje, se puede decir que son equiva- lentes ( ) ( ). Tomaré de Wall (1972, pág. 209) la siguiente gramática a manera de ejemplo para mostrar varios de los conceptos anteriores, véase (3.8). 107 (3.8) G = (VN , VT , {S}, P) VN = {S, A, B, C} VT = {a, b, c} P = {1. S → ABC 2. A → aA 3. A → a 4. B → Bb 5. B → b 6. BC → Bcc 7. ab → ba} Esta gramática cuenta con un solo axioma y dos conjuntos distintos de símbolos VN y VT , además, todas las reglas son producciones de un sistema semi-Thue. Entonces, la se- cuencia BCA, BccA, BbccA, BbccaA puede considerarse una derivación de G, aunque no comience con el axioma; sin embargo, no es una derivación terminada ya que la última ca- dena, BbccaA, podría ser reescrita. Un ejemplo de derivación terminada sería la secuencia de cadenas BCA, BccA, Bbc- cA, BbccaA, Bbccaa, bbccaa, ya que la última cadena incluye sólo símbolos terminales y no puede ser reescrita. La cadena bbccaa; sin embargo, no es una cadena terminal porque la derivación no comienza con el axioma. La secuencia de cadenas S, ABC, aBC, aBcc, abcc, bacc también muestra una deri- vación terminada. Además, en este caso la cadena final bacc sí es una cadena terminal de- bido a que está compuesta únicamente por símbolos terminales, no puede ser reescrita y la derivación inició con el axioma S. 108 3.2.3. Tipos de gramáticas y lenguajes Ya establecida la definición de gramática formal, revisaré en esta subsección la clasifica- ción de gramáticas formales y la relación que existe entre ellas y los lenguajes que descri- ben. Se han estudiado varios tipos de gramáticas formales de acuerdo con el nivel de res- tricción de sus reglas. Los principales tipos de gramáticas son (Hopcroft y Ullman, 1969, págs. 13-15; Wall, 1972, págs. 211-212): Gramáticas tipo 0. Llamadas sistemas de reescritura no restringida ya que no tienen ninguna restricción en sus reglas; son básicamente los sistemas semi-Thue. Gramáticas tipo 1. Llamadas gramáticas sensibles al contexto. Cada regla es de la forma φAψ → φωψ, donde φ y ψ podrían ser nulas. La cadena que no puede ser nula es ω, por lo que en cada regla un solo símbolo no terminal (A) es reescrito como una cadena no nula. Se llama gramática sensible al contexto porque sus reglas indican que A se reescribe como ω cuando aparece con la cadena φ a su izquierda y la cadena ψ a su derecha. En lin- güística, este tipo de reglas se expresan como A → ω/φ___ψ. Gramáticas tipo 2. Llamadas gramáticas libres de contexto. Cada regla es de la for- ma A → ω, donde ω no puede ser nula (ω ≠ e). De esta manera, en este tipo de gramáticas las cadenas φ y ψ son nulas. Por tanto, el símbolo A puede ser reescrito como ω sin impor- tar el contexto en el que aparece; de allí el nombre del tipo de gramática. Gramáticas tipo 3. Llamadas gramáticas regulares o de estados finitos. Cada regla es de la forma A → xB o de la forma A → x, donde x no puede ser nula (x ≠ e). Este tipo de gramática agrega la restricción de que el lado derecho de cada regla debe ser una cadena formada de símbolos terminales seguida de, a lo mucho, un símbolo no terminal. 109 Ya que las gramáticas de tipo 3 son las pertinentes para mi trabajo, pongo en segui- da un ejemplo tomado de Wall (1972, pág. 212) para dar cuenta de la forma de las reglas. (3.9) G = (VN , VT , {S}, P) VN = {S, A, B, C} VT = {a, b, c} P = {1. S → bA 2. A → bA 3. A → aB 4. B → ab 5. B → cC 6. C → c} Se puede observar en (3.9) que a la izquierda de cada regla sólo hay un símbolo no terminal, excepto en la regla 1 que tiene al axioma (S → bA). Además, a la derecha de las reglas sólo aparece un símbolo terminal seguido de, a lo mucho, uno no terminal (B → cC). Los lenguajes producidos por cada tipo de gramática reciben su nombre de acuerdo con el tipo que los genera. Entre clasificar una gramática o un lenguaje, es más fácil clasifi- car la gramática, ya que basta observar las formas de las reglas y detectar las restricciones que imponen (Wall, 1972, pág. 213). Así, existen lenguajes: Tipo 0, llamados conjuntos recursivamente enumerables. Tipo 1, llamados lenguajes sensibles al contexto. Tipo 2, llamados lenguajes libres de contexto. Tipo 3, llamados lenguajes regulares, conjuntos regulares o lenguajes de estados fi- nitos. Cuando propongo que es posible describir la morfotáctica del español, en especial la sufijal, mediante una gramática de estados finitos, estoy caracterizando esta morfología 110 como un lenguaje regular. Esto no es nuevo, ya que tradicionalmente la morfología compu- tacional ha visto la morfología concatenativa de esta manera. De hecho, se propuso la llamada morfotáctica de estados finitos, que abordaré más adelante. Lo que ahora me importa resaltar es que las gramáticas de tipo 3 son equivalentes a los llamados autómatas de estados finitos. El lenguaje que genera una gramática de este tipo es exactamente el conjunto de cadenas que acepta un autómata (Hopcroft y Ullman, 1969, pág. 15). Por tanto, es importante que revise en la siguiente sección el concepto de autómata de estados finitos. 3.3. Autómatas de estados finitos La teoría de las gramáticas formales, revisada en el apartado anterior, y la teoría de autóma- tas tienen correspondencias en muchos de sus aspectos más importantes. Por esta razón y en especial por la equivalencia entre una gramática tipo 3 y un autómata de estados finitos, revisaré en esta sección los aspectos más importantes a propósito de estos “dispositivos abstractos” llamados autómatas. 3.3.1. Definición En esta subsección presento la definición de autómata, un concepto que se volverá de suma importancia en mi investigación ya que podría servir para describir la morfotáctica inferida del corpus. En términos muy generales, un autómata es un dispositivo o máquina abstracta que recibe una entrada con la cual realiza algunas operaciones de acuerdo con un conjunto de instrucciones predefinidas (Wall, 1972, pág. 254). Un autómata puede verse como un sistema que siempre está en un estado, el cual le permite recordar una parte de su historia. La historia completa del sistema está definida por 111 un conjunto finito de estados, por lo que se recuerda lo importante y se olvida lo demás. La ventaja de tener un número finito de estados es que el sistema se puede implementar con un número definido de recursos (Hopcroft, Motwani, y Ullman, 2001, págs. 2-3). El estudio de la teoría de autómatas comenzó en los años 50 y, desde la perspectiva computacional, es relevante porque permite la creación de modelos para dispositivos de hardware y software. En particular, los autómatas de estados finitos pueden funcionar de dos maneras, como aceptadores o como generadores. Los autómatas aceptadores reciben como entrada una cadena de símbolos de un lenguaje, ejecutan un número finito de pasos y se detienen en un estado que permite saber si la cadena fue aceptada o rechazada (Wall, 1972; Jurafsky y Martin, 2009). Es común asociar el funcionamiento de un autómata de estados finitos aceptador como la operación de una lectora que recibe una cinta de entrada. Esta cinta estaría dividida en cuadros que contendrían cada uno de los símbolos de una cadena de entrada, escritos de izquierda a derecha. Los cuadros que no tuvieran símbolo de entrada serían marcados con un símbolo nulo, por ejemplo #. El autómata (la lectora) comenzaría a leer los símbolos de la cinta (cadena de entra- da). Si la lectura se detiene antes de llegar al final de la cinta, se dice que el autómata está bloqueado y la cinta de entrada es rechazada. Por otro lado, si el autómata lee todos los símbolos de la cinta hasta detenerse en un símbolo nulo (fin de los símbolos de la cinta), se revisa el estado del autómata. Si el autómata se quedó en un estado marcado como estado final, o estado de aceptación, entonces la cinta de entrada es aceptada, de otra manera la cinta es rechazada. Formalmente, un autómata de estados finitos se puede definir como un conjunto de cinco elementos (Jurafsky y Martin, 2009, pág. 28): 112 (3.10) Q = {q0, q1, q2 … qN-1} Un conjunto finito de N estados. Se puede representar como K ∑ Un conjunto finito de símbolos de un alfabeto de entrada q0 Un estado inicial F Un conjunto de estados finales, δ(q, i) Funciones de transición que, dado un estado y un símbolo de entrada , regresan un nuevo estado El procesamiento de una cadena de entrada comenzaría en el estado inicial del au- tómata (q0). Este procesamiento sería dirigido por el conjunto finito de transiciones, que podrían verse también como tripletas de la forma (ai, qi, qk), donde qi y qk son estados y ai es un símbolo de entrada. Si el autómata está en qi y lee el símbolo ai de la cadena entrada, el autómata cambia al estado qk (la cabeza de la lectora se mueve un cuadro a la derecha). Como se mencionó, un autómata de estados finitos también puede verse como un dispositivo de generación de cadenas de un lenguaje, autómata generador. En este caso, y pensando en el dispositivo de la lectora de cinta, se pensaría en una cinta donde se imprimi- rían los símbolos de una cadena cada vez que la lectora avanza un cuadro a la derecha se- gún determinadas instrucciones. Pensando en el autómata como conjunto de estados, cada tripleta (ai, qj, qk) indicaría a qué estado cambiar y qué símbolo generar. 3.3.2. Tipos Una vez definido un autómata de estados finitos y explicado su funcionamiento, en esta subsección presento los dos tipos principales de autómatas. Éstos pueden clasificarse en determinísticos, si en cada instrucción el autómata pasa a un solo estado, y no determinísti- cos, si pasa a un conjunto de estados. Dicho en otras palabras, un autómata determinístico 113 sólo está en un estado a la vez, mientras que el no determinístico puede estar en varios esta- dos al mismo tiempo. Para todo autómata no determinístico existe su equivalente determinístico, que acep- ta el mismo conjunto de cadenas, es decir, el mismo lenguaje. Por lo general, el autómata no determinístico es más fácil de diseñar y su autómata determinístico equivalente tendría aproximadamente el mismo número de estado o, en el peor de los casos, tendría 2n estados. En Hopcroft, Motwani y Ullman (2001, págs. 61-64) se encuentra una discusión de cómo hacer equivalentes dos autómatas de distinto tipo. Un autómata determinístico puede definirse formalmente como el siguiente conjun- to de elementos (K, ∑, δ, q0, F), donde: K es un conjunto finito, no vacío, de estados. También se representa como Q. ∑ es un conjunto finito, no vacío, de símbolos, llamado alfabeto de entrada. δ es una función de transición que recibe dos argumentos: una cadena y un estado, y regresa un estado. q0 es un elemento de K que representa el estado inicial. F es un subconjunto de K, estos estados representan el conjunto de estados finales o estados de aceptación. Un autómata de estados finitos tiene asociado un lenguaje, que consiste en el con- junto de todas las cadenas que el autómata acepta. Se comienza con un estado y un símbolo, luego se revisa si existe una transición que involucre ambos. En caso de existir, la transi- ción regresa el siguiente estado. Con este nuevo estado y el siguiente símbolo, se busca nuevamente una transición, que regresará un siguiente estado. Se continúa así con todos los símbolos hasta llegar al último estado, si este estado es uno de los estados finales o de acep- 114 tación (F), entonces la cadena es aceptada, de lo contrario es rechazada y no forma parte del lenguaje del autómata. En un autómata no determinístico todos los elementos son iguales a los de un autó- mata determinístico excepto las funciones de transición. Éstas regresan cero, uno o varios estados (los autómatas determinísticos sólo regresan uno). Esta situación provoca que se evalúen varios caminos para la misma cadena de entrada, por lo que ésta será aceptada si al menos uno de ellos comienza con el estado inicial y termina en un estado de aceptación. Visto de otro modo, dada una transición que regrese varios estados, el autómata no deter- minístico avanzará a todos esos estados, después ejecutará la siguiente transición y tal vez alguno de los caminos anteriores termine y otros avancen. La definición formal de un autómata no determinístico es la misma que la de uno determinístico (K, ∑, δ, q0, F). La diferencia está en el valor que regresa la función de tran- sición, ésta regresa un subconjunto de estados de K. 3.3.3. Representaciones Presentaré en esta subsección dos maneras de representar un autómata de estados finitos. La primera es con un diagrama de estados o diagrama de transiciones y la segunda con una tabla de transiciones. El diagrama de estados es un grafo dirigido formado de nodos (vértices) y arcos. Los nodos, dibujados mediante círculos, representan los estados del autómata. Los arcos son líneas con flechas que representan las transiciones, estos arcos tienen asociado un sím- bolo y parten de un estado para llegar a otro. Los estados finales son representados con círculos dobles, el estado inicial puede tener una flecha apuntando hacia él si no es el esta- do q0. 115 Para generar un diagrama de transiciones a partir de un autómata ya construido se pueden seguir estos pasos: 1. Para cada estado de Q se crea un nodo, es decir, se dibuja un círculo etiquetado con su nombre. 2. Para cada función de transición, por ejemplo δ(q, a) = p, se dibuja un arco del no- do q al nodo p, etiquetado como a. Si varios símbolos provocan una transición de q a p, se debe poner un solo arco etiquetado con la lista de símbolos. 3. El estado inicial q0 tiene una flecha opcional dirigida hacia él. La flecha no se origina en ningún nodo. 4. Los nodos de aceptación o nodos finales (F) tienen doble círculo. En la Figura 3.1 se puede ver el diagrama de estados que representa un autómata de estados finitos para una pequeña parte de la morfología del español. En éste se pueden ver los elementos mencionados anteriormente. El estado inicial q0 tiene la flecha que apunta hacia él. Los estados de aceptación tienen doble círculo y los arcos llevan el símbolo que permite pasar de un estado a otro. Incluyo un símbolo base– para representar un conjunto de posibles bases nominales. Figura 3.1 Ejemplo de un diagrama de estados 116 Las transiciones del autómata podrían describirse de la siguiente manera. La primera tendría asociado como símbolo cualquier cadena con categoría nominal y se definiría como δ(q0, base–) = q1, esto es, si el autómata se encuentra en el estado inicial y lee como sím- bolo una cadena de categoría nominal, pasa al estado q153. La segunda transición podría ser δ(q1, –o) = q3, esto es, si el autómata se encuentra en el estado q1 y lee como símbolo el segmento –o, pasa al estado q3. Obsérvese que éste es un estado de aceptación (doble círcu- lo). Estableciendo este autómata como aceptador, si se da como entrada al autómata la cadena puebl-o, como una secuencia de símbolos puebl- y -o, con base en las dos transicio- nes explicitadas en el párrafo anterior, se puede decir que el autómata sí acepta esta cadena de símbolos. El primer símbolo puebl-, es un nominal, por lo que el autómata pasa del esta- do q0 al estado q1. El segundo símbolo es –o, y dado que sí existe una transición asociada a este símbolo, el autómata pasa del estado q1 al estado q3. Como no hay más símbolos en la cadena de entrada, la revisión termina y el autómata acepta la cadena ya que se ha quedado en un estado de aceptación. Con el fin de ejemplificar que la construcción de un autómata que intente reflejar la morfología de una lengua no es una tarea simple, incluso si se restringe solamente a la mor- fología sufijal del español, desarrollaré algunos ejemplos ayudándome del autómata ante- rior. Supóngase al autómata como aceptador y la cadena de entrada testig-o. Si bien esta palabra no es de flexión regular y, como mencioné en su momento, es dudoso que el seg- 53 Otra representación de esta transición sería (base–, q0, q1) 117 mento –o pueda ser considerado como flexión de número, el autómata acepta la cadena mediante las transiciones: q0, q1 q3. Supóngase ahora el autómata como generador. Si se asume testig– como una base nominal, como se hizo en el párrafo anterior, el autómata generaría las siguientes cadenas testig–o, *testig–a y *testig–it–o, entre otras. Lo anterior plantea algunos cuestionamientos: ¿debería el autómata separar las bases nominales que tienen flexión regular de las que tie- nen flexión irregular en el caso del género? ¿Cómo puede saber un método automático si una palabra se flexiona en todo el paradigma? Creo que estos ejemplos dejan ver algunas de las dificultades de idear un autómata que intente represente la morfotáctica del español y de la necesidad de considerar si el au- tómata se asume como aceptador o generador. Otra manera de representar un autómata es mediante una tabla de transiciones. Ésta expresa las funciones de transición, δ(q, a) = p, de la siguiente manera: en los renglones de la tabla se ponen los estados y en las columnas se ponen los símbolos de entrada; en la in- tersección de un estado (q) y un símbolo (a) se escribe el estado que resulta de la transición (p). El estado inicial se marca con una flecha y los estados resultantes o de aceptación con un asterisco (*) o con dos puntos (:). En caso de que no exista una transición definida para una determinada combinación de estado y símbolo, el espacio en la tabla se llena con un símbolo nulo Ø. La siguiente tabla de transiciones (Tabla 3.2) sería equivalente al diagrama de esta- dos de la Figura 3.1. 118 Tabla 3.2 Ejemplo de una tabla de transiciones Símbolos de entrada Estados base -o -it -s -a 0 1 Ø Ø Ø Ø 1 Ø 3 2 Ø 3 2 Ø 3 Ø Ø 3 *3 Ø Ø Ø 4 Ø *4 Ø Ø Ø Ø Ø Obsérvese como, dado el estado inicial (q0) y una base nominal, la intersección de renglón y columna marca como salida el estado q1, lo que es equivalente a la función de transición δ(q0, base-) = q1. En la tabla de transiciones de un autómata no determinístico, las intersecciones entre columnas y renglones tendrían como valor un conjunto de estados. Se debe recordar que un autómata no determinístico puede estar en varios estados a la vez. En el caso de un diagra- ma de estados sólo basta agregar los arcos necesarios para representar un autómata no de- terminístico. Como se pudo ver en esta subsección, tanto el diagrama de estados como la tabla de transiciones parecen buenas opciones para representar la morfología sufijal del español, a pesar de que sólo se mostró una pequeña parte (el sufijo –it de diminutivo y las marcas de flexión nominal). Esto hace pensar en la conveniencia de construir un autómata de estados finitos en lugar de una gramática. Además, como ya mencionaba, los autómatas han sido la manera tradicional de representar la morfotáctica. Será pertinente entonces revisar la equi- valencia entre un autómata y una gramática en la siguiente subsección. 119 3.3.4. Equivalencia entre gramática y autómata En esta subsección abordo el tema de la equivalencia entre una gramática tipo 3 y un autó- mata de estados finitos. Esta equivalencia se da porque el lenguaje que acepta un autómata de estados finitos es un lenguaje regular, esto es, el mismo lenguaje que describe una gra- mática tipo 3. Por otro lado, la teoría de autómatas y lenguajes formales ha desarrollado procedi- mientos para generar una gramática a partir de un autómata y viceversa (Wall, 1972). En seguida describo estos procedimientos. Dada en una gramática formal G = (VN , VT , {S}, P) de tipo 3 con reglas de la forma A → aB o A → a, es posible construir un autómata M que acepte el mismo lenguaje L me- diante los siguientes pasos: 1. El vocabulario terminal VT es el alfabeto de entrada de M. 2. Los miembros del vocabulario no terminal VN son los estados de M, más un nuevo estado qF. 3. Para cada regla A → aB en G, se crea la transición (a, A, B) en M, y para cada regla A → a en G, se crea la transición (a, A, qF) en M. 4. S es el estado inicial de M. 5. qF es el único estado final de M. De manera inversa es posible construir una gramática a partir de un autómata. Dado un autómata no determinístico M = (K, ∑, δ, q0, F) se puede construir una gramática G con el siguiente procedimiento: 1. El alfabeto de entrada ∑ se convierte en el vocabulario terminal VT. 2. El conjunto de estados K se convierte en el vocabulario no terminal VN. 120 3. Cada transición (a, qi, qj) en M se convierte en una regla en G de la forma qi → aqj. Si qj es un estado final, se agrega la regla qi → a. 4. El símbolo inicial de G es q0. A manera de ejemplo, muestro en la Figura 3.2 la gramática equivalente al autómata presentado anteriormente, el cual repito para facilitar su comparación. GRAMÁTICA AUTÓMATA G = (VN , VT , {q0}, P) VN = {q0, q1, q2, q3, q4} VT = {base-, -o, -it, -a, -s} P = { R1. q0  base-q1, R2. q1  -oq3, R3. q1  -itq2, R4. q1  -aq3, R5. q2  -oq3, R6. q2  -aq3, R7. q3  -s R8. q1  -o R9. q1  -a R10. q2  -o R11. q2  -a} M = (K, ∑, δ, q0, F) K = {q0, q1, q2, q3, q4} ∑ = {base-, -o, -it, -a, -s} F = {q3, q4} δ = {(base-, q0, q1), (-o, q1, q3), (-it, q1, q2), (-a, q1, q3), (-o, q2, q3), (-a, q2, q3), (-s, q3, q4)} Figura 3.2 Ejemplo de gramática y autómata equivalentes Daré el ejemplo de una derivación terminada para mostrar la equivalencia entre la gramática y el autómata de la figura anterior, aunque sería necesaria una demostración ex- haustiva para confirmarlo. Tanto en Wall (1972, pág. 263) como en Hopcroft y Ullman 121 (1969, págs. 33-35) se puede ver una comprobación de la equivalencia entre un autómata y una gramática. Con base en la gramática anterior, dada la base nominal niñ–, es posible aplicar la siguiente secuencia de reglas para derivar la cadena terminal niñ-o-s. Esta cadena sería ge- nerada también por la secuencia de transiciones de los estados q0, q1, q3, q4. R1. q0  base-q1: niñ-q1 R2. q1  -oq3 : niñ-oq3 R7. q3  -s : niñ-o-s En conclusión, si un autómata acepta exactamente las mismas cadenas terminales generadas por una gramática, se puede hablar de que son equivalentes. Esta equivalencia se vuelve fundamental para el desarrollo de mi investigación. Por tanto, ya que una gramática de estados finitos es equivalente a un autómata de estados finitos y éste ha sido el meca- nismo tradicional para representar la morfotáctica en morfología computacional, construiré un autómata, y no una gramática, para representar la morfotáctica de mi corpus de estudio. Además los autómatas cuentan con una representación gráfica en forma de diagrama de transiciones, que me parece mejor representación para su análisis. 3.3.5. Autómatas probabilísticos y modelos ocultos de Markov Con el fin de mostrar algunas de las variantes de autómata de estados finitos que la teoría ha propuesto, en esta sección describiré dos tipos de autómatas. Es posible agregar a las transiciones de un autómata la probabilidad de generar un nuevo estado a partir del estado inicial de la transición. Cuando se han agregado probabili- dades a todas las transiciones se habla de un autómata de estados finitos probabilístico, también conocido como “cadena de Markov” (Charniak, 1996, pág. 32). 122 En este tipo de autómatas, la suma de las probabilidades de los arcos que salen de un estado debe sumar uno. Además, la probabilidad de generar una cadena se obtiene del producto de probabilidades de los arcos utilizados para generarla. Estos autómatas probabi- lísticos imponen la condición de que a partir de un estado y dado un símbolo de salida, so- lamente hay un estado siguiente. Una variante de autómata de estados finitos probabilístico, ampliamente usada en la lingüística computacional, es el modelo oculto de Markov. Según Charniak (1996, pág. 43), es posible definirlo de manera formal como un conjunto de cuatro elementos (q0, K, W, E), donde K es un conjunto de estados, q0 es el estado inicial (q0 K), W es un conjunto de símbolos de salida y E es un conjunto de transiciones. En estos modelos, una transición es un conjunto de cuatro elementos (qi, qj, wk, p), donde qi es el estado en donde comienza la transición (qi K), qj es el estado en donde ter- mina la transición (qi K), wk es un símbolo de salida (wk W) y p es la probabilidad de tomar esa transición. En estos modelos es posible tener un estado del que partan varias transiciones con el mismo símbolo de salida, pero que lleven a diferentes estados. Esta situación hace imposi- ble saber el estado actual del modelo a partir únicamente del símbolo de salida, porque pueden ser varios estados. Por consiguiente, no se conoce la secuencia de estados que toma el modelo con sólo ver la cadena, lo que le da el carácter de modelo “oculto”. Claro que se han desarrollado procedimientos para tomar la secuencia de transiciones más apropiada. La probabilidad de una transición se define a partir de dos probabilidades: la proba- bilidad del símbolo de salida (wk) y la probabilidad de pasar al siguiente estado (qj) a partir de estado actual (qi). Tomar sólo la información del estado anterior para obtener la probabi- lidad de la transición al estado siguiente es una suposición de estos modelos que permite 123 simplificar los cálculos necesarios para representar una cadena de símbolos; aunque en los fenómenos representados por el modelo esto no sea cierto. El autómata de estados finitos que será generado automáticamente en esta tesis po- dría servir de base para generar a futuro un autómata probabilístico o un modelo oculto de Markov. Claro que primero se deberá indagar la ventaja de representar la morfotáctica me- diante estos modelos. 3.4. Representación computacional de la morfotáctica En esta sección abordo algunas propuestas de representación y tratamiento automático de la morfología de lenguas naturales. Pondré especial interés en los trabajos que representan computacionalmente la morfotáctica, lo que me permitirá establecer cómo se ha tratado este problema anteriormente. Los mecanismos estándar en morfología computacional para representar la morfo- táctica de las lenguas son los autómatas de estados finitos (Sproat, 1992, pág. 124). Los trabajos basados en este tipo de mecanismos se pueden englobar en la llamada morfotáctica de estados finitos. Ésta asume que la aparición de un morfema depende sólo del morfema que le antecede. Con esta idea, los autómatas resultan buenos54 para representar fenómenos de morfología concatenativa y no así otros tipos de fenómenos morfológicos. La Figura 3.3 muestra el ejemplo de un autómata construido para una parte de la morfología del inglés, tomado de Sproat (1992, pág. 127). Este autómata estaría asociado a cadenas como nominalization, hospital, hospitalization y moralize. 54 Según Sproat resultan “sufficiently powerful” (1992, pág. 127). 124 Figura 3.3 Ejemplo de autómata para una parte de la morfología del inglés Tomado de Sproat (1992, pág. 127) En realidad son varios los fenómenos que estos mecanismos no pueden representar, esto debido a la complejidad morfológica de las lenguas. Por ejemplo, tienen dificultad para representar fenómenos morfológicos discontinuos donde la aparición de un morfema de- pende de otro que no se encuentra adyacente (Sproat, 1992). Un ejemplo de estos fenóme- nos es la parasíntesis del español. Según Anderson (1992, págs. 387-391), para estos mecanismos también son pro- blemáticos los fenómenos de infijación y reduplicación, así como los cambios vocálicos, la metátesis y el truncamiento de material fonológico o escrito. Otra característica de los autómatas como el que se mostró en la Figura 3.3 es que su cadena de entrada debe estar segmentada, lo que implica que se conoce su segmentación a priori. Para evitar esta situación, es posible construir otro tipo de representaciones como una red de discriminación (discrimination network) o trie. Esta es una red de nodos donde cada uno representa una letra. El nodo raíz apunta a una letra inicial de todas las palabras que se intentan representar. Además, es posible agre- gar a los nodos información de la categoría a la que pertenece la palabra (sustantivo, adjeti- vo). La Figura 3.4 muestra un ejemplo reelaborado de Sproat (1992, pág. 129). 125 Figura 3.4 Ejemplo de red de discriminación o trie Reelaborado de Sproat (1992, pág. 129) En la figura anterior se pueden ver las categorías asociadas a cada palabra en la letra final correspondiente. Además, hay una marca que indica que esa palabra cuenta con un sufijo nominal. El conjunto de sufijos nominales está representado en otra red separada. Tanto los autómatas de estados finitos como las redes trie no contemplan cambios en la forma fonológica (o escrita) de la lista de palabras que representan (morfofonología). Por lo anterior, los morfólogos computacionales buscaron una representación que contem- plara estos cambios. El resultado fue la adopción de la fonología de dos niveles, también llamada fonología de estados finitos (Koskenniemi, 1983; Antworth, 1990). La fonología de dos niveles está basada en transductores de estados finitos (Sproat, 1992; Jurafsky y Martin, 2009). Éstos son autómatas con un alfabeto formado de pares de símbolos. Utilizando la idea de un autómata como un lector de cinta, en el caso de los transductores habría dos cintas en lugar de una. La primera se llama cinta superior o cinta 126 léxica y la segunda se llama cinta inferior o cinta de superficie. El transductor avanzaría leyendo la cinta superior e imprimiendo (o reconociendo) el símbolo de la cinta inferior. La Figura 3.5 presenta un ejemplo tomado de Sproat (1992, pág. 133). Figura 3.5 Ejemplo de transductor de estados finitos Tomado de Sproat (1992, pág. 133) El transductor de la figura anterior muestra el proceso de aceptación de las cadenas (aabb, abb). El símbolo # representa el fin de cadena. Los círculos con números se refieren los estados del transductor ejemplificado por este par de cintas. Véase cómo el segundo símbolo de la cinta léxica no corresponde a ningún símbolo en la cinta de superficie, lo que permite transformar la cadena aabb en abb. Estos transductores sirvieron de manera afortunada para representar reglas de trans- formación fonológica propuestas por la lingüística, lo que motivó su amplia aceptación y estudio. Cuando la fonología comenzó a trabajar con conjuntos de reglas ordenadas, se pro- puso utilizar transductores en cascada. En éstos, la salida de un transductor era la entrada del siguiente. Había tantos transductores como reglas ordenadas. Si bien la idea de estos transductores en cascada era teóricamente posible, su im- plementación se volvió difícil. Por lo anterior se buscaron soluciones computacionales para reducir la cantidad de estados y de procesamiento. Así, surgió la propuesta de Koskenniemi 127 (1983), conocida como morfología de dos niveles. En ésta, las reglas fonológicas, y por tanto los transductores, funcionan en paralelo y ya no en cascada. La morfología de dos niveles permitió tratar buena parte de los fenómenos morfofo- nológicos de distintas lenguas, lo que a su vez provocó el desarrollo de diversos programas de computadora de análisis morfológico automático (Antworth, 1990; Sproat, 1992; Jurafsky y Martin, 2009, págs. 365-367). Incluso hubo propuestas para morfología no con- catenativa (Kay, 1987). Las propuestas anteriores son una muestra de las posibilidades de representación y procesamiento morfológico automático. Lo que quisiera resaltar de ellas es que las repre- sentaciones (autómatas y transductores) son elaboradas manualmente. Esto puede dar pie a que el objeto de estudio del investigador se vuelva el artefacto abstracto de descripción y no la lengua. Revisar las propuestas anteriores me permitió resaltar algunas de las virtudes y de- fectos de los autómatas de estados finitos como representaciones de la morfotáctica de las lenguas. A pesar de sus limitaciones, considero que para las características morfológicas del español, los autómatas de estados finitos pueden representar gran parte de su morfotáctica afijal. Por tanto, gracias a lo revisado en este capítulo, establezco que la manera más perti- nente para representar la morfotáctica sufijal del español será mediante la construcción de un autómata, el cual puede convertirse mediante el procedimiento descrito arriba en una gramática de estados finitos. 128 4. Experimentos de segmentación morfológica automática En este capítulo describo el procedimiento de descubrimiento de bases55 y sufijos del espa- ñol mediante la segmentación morfológica automática de un conjunto de tipos de palabras obtenidas de un corpus. Como ya mencioné, utilizaré el método basado en el cálculo de un índice de afijali- dad como estrategia de segmentación morfológica automática para luego descubrir los pa- trones morfotácticos del español de México. Antes de exponer cómo utilizaré este método, considero necesario hacer algunas observaciones preliminares. El índice de afijalidad ha sido utilizado para inferir un catálogo de sufijos del espa- ñol basado en un solo corte al interior de cada palabra, como quedó establecido en la sec- ción 2.5. Obviamente, el hecho de tener un corte por palabra conlleva que los segmentos resultantes puedan ser sufijos individuales o grupos de sufijos concatenados, además de las bases. Para mi investigación, es necesario identificar a cada uno de los sufijos de una pala- bra, ya que de esta manera podré establecer sus patrones de secuencialidad. Un primer acercamiento a la resolución de este problema podría consistir en descomponer los grupos sufijales concatenados en sufijos individuales a partir del catálogo inferido; sin embargo, hay dos problemas. Primero, en el catálogo se ha perdido la información que relaciona a cada sufijo o grupo de sufijos con sus bases. Segundo, tendría que distinguirse entre sufijos 55 Se debe recordar que utilizaré base como el segmento sobre el que operan los fenómenos tanto de flexión como de derivación, véase Pena (1999, pág. 4318). 129 individuales y grupos de sufijos para segmentar sólo los segundos, problema que no es tri- vial. Por lo anterior, opté mejor por segmentar cada palabra del CEMC mediante una es- trategia formulada a partir de las medidas involucradas en el cálculo de la afijalidad. Para determinar la mejor estrategia a seguir, efectué un experimento de segmentación como pri- mer acercamiento. Los detalles al respecto son expuestos en la sección subsecuente. Como resultado de ese primer experimento, constaté la necesidad de hacer un análi- sis más profundo para establecer una mejor estrategia de segmentación. Por consiguiente, definí un conjunto de intuiciones de segmentación que me permitieron diseñar un grupo de experimentos donde distintas estrategias fueron probadas. En secciones posteriores expon- go las intuiciones, experimentos, su evaluación y la selección de la estrategia final que será utilizada para la segmentación que permitirá inferir la morfotáctica del español de México. 4.1. Primer acercamiento a la segmentación automática De manera intuitiva y como primer acercamiento a la resolución de mi problema de seg- mentación, realicé un experimento que consistió en segmentar las palabras en los picos del índice de afijalidad. Esta afijalidad fue calculada utilizando un promedio normalizado de las tres medidas: entropía, economía y cuadros. Esta manera de calcular el índice ya había sido propuesta en investigaciones anteriores (Medina, 2003). Dado un conjunto de índices de afijalidad calculados para una palabra, hay un pico de afijalidad cuando el valor de ese índice es mayor al valor anterior y posterior, esto es, cuando , donde k es la longitud de la palabra más 1 (el final de la 130 palabra). El procedimiento de segmentación comienza de derecha a izquierda asumiendo que el final de palabra tiene valor cero de afijalidad, lo que permite sufijos de una letra. Adicionalmente se prohibieron segmentaciones en los tres primeros caracteres de la palabra para evitar segmentaciones al interior de las bases, aunque el español cuenta con bases cor- tas, por ejemplo am-ar. Obsérvese el ejemplo de la Tabla 4.1, en él se encuentran los índices de afijalidad calculados para la palabra UTILIZADOS56. Siguiendo el procedimiento expuesto, el primer pico de afijalidad corresponde al valor 0.8269, que daría como resultado la segmentación UTILIZADO~S. Los siguientes picos de afijalidad son 0.9421 y 0.4984, dejando la seg- mentación final como UTIL~IZ~ADO~S. Tabla 4.1 Índices de afijalidad de la palabra UTILIZADOS La principal ventaja de esta estrategia es que no se pone ningún umbral para decidir dónde segmentar; sin embargo, valores bajos de afijalidad pueden ser tomados en cuenta. Se realizaron las modificaciones al programa de computadora para segmentar las palabras de un corpus. Después fue necesario encontrar una manera de evaluar si el proce- dimiento de segmentación propuesto trabajaba aceptablemente. Al respecto, en sistemas de procesamiento de lenguaje natural hay dos criterios de evaluación: intrínseco y extrínseco (Spärck-Jones y Galliers, 1996). El primero (intrínseco) se lleva a cabo mediante una evaluación que compara el aná- lisis automático con el análisis de un especialista. Para el problema que me atañe, esto se traduce en comparar la segmentación automática con la segmentación manual de un con- 56 Este primer acercamiento lo realicé con la representación ortográfica del corpus. U T I L I Z A D O S 0.1634 0.1854 0.1123 0.4984 0.1818 0.9421 0.3585 0.8103 0.8269 131 junto de palabras. Desafortunadamente no pude encontrar un corpus de español segmentado morfológicamente para esta evaluación, por lo que decidí realizar una evaluación extrínse- ca. La evaluación extrínseca determina la efectividad de un método de acuerdo con su utilidad para realizar otra tarea de procesamiento de lenguaje natural. Por tanto, se decidió evaluar la segmentación automática mediante una tarea de resumen automático de docu- mentos (Méndez-Cruz et al. 2013). En términos generales, esta tarea consiste en extraer los enunciados más relevantes de un documento (Torres-Moreno, 2011). Que un programa de computadora determine cuáles enunciados son más relevantes es complejo, pero se han propuesto numerosos acercamientos para resolver este problema. Uno de ellos es el que proponen Torres-Moreno et al. (2009) y que se ha implementado en el sistema CORTEX. Este sistema genera resúmenes a partir de documentos usando un mo- delo de espacio vectorial. CORTEX utiliza un algoritmo de decisión que combina diversas métricas para asig- narle a cada enunciado del documento un valor de relevancia. El resumen producido es una concatenación de los enunciados con los valores más altos, según una tasa de compresión expresada en número de enunciados, de palabras o porcentaje del documento. Para realizar los resúmenes, CORTEX preprocesa los documentos y después los re- presenta como una matriz γ (véase Figura 4.1), donde cada elemento representa el nú- mero de ocurrencias de la palabra i en el enunciado µ (1 ≤ i ≤ M palabras, 1 ≤ µ ≤ P enun- ciados). También se crea otra matriz ξ para representar la presencia y ausencia de una pala- bra en un enunciado. 132 [ ] Figura 4.1 Matriz γ de ocurrencias de palabras por enunciado en CORTEX A partir de las matrices mencionadas, CORTEX calcula distinta información matemá- tica y estadística para obtener métricas de frecuencias, entropía, medidas de Hamming y otras. No describo aquí los cálculos de estas métricas, pero éstos pueden encontrarse en Torres-Moreno et al. (2009) y Torres-Moreno (2011). El algoritmo de decisión combina todas las métricas y calcula un valor de relevancia para cada enunciado. Luego, como se había dicho, los enunciados con los valores más altos conforman el resumen del documen- to. Parte del preprocesamiento de documentos que realiza CORTEX consiste en quitar algunas palabras y regularizar las restantes mediante un procedimiento de lematización (lemmatization). Este procedimiento tiene el objetivo de reducir la cantidad de variantes ortográficas de una palabra, lo que permite reducir el espacio de representación y mejorar los cálculos matemáticos. La lematización consiste en asignar una palabra como representante de un conjunto de variantes morfológicas. Por ejemplo, las flexiones verbales son representadas por la forma en infinitivo y los sustantivos por el singular masculino. CORTEX realiza esta labor mediante un diccionario donde busca la palabra del documento y obtiene su representante. Una estrategia alternativa utilizada por CORTEX para disminuir las variantes de una palabra es eliminar sus sufijos flexivos. Esto regulariza las palabras a una forma trunca. Este procedimiento se llama truncamiento (stemming). 133 El procedimiento de truncamiento que utiliza este sistema es el algoritmo de Porter (1980), que está basado en reglas elaboradas manualmente donde los sufijos de la palabra son eliminados o sustituidos por otros más cortos. Este procedimiento fue desarrollado ori- ginalmente para el inglés, pero existen versiones para otras lenguas como el español o el francés. Opcionalmente, CORTEX también puede realizar ambos procesos, lematización y luego truncamiento, como otra estrategia de regularización de palabras. Para la evaluación extrínseca se decidió desarrollar un truncador de palabras a partir de la segmentación morfológica. Este truncador sería utilizado por CORTEX para generar los resúmenes automáticos. Afortunadamente, CORTEX cuenta con una arquitectura modular que permitió ensamblar el truncador desarrollado. La idea detrás de esto fue que si los resúmenes mejoraban, entonces había indicio de que la segmentación morfológica era eficiente desde una perspectiva extrínseca. Si el mé- todo de segmentación trabajaba de manera regular, entonces el truncamiento sería también regular y el sistema de resumen automático aprovecharía esta regularidad para sus objeti- vos. Se consideró interesante probar tres estrategias de truncamiento: (i) truncar en el primer pico de afijalidad a la derecha, (ii) truncar en el primer pico de afijalidad a la iz- quierda, y (iii) truncar en el valor máximo de afijalidad. Por ejemplo, para la palabra seg- mentada UTIL~IZ~ADO~S (véase arriba Tabla 4.1) la estrategia (i) daría como resultado la palabra truncada UTIL~IZ~ADO~, la estrategia (ii) propondría la palabra truncada UTIL~, y la estrategia (iii) plantearía la palabra truncada UTILIZ~. Un método automático no supervisado tiene la ventaja de ser relativamente inde- pendiente de la lengua, por lo que se realizaron experimentos en español, francés e inglés. Además, los resultados de un método de procesamiento estadístico, como el que calcula el 134 índice de afijalidad, pueden ser sensibles al tamaño de datos con los que es alimentado. Entonces, se pensó en evaluar si había relación entre la cantidad de palabras para generar las medidas (entropía, cuadros y economía) y las segmentaciones resultantes. Por lo ante- rior se utilizaron tres tamaños de corpus de entrenamiento, esto es, tres cantidades de pala- bras para generar las medidas de afijalidad. Lo anterior dio como resultado la siguiente configuración de experimentos de trun- camiento para cada lengua (véase Tabla 4.2). Tabla 4.2. Configuración de experimentos de truncamiento Truncamiento en: Tamaño del corpus de entrenamiento Valor máximo (vM) Pico más a la dere- cha (R) Pico más a la iz- quierda (L) 100 mil palabras vM100 R100 L100 200 mil palabras vM200 R200 L200 500 mil palabras vM500 R500 L500 Para evaluar si las estrategias de truncamiento mejoraban los resultados del resumi- dor, se pusieron a competir con las estrategias utilizadas por éste: lematización con diccio- nario (lemm), truncamiento con el algoritmo de Porter (stem) y ambos procedimientos (lems). Fueron agregadas dos pruebas más: truncar arbitrariamente a seis caracteres (fixed) y no modificar la palabra (raw). La Tabla 4.3 muestra todas las estrategias probadas en los experimentos de resumen automático para la evaluación extrínseca. 135 Tabla 4.3 Conjunto de experimentos para la evaluación extrínseca Estrategia Descripción vM100 Valor máximo de afijalidad y corpus de entrenamiento de 100 mil palabras vM200 Valor máximo de afijalidad y corpus de entrenamiento de 200 mil palabras vM500 Valor máximo de afijalidad y corpus de entrenamiento de 500 mil palabras R100 Pico de afijalidad más a la derecha y corpus de entrenamiento de 100 mil palabras R200 Pico de afijalidad más a la derecha y corpus de entrenamiento de 200 mil palabras R500 Pico de afijalidad más a la derecha y corpus de entrenamiento de 500 mil palabras L100 Pico de afijalidad más a la izquierda y corpus de entrenamiento de 100 mil palabras L200 Pico de afijalidad más a la izquierda y corpus de entrenamiento de 200 mil palabras L500 Pico de afijalidad más a la izquierda y corpus de entrenamiento de 500 mil palabras lemm Lematización con diccionario stem Truncamiento con algortimo de Porter lems Lematización y luego truncamiento fixed Truncamiento a seis caracteres Raw Ninguna modificación a la palabra Se utilizaron diversos textos para conformar el corpus de evaluación del resumidor. Para el inglés se tomaron 50 grupos de textos provenientes de la tarea dos de la competen- cia internacional DUC 200457. Para el español se utilizaron ocho artículos del área biomé- dica obtenidos de la revista especializada Medicina Clínica58. Con respecto al francés se utilizó el corpus Canadien French Sociological Articles (Torres-Moreno et al., 2010) de la revista electrónica especializada Perspectives interdisciplinaires sur le travail et la santé (PISTES)59. En lo que atañe al corpus de entrenamiento se experimentó, como había dicho, con tres distintos tamaños: 100, 200 y 500 mil ocurrencias de palabras. En el caso del español, 57 http://duc.nist.gov/duc2004. 58 http://zl.elsevier.es/es/revista/medicina-clinica-2. 59 http://www.elsevier.es/revistas/ctl_servlet?_f=7032&revistaid=2 136 utilicé extractos del CEMC. Para el inglés utilicé 24 documentos extraídos de la tarea siete de la competencia INEX 2012 (Tweet Contextualization Track)60. Para el francés, conformé el corpus de diversas fuentes61. Se generaron los resúmenes de cada documento del corpus de evaluación con el sis- tema CORTEX utilizando cada una de las variantes de normalización de palabras expuestas arriba (véase Tabla 4.3). Luego fue necesario evaluar la calidad de estos resúmenes para lo cual se utilizaron los resúmenes elaborados por humanos. Esta evaluación se realizó con el sistema ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (Lin, 2004). Este sistema realiza evaluaciones semiautomáticas que miden la similitud entre el resumen au- tomático y el resumen manual. Se utilizaron medidas de similitud basadas en pares de pala- bras contiguas (bigramas) y no contiguas (bigramas con huecos). Los primeros son llama- dos ROUGE-2 y los segundos ROUGE-SU4. Los resultados de los experimentos para español pueden verse en la Figura 4.2. Pue- de observarse que los mejores resúmenes se obtuvieron con la estrategia de cortar las pala- bras en el pico de afijalidad más a la izquierda y con un corpus de entrenamiento de 500 mil palabras (L500). De hecho, la segunda mejor estrategia es la misma pero con un corpus de 200 mil palabras. 60 https://inex.mmci.uni-saarland.de/tracks/qa/2012/. 61 Los detalles de este corpus y del corpus de evaluación, así como de los resultados obtenidos, se pueden en Méndez-Cruz et al. (2013). 137 Figura 4.2 Resultados de la evaluación extrínseca para español Los peores resultados para español se dan con resúmenes que usaron la estrategia ya sea de segmentar en el pico más a la derecha o en el valor más alto de afijalidad. En el caso del francés (véase Figura 4.3), el mejor método fue también el método L500. Figura 4.3 Resultados de la evaluación extrínseca para francés 138 Para esta lengua las peores estrategias fueron el truncamiento con el algoritmo de Porter y la falta de regularización de las palabras. En general, los resultados obtenidos lle- van a pensar que para español y francés CORTEX mejora cuando hay mayor truncamiento. Esto es, cortar en el pico de afijalidad más a la izquierda implica que las palabras son des- provistas de todo sufijo flexivo o derivativo. En contraste, los resúmenes para inglés no mejoraron con el método de corte en el pico de afijalidad más a la izquierda, por el contrario, éste fue el método con peores resul- tados como puede verse en la Figura 4.4. En esta lengua, fueron mejores resúmenes los que utilizan lematización con diccionario (lemm) y los que cortan en el pico más a la derecha o en el valor más alto de afijalidad (vM100 y R100). Además, se logran buenos resultados con corpus de entrenamiento pequeño, esto es, de 100 mil palabras. Figura 4.4 Resultados de la evaluación extrínseca para inglés Los experimentos de evaluación demostraron que la estrategia de segmentación morfológica funcionó bien para realizar la tarea de resumen automático de documentos, aunque fue mejor para español y francés que para inglés. Una desventaja de esta evaluación 139 extrínseca es el desconocimiento de qué tanto el funcionamiento interno de CORTEX ayudó a que se dieran esos resultados. Con el truncador desarrollado para los experimentos anteriores se participó en la competencia INEX 2012 (Méndez-Cruz, Soriano-Morales y Medina-Urrea, 2011), específi- camente en la tarea de contextualización de tweets en inglés (Tweet Contextualization Track). Esta tarea consistió en obtener textos de la Wikipedia en inglés relacionados con el tema de cada tweet. Los contextos finales obtenidos de estos textos no debían superar las 500 palabras, por lo que se utilizó CORTEX con el truncador desarrollado para realizar los resúmenes de los textos extraídos de la Wikipedia. Nuevamente se probaron tres tamaños de corpus de entrenamiento para calcular las medidas de afijalidad: 100, 200 y 500 mil palabras. Los resúmenes de 1,133 tweets contex- tualizados fueron enviados a la competencia. La evaluación de la contextualización estuvo a cargo de los organizadores (SanJuan et al. 2011). La mejor posición obtenida para el resumidor con el truncador fue el lugar 9 de 27 lugares. Esta posición se logró con un corpus de 500 mil palabras. Las otras variantes logra- ron los lugares 15 (200 mil) y 17 (100 mil), lo que da muestra de que el truncamiento con mayor corpus de entrenamiento ayudó a CORTEX a obtener mejores resultados en esta com- petencia. Finalmente, se decidió que era necesario experimentar con otras estrategias de seg- mentación, por lo que me di a la tarea de proponer varios experimentos que revelaran una mejor manera de segmentar las palabras. También se vio la necesidad de realizar una eva- luación intrínseca para evaluar qué estrategia de segmentación convenía adoptar. En los siguientes apartados expongo cómo se llegó a la formulación de las intuicio- nes de segmentación, los experimentos y su evaluación. 140 4.2. Definición del conjunto de experimentos Esta sección está dedicada a exponer el diseño de los experimentos de segmentación morfo- lógica automática. Por un lado, se realizaron algunos experimentos basados en estrategias de segmentación que habían sido propuestas en trabajos anteriores de investigación, pero que no se habían llevado a cabo (Medina, 2000; 2003); estas son puntualizadas en el apar- tado 4.2.1. Además, hice otros experimentos que fueron diseñados a partir de intuiciones for- muladas en este trabajo de investigación. Para elaborar estas intuiciones, primero recuperé de manera puntual varios antecedentes establecidos en las investigaciones anteriores a pro- pósito del cálculo de la afijalidad. Estos antecedentes se pueden ver en el apartado 4.2.2. Después combiné estos antecedentes con mis propias observaciones sobre el cálculo de las medidas de afijalidad de un conjunto pequeño de palabras; observaciones que con- signo en el apartado 4.2.3. Con toda esta información, elaboré las intuiciones que guiaron los experimentos de segmentación realizados, éstos pueden verse en las secciones 4.2.4 y 4.2.5. 4.2.1. Estrategias de segmentación propuestas anteriormente Las siguientes estrategias de segmentación morfológicas ya habían sido propuestas en in- vestigaciones previas sobre el índice de afijalidad (Medina, 2000, pág. 108; 2003, pág. 133), aunque no se habían probado. Todas se basan en un índice de afijalidad obtenido a partir del cálculo del promedio de las medidas normalizadas, ya sea de dos de ellas (entro- pía y economía) o de las tres (entropía, economía y cuadros). (a) Segmentar cuando el valor de afijalidad sea mayor a cero. 141 (b) Segmentar en el valor más alto de afijalidad. (c) Segmentar cuando el valor de afijalidad sea mayor a un valor umbral (0.5). (d) Segmentar recursivamente hacia la izquierda en el valor más alto de afijalidad. (e) Segmentar recursivamente hacia la derecha en el valor más alto de afijalidad. En seguida discuto cuáles de estas estrategias utilizaré en mi trabajo de investiga- ción. La estrategia propuesta en (a), como ya fue dicho en trabajos anteriores, produciría una gran cantidad de afijos por palabra, mucho de ellos falsos, ya que la gran mayoría de posibles segmentos llevan cierto grado de afijalidad y muy pocos están desprovistos de ella. Por ejemplo, véanse los índices de afijalidad de la palabra ALARMANTES en la Tabla 4.4. La estrategia de segmentar cuando el valor de afijalidad sea mayor a cero daría como resultado la segmentación ALA~R~M~A~N~T~E~S. Como puede verse, se espera- rían muchos afijos falsos (sobresegmentación) y por consiguiente no tomaré en cuenta esta estrategia. Tabla 4.4 Índices de afijalidad de la palabra ALARMANTES Descarto utilizar también la estrategia de (b) porque propone segmentar la palabra sólo una vez. Esta fue la estrategia seguida para obtener el catálogo de afijos en las investi- gaciones anteriores. Las estrategias (c), (d) y (e) sí son tomadas en cuenta en mi investigación ya que por medio de ellas es posible obtener varios sufijos por palabra. En los siguientes párrafos hago algunas observaciones adicionales sobre estas estrategias. La estrategia (c) despierta la curiosidad por saber qué tan pertinente es el uso de un umbral en el proceso de segmentación, lo que lleva a la cuestión de qué valor conviene po- A L A R M A N T E S 0 0 0.1738 0.3634 0.5021 0.1061 0.536 0.07867 0.8298 142 ner a ese umbral. Dado que el índice de afijalidad está normalizado (va de cero a uno), to- mar valores arriba de la mitad (0.5) parece en principio buena idea. Lo que no debe olvidar- se es que entre más alto sea el umbral, mayor será el nivel de afijalidad que se exija para que un segmento sea considerado como un afijo. En lo que toca a las estrategias (d) y (e), éstas ponen de manifiesto la importancia de considerar la direccionalidad de la segmentación, es decir, hacia dónde se realizan los cor- tes en la palabra (izquierda o derecha). Además, proponen usar el valor más alto de afijali- dad en lugar de un umbral. Esta idea resalta el hecho de que cada segmento de un palabra conlleva cierto nivel de afijalidad y que son los más altos los que estarían asociados al fe- nómeno de afijación. Con relación a la direccionalidad y recordando los resultados obtenidos en los expe- rimentos reportados en investigaciones anteriores, donde el catálogo de afijos estaba enca- bezado por los sufijos con mayor afijalidad y que estos coincidían con los sufijos más fle- xivos, ¿se puede esperar que una estrategia de corte hacia la derecha proporcione buenos resultados, cuando se sabe que en español los sufijos flexivos están más a la derecha de un palabra? Para resolver esta cuestión se llevaron a cabo experimentos en ambas direcciones. 4.2.2. Antecedentes sobre el cálculo de la afijalidad Consigno en esta subsección el conjunto de antecedentes que, a propósito de la segmenta- ción morfológica, fueron expuestos en trabajos previos de investigación sobre el cálculo de la afijalidad. Estos antecedentes me permitieron inferir algunas ideas sobre la segmentación morfológica que a la larga me ayudaron a generar algunas intuiciones. Varios de estos ante- cedentes ya fueron mencionados en la sección 2.5, pero los repito aquí de manera puntual 143 con el fin de hacer más clara la discusión sobre el diseño de los experimentos de segmenta- ción. Antecedentes a propósito de las medidas de afijalidad: A.1 Los cuadros son una medida de la validez de una segmentación. A.2 El valor más alto de entropía, calculada de derecha a izquierda de una palabra, indica dónde termina una base y comienza un sufijo o cadena de sufijos. A.3 En el caso de los sufijos, la economía asociada a un corte será más alta si el segmento del lado derecho es muy frecuente y pertenece a un conjunto relativa- mente pequeño de segmentos. Pongo en seguida algunos breves comentarios sobre estos antecedentes. Del primer antecedente (A.1) se puede inferir que es posible esperar cortes más precisos si se combina la medida de cuadros con cualquier otra medida de afijalidad. Para el caso de A.2 es posible pensar que la medida de entropía es buena candidata para descubrir la base de un palabra. Finalmente, de A.3 se intuye que la medida de economía es buena candidata para descubrir sufijos flexivos, ya que son más frecuentes y aportan más economía al sistema lingüístico. Las investigaciones anteriores ya habían hecho clara la necesidad de combinar las medidas de afijalidad en lo que se ha llamado un índice de afijalidad. En lo que respecta a la combinación de medidas recupero los siguientes antecedentes: A.4 "La cualidad que tiene [un segmento] de ser afijo es directamente proporcional al producto de alguna medida de economía (k) por el número de cuadros (c), por una medida (h) de la sorpresa inherente a la transición de ese segmento al si- guiente" (Medina, 2003, pág. 128). A.5 La combinación del índice de economía y de entropía mejoró considerablemen- te los resultados, en comparación con la combinación de los tres índices. 144 El antecedente A.4 muestra que es factible multiplicar los valores de las medidas en lugar de promediarlos para obtener el índice de afijalidad. Del antecedente A.5 se puede espera que combinar la medida de entropía y la medida de economía sea una buena estrate- gia para obtener cortes en las palabras, aunque habrá que averiguar si funciona igual de bien para varios cortes que para uno solo. 4.2.3. Reflexiones sobre las medidas de afijalidad Revisé de manera general aproximadamente 500 palabras y con detalle un subconjunto de 60 de ellas con la idea de observar el comportamiento de las medidas de entropía, economía y cuadros. El resultado de estas observaciones se muestra a continuación. Éste, combinado con los antecedentes expuestos en el apartado previo, me permitió elaborar algunas intui- ciones. Ya el antecedente A.2 me permitía suponer que la entropía es buena candidata para descubrir la base de una palabra. Sin embargo, observé que su efectividad es variable y obtiene mejores resultados en palabras con sufijos derivativos. Véase por ejemplo el inciso (a) de la Tabla 4.5, donde el valor máximo de entropía calculado para la palabra NIÑO propone la segmentación N~IÑO. Esto se debe a la rela- ción entre este palabra y palabras como CARIÑO, GUIÑO, LAMPIÑO o PATIÑO; sin embargo, ésta no es una segmentación correcta (~IÑO no es un sufijo derivativo en el pala- bra NIÑO). En cambio, para el palabra DEFINICIÓN, véase (b) de la misma tabla, el valor máximo de entropía sí separa correctamente el sufijo derivativo de la base. 145 Tabla 4.5 Medidas de entropía para las palabras NIÑO y DEFINICIÓN (a) (b) Pongo en seguida otro ejemplo. A pesar de que en (a) de la Tabla 4.6 la entropía propone la segmentación equivocada C~ANCIÓN, en (b) es capaz de separar la raíz de la flexión verbal (CANT~AREMOS) y en (c) la base del sufijo derivativo (VENG~ANZA). Tabla 4.6 Entropías para CANCIÓN, CANTAREMOS y VENGANZA (a) (b) (c) Ahora bien, si el antecedente A.1 proponía la medida de cuadros como validadora de una segmentación, entonces ¿será posible evitar los cortes equivocados que propone la entropía si se combina con la medida de cuadros? Como se puede ver en (a) de la Tabla 4.7, el valor máximo de entropía coincide con un valor muy pequeño de cuadros y es el valor máximo de la medida de cuadros el que propone la segmentación correcta NIÑ~O. N I Ñ O 1.957 1.281 0.8643 D E F I N I C I Ó N 0 0 0 1.735 2.061 1.05 0.6541 1.336 1.468 C A N C I Ó N 1.561 1.132 1.05 0.6541 1.336 1.468 C A N T A R E M O S 1.895 0.9992 2.179 2.713 1.414 1.52 0.8699 1.216 1.301 V E N G A N Z A 0 0 1.099 2.468 0.878 1.496 1.061 146 Tabla 4.7 Medidas de afijalidad para NIÑO y CANCIÓN (a) (b) En el caso de (b) de la Tabla 4.7, el valor máximo de entropía coincide con un valor cero de cuadros. Si combinara estas medidas con un producto, se cancelaría el corte pro- puesto por la entropía. Hasta el momento las principales intuiciones que se obtiene son que tal vez sea posible descubrir las bases de las palabras con una combinación de entropía y cuadros, y que tal vez conviene multiplicar las medidas. La Tabla 4.7 también mostró que los valores máximos de las medidas de cuadros y economía coinciden. Esto no sucede siempre, como expongo a continuación, pero el com- portamiento de estas medidas deja entrever una posibilidad interesante. Pude observar que cuando los valores máximos de las dos medidas coinciden se trata generalmente de sufijos flexivos o sufijos de verboides (que son muy productivos), véanse los ejemplos de la Tabla 4.8. N I Ñ O Entropía 1.957 1.281 0.8643 Cuadros 21 0 242312 Economía 0.8095 0 0.9992 C A N C I Ó N Entropía 1.561 1.132 1.05 0.6541 1.336 1.468 Cuadros 0 0 0 0 655 0 Economía 0 0 0 0 0.9252 0 147 Tabla 4.8 Medidas de afijalidad para ELIMINAR y NIÑOS (a) (b) En el caso de la derivación, vi de manera recurrente que los valores máximos de es- tas dos medidas no coincidían, por ejemplo, esto sucedió sistemáticamente con sufijos deri- vativos como –ACIÓN, –ANTE y –ANZA como lo muestro en los casos de la Tabla 4.9. Tabla 4.9 Medidas de afijalidad para ELIMINACIÓN, DIBUJANTE y CONFIANZA (a) (b) (c) Como puede observarse, es la medida de cuadros la que propone el corte en los sufi- jos derivativos. En cambio, la medida de economía propone un tipo de sufijo más generali- zador, un segmento más frecuente y regular. Piénsese, por ejemplo, en que el segmento E L I M I N A R Entropía 0.6365 0.6931 2.02 2.462 1.647 2.72 1.068 Cuadros 0 0 40 0 6 291188 11244 Economía 0 0 0 0 0.8333 0.9463 0.8972 N I Ñ O S Entropía 1.643 1.32 1.216 1.301 Cuadros 0 0 230703 253968 Economía 0 0 0.9992 1 E L I M I N A C I Ó N Entropía 0 0.6365 1.777 1.855 1.55 2.453 1.05 0.6541 1.336 1.468 Cuadros 0 0 12 0 2 71548 1094 0 388 0 Economía 0 0 0 0 0.5 0.7816 0 0 0.9974 0 D I B U J A N T E Entropía 0 0 1.099 1.004 2.652 0.5838 1.781 1.254 Cuadros 0 0 0 0 36238 2233 6499 0 Economía 0 0 0 0 0.5688 0 0.9994 0 C O N F I A N Z A Entropía 0 0 1.055 1.149 2.468 0.878 1.496 1.061 Cuadros 0 0 0 0 2993 0 22 0 Economía 0 0 0 0 0 0 0.9545 0 148 ~ÓN es una parte constante de los segmentos ~ACIÓN, ~CIÓN, ~ICIÓN, ~IÓN y ~UCIÓN. Ya el antecedente A.3 describía esto cuando indicaba que en el caso de los sufi- jos, la economía asociada a un corte será más alta si el segmento del lado derecho es muy frecuente y pertenece a un conjunto relativamente pequeño de segmentos. Sin embargo, la falta de coincidencia de corte entre las medidas de cuadros y eco- nomía también se da en casos de flexión verbal, véase por ejemplo la Tabla 4.10, lo que no permite generalizar una manera de distinguir automáticamente flexión de derivación. La relación entre estas dos medidas y la capacidad de usarlas para distinguir entre tipos de su- fijos podrían ser evaluadas en futuras investigaciones. Tabla 4.10 Medidas de afijalidad para la palabra CANTAREMOS Otra de las intuiciones obtenidas de esta exploración es que diferentes combinacio- nes de las medidas de afijalidad pueden dar buenos resultados. Así, tal vez es posible iden- tificar una base combinando, por ejemplo, entropía y cuadros, y descubrir los afijos con entropía y economía. 4.2.4. Intuiciones sobre la segmentación morfológica En esta sección plasmo las intuiciones que sirvieron de guía para la realización de los expe- rimentos de segmentación. En ellas están involucrados todos los aspectos discutidos en los apartados anteriores. Esto es, tomo en cuenta las estrategias de segmentación y los antece- dentes sobre el cálculo de la afijalidad; además, involucro las observaciones que surgieron de la exploración de medidas calculadas para algunas palabras. C A N T A R E M O S Entropía 1.895 0.9992 2.179 2.713 1.414 1.52 0.8699 1.216 1.301 Cuadros 3 0 303 274560 9016 12750 25991 0 0 Economía 0 0 0.1551 0.9296 0.8136 0.9385 0.9994 0 0 149 Es importante recordar que en mi trabajo de investigación el descubrimiento de uni- dades morfológicas está restringido a bases y sufijos, dejando el fenómeno de prefijación para trabajo futuro. Por lo anterior, asumo de manera simplista que la base está al comienzo de la palabra. Agrupo las intuiciones de acuerdo con tres ideas generales que muestro a continua- ción. 1. Utilizar una combinación de medidas para descubrir bases (por ejemplo, la combinación de entropía y cuadros) y otra distinta para descubrir sufijos (por ejem- plo, entropía y economía). 2. Utilizar la misma combinación de medidas (por ejemplo, sólo la combina- ción de entropía y cuadros) para descubrir tanto bases como sufijos. 3. Volver a calcular las medidas de afijalidad de la palabra después de descu- brir cada segmento, por ejemplo, cortar todas las palabras en dos segmentos y tomar ya sea el de la derecha o el de la izquierda como la entrada de una nueva medición de afijalidades. La primera idea propone el uso de ciertas medidas para descubrir la base y de otras para descubrir los sufijos. Responde a la curiosidad por saber si es posible caracterizar de manera distinta a estas unidades morfológicas utilizando las medidas de afijalidad. Primeramente, de los antecedentes se sabe que la medida de entropía es buena can- didata para descubrir bases (antecedente A.2); aunque, como se vio en la exploración de medidas, su efectividad es variable. Entonces, se puede pensar que la combinación de ésta con la medida de cuadros, que sirve como medida de validez de una segmentación (antece- dente A.1), permitirá descubrir bases de manera más precisa. 150 Ahora bien, asumiendo que se descubre la base, es necesario determinar los cortes para los sufijos. Si la medida de economía está más asociada a unidades más afijales (ante- cedente A.3) y su combinación con la medida de entropía dio buenos resultados para el descubrimiento de sufijos en experimentos anteriores de un solo corte por palabra (antece- dente A.5), entonces se puede proponer el uso de esta combinación de medidas para deter- minar los cortes para cada sufijo. De esta manera surge la siguiente intuición, representada gráficamente por la Figura 4.5. I1. Es posible descubrir la base de una palabra mediante la combinación de las medidas de entropía y cuadros, y después descubrir los sufijos mediante la combina- ción de las medidas de economía y entropía. Figura 4.5 Utilizar entropía y cuadros para descubrir la base Al reflexionar sobre la intuición anterior, es posible preguntarse si la estrategia con- traria puede ser plausible. Es decir, descubrir primero el sufijo más a la derecha (más afijal) y luego proponer cortes para obtener los restantes sufijos hasta llegar al corte correspon- diente a la base. Esta idea involucra la combinación de las mismas medidas pero en orden inverso. Surge entonces la siguiente intuición, representada gráficamente en la Figura 4.6. I2. Es posible descubrir el sufijo más a la derecha mediante la combinación de las medidas de entropía y economía, y después descubrir los sufijos restantes hasta encontrar la base mediante la combinación de las medidas de entropía y cuadros. 151 Figura 4.6 Utilizar entropía y economía para descubrir último sufijo Además, sería pertinente experimentar con un cambio en la manera de combinar las medidas, esto es, pienso que sería bueno multiplicarlas ya que un promedio entre ellas siempre dará como resultado cierta cantidad de afijalidad aunque haya valores de cero para la medida de cuadros. Así, al multiplicarlas si la cantidad de cuadros es cero, el corte será anulado. Entonces para los experimentos usé tanto el valor normalizado del producto de las medidas, como el promedio de valores normalizados. La segunda idea es que una sola combinación de medidas de afijalidad (por ejemplo, entropía y economía) basta para segmentar una palabra en todas las unidades posibles (ba- ses y sufijos); en contraste con utilizar una combinación de medidas para determinar la base y otra para determinar los sufijos. El antecedente de que la afijalidad más alta describe cuantitativamente a las unida- des más afijales (antecedente A.4) lleva a pensar que el valor máximo de afijalidad de una palabra correspondería al último sufijo: el sufijo más flexivo, y por tanto más afijal. En una estrategia de segmentación basada en esta idea, se harían cortes sucesivos hacia la izquierda de la palabra, donde el último corte descubriría la base, lo que significa descubrirla única- mente por su posición sin distinguirla de los sufijos usando sus características cuantitativas. 152 Sin embargo, también se asumió que el valor máximo de afijalidad no descubre el último sufijo de la palabra, sino que permite separar la base del resto de los sufijos agluti- nados. Luego, con cortes sucesivos hacia la derecha, sería posible separar estos sufijos. Se utilizó también una estrategia de segmentación basada en todos los valores de afijalidad mayores a 0.5. En ésta no es pertinente la dirección hacia donde se hace la seg- mentación y sería de esperarse que hubiera más segmentos por palabra que en las otras es- trategias. Con el fin de ejemplificar las tres estrategias anteriores véase la Tabla 4.11 Medi- das de afijalidad para la palabra CANTEN, si la palabra fuera segmentada en valores má- ximos (sólo mayores a 0.5) hacia la izquierda a partir del primer valor máximo, se obten- dría la segmentación CAN~T~EN. Si el procedimiento fuera hacia la derecha, la segmenta- ción sería CANT~E~N. Luego, si se toman todos los valores mayores a 0.5 la segmentación sería CAN~T~E~N dando como resultado cuatro segmentos y no tres. Tabla 4.11 Medidas de afijalidad para la palabra CANTEN Las intuiciones resultantes de lo expuesto en los párrafos anteriores se expresan a continuación, cada una incluye una representación gráfica. I3. El valor máximo de afijalidad de una palabra permite descubrir el último su- fijo y luego los sufijos restantes hasta encontrar la base. C A N T E N 0.2861 0.1399 0.5291 0.9185 0.6077 153 Figura 4.7 Valor máximo de afijalidad para descubrir sufijos y luego base I4. El valor máximo de afijalidad de una palabra permite descubrir la base y luego los sufijos restantes hasta encontrar el último sufijo. Figura 4.8 Valor máximo de afijalidad para descubrir base y luego sufijos I5. Los valores de afijalidad de una palabra mayores a 0.5 permiten descubrir la base y los sufijos. Figura 4.9 Afijalidad mayor a 0.5 para descubrir base y sufijos Para los experimentos que ayudarán a comprobar estas intuiciones, es necesario probar con dos maneras de calcular la afijalidad. Debe recordarse que en las investigaciones 154 anteriores se había calculado este índice con la combinación de las tres medidas (entropía, economía y cuadros) y con la combinación sólo de la medida de economía y de entropía (antecedentes A.4 y A.5). Además, los experimentos contemplan dos formas de combinar las medidas de afijalidad: mediante un promedio y mediante un producto. Otra idea diferente sería pensar en cortar la palabra en el valor máximo de afijalidad y volver a calcular las medidas de afijalidad de los segmentos resultantes, ya sea el de la derecha, el de la izquierda o ambos. Si se decide volver a calcular las medidas de afijalidad sólo para el segmento del lado derecho, se estaría asumiendo que el primer corte descubrió la base. Si se decide volver a calcular las medidas de afijalidad sólo para el segmento de la izquierda, se asumiría que el primer corte descubrió el sufijo más externo de la palabra. Se trata de una estrategia basada también en los valores máximos de afijalidad, pero con la diferencia de que se estaría tomando siempre el primer valor máximo para proponer un corte, en comparación con las estrategias anteriores, en las que se toma el primer valor máximo, luego el segundo valor máximo y así sucesivamente. La intuición derivada de las ideas anteriores se expone a continuación. Debajo está una representación gráfica. I6. El procedimiento recursivo de segmentar en el valor máximo de afijalidad y volver a calcular las medidas de afijalidad para los segmentos resultantes permite descubrir la base y los sufijos de una palabra. 155 Figura 4.10 Procedimiento recursivo para descubrir bases y sufijos Se dejará para trabajo futuro la comprobación de esta intuición, por lo cual no habrá experimentos relacionados con ella. En el apartado siguiente se describen los experimentos que realicé en lo que a la segmentación morfológica se refiere. 4.2.5. Experimentos Como parte de las ideas expuestas en los apartados anteriores, se pueden identificar ciertas condiciones involucradas en una posible estrategia de segmentación morfológica. En segui- da expongo estas condiciones y después los experimentos. Dado que la afijalidad puede ser calculada de distintas maneras, es posible determi- nar ciertas condiciones implicadas en dicho cálculo. Por un lado se encuentran las medidas combinadas (entropía, economía y cuadros) o, mejor dicho, qué combinación hacer de ellas. Por ejemplo, combinar entropía con cuadros, o combinar entropía con economía, o combi- nar las tres. 156 Por otro lado, es posible cambiar la manera de combinarlas, ya que se puede utilizar un promedio, un producto, etcétera62. En el caso de un producto de medidas, si una de ellas tiene valor cero, todo el cálculo será cero y el posible corte será anulado sin importar que las otras medidas sean muy altas. Por el contrario, si se utiliza un promedio, siempre se obtendrá un valor aunque alguna de las medidas tenga valor de cero. Tómense como ejemplo los cálculos mostrados en la Tabla 4.12. En este caso el ín- dice de afijalidad muestra el promedio de valores normalizados. Como se trata de un pro- medio de las tres medidas, siempre hay un valor de afijalidad, a pesar de que hay muchos valores de cero para las medidas de cuadros y economía. Si la manera de combinar las me- didas fuera con un producto, la medida de afijalidad sería cero para todos los cortes, excep- to el corte en ~ÓN. Tabla 4.12 Medidas de afijalidad para la palabra CANCIÓN Una vez decidida la manera de calcular la afijalidad para una palabra, es necesario decidir también dónde hacer los cortes para la segmentación. De manera muy general, pue- den observarse dos posibilidades: (i) segmentar cuando los valores superen un umbral, y (ii) segmentar en los valores más altos (valores máximos). Como se había mencionado, convie- ne tomar en cuenta los valores más altos ya que la afijalidad permite calcular qué tanto un segmento es un afijo, por lo que a mayor afijalidad, mayor cualidad de afijo; aunque puede haber otras posibilidades no contempladas aquí. 62 Una discusión sobre la pertinencia de combinar estas medidas y de cómo hacerlo se puede encon- trar en Medina (2003). C A N C I Ó N Entropía 1.561 1.132 1.05 0.6541 1.336 1.468 Cuadros 0 0 0 0 655 0 Economía 0 0 0 0 0.9252 0 Afijalidad 0.3333 0.2418 0.2243 0.1397 0.9519 0.3136 157 Si se decide segmentar el palabra en los valores más altos, es necesario poner un umbral que limite lo que se considera “alto”, de lo contrario habrá sobresegmentación ya que un valor muy pequeño puede ser el más alto entre valores aún más pequeños. Ejempli- ficaré a qué me refiero tomando la idea de segmentar una palabra con cortes sucesivos ha- cia la izquierda en los valores máximos de afijalidad. En la Tabla 4.13 se observa que el primer valor máximo de afijalidad es 0.8298, lo que propondría un corte en ALARMANTE~S. Luego, de los valores restantes, el máximo es 0.536, con un segundo corte en ALARMAN~TE~S. Después, el siguiente valor máximo es 0.5021, con corte en ALARM~AN~TE~S. Si no hay un umbral para los valores más altos, el procedimiento sigue y los nuevos valores máximos serían 0.3634 (ALAR~M~AN~TE~S) y finalmente 0.1738 (ALA~R~M~AN~TE~S). Tabla 4.13 Medidas de afijalidad para la palabra ALARMANTES Como se pudo observar, sin un umbral, el procedimiento de cortes sucesivos sobre- segmentaría las palabras. Es importante entonces combinar la estrategia de valores más altos con la imposición de un umbral que determine qué valores máximos serán selecciona- dos. Para todos los experimentos que realicé, puse un umbral de 0.5. Como ya se dijo, existen también distintas maneras de usar los valores máximos de una palabra. Una de ellas estaría basada en la direccionalidad, esto es, tomar los valores máximos hacia la derecha o hacia la izquierda. El procedimiento consistiría en cortar la palabra en el primer valor más alto de afijalidad y luego cortar en los valores más altos en una dirección: izquierda o derecha. Las diferencias de segmentación entre una dirección y otra se pueden ver en el siguiente ejemplo. A L A R M A N T E S 0 0 0.1738 0.3634 0.5021 0.1061 0.536 0.07867 0.8298 158 Para la segmentación de la palabra NIÑOS (Tabla 4.14), primero se toma el valor máximo de afijalidad (0.9305), que da como resultado la segmentación NIÑO~S. Si el pro- cedimiento estuviera basado en una direccionalidad hacia la izquierda, el segundo corte sería en NIÑ~O~S. En cambio, si el procedimiento estuviera basado en una direccionalidad hacia la derecha, ya no habría otro corte. Tabla 4.14 Índice de afijalidad para la palabra NIÑOS No está por demás decir que hay muchas otras posibles qué considerar en un proce- dimiento de segmentación basado en las medidas de afijalidad. Por ejemplo, se puede pen- sar en usar otras medidas o distintas maneras de combinarlas, pero ya no se tomarán en cuenta. A manera de resumen, la Tabla 4.15 contiene las condiciones involucradas en una posible estrategia de segmentación y las realizaciones de estas condiciones. Tomé en cuenta todas las posibles combinaciones de esas condiciones, lo que arrojó un conjunto de dieciséis experimentos; algunos con menor o mayor probabilidad de ser exitosos. Estos experimentos se resumen en la Tabla 4.16. No está de más recordar que las investigaciones anteriores habían desarrollado un programa de computadora que calcula las medidas de afijalidad de las palabras de un cor- pus para generar un catálogo de afijos. Modifiqué este programa para realizar los experi- mentos y obtener un conjunto de tipos de palabras segmentados. N I Ñ O S 0.3333 0.2678 0.8824 0.9305 159 Tabla 4.15. Condiciones involucradas en la segmentación Condición Explicación Realización Medidas com- binadas Involucra una selección de qué medi- das serán combinados para calcular la afijalidad. 1) Entropía y economía. 2) Entropía y cuadros. 3) Entropía, economía y cuadros. Manera de combinación Involucra las operaciones matemáti- cas que combinarán las medidas para calcular la afijalidad. 1) Promedio de índices normalizados. 2) Multiplicación de medi- das y normalización del producto. Direccionalidad de la segmenta- ción Involucra la dirección hacia donde se toman los valores máximos una vez que se ha determinado el primer corte. 1) Derecha. 2) Izquierda. Valor en el que se segmenta Involucra la condición que debe cum- plir el valor de afijalidad para decidir si se segmenta la palabra. 1) Mayor a 0.5. 2) En el valor máximo Fue necesaria una evaluación de las segmentaciones generadas por cada experimen- to. Esto me llevó a optar por una estrategia de evaluación que detallo en la sección subse- cuente. 160 Tabla 4.16. Experimentos de segmentación realizados # Combinación de medi- das Manera de combinarlas Direcciona- lidad Segmentar en Descripción 1 Entropía-cuadros y en- tropía-economía Promedio de valores norma- lizados Derecha Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía y cuadros. Luego segmentar hacia la derecha en los valores máximos del promedio de valores normalizados de entropía y economía. 2 Entropía-cuadros y en- tropía-economía Producto normalizado Derecha Valor máximo Segmentar en el valor máximo del producto norma- lizado de entropía y cuadros. Luego segmentar ha- cia la derecha en los valores máximos del producto normalizado de entropía y economía. 3 Entropía-economía y entropía-cuadros Promedio de valores norma- lizados Izquierda Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía y economía. Lue- go segmentar hacia la izquierda en los valores má- ximos del promedio de valores normalizados de entropía y cuadros. 4 Entropía-economía y entropía-cuadros Producto normalizado Izquierda Valor máximo Segmentar en el valor máximo del producto norma- lizado de entropía y economía. Luego segmentar hacia la izquierda en los valores máximos del pro- ducto normalizado de entropía y cuadros. 161 Tabla 4.16. Experimentos de segmentación realizados (continuación) # Combinación de me- didas Manera de combinarlas Direccio- nalidad Segmentar en Descripción 5 Entropía, economía y cuadros Promedio de valores nor- malizados Izquierda Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía, economía y cuadros. Luego segmentar hacia la izquierda en los valores máximos del mismo promedio de valores. 6 Entropía, economía y cuadros Promedio de valores nor- malizados Derecha Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía, economía y cuadros. Luego segmentar hacia la derecha en los valores máximos del mismo promedio de valores. 7 Entropía, economía y cuadros Producto normalizado Izquierda Valor máximo Segmentar en el valor máximo del producto normalizado de entropía, economía y cuadros. Luego segmentar hacia la izquierda en los valo- res máximos del mismo producto normalizado. 8 Entropía, economía y cuadros Producto normalizado Derecha Valor máximo Segmentar en el valor máximo del producto normalizado de entropía, economía y cuadros. Luego segmentar hacia la derecha en los valo- res máximos del mismo producto normalizado. 162 Tabla 4.16. Experimentos de segmentación realizados (continuación) # Combinación de medidas Manera de combinarlas Direccio- nalidad Segmentar en Descripción 9 Entropía y economía Promedio de valores nor- malizados Izquierda Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía y economía. Luego segmentar hacia la izquierda en los valo- res máximos del mismo promedio de valores. 10 Entropía y economía Promedio de valores nor- malizados Derecha Valor máximo Segmentar en el valor máximo del promedio de valores normalizados de entropía y economía. Luego segmentar hacia la derecha en los valo- res máximos del mismo promedio de valores. 11 Entropía y economía Producto normalizado Izquierda Valor máximo Segmentar en el valor máximo del producto normalizado de entropía y economía. Luego segmentar hacia la izquierda en los valores máximos del mismo producto normalizado. 12 Entropía y economía Producto normalizado Derecha Valor máximo Segmentar en el valor máximo del producto normalizado de entropía y economía. Luego segmentar hacia la derecha en los valores má- ximos del mismo producto normalizado. 163 Tabla 4.16. Experimentos de segmentación realizados (continuación) # Combinación de medidas Manera de combinarlas Direccio- nalidad Segmentar en Descripción 13 Entropía, economía y cuadros Promedio de valores nor- malizados Mayor 0.5 Segmentar cuando el promedio de valores nor- malizados de entropía, economía y cuadros sea mayor a 0.5. 14 Entropía, economía y cuadros Producto normalizado Mayor 0.5 Segmentar cuando el producto normalizado de entropía, economía y cuadros sea mayor a 0.5. 15 Entropía y economía Promedio de valores nor- malizados Mayor 0.5 Segmentar cuando el promedio de valores nor- malizados de entropía y economía sea mayor a 0.5. 16 Entropía y economía Producto normalizado Mayor 0.5 Segmentar cuando el producto normalizado de entropía y economía sea mayor a 0.5. 164 4.3. Evaluación de la segmentación automática En esta sección describo la estrategia que utilicé para evaluar los experimentos de segmen- tación morfológica y los resultados obtenidos. Gracias a la revisión que hice de un conjunto de fuentes documentales sobre morfología del español (consignada en la sección 1.3), reco- pilé 1,600 palabras segmentadas de acuerdo con cada fuente. Este conjunto de palabras constituyó el corpus de evaluación (evaluación intrínseca)63. Luego segmenté automática- mente las mismas palabras de acuerdo con cada experimento y comparé la segmentación obtenida contra la segmentación propuesta por las fuentes documentales mediante una eva- luación estricta. Para calcular las medidas de afijalidad de las palabras del corpus de evaluación uti- licé un corpus con 965,565 tipos de palabras formado por una lista de palabras proporcio- nada por el Laboratorio de Lenguaje Natural y Procesamiento de Texto del IPN (Gelbukh y Sidorov, 2003) utilizada en un sistema de análisis morfológico automático supervisado, los vocablos del Diccionario del Español de México (2010) y los tipos de palabras del CEMC. El resultado de la evaluación de cada experimento fue el número de palabras seg- mentadas automáticamente que coincidieron con la segmentación propuesta por las fuentes documentales. En términos generales, el mejor experimento fue el que obtuvo mayor núme- ro de coincidencias. La constitución del corpus se describe en el apartado 4.3.1, y los resul- tados y conclusiones de la evaluación en el 4.3.2. 63 El corpus está disponible en http://www.corpus.unam.mx/morfotactica/corpusEvalSeg.csv. 165 4.3.1. Constitución del corpus de evaluación Como se mencionó, el corpus de evaluación consta de 1,600 palabras tomadas de distintas fuentes. Fueron seleccionadas palabras tanto del fenómeno de flexión como de derivación, únicamente nominal y verbal. Los porcentajes de cada fenómeno del corpus se muestran en la Tabla 4.17. Luego, las fuentes usadas para obtener los ejemplos de cada fenómeno se enlistan en la Tabla 4.18. Tabla 4.17 Porcentajes de cada fenómeno en el corpus de evaluación Fenómeno Palabras Porcentaje Flexión nominal 76 5% Derivación nominal 855 53% Flexión verbal 490 31% Derivación verbal 180 11% Tabla 4.18 Fuentes utilizadas para el corpus de evaluación Fenómeno Fuente Flexión nominal Ambadiang (1999) Flexión verbal Alcoba (1999) y DEM64 Derivación nominal Moreno de Alba (1986) Derivación verbal Beniers (2004) Para la constitución del corpus, escogí mayoritariamente palabras cuyos fenómenos de flexión y derivación fueran regulares (83% del total de palabras). Es decir, aquellas pa- labras cuyas bases no sufrían modificaciones de forma como producto del fenómeno morfo- 64 Diccionario del Español de México (DEM) http://dem.colmex.mx, El Colegio de México, A.C., [15 de noviembre de 2012]. 166 lógico, por ejemplo ELIMINAR/ELIMINACIÓN. En el caso particular de la flexión ver- bal, tomé como regulares los ejemplos de las conjugaciones regulares. Ya que el método de segmentación automática está basado en coincidencias de segmentos, esto es, busca regularidades en la forma de las palabras, es de esperarse que trabaje mejor para fenómenos de flexión y derivación que no afecten la forma de la base. Sin embargo, a manera de experimento, incluí también ejemplos de fenómenos de flexión y derivación irregulares, esto es, donde la base o sufijo sufrían algún cambio de forma (AGUA/ACUÁTICO) o los verbos pertenecían a los modelos de conjugación irregu- lar. En los apartados subsecuentes abundo en la constitución del corpus. 4.3.1.1. Flexión nominal Para la flexión de género incorporé pares de palabras muy regulares en su marcación, ya sea por la alternancia de –o/–a o de –e/–a (GATO/GATA, JEFE/JEFA). También incluí pares que no son equivalentes semánticamente, pero que presentan alternancia de sufijo, como es el caso de MANZANO/MANZANA; tomé como regulares estos casos, ya que en la forma lo son. El grupo de irregulares lo constituyeron palabras que cambian toda su forma cuando alternan género, como PADRE/MADRE. También los que Ambadiang llama formas únicas o unidades léxicas individuales, que no tienen alternante de género, aunque sí cuentan con sufijo –o/–a/–e (VÁSTAGO, VÍCTIMA, LUMBRE). Además, los sustantivos cuyo género está marcado en alguna palabra que los acompaña, como TESTIGO (EL TESTIGO/LA TESTIGO). Finalmente, incluí algunas palabras que no cuentan con el sufijo de género y en su lugar hay terminación vocálica (TRIBU), o consonántica (PARED, VIRUS, CLIMAX). 167 En lo referente a la flexión de número, agregué los plurales de algunas palabras, tan- to regulares como irregulares, seleccionadas para representar el género (GATOS, GATAS, PADRES, MADRES, PAREDES). Para darle variedad al corpus, fueron seleccionadas pa- labras plurales que se forman a partir de un singular que termina en vocal acentuada –é (BEBÉS), y aquellas cuyo singular termina con consonantes como –l, –n, –d y –s (PASTE- LES, ALGODONES, VERDADES, COMPASES). A pesar de que los plurales fueron formados a partir de palabras marcadas como irregulares para el género (PARED), no los marqué como irregulares para el número, ya que se forman con la adición de –(e)s, que es la manera regular de formar el plural (PARE- DES). Las que sí quedaron marcadas como irregulares fueron palabras cuyo segmento final coincidía con las marcas de número, pero en las cuales no debería haber segmentación (ANÁLISIS, MARTES). Tanto para el género como para el número, se incorporaron palabras formadas a par- tir de derivaciones nominales (AGRUPACIONES, JOVENCITOS, DEFECTUOSOS, DE- FECTUOSAS, HERMOSÍSIMOS). Finalmente comento que agregué cinco ejemplos de palabras en plural que funcionan como adjetivos o pronombres (ESTAS, ESTOS, NUES- TROS, NUESTRAS, NOSOTROS) y el plural de una conjunción (PEROS). 4.3.1.2. Flexión verbal En el caso de la flexión verbal, tomé dos fuentes para poner ejemplos en el corpus de eva- luación (véase arriba Tabla 4.18). Ya que cada fuente propone distinta segmentación, y ambas propuestas me parecen válidas, tomé en cuenta las dos. De esta manera, si el método automático coincidía con alguna de las posibles segmentaciones, entonces se consideraba como un acierto. En seguida comento las distinciones entre las dos fuentes. 168 La primera fuente (Alcoba) propone separar la vocal temática de la raíz verbal, por ejemplo, TEM~IE~NDO, CANT~A~MOS; además, propone segmentar los morfemas de tiempo-aspecto-modo y de número-persona, por ejemplo, CANT~Á~BA~MOS. Por su parte, el DEM propone dejar la vocal temática unida al sufijo flexivo, por ejemplo, COM~IENDO, AM~AMOS; y no separa los morfemas finales de los verbos, por ejemplo, AM~ÁBAMOS. Para el caso del futuro de indicativo, el DEM formula una segmentación del tipo AMAR~ÁS, que da muestra del fenómeno histórico de formación de este tiempo. En cam- bio, la primera fuente propone AM~A~RÁ~S, que corresponde a una segmentación de la vocal temática y los morfemas de tiempo-aspecto-modo y número-persona. Lo mismo su- cede para el pospretérito, donde el DEM plantea una segmentación como CAN- TAR~ÍAMOS y Alcoba una como CANT~A~RÍA~MOS. En otros aspectos, como ya lo decía, los verbos concernientes a los modelos de con- jugación regular fueron marcados como regulares en el corpus de evaluación, mientras que los marcados como irregulares fueron los que pertenecen a los modelos irregulares. Tomé seis verbos regulares, tres de cada fuente, de Alcoba: TEMER, PARTIR y CANTAR; y del DEM: COMER, SUBIR y AMAR. Incorporé las formas no personales y todas las conjuga- ciones de estos verbos, con excepción de las formas compuestas. Para los verbos irregulares me basé en los modelos de conjugación irregular del DEM. De ellos elegí los siguientes verbos, indico entre paréntesis el modelo de conjuga- ción: AGRADECER (1a), CAER (1d), DESPERTAR (2a), ADQUIRIR (2b), SOÑAR (2c), JUGAR (2d), MEDIR (3a), CONSTRUIR (4), ANDAR (5), PRODUCIR (7a), CABER (10a), QUERER (11a), TENER (12a), VENIR (12b), DECIR (13), IR (19). 169 Por cada uno de los verbos irregulares seleccioné ejemplos de conjugación sólo de un tiempo, aquel donde aparecía alguna irregularidad, por ejemplo, de AGRADECER tomé AGRADEZCA, AGRADEZCAS, AGRADEZCAMOS, AGRADEZCAN, AGRADEZ- CÁIS. Descarté los verbos marcados por el DEM como poco usados y cuando la raíz de las conjugaciones resultaba menor de tres letras (CA~Í). 4.3.1.3. Derivación nominal Basé la selección de ejemplos de derivación nominal en la obra de Moreno de Alba (1986). Ésta incluye tanto sustantivos como adjetivos derivados. Fueron incorporados un total de 885 ejemplos correspondientes a 188 sufijos derivativos65. En la Tabla 7.1 del anexo A pre- sento la lista completa de sufijos derivativos usados para obtener los ejemplos Para darle variedad al corpus, por cada alomorfo tomé ejemplos de los distintos ti- pos de derivación que consigna Moreno de Alba: palabras derivadas y palabras relaciona- das (1986, págs. 15-16). A pesar de que mi estudio no involucra el carácter semántico de los sufijos, lo cual me impide descubrir el tipo de relación entre la palabra derivada o rela- cionada con su palabra base de derivación (primitiva), me pareció buena idea tomar en cuenta estos dos tipos. En los casos de derivación a partir de verbos (ABURRIR/ABURRICIÓN) intenté, en la medida de lo posible, tomar ejemplos de las tres conjugaciones verbales. Además, en el caso de sufijos que forman derivados a partir de distintas clases de palabras, hice lo posi- ble por incluir alguna palabra de cada una (IGUAL/IGUALDAD, VECINO/VECINDAD). 65 Utilicé el capítulo V “Sufijos ordenados por su forma (alomorfos)” para tomar los ejemplos, apro- vechando que este autor los presenta agrupados en alomorfos. Después revisé el capítulo II “Inventario de sufijos y voces derivadas” para incluir los sufijos faltantes que no estaban contemplados en el capítulo V. 170 Las palabras etiquetadas como irregulares en esta sección del corpus fueron aquellas en donde ocurría algún tipo de modificación en la base. Algunos ejemplos de éstas son: cambios en consonantes y vocales, muchas veces por que el derivado conserva la forma latina, AGUA/ACUÁTICO, DICTADOR/DICTATORIAL, SEGUIR/SIGUIENTE, JO- VEN/JUVENTUD; eliminación de consonante INTERCEPTAR/INTERCEPCIÓN, AN- TECEDER/ANTECESOR; diptongación PROBAR/PRUEBA; cambio de acento FABRI- CAR/FÁBRICA; monoptongación, algunas veces por influencia de la raíz latina TIEM- PO/TEMPORADA, SENTIMIENTO/SENTIMENTAL; cambio en el sufijo derivativo – iente, CONSTITUIR/CONSTITUYENTE; y otros MES/MENSUAL. Por otro lado quiero resaltar que Moreno de Alba (1986) incluye un sufijo derivati- vo –V que coincide con las marcas de género –o/–a/–e (REPART~O, SIEMBR~A, IN- TÉRPRET~E). Estos ejemplos los etiqueté como derivación y no como flexión. Finalmen- te, como es de esperarse, en muchos casos se encontraron morfemas de género acompañan- do a los morfemas derivativos (CHIQUITITO); en esta situación marqué los ejemplos co- mo de derivación y flexión. 4.3.1.4. Derivación verbal De los ejemplos de Beniers (2004), tomé sólo de los sufijos derivativos –ear, –ecer, –ificar e –izar. No incluí derivados a partir del sufijo –ar ya que no hay distinción con la marca de infinitivo. En el caso de los sufijos sí considerados, esperaba una segmentación del tipo ~IFIC~AR. La mayoría de las palabras fueron incluidas en infinitivo, pero seleccioné una de ca- da sufijo para conjugarla en los tiempos del indicativo: ARPONEAR, FLORECER, EJEM- PLIFICAR y HORRORIZAR. Con la idea de darle variedad al corpus, tomé tanto ejemplos 171 de derivaciones que Beniers llama postsustantivas (HORROR/HORRORIZAR) como postadjetivas (ACTUAL/ACTUALIZAR). Incorporé escasas palabras irregulares cuando aparecía una modificación en el deri- vado, como cambios consonánticos CHICO/CHIQUEAR y cambios de acento HO- RROR/HORRORICÉ. Ya que limité mi investigación únicamente al fenómeno de sufija- ción, evité cualquier palabra con parasíntesis, fenómeno común en este tipo de derivación (ATARDECER). Para terminar este apartado comento que estos verbos derivados fueron segmentados de acuerdo con la propuesta de Alcoba (CHISMOS~E~A~R) y con la del DEM (CHIS- MOS~E~AR). Lo mismo hice para los verbos que fueron conjugados. 4.3.1.5. Enclíticos Agregué al corpus de evaluación verbos con enclíticos para indagar qué sucedía en los ex- perimentos. En seguida describo la estrategia que seguí para recolectar los ejemplos. Prime- ro busqué en el CEMC los seis verbos regulares ya incluidos en el corpus de evaluación y tomé las formas con enclíticos. Obviamente no aparecieron todas las combinaciones posi- bles de clíticos con esos verbos, por lo que después busqué, también en el CEMC, las com- binaciones faltantes de clíticos con cualquier otro verbo. Cuando existían, tomé ejemplos de las tres conjugaciones. Intenté contar con al menos tres ejemplos por cada grupo de enclíticos, así que si no aparecían en el CEMC66 utilicé el corpus de Mark Davies67 para completarlos, evitando 66 Diccionario del Español de México. Corpus del Español Mexicano Contemporáneo (CEMC). , software AMATE ver. 1.0, [13/02/2013]. 67 Davies, Mark. (2002-) Corpus del Español: 100 million words, 1200s-1900s. Disponible en http://www.corpusdelespanol.org. 172 siempre verbos irregulares. Finalmente no aparecieron ejemplos de verbos con combina- ciones de enclíticos: ~mele, ~meles, ~melas, ~tele, ~teles y ~nosles; por tanto no los tomé en cuenta. Estas palabras con enclíticos fueron segmentadas de acuerdo con la propuesta de Alcoba y con la del DEM. Además, para cada una de ellas, agregué una segmentación sepa- rando las marcas de género y número de les, los, las, le, la, lo (Ambadiang, 1999). Lo ante- rior dejó cuatro posibles combinaciones de segmentaciones para infinitivos con enclíticos: 1. COM~É~R~NOS~LOS 2. COM~ÉR~NOS~LOS 3. COM~É~R~NOS~L~O~S 4. COM~ÉR~NOS~L~O~S. En el apartado subsecuente describo los resultados obtenidos en los experimentos de segmentación. 4.3.2. Resultados de la evaluación En este apartado se señalan los resultados de la evaluación de los experimentos de segmen- tación. En lo que respecta al total de palabras marcadas como regulares, en la Tabla 4.19 muestro las medidas de precisión alcanzadas por cada experimento. El método que obtuvo mejores resultados hace cortes sucesivos hacia la izquierda en el valor máximo del prome- dio de las tres medidas de afijalidad. Este método obtuvo un 33.8% de precisión. 173 Tabla 4.19 Medidas de precisión para palabras regulares Combinación de medidas Manera de combinarlas Direccionalidad Segmentar en Precisión Entropía, economía y cuadros Promedio de valores normalizados Izquierda Valor máximo 33.8% Entropía-economía y entropía-cuadros Promedio de valores normalizados Izquierda Valor máximo 29.2% Entropía y economía Producto normalizado Izquierda Valor máximo 28.8% Entropía, economía y cuadros Promedio de valores normalizados Mayor 0.5 28.8% Entropía, economía y cuadros Producto normalizado Mayor 0.5 26.9% Entropía y economía Promedio de valores normalizados Izquierda Valor máximo 26.7% Entropía, economía y cuadros Producto normalizado Izquierda Valor máximo 26.7% Entropía y economía Producto normalizado Mayor 0.5 25.9% Entropía y economía Promedio de valores normalizados Mayor 0.5 25.7% Entropía-economía y entropía-cuadros Producto normalizado Izquierda Valor máximo 25.7% Entropía, economía y cuadros Producto normalizado Derecha Valor máximo 23.9% Entropía y economía Promedio de valores normalizados Derecha Valor máximo 20.7% Entropía, economía y cuadros Promedio de valores normalizados Derecha Valor máximo 20.7% Entropía-cuadros y en- tropía-economía Producto normalizado Derecha Valor máximo 20.5% Entropía y economía Producto normalizado Derecha Valor máximo 20.3% Entropía-cuadros y en- tropía-economía Promedio de valores normalizados Derecha Valor máximo 19.5% 174 El segundo lugar en precisión (29.2%) fue el experimento que propone determinar primero el sufijo más externo, con el promedio de las medidas de entropía y economía, y luego los demás sufijos hasta llegar a la base con el promedio de entropía y cuadros. Este experimento tuvo una diferencia mínima de precisión con los dos siguientes experimentos, que obtuvieron el 28.8%. Uno de ellos segmenta con cortes hacia la izquierda en el valor máximo del producto de entropía por economía, y el otro corta las palabras cuando el pro- medio de las tres medidas supera el valor de 0.5. El experimento con resultados más bajos (19.5%) fue el que segmenta primero en el valor máximo del promedio de entropía y cuadros, y después corta sucesivamente hacia la derecha en el promedio de entropía y economía. De hecho, la variante de este mismo expe- rimento que utiliza el producto de las medidas en lugar del promedio también logró bajos resultados: fue el antepenúltimo lugar. Se puede ver claramente en la Tabla 4.19 que los métodos que cortan hacia la iz- quierda obtienen los mejores resultados, mientras que los que cortan hacia la derecha alcan- zan los peores. Puede distinguirse también cierto predominio del uso de valores máximos sobre el uso de un umbral de 0.5, ya que los tres mejores experimentos segmentan en el valor máximo. Sobre qué medidas combinar y la manera de hacerlo (producto o promedio) no veo una tendencia clara. Por el resultado de los dos primeros experimentos, parece plausible combinar las tres medidas mediante un promedio en lugar de un producto. Sin embargo, observando de forma global la tabla de resultados, hay experimentos que logran el mismo nivel de precisión usando dos o tres medidas y usando producto o promedio. Los resultados me llevan a considerar pertinente la tercera intuición de segmenta- ción, que repito en seguida: 175 I3. El valor máximo de afijalidad de una palabra permite descubrir el último sufijo y luego los sufijos restantes hasta encontrar la base. Esta intuición conlleva la idea de que hacer cortes sucesivos hacia la izquierda en el valor máximo de afijalidad es buena estrategia para segmentar morfológicamente una pala- bra. Además, encierra el hecho de que el primer corte tiende a separar el sufijo más externo, de otra manera los cortes hacia la izquierda no darían buenos resultados. Por tanto, esta intuición confirma que la afijalidad puede revelar los sufijos de una palabra, lo que me lleva a considerar plausible el descubrimiento de los patrones morfotácticos haciendo uso de este método de segmentación. El hecho de que el segundo mejor experimento fuera el que hace un primer corte en el valor máximo del promedio de entropía y economía, y luego realiza cortes sucesivos hacia la izquierda, confirma que la afijalidad tiende a descubrir primero el sufijo más ex- terno. Por lo anterior, creo que la segunda intuición tampoco puede ser totalmente rechaza- da. Repito esta intuición con fines explicativos. I2. Es posible descubrir el sufijo más a la derecha mediante la combinación de las medidas de entropía y economía, y después descubrir los sufijos restantes hasta en- contrar la base mediante la combinación de las medidas de entropía y cuadros. En términos generales, las intuiciones I1 y I4 proponen que el valor máximo de afi- jalidad permite segmentar la base de una palabra y los cortes sucesivos hacia la derecha permiten determinar los sufijos. De acuerdo con los resultados obtenidos por los experi- mentos no es posible aceptar estas intuiciones. Hubo un aspecto que llamó mi atención y que comento en seguida. La mayoría de errores de todos los experimentos fueron por subsegmentación de palabras, esto es, la seg- 176 mentación automática propuso menos cortes en comparación con los del corpus de evalua- ción. Al respecto, los experimentos que menos subsegmentaron fueron los que se basaron en cortes cuando la afijalidad superó el 0.5 de afijalidad (no en valores máximos); sin em- bargo, también fueron los que más sobresegmentaron y por eso no resultaron ser los mejo- res. Por otro lado, el experimento con mejores resultados de precisión subsegmentó mayori- tariamente, pero sobresegmentó muy poco y en consecuencia tuvo más ciertos que los de- más experimentos. Otra cuestión interesante fue el comportamiento en ciertos grupos de palabras del experimento con mejores resultados. En el caso del fenómeno de flexión, este método ob- tuvo el segundo lugar con un 49.5% de precisión y para el fenómeno de derivación fue el primer lugar, pero con un 31.6%. También para las palabras nominales (incluidas flexión y derivación) resultó ser el mejor con un 29.8% de precisión, pero fue segundo lugar para los palabras verbales (flexión y derivación) con un 39.1%. De lo anterior puedo concluir que este experimento funcionó mejor para la flexión y en especial para la verbal ya que, aunque para ésta no obtuvo el primer lugar, sí obtuvo mejores niveles de precisión. Una explicación para este resultado sería que los ejemplos verbales incluidos en el corpus de evaluación presentan mayor regularidad que los nomina- les; también porque en la derivación nominal se incluyó una gran variedad de sufijos deri- vativos y sus alomorfos, lo que hizo más difícil la tarea para el método automático. Una situación especial con este experimento se dio en formas verbales con enclíti- cos. Su desempeño bajó considerablemente hasta llegar a un 14.29% de precisión. En este grupo de palabras, el método que combina las tres medidas mediante un promedio y seg- 177 menta cuando la afijalidad es mayor a 0.5 fue el que alcanzó mejores resultados con un 46.67% de precisión. De hecho, los experimentos con mejores resultados para palabras con enclíticos fue- ron los que cortaron arriba del umbral de 0.5, seguidos por los que cortaron en el valor má- ximo y luego hacia la derecha. Lo anterior habla de una naturaleza distinta entre los enclíti- cos y los sufijos, puesta en evidencia por la tendencia desigual de los resultados de los ex- perimentos. Con el fin de discutir con un poco más de detalle las segmentaciones obtenidas, pongo en seguida cinco tablas con cincuenta palabras cada una. Son ejemplos tomados aleatoriamente, segmentados de manera automática con el experimento que obtuvo mejores resultados. Las tablas incluyen las segmentaciones según el corpus de evaluación. Se pre- sentan primero las segmentaciones que no coinciden y después, separadas por una línea gruesa, las que sí coinciden. En seguida de cada tabla agrego una breve discusión de los resultados. Tabla 4.20 Ejemplos de segmentaciones para flexión nominal Manual Automática Comentario EST~O~S EST~OS No separa marcas de género y número LIBR~O~S LIBR~OS LIBR~A~S LIBR~AS EST~A~S EST~AS PERO~S PER~O~S Sobresegmentaciones en algunos casos por sepa- ración de marcas equi- vocadas de género, nú- mero y enclíticos MUJER~ES MUJ~ER~ES NUESTR~O~S NUEST~R~O~S NUESTR~A~S NUES~T~R~A~S ALGODON~ES ALGO~D~ON~ES PASTEL~ES PAS~TE~LES CABALLO~S CABAL~LO~S VERDAD~ES VERDA~D~E~S COMPAS~ES COM~P~ASES MONJ~E MONJ~E Segmentación correcta MONJ~A MONJ~A JEF~E JEF~E 178 Tabla 4.20 Ejemplos de segmentaciones para flexión nominal (continuación) Manual Automática Comentario JEF~A JEF~A Segmentación correcta LOB~O LOB~O LOB~A LOB~A LOB~O~S LOB~O~S LOB~A~S LOB~A~S GAT~O GAT~O GAT~A GAT~A GAT~O~S GAT~O~S GAT~A~S GAT~A~S BARC~O BARC~O NIÑ~O NIÑ~O NIÑ~A NIÑ~A NIÑ~O~S NIÑ~O~S NIÑ~A~S NIÑ~A~S MANZAN~O MANZAN~O MANZAN~A~S MANZAN~A~S MANZAN~A MANZAN~A MANZAN~O~S MANZAN~O~S SUEL~O SUEL~O SUEL~A SUEL~A SUEL~A~S SUEL~A~S BARC~A BARC~A BARC~A~S BARC~A~S LIBR~A LIBR~A LEÑ~A LEÑ~A LEÑ~O LEÑ~O BARC~O~S BARC~O~S BEBÉ~S BEBÉ~S MADRE~S MADRE~S PADRE~S PADRE~S YEGUA~S YEGUA~S JÓVEN~ES JÓVEN~ES DIOS~ES DIOS~ES PARED~ES PARED~ES Nótese en los ejemplos de flexión nominal de la Tabla 4.20 el buen desempeño del experimento de segmentación. También obsérvese que los casos en que no coinciden los cortes es porque hay sobresegmentación, como VERDA~D~E~S, MUJ~ER~ES o NUES~T~R~A~S. Entre estas sobresegmentaciones hay algunas que separan segmentos que coinciden con enclíticos, por ejemplo, PAS~TE~LES o CABAL~LO~S. 179 Este tipo de segmentaciones son esperadas en un método como el que utilizo, ya que éste funciona basado en la comparación de segmentos sin utilizar otro tipo de información, así que llega a generalizar segmentaciones muy económicas. Tabla 4.21 Ejemplos de segmentaciones para derivación nominal Manual Automática Comentario CHIL~EN~O CHILE~N~O Segmentaciones cuestiona- bles JAL~ÓN JAL~Ó~N COMBIN~AD~O COMB~IN~ADO ERR~ÓNE~O ERRÓ~NE~O SERV~IDOR~A SERVIDO~R~A EGO~ÍSMO~S EGOÍS~MO~S ACOMOD~AD~O ACOMOD~ADO Segmentación válida INSTITU~TO INSTITUT~O Tendencia a separar marcas flexivas sin separar sufijo derivativo CAR~IÑO CARIÑ~O TEND~ENCIA~S TENDENCIA~S HOMBR~ECITO~S HOMBRECITO~S PLANET~ARIO~S PLANETARI~O~S CIENT~ÍFIC~A~S CIENTÍFIC~A~S ERR~ÓNE~O~S ERRÓNE~O~S COMPRENS~IV~A~S COMPRENSIV~A~S REPET~ITIV~A REPETITIV~A CONDUC~TA~S CONDUCT~A~S HERMOS~ÍSIM~A HERMOSÍSIM~A TEJ~ID~O TEJID~O ARRIB~OTA ARRIBO~TA Tendencia a segmentar en supuesto sufijo más corto y económico HELAD~OT~E HELADO~TE ESCOND~ITE ESCONDI~TE TRANSPAR~ENCIA TRANSPARENC~IA FLOR~ECITA FLOREC~ITA TEMBL~OR TEMBLO~R PAST~EL PASTE~L GRAND~OT~E~S GRANDO~T~E~S Segmentaciones muy cerca- nas a la esperada FRANC~ES~ES FRAN~CES~ES BIBLIO~TECA~S BIBLI~OTECA~S ITALI~AN~O~S ITAL~IAN~O~S DOBL~AJE DOBLAJE No hubo segmentación TUR~ISTA TUR~IS~T~A Sobresegmentación HOSPITAL~ARI~A~S HOSPITAL~ARI~A~S Segmentación correcta ROJ~IZ~O~S ROJ~IZ~O~S ARROY~UELO ARROY~UELO GOLP~IZA GOLPI~ZA SOMBR~ERO SOMBR~ERO COMPAÑ~ER~O~S COMPAÑ~ER~O~S 180 Tabla 4.21 Ejemplos de segmentaciones para derivación nominal (continuación) Manual Automática Comentario FLOJ~ERA FLOJ~ERA Segmentación correcta MANZAN~ILLA MANZAN~ILLA DESQUICI~AMIENTO DESQUICI~AMIENTO NARIZ~ÓN NARIZ~ÓN ELIMIN~ACIÓN ELIMIN~ACIÓN ACEPT~ACIÓN ACEPT~ACIÓN MAGN~ITUD MAGN~ITUD GRAB~ADOR~A GRAB~ADOR~A MUNICIP~AL MUNICIP~AL HERMOS~URA HERMOS~URA EUROP~E~A EUROP~E~A OBJETIV~ISMO OBJETIV~ISMO A diferencia de los resultados de la flexión nominal, la derivación nominal se mues- tra a primera vista inconsistente. Aquí, la mayoría de las faltas de coincidencia con el cor- pus de evaluación se dan por subsegmentación, como TEND~ENCIA~S vs TENDEN- CIA~S o CIENT~ÍFIC~A~S vs CIENTÍFIC~A~S, que cuentan con segmentación flexiva, pero carecen de segmentación derivativa. También hay una buena cantidad de palabras donde coincide el número de segmen- tos, pero no el lugar donde se hace el corte, como EGO~ÍSMO~S vs EGOÍS~MO~S o BI- BLIO~TECA~S vs BIBLI~OTECA~S. Además hay casos de sobresegmentación, aunque parecen ser pocos ya que en la tabla sólo está TUR~ISTA vs TUR~IS~T~A. Los casos de coincidencia de segmentación se dan en diversos sufijos, situación afortunada para el método porque significa que logra segmentar distintos fenómenos de derivación, tómese por ejemplo ROJ~IZ~O~S, ARROY~UELO, GOLPI~ZA, SOMBR~ERO, MANZAN~ILLA, DESQUICI~AMIENTO, NARIZ~ÓN, ELI- MIN~ACIÓN, MAGN~ITUD y COMPAÑ~ER~O~S. Una tendencia del método es que éste propone un segmento más corto y por eso más económico (se combina con más segmentos). Véanse por ejemplo los casos de 181 ARRIB~OTA vs ARRIBO~TA, ESCOND~ITE vs ESCONDI~TE o TRANSPAR~ENCIA vs TRANSPARENC~IA. Tabla 4.22 Ejemplos de segmentaciones para flexión verbal Manual Automática Comentario DEM Alcoba (1999) CANT~AMOS CANT~A~MOS CAN~T~AMOS Segmentaciones cuestionables PART~AMOS PART~A~MOS PAR~T~AMOS SUB~IEREN SUB~IE~RE~N SUBIE~R~E~N COM~IDO COM~I~DO COM~ID~O AM~ÉIS AM~É~IS AMÉ~IS COM~IERA COM~IE~RA COM~IER~A PART~IERA PART~IE~RA PART~IER~A SUB~IERON SUB~IE~RO~N SUBIE~RON Tendencia a juntar VT diptongada a base. Algunas son- pertinentes SUB~IESE SUB~IE~SE SUBIE~SE SUB~IESEIS SUB~IE~SE~IS SUBIE~SE~IS SUB~IÉSEMOS SUB~IÉ~SE~MOS SUBIÉ~SEMOS AMAR~ÍA AM~A~RÍA AM~ARÍA Tendencia a juntar vocal temática a marcas flexivas. Muchas podrían considerarse perti- nentes AMAR~ÍAN AM~A~RÍA~N AM~ARÍAN SUBIR~ÍA SUB~I~RÍA SUB~IRÍA SUBIR~ÁN SUB~I~RÁ~N SUB~IRÁ~N PARTIR~ÍAMOS PART~I~RÍA~MOS PART~IRÍAMOS PARTIR~ÍAN PART~I~RÍA~N PART~IRÍA~N PARTIR~ÁS PART~I~RÁ~S PART~IRÁ~S PARTIR~ÁN PART~I~RÁ~N PART~IRÁ~N TEMER~ÍAN TEM~E~RÍA~N TEM~ERÍA~N CANTAR~ÍAMOS CANT~A~RÍA~MOS CANT~ARÍAMOS CANTAR~Á CANT~A~RÁ CANT~ARÁ COMER~ÍAMOS COM~E~RÍA~MOS COM~ERÍAMOS COM~IERES COM~IE~RE~S COM~IERE~S PARTIR~ÉIS PART~I~RÉ~IS PART~I~RÉIS Tendencia a separar VT. Podrían consi- derarse pertinentes PART~ISTEIS PART~I~STE~IS PART~I~STEIS PART~IÉRAMOS PART~IÉ~RA~MOS PART~IÉ~RAMOS CANT~Ó CANT~Ó CANT~Ó Coincide con DEM CANT~ASTEIS CANT~A~STE~IS CANT~ASTEIS CANT~ARON CANT~A~RO~N CANT~ARON CANT~ADO CANT~A~DO CANT~ADO CANT~ES CANT~E~S CANT~ES PART~ES PART~E~S PART~ES PART~ÍAIS PART~Í~A~IS PART~ÍAIS PART~ÍA PART~Í~A PART~ÍA SUB~A SUB~A SUB~A SUB~AN SUB~A~N SUB~AN AM~ARAN AM~A~RA~N AM~ARAN AM~ASES AM~A~SE~S AM~ASES 182 Tabla 4.22 Ejemplos de segmentaciones para flexión verbal (continuación) Manual Automática Comentario DEM Alcoba (1999) AM~ASEN AM~A~SE~N AM~ASEN Coincide con DEM AM~ARES AM~A~RE~S AM~ARES AM~ADO AM~A~DO AM~ADO COM~IESE COM~IE~SE COM~IESE COM~IERAIS COM~IE~RA~IS COM~IERAIS COM~IESEN COM~IE~SE~N COM~IESEN COM~EMOS COM~E~MOS COM~EMOS COM~ISTE COM~I~STE COM~ISTE COM~ER COM~E~R COM~ER TEM~ISTEIS TEM~I~STE~IS TEM~ISTEIS La observación más clara al respecto de la flexión verbal es que una considerable cantidad de palabras segmentadas automáticamente tienen un solo corte entre la raíz y la flexión. Además, esta última no cuenta con separación ni de la vocal temática ni de los morfemas de tiempo-aspecto-modo y número-persona (COM~ISTE, PART~IRÍAMOS, CANT~ARON). Por tanto, la segmentación automática coincidió mayoritariamente con la segmentación propuesta por el DEM y no con la de Alcoba. Para este grupo de palabras, el experimento con mejores resultados globales obtuvo el 49.7% de precisión; sin embargo, hubo otro experimento con resultados de hasta el 54.0% (sólo en este grupo de palabras). Fue el experimento basado en la estrategia que primero corta en el valor máximo del producto de entropía y economía, y luego segmenta hacia la izquierda en el producto de entropía y cuadros. Es importante resaltar que este ex- perimento también segmentó sistemáticamente una sola vez por palabra, separando la fle- xión de la raíz. El parecer, cuantitativamente no se puede hablar de una separación clara entre la vocal temática y los sufijos de tiempo-aspecto-modo y número-persona (ésta tiende a pegarse a ellos). 183 Tabla 4.23 Ejemplos de segmentaciones para derivación verbal Manual Automática Comentario DEM Alcoba FLOR~EC~IERON FLOR~EC~IE~RO~N FLOREC~IE~RON Segmentaciones cuestionables FLOR~EC~ÍAS FLOR~EC~Í~A~S FLORECÍA~S FLOR~EC~ÍAIS FLOR~EC~Í~A~IS FLOREC~ÍA~IS FLOR~EC~ER~EMOS FLOR~EC~E~RE~MOS FLORECE~REMOS FLOR~EC~ER~ÉIS FLOR~EC~E~RÉ~IS FLORECE~RÉIS EJEMPL~IFIC~AR~ÁIS EJEMPL~IFIC~A~RÁ~IS EJEMPLIFICAR~Á~IS COQUET~E~AR COQUET~E~A~R COQUE~T~E~AR ARPON~E~AR~ÍAIS ARPON~E~A~RÍA~IS ARPONE~ARÍA~IS ARPON~E~AR~Á ARPON~E~A~RÁ ARPONE~ARÁ ARPON~E~ABAS ARPON~E~A~BA~S ARPONE~ABA~S HORROR~IZ~AR~É HORROR~IZ~A~RÉ HORRORIZ~ARÉ MONOPOL~IZ~AR MONOPOL~IZ~A~R MONOPOLIZ~AR No separa sufi- jo derivativo, pero separa marcas flexivas HORROR~IZ~ABAIS HORROR~IZ~A~BA~IS HORRORIZ~ABAIS HORROR~IZ~ÁBAMOS HORROR~IZ~Á~BA~MOS HORRORIZ~ÁBAMOS HORROR~IZ~ABA HORROR~IZ~A~BA HORRORIZ~ABA HORROR~IZ~AR~ÁN HORROR~IZ~A~RÁ~N HORRORIZ~ARÁN HORROR~IZ~AR~ÍAIS HORROR~IZ~A~RÍA~IS HORRORIZ~ARÍAIS EJEMPL~IFIC~ABAIS EJEMPL~IFIC~A~BA~IS EJEMPLIFIC~ABAIS EJEMPL~IFIC~ABA EJEMPL~IFIC~A~BA EJEMPLIFIC~ABA EJEMPL~IFIC~ÁBAMOS EJEMPL~IFIC~Á~BA~MOS EJEMPLIFIC~ÁBAMOS EJEMPL~IFIC~AR~É EJEMPL~IFIC~A~RÉ EJEMPLIFIC~ARÉ EJEMPL~IFIC~AR~ÍAS EJEMPL~IFIC~A~RÍA~S EJEMPLIFIC~ARÍAS PALID~EC~ER PALID~EC~E~R PALIDEC~E~R PERMAN~EC~ER PERMAN~EC~E~R PERMANEC~E~R FLOR~EC~EN FLOR~EC~E~N FLOREC~E~N FLOR~EC~ER FLOR~EC~E~R FLOREC~E~R FLOR~EC~E FLOR~EC~E FLOREC~E FLOR~EC~ER~ÍAN FLOR~EC~E~RÍA~N FLORECE~RÍA~N ARPON~E~ÁBAMOS ARPON~E~Á~BA~MOS ARPONE~ÁBAMOS ARPON~E~ASTEIS ARPON~E~A~STE~IS ARPONE~ASTEIS ARPON~E~AR~ÍAMOS ARPON~E~A~RÍA~MOS ARPONE~ARÍAMOS ARPON~E~AMOS ARPON~E~A~MOS ARPONE~A~MOS NOT~IFIC~AR NOT~IFIC~A~R NOTIFIC~AR RAM~IFIC~AR~SE RAM~IFIC~A~R~SE RAMIFIC~ARSE No separa sufi- jo derivativo ni enclítico NACIONAL~IZ~AR NACIONAL~IZ~A~R NACION~ALIZ~AR Segmenta un sufijo derivati- vo pero no el sufijo derivati- vo verbal 184 Tabla 4.23 Ejemplos de segmentaciones para derivación verbal (continuación) Manual Automática Comentario DEM Alcoba MOM~IFIC~AR~SE MOM~IFIC~A~R~SE MOM~IFIC~ARSE Separa sufijo derivativo, pero no separa enclí- tico. Podrían considerarse pertinentes MATERIAL~IZ~AR~SE MATERIAL~IZ~A~R~SE MATERIAL~IZ~ARSE EJEMPL~IFIC~AMOS EJEMPL~IFIC~A~MOS EJEMPL~IFIC~AMOS Coincide con DEM EJEMPL~IFIC~AS EJEMPL~IFIC~A~S EJEMPL~IFIC~AS INTENS~IFIC~AR INTENS~IFIC~A~R INTENS~IFIC~AR PUR~IFIC~AR PUR~IFIC~A~R PUR~IFIC~AR CAPITAL~IZ~AR CAPITAL~IZ~A~R CAPITAL~IZ~AR MODERN~IZ~AR MODERN~IZ~A~R MODERN~IZ~AR INTERIOR~IZ~AR INTERIOR~IZ~A~R INTERIOR~IZ~AR HORROR~IZ~AS HORROR~IZ~A~S HORROR~IZ~A~S Coincide con Alcoba ARPON~E~AR ARPON~E~A~R ARPON~E~A~R ARPON~E~AN ARPON~E~A~N ARPON~E~A~N ABUEL~E~Ó ABUEL~E~Ó ABUEL~E~Ó Coincide con ambos ARPON~E~Ó ARPON~E~Ó ARPON~E~Ó ARPON~E~A ARPON~E~A ARPON~E~A Según los resultados obtenidos, aunque de manera inconsistente, el experimento segmentó mejor los sufijos derivativos –izar (CAPITAL~IZ~AR), –ificar (EJEMPL~IFIC~AS) y –ear (ARPON~E~A~R). Por otro lado, no fue tan bueno para el sufijo –ecer (FLOREC~IE~RON, FLORECÍA~S). Como en el caso de la flexión verbal, en la derivación verbal el segmento final tien- de a mantenerse como una unidad, es decir, sin separación entre vocal temática y morfemas de modo-tiempo-aspecto y número-persona, lo que coincide con la propuesta del DEM. De hecho se ve una tendencia a separar las marcas flexivas, pero sin separar el sufijo derivativo verbal (HORRORIZ~ARÍAIS, EJEMPLIFIC~ABAIS). Dos casos que podrían considerarse pertinentes son MOM~IFIC~ARSE y MATERIAL~IZ~ARSE, ya que separan el sufijo derivativo verbal, aunque no separan el enclítico. 185 Tabla 4.24 Ejemplos de segmentaciones para enclíticos Manual Automática Comentario DEM Alcoba DEM (género y número) Alcoba (género y número) CRE~É~ME~LO CRE~É~ME~LO CRE~É~ME~L~O CRE~É~ME~L~O CREÉM~ELO Segmentaciones cuestionables ALIMÉNT~E~LOS ALIMÉNT~E~LOS ALIMÉNT~E~L~O~S ALIMÉNT~E~L~O~S ALIM~ÉNT~E~LO~S PROMET~ÉR~NOS~LAS PROMET~É~R~NOS~LAS PROMET~ÉR~NOS~L~A~S PROMET~É~R~NOS~L~A~S PROMETÉ~R~NOSLAS AM~AR~LA AM~A~R~LA AM~AR~L~A AM~A~R~L~A AM~ARLA Separa marcas verbales pegadas a los enclíticos AM~AR~LOS AM~A~R~LOS AM~AR~L~O~S AM~A~R~L~O~S AM~ARLOS AM~ÉMO~NOS AM~É~MO~NOS AM~ÉMONOS CONT~ÁR~NOS~LO CONT~Á~R~NOS~LO CONT~ÁR~NOS~L~O CONT~Á~R~NOS~L~O CONT~ÁRNOSLO QUEM~ÁR~NOS~LA QUEM~Á~R~NOS~LA QUEM~ÁR~NOS~L~A QUEM~Á~R~NOS~L~A QUEM~ÁRNOSLA PAS~ÁR~NOS~LAS PAS~Á~R~NOS~LAS PAS~ÁR~NOS~L~A~S PAS~Á~R~NOS~L~A~S PAS~ÁRNOSLAS LANZ~ÁR~NOS~LE LANZ~Á~R~NOS~LE LANZ~ÁR~NOS~L~E LANZ~Á~R~NOS~L~E LANZ~ÁRNOSLE QUIT~ÁR~ME~LOS QUIT~Á~R~ME~LOS QUIT~ÁR~ME~L~O~S QUIT~Á~R~ME~L~O~S QUIT~ÁRMELOS CUID~ÁR~TE~LO CUID~Á~R~TE~LO CUID~ÁR~TE~L~O CUID~Á~R~TE~L~O CUID~ÁRTELO CANT~AR~LES CANT~A~R~LES CANT~AR~L~E~S CANT~A~R~L~E~S CANT~ARLE CANT~AR~NOS CANT~A~R~NOS CANT~ARNOS CANT~ÁNDO~ME CANT~Á~NDO~ME CANT~ÁNDOME LLEV~ÁNDO~SE~LOS LLEV~Á~NDO~SE~LOS LLEV~ÁNDO~SE~L~O~S LLEV~Á~NDO~SE~L~O~S LLEV~ÁNDOSELOS TOM~ÁR~SE~LO TOM~Á~R~SE~LO TOM~ÁR~SE~L~O TOM~Á~R~SE~L~O TOM~ÁRSELO TOST~ÁR~SE~LAS TOST~Á~R~SE~LAS TOST~ÁR~SE~L~A~S TOST~Á~R~SE~L~A~S TOST~ÁRSELAS EMBOLS~ÁNDO~SE~LA EMBOLS~Á~NDO~SE~LA EMBOLS~ÁNDO~SE~L~A EMBOLS~Á~NDO~SE~L~A EMBOLS~ÁNDOSE~LA Separa marcas verbales pegadas a enclíticos. Separa último enclítico ÉCH~A~TE~LAS ÉCH~A~TE~LAS ÉCH~A~TE~L~A~S ÉCH~A~TE~L~A~S ÉCH~ATELA~S Separa marca ver- bal pegada a los enclíticos. Separa marca de plural COM~ER~LOS COM~E~R~LOS COM~ER~L~O~S COM~E~R~L~O~S COM~ERLO~S DEC~ÍR~ME~LO DEC~Í~R~ME~LO DEC~ÍR~ME~L~O DEC~Í~R~ME~L~O DEC~ÍR~MELO Separa marcas verbales y enclíti- cos, pero no seg- menta enclíticos HAC~ÉR~ME~LOS HAC~É~R~ME~LOS HAC~ÉR~ME~L~O~S HAC~É~R~ME~L~O~S HAC~ÉR~MELOS PRÉST~A~ME~LA PRÉST~A~ME~LA PRÉST~A~ME~L~A PRÉST~A~ME~L~A PRÉST~A~MELA AMÁRR~A~TE~LA AMÁRR~A~TE~LA AMÁRR~A~TE~L~A AMÁRR~A~TE~L~A AMÁRR~A~TELA PON~ER~TE~LO PON~E~R~TE~LO PON~ÉR~TE~L~O PON~É~R~TE~L~O PON~ÉR~TELO 186 Tabla 4.24 Ejemplos de segmentaciones para enclíticos (continuación) Manual Automática Comentario DEM Alcoba DEM (género y número) Alcoba (género y número) SUPON~ÉR~SE~LE SUPON~É~R~SE~LE SUPON~ÉR~SE~L~E SUPON~É~R~SE~L~E SUPON~ÉR~SELE Separa marcas verbales y enclíti- cos, pero no seg- menta enclíticos COM~ÉR~SE~LA COM~É~R~SE~LA COM~ÉR~SE~L~A COM~É~R~SE~L~A COM~ÉR~SELA COM~ER~LO COM~E~R~LO COM~ER~L~O COM~E~R~L~O COM~ER~LO HAC~ÉR~NOS~LOS HAC~É~R~NOS~LOS HAC~ÉR~NOS~L~O~S HAC~É~R~NOS~L~O~S HAC~ÉR~NOSLOS IMPED~ÍR~NOS~LO IMPED~Í~R~NOS~LO IMPED~ÍR~NOS~L~O IMPED~Í~R~NOS~L~O IMPED~ÍR~NOSLO PERDÓN~E~SE~NOS PERDÓN~E~SE~NOS PERDÓN~E~SENOS OCURR~IÉNDO~SE~LE OCURR~IÉ~NDO~SE~LE OCURR~IÉNDO~SE~L~E OCURR~IÉ~NDO~SE~L~E OCURR~IÉNDO~SELE OPRIM~IÉNDO~SE~LAS OPRIM~IÉ~NDO~SE~LAS OPRIM~IÉNDO~SE~L~A~S OPRIM~IÉ~NDO~SE~L~A~S OPRIM~IÉNDO~SELAS COM~IÉNDO~LO COM~IÉ~NDO~LO COM~IÉNDO~L~O COM~IÉ~NDO~L~O COM~IÉNDO~LO PED~ÍR~SE~LO PED~Í~R~SE~LO PED~ÍR~SE~L~O PED~Í~R~SE~L~O PED~Í~R~SELO PON~ÉR~TE~LAS PON~É~R~TE~LAS PON~ÉR~TE~L~A~S PON~É~R~TE~L~A~S PON~ÉR~TELA~S Separa marcas verbales y enclíti- cos, pero no seg- menta enclíticos. Separa marca de plural SERV~ÍR~TE~LAS SERV~Í~R~TE~LAS SERV~ÍR~TE~L~A~S SERV~Í~R~TE~L~A~S SERV~ÍR~TELA~S CÓM~E~LAS CÓM~E~LAS CÓM~E~L~A~S CÓM~E~L~A~S CÓM~E~LA~S RECÓRT~E~LOS RECÓRT~E~LOS RECÓRT~E~L~O~S RECÓRT~E~L~O~S RECÓRT~E~LO~S AGUÁNT~E~LOS AGUÁNT~E~LOS AGUÁNT~E~L~O~S AGUÁNT~E~L~O~S AGUÁNT~E~LO~S CUMPL~ÍR~SE~LOS CUMPL~Í~R~SE~LOS CUMPL~ÍR~SE~L~O~S CUMPL~Í~R~SE~L~O~S CUMPL~ÍR~SELO~S PON~ÉR~SE~LES PON~É~R~SE~LES PON~ÉR~SE~L~E~S PON~É~R~SE~L~E~S PON~ÉR~SELE~S ATRIBU~ÍR~SE~LES ATRIBU~Í~R~SE~LES ATRIBU~ÍR~SE~L~E~S ATRIBU~Í~R~SE~L~E~S ATRIBU~ÍR~SELE~S PART~IÉNDO~LOS PART~IÉ~NDO~LOS PART~IÉNDO~L~O~S PART~IÉ~NDO~L~O~S PART~IÉNDO~LOS Coincide con DEM COM~ER~LA COM~E~R~LA COM~ER~L~A COM~E~R~L~A COM~ER~LA SUB~IR~LE SUB~I~R~LE SUB~IR~L~E SUB~I~R~L~E SUB~IR~LE PART~IR~NOS PART~I~R~NOS PART~IR~NOS Coincide con am- bos COM~IÉNDO~SE COM~IÉ~NDO~SE COM~IÉNDO~SE COM~ER~ME COM~E~R~ME COM~ER~ME 187 Los bajos resultados obtenidos en las palabras con enclíticos se deben a que, de ma- nera casi generalizada, no hubo segmentación al interior de los grupos de enclíticos, por ejemplo, CONT~ÁRNOSLO y QUEM~ÁRNOSLA. Además, hubo bastantes casos de se- paración de las marcas verbales, pero los enclíticos se mantuvieron concatenados, como COM~ÉR~SELA, IMPED~ÍR~NOSLO. Esto da una clara muestra de la naturaleza distinta de los enclíticos y los afijos, de tal manera que el índice de afijalidad no segmenta los primeros. En este sentido las segmen- taciones del párrafo anterior serían pertinentes y debieran haberse contado como aciertos. Algo similar ocurre con los casos donde se separan marcas verbales, enclíticos y la marca de plural, como CUMPL~ÍR~SELO~S y PON~ÉR~SELE~S, que resultan bastante perti- nentes. Las segmentaciones que coincidieron se dan cuando sólo hay un enclítico, como en COM~IÉNDO~LO, SUB~IR~LE, PART~IR~NOS, COM~IÉNDO~SE, aunque no sucede en todos los casos de un solo enclítico, por ejemplo, AM~ARLOS o CANT~ARNOS. Para trabajo futuro sería buena idea usar otra medida para separar los enclíticos. Hasta aquí dejo el análisis de ejemplos de palabras segmentadas. Ahora, otro aspec- to que quiero mencionar es el que tiene que ver con las palabras marcadas como irregulares en el corpus de evaluación. Fue una sorpresa que las medidas de precisión fueran mayores en comparación con las obtenidas para las formas regulares. En este caso, el experimento con mejor resultado fue el mismo que para las palabras regulares: cortes sucesivos hacia la izquierda en el valor máximo del promedio de las tres medidas de afijalidad. Sin embargo, su nivel de precisión subió al 41% en comparación con el 33.8% obtenido en palabras regu- lares. El incremento fue considerable. 188 Una explicación de esto es el bajo número de palabras irregulares incluidas en el corpus de evaluación y por tanto la menor variedad de sufijos a segmentar (y de alomorfos). Se debe recordar además que para los verbos sólo se incluyeron ejemplos de un solo tiempo y modo, esto es, no se incluyeron todos los tiempos de ambos modos como en el caso de las palabras regulares. Por lo anterior, no se puede afirmar que el experimento resultara mejor para palabras irregulares, sino solamente que es relativamente igual de bueno para este tipo de palabras. 4.4. Observaciones finales Aunque el nivel de precisión de 33.8% alcanzado por el mejor experimento es bajo, no lo considero desafortunado por las siguientes razones. El corpus de evaluación fue construido con una gran variedad de sufijos derivativos y, sobre todo, de alomorfos de estos sufijos (188 alomorfos). Sirvan de ejemplo los seis alomorfos del sufijo (V)(C)ión propuestos por Moreno de Alba (1986): –ación, –ción, –ición, –ión, –sión y –ución. La determinación de estos alomorfos fue producto de la reflexión humana y difícilmente un procesamiento computacional coincidirá con esa profundidad de análisis. Además, el método automático busca segmentaciones económicas que a pesar de no coincidir con esa reflexión humana, no dejan de ser válidas ya que la economía es parte de todo fenómeno lingüístico, en especial de carácter morfológico. Véase por ejemplo la Tabla 4.25, donde pongo ejemplos de segmentaciones para el sufijo (V)(C)ión. Como puede verse, el método propone sólo tres segmentos: ~ACIÓN, ~ÓN y ~CIÓN, algunas veces separando este último en ~CI~ÓN. El experimento segmenta de ma- nera regular, pero las segmentaciones no coinciden con el análisis humano. De hecho, el 189 segmento –ÓN, no considerado por Moreno de Alba como sufijo, es muy económico ya que se combina con muchas bases. Tabla 4.25 Ejemplos de segmentaciones para alomorfos del sufijo (V)(C)ión Alomorfo Segmentación manual Segmentación automática Sufijo propuesto -ACIÓN ELIMIN~ACIÓN ELIMIN~ACIÓN ~ACIÓN -ACIÓN ACEPT~ACIÓN ACEPT~ACIÓN -ACIÓN ACLAR~ACIÓN ACLAR~ACIÓN -ACIÓN FUNDAMENT~ACIÓN FUNDAMENT~ACIÓN -ACIÓN AGRUP~ACIÓN AGRUP~ACIÓN -CIÓN SATISFAC~CIÓN SATISFACCI~ÓN ~ÓN -CIÓN INTERVEN~CIÓN INTERVENCI~ÓN -CIÓN INDISCRE~CIÓN INDISCRE~CI~ÓN -CIÓN CONSTITU~CIÓN CONSTITU~CIÓN -CIÓN PRODUC~CIÓN PRODUCCI~ÓN -ICIÓN DEFIN~ICIÓN DEFINI~CIÓN ~CIÓN -ICIÓN ABURR~ICIÓN ABURRI~CIÓN -IÓN DISPERS~IÓN DISPERSI~ÓN ~ÓN -IÓN REUN~IÓN REUNIÓ~N -UCIÓN EVOL~UCIÓN EVOLU~CI~ÓN ~CI~ÓN -UCIÓN SOL~UCIÓN SOLU~CI~ÓN Lo que quiero resaltar es lo difícil que es encontrar una manera de evaluar un análi- sis lingüístico automático. ¿La idea es llegar al mismo nivel de análisis de un experto o encontrar un método que logre describir las regularidades de un corpus? Por supuesto que una computadora no puede suplantar la reflexión humana, pero sí puede ayudar a generar inquietudes lingüísticas a partir de los resultados que arroja. En otros aspectos, sería posible utilizar distintas estrategias de segmentación para distintas clases de palabra y distintos fenómenos morfológicos. Esto se debe a que algunos métodos fueron un poco mejores para nominales y otros para verbos, de la misma forma, algunos fueron un poco mejores para flexión y otros para derivación. Sin embargo, esto conlleva conocer antes de segmentar la clase o el fenómeno morfológico de la palabra. 190 Esta cuestión no es fácil de resolver. Se tiene, por un lado, la opción de marcar a priori las palabras, pero esto dista de mi interés por un método con escasa intervención hu- mana. Por otro lado, se puede implementar algún procedimiento de descubrimiento de cla- ses de palabras o del tipo de fenómeno presente, flexión o derivación, pero ambas son dos tareas suficientemente complejas como para pensar en otro proyecto de investigación. Ya que mi perspectiva de trabajo es proponer un método automático que describa las regularidades de un corpus sin dar por sentadas las unidades morfológicas, no veo ma- yor inconveniente en utilizar la estrategia de segmentación que tuvo mejores resultados para incorporarla a mi método de descubrimiento de patrones morfotácticos. Este capítulo describió el primer paso en el descubrimiento de la morfotáctica del español: el descubrimiento de unidades morfológicas, específicamente bases y sufijos. Me- diante un estudio de las medidas de afijalidad (entropía, cuadros y economía) se formularon dieciséis estrategias de segmentación. Se evaluaron y se obtuvo la mejor: hacer cortes suce- sivos hacia la izquierda en el valor máximo del promedio de las tres medidas de afijalidad. Así, el siguiente capítulo describe cómo se usó esta estrategia para segmentar los tipos de palabras del CEMC y construir el autómata de estados finitos. 191 5. Generación automática del autómata de estados finitos Gracias a los experimentos realizados en el capítulo anterior he podido seleccionar una es- trategia de segmentación para descubrir las bases y sufijos del español. Ahora, es necesario describir su ordenamiento mediante un aparato de descripción. En este capítulo describo los aspectos relacionados con la generación del autómata de estados finitos y su evaluación. En primer lugar expongo el procedimiento para construir automáticamente este apa- rato de descripción, luego presento los experimentos llevados a cabo. Después ofrezco una evaluación del autómata generado y termino el capítulo con la presentación del método propuesto para descubrir la morfotáctica del español. 5.1. Procedimiento para la generación del autómata Como se mencionó, una vez que se han descubierto las unidades morfológicas de la lengua de estudio, en este caso particular bases y sufijos, es necesario describir su orden y secuen- cialidad. Para ello se pensó en utilizar una gramática de estados finitos, ya que es posible ver a la morfología sufijal como un lenguaje regular. Luego, en una revisión de la manera en como la morfología computacional ha descrito la morfotáctica de diversas lenguas, se decidió generar automáticamente un autómata de estados finitos. La manera de describir la morfotáctica no es asunto trivial. Ya mostraba en la sec- ción 3.4 que existen distintas posibilidades, aunque éstas suelan ser hechas manualmente: autómatas de estados finitos, redes de discriminación (tries), autómatas en cascada y trans- 192 ductores en paralelo. Se descartaron las dos últimas por el hecho de que también represen- tan reglas de transformación fonológica, que no están involucradas en esta investigación. Construir una red de discriminación (trie) era factible, especialmente porque el mé- todo del cálculo del índice de afijalidad utiliza una red de letras muy similar (véase sección 2.5.5). Además no describe cambios morfofonológicos, al igual que el método que estoy proponiendo; sin embargo, se decidió utilizar un autómata de estados finitos por las si- guientes razones. Primero, han sido utilizados en la morfología computacional para distintas lenguas dejando de lado el tratamiento de los fenómenos morfofonológicos, lo que coincide con mi enfoque de trabajo. Segundo, el autómata generado podría convertirse a futuro y con relati- vamente poco trabajo en un autómata probabilístico, inclusive en un modelo oculto de Markov, que pueden ayudar a describir de mejor manera la morfología de una lengua. Tercero, y más importante, son equivalentes a una gramática de estados finitos co- mo se consignó en el apartado 3.3.4. Ya que el objetivo que se propuso al inicio de este trabajo fue la construcción automática de una gramática, generar el autómata permite cum- plir el objetivo dada su equivalencia y porque existen procedimientos mediante los cuales un autómata se puede convertir en una gramática, y viceversa. En los siguientes apartados explico el procedimiento general de construcción del au- tómata y luego el algoritmo computacional para construirlo. 5.1.1. Planteamiento general para construir el autómata En este apartado discuto mi propuesta de construcción del autómata de estados finitos que describe la morfotáctica del español (bases y sufijos). Mi intención es presentar los proble- 193 mas generales de construir el autómata y exponer la estrategia que decidí utilizar para lidiar con ellos. Considero que el principal problema de construir automáticamente un autómata morfológico es que el autómata construido genere palabras inexistentes en la lengua. Por tanto, un autómata que represente la morfología de un corpus debe evitar que la secuencia de sus transiciones produzca una palabra inexistente en el corpus, ya que podría ser una palabra inexistente en la lengua de estudio. En seguida ejemplifico esta situación con cuatro palabras segmentadas que hipotéti- camente formarían un corpus: NIÑ~A, NIÑ~O, GAT~A, GAT~O y MONJ~A. Además, simulo un procedimiento automático para crear un autómata a partir de estas palabras, to- mando sus segmentos uno por uno y leyendo la palabra de derecha a izquierda, es decir, del último segmento al primero. Para construir el autómata es necesaria la creación del estado inicial (q0), de donde partirán las transiciones. Luego, a medida que se van leyendo los segmentos de cada pala- bra, éstos se van incluyendo al alfabeto de entrada (∑). Además, se van creando las transi- ciones (ai, qi, qk), donde qi y qk son estados y ai es un símbolo de entrada. Por ejemplo, para el último segmento (~A) de la primera palabra del corpus (NIÑ~A) se obtendría la transi- ción (~A, q0, q1). Esto incluye que debe ser creado el estado q1 y que debe ser agregado al conjunto de estados K. El siguiente segmento de la primera palabra (NIÑ~) se incluye como nuevo símbolo de ∑ y se crea la transición (NIÑ~, q1, qF). Es necesaria la creación del estado final qF porque se ha llegado al inicio de la palabra. De esta manera, la secuencia de estados q0, q1, qF asociados a las transiciones que se mencionaron generan los símbolos ~A, NIÑ~, que corresponden a la primera palabra del corpus. 194 Es posible seguir explicando de esta manera la generación del autómata para el cor- pus hipotético, pero es más fácil explicarla mediante su representación en forma de grafo. En esta, como se explicó en la sección 3.3.3, cada estado se representa como un nodo (círculo) y las transiciones como arcos (flechas) en donde se ponen sus símbolos asociados. Entonces, procesar la primera palabra (NIÑ~A) daría como resultado el autómata (a) de la figura Figura 5.1. Se pueden ver los estados q0, q1 y qF representados por círculos y los segmentos asociados a las flechas. Recuérdese que el orden de lectura de segmentos es de derecha a izquierda. Se decidió hacer de esta manera porque al final de las palabras del español hay menos variabilidad de segmentos, ya que se trata de los afijos, que forman un conjunto más pequeño de segmentos en relación con el conjunto de bases. Al procesar la segunda palabra, se pueden unir los arcos de los sufijos ~O y ~A al estado q1, logrando aprovechar el arco final asociado a la base NIÑ~, ya que es la misma para los dos palabras, véase autómata (b). La tercer palabra puede quedar representado en el autómata ya creado con sólo agregar al arco final la base GAT~, como se muestra en (c). El autómata construido hasta el momento representa también, de manera afortunada, la siguiente palabra del corpus GAT~O sin que sea necesaria ninguna modificación, ya que existe un arco del estado q0 al estado q1 con el segmento ~O, véase autómata (d). Final- mente, la palabra MONJ~A podría ser representada, como se hizo antes, aprovechando los arcos ya existentes y sólo agregando la base MONJ~ al arco final como se puede ver en el autómata (e). 195 (a) (b) (c) (d) (e) (f) Figura 5.1. Autómata que produce una palabra inexistente 196 Con el procedimiento presentado se ha construido un autómata que representa al pe- queño corpus hipotético. Cabe resaltar que tres nodos y tres arcos bastaron para tal repre- sentación. Desafortunadamente el autómata creado también da cabida a la palabra inexis- tente *MONJO debido a que la secuencias de estados q0, q1 generan el segmento ~O, que se asocia al segmento MONJ~ de la siguiente secuencia de estados del autómata q1, qF, véase el autómata (f). Esta situación impide que se acepte este autómata como representa- ción válida del corpus. Cuando este tipo de autómatas es hecho manualmente, el investigador es cuidadoso de evitar esta situación. En mi caso, tuve que incorporar al procedimiento automático los mecanismos para cuidar que esto no sucediera. Puedo decir que la estrategia que tomé fue muy conservadora en el sentido de que se evitó al máximo la unión entre nodos, generando siempre nuevas transiciones (arcos) por cada nueva secuencia de sufijos. Simularé la generación del autómata mediante un procedimiento que toma como ba- se esta estrategia conservadora, utilizando nuevamente el pequeñísimo corpus hipotético presentado antes (NIÑ~A, NIÑ~O, GAT~A, GAT~O y MONJ~A), y haré comparaciones con el procedimiento presentado antes. El procedimiento conservador produce el mismo autómata para el palabra NIÑ~A que el procedimiento anterior, éste puede verse en (a) de la Figura 5.2. Luego, para proce- sar la segunda palabra (NIÑ~O) el procedimiento conservador no utiliza los arcos ya cons- truidos. Dado que se trata de una secuencia de sufijos distinta a las secuencias existentes en el autómata actual, se crea un nuevo estado y las transiciones necesarios para representar la nueva palabra. En otras palabras, dado que no hay un camino en el autómata que describa la secuencia de sufijos de la palabra en turno, se crea un nuevo camino para representarla. Esto puede verse en (b) de la Figura 5.2. 197 (a) (b) (c) (d) (e) Figura 5.2. Autómata construido con la estrategia conservadora Para las palabras siguientes (GAT~A y GAT~O) sí se aprovechan las transiciones existentes en el autómata ya que las secuencias de sufijos es la misma, aunque la base es diferente, como se puede ver en (c) y (d), respectivamente. Al final, la última palabra que- 198 daría representada mediante el camino ya existente en el autómata q0, q1, qF, que puede verse en (e) de la misma figura. El procedimiento conservador generó un grafo con un arco para el segmento final ~A y otro para el segmento final ~O del corpus hipotético. Esto conlleva más estados y más transiciones que el autómata generado con el primer procedimiento. Además, las bases que comparten los sufijos ~A y ~O estarían duplicadas, como se puede ver en los arcos que llegan al estado final. Después de intentar algunos procedimientos adicionales, decidí tomar esta estrategia conservadora por dos razones. La primera fue tratar de evitar que a medida que se construía el autómata se revisara si las nuevas bases generaban palabras inexistentes en el corpus. La segunda fue que una vez construido el autómata con el procedimiento conservador sería posible pensar en “simplificarlo” o “compactarlo”, esto es, buscar modificar las transicio- nes del autómata para unir estados, lo que podría llevar a eliminar estados y transiciones redundantes. Por tanto, la generación del autómata se hizo con la estrategia conservadora. Ade- más, con la idea de simplificar la construcción y representación del autómata, decidí crear grupos de bases. De esta manera, en las transiciones que llevan al estado final qF, se utiliza el símbolo “base” seguido de un número para representar un conjunto de bases. Esto se puede ver gráficamente en la Figura 5.3, donde base1= {NIÑ, GAT, MONJ} y base2= {NIÑ, GAT}. Este autómata sería equivalente al autómata (e) de la Figura 5.2. 199 Figura 5.3. Ejemplo de autómata con grupos de bases Si bien esta estrategia tiene redundancia y cuenta con mayor número de estados y transiciones, brinda la seguridad de no generar ninguna palabra inexistente en el corpus. Además, una vez que el autómata ha sido generado por completo, es posible realizar una tarea de simplificación del mismo para obtener una representación más compacta. Este procedimiento se vuelve más elaborado a medida que se contemplan más pala- bras con mayor número de segmentos, pero en términos generales se sigue la misma idea presentada. Ahora expongo en el siguiente apartado el algoritmo computacional que permi- te generar el autómata de estados finitos. 5.1.2. Algoritmo para construir el autómata En esta subsección consigno el algoritmo que utilicé para construir el autómata de estados finitos68. Éste sigue las consideraciones que expuse en el apartado anterior. En especial, debe recordarse que se procesaron los segmentos de los tipos de palabra de derecha a iz- quierda, es decir, del último al primer segmento (de los sufijos a la base). 68 El programa de computadora que implementa este algoritmo fue hecho en Lenguaje C++ con una estrategia de programación orientada a objetos. Por esto, se crearon clases para representar al autómata, sus transiciones, sus estados y sus símbolos. Dos clases adicionales fueron creadas, una para manipular el corpus y otra para construir el autómata. Es en esta última donde se encuentra programado el algoritmo que presento aquí. 200 La entrada del algoritmo es un archivo con la lista de tipos de palabras segmentados. Se pensó de esta manera para mantener separado el proceso de segmentación morfológica de la construcción del autómata, lo que brinda la posibilidad de usar cualquier estrategia de segmentación y tomar su resultado para este algoritmo. La salida del algoritmo es un autómata construido como un conjunto de estados y transiciones. Para su análisis y visualización decidí usar un diagrama de estados en forma de un grafo. Ya que resultaba poco práctico construir un solo grafo de todo el autómata dadas sus dimensiones (aproximadamente seis mil estados y siete mil transiciones), decidí fragmentarlo por segmento final de palabra. Esto es, se almacenaron tantos grafos como segmentos finales distintos. Algoritmo para construir el autómata de estados finitos Inicializar autómata A Crear estado inicial q0 Crear estado final qF M = 0 /*Para numerar nuevos estado*/ B = 0 /*Para numerar grupos de bases*/ qN /* Para almacenar último estado creado en el autómata*/ Para cada palabra pal (ciclo 1): Para cada segmento seg de pal, comenzando por el último (ciclo 2): Si seg es último segmento de pal Si pal tiene un solo segmento (no está segmentada) Si existe transición (baseB, q0, qF) Asignar segmento a grupo de bases baseB Aumentar frecuencia de la transición 201 Algoritmo para construir el autómata de estados finitos (continuación) Si no existe transición (baseB, q0, qF) B = B+1 Asignar segmento a grupo de bases baseB Crear transición (baseB, q0, qF) Si pal no tiene un sólo segmento Si no existen transiciones en el autómata (autómata vacío) M = M+1 Crear nuevo estado qM Crear transición (seg, q0, qM) qN = qM; Si existen transiciones en el autómata (autómata no vació) Buscar transición que comience en q0 con símbolo seg y que no termine en qF Si existe Si A acepta siguientes segmentos de pal Aumenta frecuencia de transiciones para cada segmento de pal Si A no acepta siguientes segmentos de pal M = M+1 Crear nuevo estado qM Crear transición (seg, q0, qM) qN = qM Si no existe M = M+1 Crear nuevo estado qM Crear transición (seg, q0, qM) qN = qM 202 Algoritmo para construir el autómata de estados finitos (continuación) Si seg no es último segmento de pal Si seg es primer segmento de pal Buscar transición que comience en qN con símbolo baseB y que termine en qF Si existe Asignar seg a grupo de bases baseB Aumentar frecuencia de la transición Si no existe B = B+1 Asignar seg a grupo de bases baseB Crear transición (baseB, qN, qF) Si seg no es primer segmento pal Busca transición que comience en qN con símbolo seg Si no existe M = M+1 Crear nuevo estado qM Crear transición (seg, qN, qM) Fin ciclo 2 Fin ciclo 1 Fin La Figura 5.4 muestra el ejemplo de un grafo para el segmento final ~MOS. Como mencioné en la subsección anterior, agrupé las bases y numeré estos grupos, esto explica los símbolos base102, base107, base120 y base264. Este autómata describe la morfotáctica del segmento final ~MOS, que se puede ver como la marca flexiva verbal de número- persona. En el autómata se puede observar también la separación de la vocal temática. Re- 203 sultó afortunado que se mostraran las vocales temáticas de las tres conjugaciones ~A~, ~E~ y ~I~. Figura 5.4 Autómata generado para el segmento ~MOS Se espera que el autómata generado automáticamente describa la morfotáctica del español. Por tanto, sería posible extraer de él los patrones morfotácticos de esta lengua. Estos serían las secuencias de transiciones del autómata que van desde el estado inicial q0 hasta el estado final qF. En el autómata de arriba (Figura 5.4) los patrones morfotácticos serían: Base~MOS, Base~I~MOS, Base~A~MOS y Base~E~MOS. Como parte de la construcción del autómata se guardó la frecuencia de estos patro- nes, que por el diseño del autómata resultó equivalente al total de sus bases asociadas. Con el fin de obtener los patrones morfotácticos más pertinentes y una mejor descripción de la morfotáctica del español, decidí eliminar del autómata los patrones (secuencias de transi- ciones) que no tuvieran una frecuencia mayor o igual al promedio de frecuencias de todos los patrones. 204 Ya establecido el procedimiento general y el algoritmo para construir automática- mente el autómata, en la siguiente sección consigno los experimentos realizados. 5.2. Experimentos de generación del autómata En esta sección presento los experimentos que llevé a cabo para generar el autómata que describe la morfotáctica de mi corpus de estudio. En términos generales, realicé dos expe- rimentos. El primero consistió en la generación de un autómata basado en una representa- ción fonológica del corpus y el segundo basado en los caracteres ortográficos sin ninguna modificación, lo que llamaré representación ortográfica. Las modificaciones utilizadas para obtener la representación fonológica fueron las mismas utilizadas en trabajos anteriores sobre el descubrimiento de unidades morfológicas en el CEMC. Estas consistieron en dejar únicamente el acento de la última vocal y cambiar algunos caracteres por otros como se puede ver en la Tabla 5.1, que es una reelaboración de la Tabla A.7 presentada en Medina (2003, pág. 358). La primera columna de la Tabla 5.1 muestra los caracteres ortográficos que fueron modificados y los caracteres que los sustituyeron. La segunda columna presenta el fonema representado. Finalmente, la tercera columna describe brevemente el contexto en que se hace la modificación. 205 Tabla 5.1 Modificaciones a caracteres para representación fonológica Reelaboración de Medina (2003, pág. 358) Modificación Fonema Contexto ‘v’  ‘b’ [b] Todos ‘z’, ‘c’  ‘s’ [s] toda ‘z’; ‘ce’, ‘ci’ ‘c’, ‘qu’  ‘k’ [k] ‘ca’, ‘que’, ‘qui’, ‘co’, ‘cu’ ‘ch’  ‘¢’ [č] todos ‘g’  ‘g’ [γ] ‘ga’, ‘go’, ‘gu’ ‘gu’  ‘g’ [γ] ‘gue’, ‘gui’ ‘g’  ‘j’ [h] ‘ge’, ‘gi’ ‘h’  ξ - todos ‘y’  ‘i’ [i] fin de sílaba, después de vocal (‘ay’, ‘ey’, …) ‘y’, ‘ll’  ‘y’ [y] principio de sílaba, antes de vocal ‘rr’  ‘»’ [r ] todos ‘r’  ‘»’ [r ] principio de palabra; o después de sílaba que termina en ‘n’, ‘l’, ‘s’ o ‘b’. ‘r’  ‘r’ [r] entre vocales. Considero interesante generar un autómata a partir de la representación fonológica ya que en ella varios caracteres se convertirían en uno solo, como en ‘qu’  ‘k’. Además, se perderían distinciones ortográficas entre caracteres que representan el mismo fonema, como en ‘z’, ‘c’  ‘s’. Esto tiene impacto en la morfología porque desaparece la distinción ortográfica entre alomorfos de sufijos, piénsese por ejemplos en –ción y –sión. Es más, puede producir similitud entre sufijos, piénsese en los sufijos –azo (bal-azo) y –so (suspen- so), con la representación fonológica ambos compartirían el segmento final –so. A pesar de lo anterior, se intuye que la descripción de la morfotáctica del español será mejor con un autómata generado a partir de la representación fonológica del CEMC. Así, utilizando el algoritmo presentado anteriormente, se generaron los dos autómatas a partir de los tipos de palabras segmentados. En el siguiente apartado detallo los resultados obtenidos de estos dos experimentos y brindo una evaluación de los mismos. 206 5.3. Resultados y evaluación de los autómatas En este apartado presentaré los resultados de los experimentos de generación de los autó- matas a partir de los tipos de palabras del CEMC. Además, discutiré las dificultades que involucra la evaluación de estos resultados y mencionaré la estrategia que utilicé para eva- luarlos. Después presentaré la evaluación del autómata que, a mi consideración, representa mejor la morfotáctica del corpus de estudio. Comenzaré con la presentación de algunas características generales sobre los autó- matas obtenidos (véase Tabla 5.2). Tabla 5.2 Características generales de los autómatas obtenidos Representación Fonológica Ortográfica Tipos de palabras procesadas 76,679 78,249 Estados 7,174 6,417 Transiciones 8,547 7,797 Patrones morfotácticos descubiertos 422 363 Tiempo de generación del autómata (minutos) 22 19 Como puede observarse, el autómata generado con base en la representación orto- gráfica es más compacto (contiene menos estados y transiciones), además, incluyó menos patrones morfotácticos en comparación con el autómata generado a partir de la representa- ción fonológica. Se debe recordar que llamo patrones morfotácticos a las secuencias de transiciones que van desde el estado inicial hasta el estado final del autómata. En una comparación basada sólo en los patrones morfotácticos de uno y otro autó- mata, resultó que ambos autómatas compartieron 350 patrones. Además, observé que el autómata basado en la representación ortográfica no incluyó algunos patrones que a primera 207 vista me parecen pertinentes y que sí aparecieron en el otro autómata. Listo en seguida es- tos patrones /Base~ANDO~LA/ /Base~ANDO~LE/ /Base~ANDO~LO/ /Base~ANDO~LOS/ /Base~ANDO~ME/ /Base~ANDO~SE/ /Base~AR~ES/ /Base~AR~LO/ /Base~AR~SE/ /Base~ARI~A/ /Base~EDAD/ /Base~ENTE/ /Base~ETA/ /Base~I~AMOS/ /Base~IK~AMENTE/ /Base~IK~AS/ /Base~IK~OS/ /Base~IS~AR/ /Base~OTE/ /Base~TIK~A/ /Base~TIK~O/ Además, comparando algunos autómatas de segmentos finales, pude observar que el autómata generado con la representación fonológica incluye patrones morfotácticos (se- cuencias de transiciones) pertinentes que no aparecen en el otro autómata. Compárense, por ejemplo, los autómatas de la Figura 5.5. El autómata (b) incluye la segmentación del sufijo derivativo formador de adjetivos /~IK~/, y por tanto el patrón /Base~IK~AMENTE/, que no incluye el autómata (a). Del lado derecho de los grafos, se pueden ver algunas bases asociadas a cada camino del autómata. 208 (a) representación ortográfica base181 ABRUPT~ ACCESORI~ ACTIV~ base286 ADECU~ AIR~ AISL~ base515 AFECTU~ AMIST~ ANGUSTI~ (b) representación fonológica base152 ABID~ ABRUPT~ ACSESORI~ base394 ADEKU~ AIR~ AISL~ base508 AFECTU~ AMIST~ ANGUSTI~ base725 ALFABET~ ANARK~ ANATOM~ Figura 5.5 Autómatas generados para el segmento /~AMENTE/ Otro ejemplo es el de los autómatas de la Figura 5.6, generados para el segmento fi- nal /~AR/. En ellos se puede notar que el autómata generado a partir de la representación fonológica (b) incluye el sufijo /~IS~/, que deriva verbos de sustantivos o adjetivos, y que forma el patrón morfotáctico /Base~IS~AR/. Este patrón no apareció en el otro autómata (a). También se muestran algunas bases asociadas. 209 (a) representación ortográfica base11 ABAL~ ABANDON~ ABLAND~ base304 ACEP~ ADOP~ AFEC~ base663 ALET~ ARR~ BANDE- RILL~ (b) representación fonológica base22 ABAL~ ABANDON~ ABANS~ base325 ABUL~ ADOP~ AFEC~ base631 AKA»~ ALET~ BANDERIY~ base864 ANAL~ BITAL~ DEMO- KRAT~ Figura 5.6 Autómatas generados para el segmento /~AR/ Por lo anterior y dejando para trabajo futuro una comparación exhaustiva, considero para efectos de mi trabajo que el autómata basado en la representación fonológica es mejor representación de la morfotáctica de mi corpus. Por tanto, realizaré la evaluación tomando como base este autómata. 210 5.3.1. Evaluación Uno de los aspectos más difíciles de resolver de mi trabajo de investigación fue la evalua- ción del autómata de estados finitos. Diversas interrogantes son causa de esta situación y en seguida discutiré algunas de ellas. Algo que incidió en la dificultad de evaluación fue la perspectiva metodológica de mi trabajo. Como ya lo he mencionado, mi interés está en encontrar las regularidades mor- fológicas del sistema lingüístico del español mediante un método automático. Esto conlleva que la obtención de los resultados esté desprovista de una reflexión humana. La reflexión se hace, en un principio, para definir el método automático y, después, para analizar los resul- tados. Así, éstos son producto de una sucesión de pasos que se ejecutan mecánicamente sobre todos los casos que cumplan las condiciones previstas en el método. De lo anterior se desprende que los resultados obtenidos automáticamente no coin- cidirán por completo con las propuestas consignadas en las gramáticas del español. Aunque sí deberán coincidir en buena medida para considerar al método como pertinente. Surgen entonces los primeros problemas de evaluación: ¿qué tanta coincidencia debe existir para considerar al método como acertado? ¿Contra qué gramática comparar? Ahora bien, adoptando la forma de evaluación tradicional de la lingüística compu- tacional, que consiste precisamente en comparar los resultados contra una propuesta huma- na considerada como modelo ideal (gold standard), quedaría por resolver la siguiente inte- rrogante: ¿existe un autómata de estados finitos del español hecho manualmente con el que 211 pueda comparar el autómata generado automáticamente? Desafortunadamente no pude ob- tener uno69. En el supuesto caso de haber contado con un autómata hecho manualmente, hubie- ran quedado abiertas otras interrogantes. Por ejemplo, nada aseguraba que la forma de construir ese autómata fuera tan cercana a la que yo utilicé, como para dar cabida a una posible comparación de estados y transiciones. Esto es, hay distintas maneras de representar la morfología de una lengua mediante autómatas. Por ejemplo, ya decía que una forma muy utilizada para esta representación es la fonología de dos niveles. Ésta utiliza las letras (fonemas) como símbolos en lugar de seg- mentos. Además, usa símbolos de entrada que se reescriben mediante reglas para producir símbolos de salida. El autómata que generé no está diseñado de esta manera. Por todo lo anterior, decidí hacer una evaluación cualitativa del autómata generado, con especial énfasis en los patrones morfotácticos inmersos en él y basándome en mis co- nocimientos como lingüista y en la información que recabé sobre la morfología sufijal del español70. Es importante señalar que será necesario buscar en un futuro alguna manera cuantitativa de evaluar este autómata. En seguida pongo mi evaluación. 69 Diversas pueden ser las causas que hicieron difícil encontrar un autómata del español. Por un lado, el autómata podría ser un recurso incorporado en un software comercial y por tanto no ser público. Por otro lado, podría ser que los autómatas de uso público ya no cuenten con una versión utilizable. Por ejemplo, con- tacté por correo electrónico a la profesora Evelyne Tzoukermann, autora del artículo “A Finite-State Morpho- logical Processor For Spanish” (1990), pero ya no cuenta con la implementación de su trabajo. 70 Al respecto, cabe resaltar que en las gramáticas y estudios morfológicos no hay apartados dedica- dos a describir la morfotáctica del español desde una visión general. Lo más común es encontrar artículos especializados para diversos fenómenos, como por ejemplo flexión y derivación, tanto nominal como verbal, y dentro de ellos secciones que mencionan los sufijos o prefijos representativos de cada fenómeno. 212 En términos generales, el autómata obtenido describe de manera afortunada muchos patrones morfotácticos pertinentes, esto es, que coinciden bien con lo esperado y muestran regularidades morfológicas71. También cuenta con patrones no pertinentes, esto es, aquellos que no dan cuenta de la morfotáctica o que no reflejan ninguna regularidad lingüística. Además contiene patrones que a primera vista no parecen pertinentes, pero que analizados con mayor detalle muestran regularidades y tendencias interesantes. Entonces decidí evaluar con detalle algunos ejemplos de patrones que me parecieron pertinentes y otros evidentemente errados. Con esto prescindí de hacer una evaluación ex- haustiva de los 442 patrones morfotácticos descubiertos y de las 55,870 bases involucradas en ellos, que me hubiera llevado mucho tiempo. Presentaré primero los autómatas que me parecen menos pertinentes (errados o muy cuestionables). Un patrón erróneo es el asociado al segmento final /~D/ (/Base~D/) descrito por el autómata de la Figura 5.7. Se podría pensar que se refiere a la marca verbal de imperativo (canta-d); sin embargo, de las bases asociadas sólo una corresponde (/SABE~D/). Del resto de bases hay muchas que con terminación en –d que no debería ser segmentada, como /BERDA~D/, /BONDA~D/ y /PARIDA~D/. Otras como /USTE~D/ y /ALU~D/ tampoco deberían segmentarse, pero se explican porque en el corpus aparece /USTE/ y palabras que comienzan con /ALU~/ (/ALUMBRAR/ o /ALUSIBAS/) lo que produce la propuesta del falso sufijo. 71 Es necesario hacer una aclaración sobre lo que considero una regularidad. Tanto puede referirse a un fenómeno que se presente con mucha frecuencia, como a uno que se presente con relativa baja frecuencia, pero que sea sistemático. Por ejemplo, la presencia de –aba en copretérito para verbos de la primera conjuga- ción e –ía para los de la segunda y tercera es una regularidad, pero también los cambios que se presentan en verbos irregulares, como la aparición de una consonante en poner/pongo o tener/tengo, es otra regularidad. La primera es muy frecuente, la segunda es menos frecuente pero sistemática para cierto conjunto de verbos. 213 Figura 5.7 Autómata generado para el segmento /~D/ Un autómata cuestionable es el de la Figura 5.8, que representa al patrón morfotác- tico /Base~GO/. Está asociado a 31 bases, entre las que destacan derivados como /ARTAS~GO/, /AYAS~GO/, /KASIKAS~GO/ y /NOBIAS~GO/, que se hubiera esperado que generaran el patrón morfotáctico /Base~ASGO/, asociado el sufijo derivativo –azgo consignado en las gramáticas. De hecho ese patrón nunca se generó y todos los tipos de palabra del corpus con este sufijo derivativo están asociados al autómata del patrón /Base~GO/. Incluso hubo palabras en el corpus que pudieron ayudar a obtener las segmentaciones /KASIK~ASGO/ y /NOBI~ASGO/, como /KASIK~E/ o /NOBI~ESITO/, pero no fue así. Figura 5.8 Autómata generado para el segmento /~GO/ El resto de tipos de palabras asociados a este autómata tienen una segmentación cuestionable, aunque explicable por su relación con otras palabras, como /BIKIN~GO/- /BIKIN~I/, /MUERDA~GO/-/MUERD~O/, /ESOFA~GO/-/ESOFA~JIKA/72. El segmento 72 Véase cómo la segmentación de la palabra /ESOFA~JIKA/ es cuestionable porque no separa el su- fijo esperado –ica; sin embargo, esto se debe al cambio fonológico en la base /g/ > /j/ que provoca que el carácter final de la base se tome como parte del sufijo. Esta es una tendencia del método y explica muchas de las segmentaciones a veces cuestionables. 214 /~GO/ no es el esperado, pero sí es un segmento con economía y por eso aparece en el au- tómata. Otro caso parecido es el del autómata de la Figura 5.9, asociado al patrón /Base~GA/. Este autómata tiene asociadas 23 bases de la cuales ocho son verbales. En ellas se encuentran verbos regulares de la primera conjugación, que no sufren cambio en la base cuando se conjugan y por tanto su segmentación es errónea (/DELE~GA/, /NABE~GA/, /PUR~GA/), ya que se esperaría que la /G/ pertenezca a la base y no al supuesto sufijo. En otras palabras, estas bases deberían estar asociadas al patrón /Base~A/. Figura 5.9 Autómata generado para el segmento /~GA/ Las otras bases pertenecen a verbos irregulares de las otras dos conjugaciones /DISTRAI~GA/, /INTERPON~GA/, /PRESUPON~GA/, /SUPERPON~GA/ y /SOBREBEN~GA/. Es muy interesante que si bien /~GA/ no es un sufijo esperado, éste segmento esté rindiendo cuenta de una regularidad morfológica (fenómeno morfofonológi- co) que modifica la raíz verbal aumentándole un segmento consonántico /g/73. Cuando el método compara estas palabras con otras parecidas, propone que el segmento /~G~/ sea parte del sufijo y no de la base, lo cual no es lo esperado, pero está dando cuenta de una regularidad del sistema74. 73 Véase por ejemplo Alcoba (1999, pág. 4952). 74 Es en estos casos donde cabe la pregunta ¿es el patrón encontrado pertinente o no? Considero que sí lo es y será un morfólogo el que decidirá el mejor análisis a partir de este patrón descubierto. 215 Las demás bases asociadas a este autómata son nominales y presentan segmentacio- nes erróneas como /KOLE~GA/ o /MAN¢E~GA/, aunque algunas son explicables por sus alternantes como /ANTROPOFA~GA/-/ANTROPOFA~JIA/ o /JUER~GA/-/JUER~SA/75. Otro autómata que me pareció cuestionable es el de la Figura 5.10, patrón morfotác- tico /Base~SO/, a pesar de que la morfología del español reconoce al sufijo –so como deri- vador de formas nominales a partir de verbos. Lo consideré así porque entre sus 22 bases asociadas hay derivados de diversa naturaleza junto con segmentaciones erróneas. Como patrón morfotáctico es válido, pero un análisis más detallado revela ciertas inconsistencias. Figura 5.10 Autómata generado para el segmento /~SO/ Hay tres derivados deverbales asociados al sufijo –so. Dos de ellos muestran una regularidad morfofonológica: la pérdida de consonante cuando se adhiere el sufijo /ASENDER/-/ ASEN~SO/, /PERMITIR/-/PERMI~SO/76. El tercero es /DISKAN~SO/ (de descanso). También hay tres derivados con –oso /MASO~SO/, /SELENIO~SO/ y /NITRO~SO/. El caso de /NITRO~SO/ se explica porque alterna con /NITROJENO/, que comparte la base que propone el método (/NITRO~/) y que es la base que se usa en com- puestos que aparecieron en el corpus como /NITROBENSENO/ o /NITRODERIBADO/, por lo que la segmentación no es equivocada. Los dos primeros, aunque cuestionables, con- 75 Nuevamente el cambio consonántico en la base produce que el segmento que sufre el cambio se pase al supuesto sufijo, como pasa con /ESOFA~GO/-/ESOFA~JIKA/ (véase nota 72). 76 Véase Moreno de Alba (1986). 216 firman la tendencia a asociar la parte regular a la base, en este caso el segmento/ ~O~/ (/SELENIO/-/SELENIO~SO/). Algo similar sucede con /JENERALA~SO/ y /SALIBA~SO/, que se esperarían aso- ciados al patrón del sufijo –azo, pero que aparecen aquí porque dejan la parte regular /~A~/ adherida a la base y no al sufijo, por ejemplo /SALIBA/-/SALIBA~ZO/77. El resto son ba- ses con segmentaciones cuestionables ya que ~SO no es sufijo en la palabra (/ILE~SO/, /LAP~SO/, /OKA~SO/, /KUAR~SO/, /MAR~SO/). Esta situación en la que un patrón morfotáctico pertinente emerge gracias a un gru- po de palabras bien segmentadas, pero se extiende a otras de manera cuestionable, se expli- ca porque la segmentación automática involucra dos aspectos en constante pugna. Por un lado, se propone como base el segmento más regular entre palabras semejantes y, por otro lado, los segmentos finales resultantes deben tener gran posibilidad combinatoria, es decir, deben ser económicos. Por lo anterior es comprensible que palabras con terminaciones se- mejantes tengan sufijos equivocados78. Otro autómata cuestionable es el de la Figura 5.11, patrón morfotáctico Base~L, no sólo porque no coincide con los estudios morfológicos, sino también porque tiene asociadas muchas segmentaciones erróneas (45%), como /FRIJO~L/, /PIE~L/, /UTI~L/ o /MIE~L/. 77 Si se observan las bases asociadas al patrón descubierto /Base~AZO/, se confirma esta situación. Se encuentran bases cuya parte regular no termina en el segmento /~A~/ o éste cambia por otro segmento, por ejemplo /KUARTEL/-/KUARTEL~AZO/, /SILBATO/-/SILBAT~AZO/ y /ESPALDA/-/ESPALDAR~AZO/. 78 Tómese como ejemplo el caso de los patrones morfotácticos /Base~ETA/ y /Base~ETE/. Ambos resultan ser patrones muy pertinentes, no sólo porque coinciden bien con las propuestas morfológicas de di- versos autores, sino también porque la mayoría de sus segmentaciones asociadas son buenas (/ESKOB~ETA/, /LENGU~ETA/, /KUN~ETA/, /ESKUD~ETE/, /SOMBRER~ETE/, /KASK~ETE/); sin embargo, lo anterior no evitó que tuvieran asociados algunos errores (/AGRI~ETA/, /DIESISI~ETE/). 217 De las segmentaciones restantes, el 37% incluye los sufijos derivativos –al, –ual e –il; sin embargo, resultó más económica la segmentación en ~L. Figura 5.11 Autómata generado para el segmento /~L/ A primera vista el patrón /Base~L/ parece un error, pero si se analizan las bases aso- ciadas es posible descubrir una tendencia. Este patrón tiene asociadas bases que conservan su forma cuando se adhiere el sufijo derivativo, como /TRIBUNA/-/TRIBUNA~L/, /NEURONA/-/NEURONA~L/ o /DOCTRINA/-/DOCTRINA~L/. En cambio, cuando se presenta pérdida de la vocal final, las bases se asocian a otro autómata con el patrón morfo- táctico /Base~AL/, también descubierto por el método automático, por ejemplo /AMBIENTE/-/AMBIENT~AL/, /BRUTO/-/BRUT~AL/ o /TRIUNFO/-/TRIUNF~AL/79. Esta tendencia de segmentación en /~L/ y /~AL/ se mantuvo en los plurales, dando como resultado los patrones morfotácticos /Base~L~ES/ y /Base~AL~ES/. Creo que lo an- terior demuestra que lo que emerge es un conjunto de regularidades, aunque algunas parez- can a primera vista equivocadas. Otro caso discutible tiene que ver con la presencia de enclíticos. Ya desde el análisis de los experimentos de segmentación había detectado que los enclíticos no se separaban unos de otros, es decir, se mantenían concatenados y la tendencia era a segmentar sólo el enclítico final. 79 Esto sigue confirmado la tendencia a dejar en la base la parte del sufijo que es constante para mu- chos tipos de palabras semejantes. 218 En los autómatas generados se puede observar la misma tendencia a separar sólo el clítico final. Además, en verbos de la primera conjugación, se separa también la marca de gerundio, pero se concatena la marca de infinitivo con el clítico. Por ejemplo, véanse los autómatas asociados al clítico la (Figura 5.12), que representan los patrones /Base~LA/, /Base~ANDO~LA/ y /Base~ARLA/. Figura 5.12 Autómatas generados para el segmento /~LA/ Para otros enclíticos ocurre una situación similar, como se puede ver en los siguien- tes patrones de los enclíticos las, lo, los, le y les. /Base~ARLAS/ /Base~LAS/ /Base~ANDO~LO/ /Base~AR~LO/ /Base~ARLO/ /Base~E~LO/ /Base~LO/ /Base~ANDO~LOS/ /Base~ARLOS/ /Base~LOS/ /Base~ANDO~LE/ /Base~ARLE/ /Base~LE/ /Base~LES/ Lo que sí descubrió el método fueron marcas de flexión de género y número en en- clíticos como los siguientes: /Base~L~A/ /Base~L~AS/ /Base~L~E/ /Base~L~E~S/ /Base~L~ES/ /Base~LE~S/ /Base~L~O/ /Base~L~O~S/ /Base~L~OS/ /Base~LO~S/ 219 Otra situación relacionada con los enclíticos es que el método generó patrones mor- fotácticos donde un sufijo quedó dividido por la separación de un supuesto enclítico. Véase por ejemplo el último camino del autómata de la Figura 5.13, generado para el segmento final ~LE. Este camino se refiere al patrón /Base~AB~LE/, que en realidad corresponde al sufijo derivativo–able, pero por la similitud con el enclítico, el método separó el segmento /~LE/80. Figura 5.13 Autómatas generados para el segmento /~LE/ Ahora discutiré patrones que me parecen pertinentes (menos cuestionables).Tomo como primer ejemplo el autómata asociado al segmento final /~Ó/, que muestro en la Figu- ra 5.14. Éste incluye algunos patrones morfotácticos que discutiré en seguida. 80 Cabe mencionar que el método sí generó patrones para este sufijo –able: /Base~ABLE/, /Base~ABLE~S/, /Base~ABLES/ y /Base~BLE/. 220 Figura 5.14 Autómata generado para el segmento /~Ó/ El primer patrón morfotáctico del autómata, /Base~Ó/, corresponde a una marca de flexión verbal de pretérito de indicativo. Prueba de ello es que las bases asociadas a este patrón son verbales y casi en su totalidad de la primera conjugación. Las cantidad de bases (1,094) hacen que éste sea el patrón más frecuente para este segmento final, algunos ejem- plos son /POSTUL~Ó/, /ESTAF~Ó/, /SUJIRI~Ó/, /OBSEKI~Ó/, /»AY~Ó/ y /ESTRUCTUR~Ó/. La segunda y tercera secuencias de transiciones, /Base~I~Ó/ y /Base~T~Ó/, corres- ponden a la misma flexión verbal, pero en ambos casos se separa un segmento antes del sufijo final. Las bases asociadas a estos patrones son también verbales, aunque se asocian considerablemente menos bases (59 y 53 respectivamente). Una primera explicación de la separación de estos segmentos (/~I~/, /~T~/) se en- contraría en la estrategia de segmentación que utilicé. Esta estrategia realiza cortes en los valores más altos de afijalidad de derecha a izquierda de la palabra. Entonces, el primer corte se hace en el sufijo con mayor afijalidad (en este caso /~Ó/), luego se hace otro corte en el siguiente valor más alto de afijalidad, que en el caso de estos tipos de palabra fue para 221 separar una base hipotética, dejando un segmento intermedio y dando como resultado las segmentaciones finales /~I~Ó/ y /~T~Ó/. Más allá de explicar el resultado por la mecánica de segmentación, sería pertinente encontrar si estos patrones son reflejo de alguna regularidad morfológica. El patrón morfo- táctico /Base~I~Ó/ describe la marca de flexión de pretérito de indicativo, pero para verbos de la segunda y tercera conjugación como /PROMET~I~Ó/ y /DIFUND~I~Ó/. Dar cuenta de esta regularidad me permite considerar este patrón morfotáctico como válido, aunque no sea totalmente acorde con las propuestas teóricas. Cabe aclarar que lo anterior no implica que esta segmentación se dé en todos los casos ya que algunos tipos de palabra no fueron segmentados de esa manera, como /SUJIRI~Ó/ y /OBSEKI~Ó/. La tercera secuencia de transiciones, patrón /Base~T~Ó/, se explica por la relación que se establece entre formas verbales asociadas a este patrón y los derivados de estas for- mas que sufren cambio consonántico de /T/ por /S/ en la base, como en /ADOPTAR/- /ADOPSIÓN/, /AFECTAR/-/AFECSIÓN/ o /INBENTAR/-/INBENSIÓN. Esto se com- prueba porque gran parte de los tipos de palabras asociados a este patrón son verbos que sufren este cambio. Por ejemplo, en las palabras /ADOPTAR/, /ADOPTÓ/ y /ADOPSIÓN/ el corte más regular es en /ADOP~/. Luego, como ya dije, el segmento final /~Ó/ es muy económico, por lo que el método propone, acertadamente, el patrón /Base~T~Ó/. Nuevamente el méto- do está dando cuenta de una regularidad del sistema81. También es necesario mencionar que hubo casos donde no hay cambio consonántico en la base y se separa el segmento /~T~/, como /ALIMEN~T~Ó/. 81 Fue una tendencia en el autómata generado la separación de la consonante /T/, por lo que se gene- raron un buen número de patrones morfotácticos que la incluyen (/BIOLEN~T~ABA/, /BIOLEN~T~AR/). 222 Es pertinente mencionar que el patrón morfotáctico /Base~IÓ/ también fue descu- bierto y representado con el autómata de la Figura 5.15; sus bases asociadas son todas ver- bos de estas la segunda y tercera conjugación (/ENTEND~IÓ/, /SUSKRIB~IÓ/). Figura 5.15 Autómata generado para el segmento /~IÓ/ Otros autómatas pertinentes son los relacionados al sufijo derivativo –(V)(C)ión. La Figura 5.16 muestra el autómata generado para el segmento final ~ASIÓN. La primera se- cuencia de transiciones, patrón morfotáctico /Base~ASIÓN/, es el que cuenta con más ba- ses asociadas (436) de las dos secuencias y todas ellas verbales de la primera conjugación, como /DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/, por lo que resulta ser un patrón muy pertinente82. Figura 5.16 Autómata generado para el segmento /~ASIÓN/ El método propone además otra secuencia, patrón morfotáctico /Base~IS~ASIÓN/. Esta secuencia también es pertinente ya que separa el sufijo derivativo –izar que forma, a partir de sustantivos y adjetivos, verbos de la primera conjugación. Entonces el patrón 82 Resulta interesante en este patrón que la vocal /~A~/ se queda pegada al sufijo y no a la base, co- mo parecía que era la tendencia. 223 coincide bien con la formación de sustantivos a partir de estos verbos derivados, por ejem- plo /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/. Otro autómata generado fue el de la Figura 5.17. La primera secuencia de transicio- nes, patrón /Base~SIÓN/, estuvo asociado a 364 bases. Este patrón es pertinente porque incluye bases que no aparecen en el patrón /Base~ASIÓN/. Se trata de aquellas terminadas en consonante, como /C/ o /P/, por ejemplo /INFEC~SIÓN/, /ADOP~SIÓN/, /DESTRUC~SIÓN/, /»EPRODUC~SIÓN/ y /DESKRIP~SIÓN/. Este es un patrón que da cuenta de otros fenómenos recurrentes que cambian la base de derivación mediante pérdida de consonante (/INFECTAR/-/INFEC~SIÓN/, /ADOPTAR/-/ADOP~SIÓN/), adición de consonante (/DESTRUIR/-/DESTRUC~SIÓN/) y cambio de consonante (/«EPRODUSIR/-/»EPRODUC~SIÓN/, /DESKRIBIR/- /DESKRIP~SIÓN/). Figura 5.17 Autómata generado para el segmento /~SIÓN/ Hubo tipos de palabras, como /SALIBA~SIÓN/, que se asociaron a este patrón (/Base~SIÓN/), en lugar del patrón de arriba /Base~ASIÓN/. Lo que sucede es que en el corpus sólo aparecieron los siguientes tipos de palabras semejantes: /SALI~BA/ /SALIBA~LES/ /SALIBA~R/ /SALIBA~SIÓN/ /SALIBA~SO/ 224 Por tanto, la segmentación de sus bases fue más regular al incluir el segmento /~A~/. Esta situación combinada con el hecho de que /~SIÓN/ es un segmento económico da como resultado la segmentación /SALIBA~SIÓN/. Si hubieran aparecido en el corpus otros tipos de palabra como /SALIBÉ/, /SALIBO/ o /SALIBÓ/, seguramente la segmenta- ción hubiera cambiado. Véase por ejemplo el grupo de palabras semejantes a /INAUGUR~ASIÓN/. /INAUGUR~A/ /INAUGUR~ABA/ /INAUGUR~AD~A/ /INAUGUR~AD~A~S/ /INAUGUR~AD~O/ /INAUGUR~AD~O~S/ /INAUGUR~AL/ /INAUGUR~AMOS/ /INAUGUR~AN/ /INAUGUR~ANDO/ /INAUGUR~AR/ /INAUGUR~ARÁ/ /INAUGUR~ARL~A/ /INAUGUR~ARL~O/ /INAUGUR~ARON/ /INAUGUR~ARSE/ /INAUGUR~ASIÓN/ /INAUGUR~E/ /INAUGUR~Ó/ Se puede notar que el segmento más regular es /INAUGUR~/, gracias a tipos de pa- labra como /INAUGUR~E/ e /INAUGUR~Ó/. Luego, /~ASIÓN/, que compite en econo- mía con /~SIÓN/, resulta mejor opción porque es económico y permite un conjunto de ba- ses regulares. El resultado es entonces la segmentación /INAUGUR~ASIÓN/. La otra secuencia de transiciones del autómata de la Figura 5.17, patrón morfotácti- co /Base~ISA~SIÓN/, es propuesta de manera afortunada por el método ya que separa dos sufijos derivativos. Los tipos de palabra asociados a este patrón son sustantivos derivados de verbos que a su vez son derivados de sustantivos o adjetivos, por ejemplo /AJIL~ISA~SIÓN/, /BIGOR~ISA~SIÓN/, /MODERN~ISA~SIÓN/, /POLIMER~ISA ~SIÓN/ y /»ASIONAL~ISA~SIÓN/. El método propuso además una secuencia de transiciones que separa el sufijo /~SIÓN/ en dos segmentos, ésta se puede ver en el autómata de la Figura 5.1883. Este pa- 83 En esa figura hay otra secuencia (/Base~ÓN/) que se refiere al sufijo derivativo que forma aumen- tativos y apreciativos como /TABL~ÓN/, /SOLTER~ÓN/ o /AMOLAD~ÓN/. Como patrón es pertinente 225 trón morfotáctico, /Base~SI~ÓN/, resultó asociado a bases verbales de las tres conjugacio- nes. Figura 5.18 Autómata generado para el segmento /~ÓN/ El hecho de que el método propusiera separar el sufijo en dos segmentos se explica, como en casos anteriores, por dos aspectos. Por un lado, en qué tanto se parecen los tipos de palabra entre ellos y, por otro lado, en qué tan económica resulta una determinada seg- mentación, especialmente de los segmentos finales. El patrón /Base~SI~ÓN/ se produce por el cambio de acento entre pares como los siguientes: /«EPERKU~SI~ÓN/ /«EPERKU~SI~ONES/ /SOBREBALUA~SI~ÓN/ /SOBREBALUA~SI~ONES/ /TRIPULA~SI~ÓN/ /TRIPULA~SI~ONES/ Se puede ver que el corte en las bases es pertinente, luego, los segmentos /~SIÓN/ y /~SIONES/ comparten el segmento /~SI~/ gracias a la distinción que causa el acento gráfi- co en /~Ó~/. Lo anterior se combina con el hecho de que el segmento restante /~ÓN/ es de alto nivel combinatorio, prueba de ello es que sí es un sufijo independiente (/ALAMBR~ÓN/, /ALMOAD~ÓN/). Así, resulta lógica la propuesta de segmentación /«EPERKU~SI~ÓN/. Se puede decir que este patrón da cuenta de una regularidad: el cam- bio de acento gráfico con la adhesión de la marca de plural. porque da cuenta de estos derivados, pero es justo decir que también incluye una buena cantidad de derivados con los sufijos –ción y –ación. 226 Se puede ver que algunas segmentaciones, que parecen cuestionables a primera vis- ta, son pertinentes porque muestran regularidades al interior del corpus (y de la lengua). Nuevamente el patrón es pertinente, pero morfológicamente inesperado. Como ya he dicho, mi análisis automático debe complementarse después con un análisis humano que decidirá la mejor descripción morfológica de la lengua de estudio. Otro autómata asociado al sufijo –(V)(C)ión es el de la Figura 5.19. Este patrón /Base~ISASIÓN/ en lugar de separar, junta dos sufijos. Todas las segmentaciones asocia- das a este patrón son sustantivos o adjetivos como /KARBON~ISASIÓN/, /SEMAFOR~ISASIÓN/ y /EXTERIOR~ISASIÓN/. Considero este patrón menos pertinen- te porque en la búsqueda de la morfotáctica del español, la separación en dos sufijos (/~ISA/ y /~SIÓN/) era más esperada. Figura 5.19 Autómata generado para el segmento /~ISASIÓN/ El último autómata propuesto por el método de la familia de sufijos –(V)(C)ión fue el de la Figura 5.20, patrón morfotáctico /Base~IÓN/. El análisis de las bases asociadas a este autómata indica segmentaciones cuestionables como /AB~IÓN/ y /KAM~IÓN/, pero es un patrón pertinente porque incluye bases verbales acordes al sufijo derivativo (/INDIJEST~IÓN/, /DESUN~IÓN/, /AUTOJEST~IÓN/). Figura 5.20 Autómata generado para el segmento /~IÓN/ 227 Otros autómatas muy pertinentes fueron los relacionados con los segmentos finales /~AMENTE/ y /~MENTE/. Sus patrones morfotácticos asociados fueron muy regulares e incluyeron todas las formas adverbiales correspondientes. Esto es interesante porque exis- tieron otro patrones parecidos como /Base~ENTE/, /Base~NTE/ y /Base~N~TE/, pero en ninguno se asociaron adverbios84. Sólo encontré dos tipos de palabra que fueron mal aso- ciados, /SIMULTANEAMEN~NTE/ e /INKUESTIONABLEM~NTE/, que son errores de escritura. El autómata asociado al segmento final /~AMENTE/ se presenta en la Figura 5.21. La primera secuencia de transiciones, patrón morfotáctico /Base~AMENTE/, es la que tuvo más bases asociadas, todas adjetivas (/TONT~AMENTE/, /SOBERBI~AMENTE/, /»EPENTIN~AMENTE/, /EXTRAÑ~AMENTE/). La segunda secuencia, patrón /Base~AD~AMENTE/, da cuenta de manera afortunada de adjetivos con forma de partici- pio (/ORGANIS~AD~AMENTE/, /ESTRUCTUR~AD~AMENTE/, /DESORDEN~AD ~AMENTE/, /ANTISIP~AD~AMENTE/). 84 De hecho, los patrones /Base~ENTE/ y /Base~NTE/ también fueron pertinentes, relacionados al sufijo derivativo –(V)Vnte. 228 Figura 5.21 Autómata generado para el segmento /~AMENTE/ La tercera secuencia, patrón /Base~OS~AMENTE/, está relacionado con adjetivos derivados mediante sufijo –(u)os(o), como /AFECTU~OS~AMENTE/, /ESPLENDOR~OS~AMENTE/, /MARABIY~OS~AMENTE/ y /PRIMOR~OS ~AMENTE/. Finalmente la cuarta secuencia, patrón /Base~IK~AMENTE/, engloba adjeti- vos que son derivados con el sufijo –ico, por ejemplo /DEMOKRAT~IK~AMENTE/, /ESTADIST~IK~AMENTE/, /KATEGOR~IK~AMENTE/ y /TELEFON~IK~AMENTE/. En resumen, el autómata del segmento final /~AMENTE/ (Figura 5.21) muestra de manera afortunada la morfotáctica involucrada en la derivación de este tipo de adverbios mediante cuatro patrones morfotácticos, tres de los cuales dan cuenta de la derivación adje- tiva que da paso a la derivación adverbial. Para el sufijo –mente se generó otro autómata, que se puede ver en la Figura 5.22. Las dos secuencias de transiciones incluyen bases de derivación que no terminan en vocal A (/ALEGRE~MENTE/, /DULSE~MENTE/, /MAYOR~MENTE/), lo que explica el sur- gimiento afortunado de este otro autómata. 229 Figura 5.22 Autómata generado para el segmento /~MENTE/ La primera secuencia de transiciones, patrón /Base~MENTE/, está asociado en su gran mayoría a adjetivos terminados en /~E/, /~L/ y /~R/, aunque hubo algunos terminados en /~A/, como /SEMANTIKA~MENTE/, /PRESUNTUOSA~MENTE/ e /IMPENSADA ~MENTE/, que se esperaría que hubieran aparecido en los patrones del segmento final /~AMENTE/, discutidos arriba (Figura 5.21). Si bien la segunda secuencia de transiciones, patrón /Base~AL~MENTE/, da cuenta de manera afortunada de adverbios a partir de adjetivos derivados (/ESPIRITU~AL~MENTE/), es justo decir que también se hubieran esperado otros patro- nes. Esto se debe a que hay numerosos adjetivos derivados asociados al primer patrón (/Base~MENTE/), como /IMPERSEPTIBLE~MENTE/, /INAGOTABLE~MENTE/, /INDEPENDIENTE~MENTE/ y /PREDOMINANTE~MENTE/, que incluyen otros sufijos derivativos (–ible, –able, –iente y –ante). Un autómata que también me pareció pertinente fue el del segmento final /~AR/ (véase Figura 5.23). Es un autómata que representa la morfotáctica de la marca de infinitivo de verbos de la primera conjugación. Cuenta con cuatro secuencias de transiciones, que proponen los patrones morfotácticos /Base~AR/, /Base~T~AR/, /Base~E~AR/ y /Base~IS~AR/. 230 Me parece afortunado porque da cuenta de dos sufijos derivativos que producen verbos a partir de adjetivos y sustantivos, –isar y –ear. Además, el patrón /Base~AR/ es tan regular que tiene asociadas una gran cantidad de bases verbales (1,276). La aparición del segmento /~T~/ (/BIOLEN~T~AR/) se explica por las mismas razones que expuse arriba (véase autómata de la Figura 5.14). Figura 5.23 Autómata generado para el segmento final /~AR/ Otro grupo de patrones morfotácticos que me parecen pertinentes fueron los rela- cionados con los sufijos –ativo, –itivo e –ivo. Éstos forman adjetivos a partir de sustantivos, adjetivos y verbos. Resalto estos patrones porque dan muestra de un paradigma morfológi- co completo y bien organizado; sin embargo, los autómatas que incluyen estos patrones son los autómatas de las marcas de género y número, por lo que no podré mostrarlos ya que son demasiado grandes. El paradigma de patrones morfotácticos se muestra a continuación. 231 /Base~ATIB~A/ /Base~ATIB~O/ /Base~TIB~A/ /Base~TIB~AS/ /Base~TIB~O/ /Base~TIB~OS/ Los dos primeros patrones surgen porque todas sus bases son verbos de la primera conjugación, por tanto, antes del sufijo derivativo aparece la vocal /~A~/ (/AFIRM~ATIB~O/, /OPER~ATIB~O/, /ESPEKUL~ATIB~O/). Los cuatro patrones si- guientes cubren el conjunto de tipos de palabras donde la base de derivación no termina en dicha vocal, ya sea verbal o nominal (/DESKRIP~TIB~O/, /IMPOSI~TIB~O/, /»ESTRIC~TIB~O/, /»ESOLU~TIB~O/). La formación del paradigma completo de género y número de los cuatro patrones morfotácticos finales se debió a que aparecieron en el corpus ejemplos para cada elemento del paradigma, como se puede ver a continuación. Obsérvese que en estos patrones no hay separación de los sufijos de género y número. /ATRAC~TIB~A/ /ATRAC~TIB~AS/ /ATRAC~TIB~O/ /ATRAC~TIB~OS/ /EJEKU~TIB~A/ /EJEKU~TIB~AS/ /EJEKU~TIB~O/ /EJEKU~TIB~OS/ /INTUI~TIB~A/ /INTUI~TIB~AS/ /INTUI~TIB~O/ /INTUI~TIB~OS/ /PRODUC~TIB~A/ /PRODUC~TIB~AS/ /PRODUC~TIB~O/ /PRODUC~TIB~OS/ El último autómata que me gustaría discutir es el del segmento final /~MA/, de la Figura 5.20. Éste tuvo sólo 25 tipos de palabras asociados, entre los cuales hay sustantivos femeninos con una segmentación equivocada, como /JIKA~MA/ o /TARI~MA/; sin em- bargo, también tuvo asociados tipos de palabras que comparten etimología y que le dan sentido al autómata. Éstas se forman con la terminación /~MA/ que viene del sufijo griego –μα que significa resultado de un proceso o acción, por ejemplo /DOG~MA/, /GLAUKO~MA/, /GRANULO~MA/, /EPATO~MA/ y /ENE~MA/, entre otras. 232 Figura 5.24 Autómata generado para el segmento /~MA/ 5.3.2. Tendencias observadas Para terminar la evaluación, y a manera de resumen, quiero resaltar las tendencias generales que pude observar en el autómata: i) Hay diferentes secuencias de transiciones asociadas a un mismo fenómeno fle- xivo o derivativo. Algunas de ellas separan todos los sufijos posibles y otras los unen. Lo afortunado del método es que descubre distintas secuencias asociadas a un mismo fenómeno que hace de ellas un paradigma morfotáctico consistente. Véanse por ejemplo las distintas secuencias obtenidas para el sufijo formador de diminutivos. /Base~ITA/ /Base~ITO/ /Base~IT~A/ /Base~IT~O/ /Base~ITAS/ /Base~ITOS/ /Base~ITO~S/ /Base~ITA~S/ /Base~IT~OS/ /Base~IT~AS/ /Base~IT~O~S/ /Base~CITO/ Si bien hay diferentes patrones morfotácticos, todos son consistentes en repre- sentar diminutivos. Ninguna otra secuencia parecida (/Base~T~OS/, /Base~T~AS/, /Base~T~A/, /Base~TA/, /Base~TO/) se asocia con diminutivos. Además palabras parecidas se asocian a otros paradigmas, como /EXIT~O~S/. ii) Hay una tendencia por separar la consonante /T/ debido al cambio consonántico que sufre la base de muchos tipos de palabras, observable principalmente en de- 233 rivación nominal, por ejemplo /ARISTOKRA~T~A/ contra /ARISTOKRA~SIA/. iii) El método descubre, de manera afortunada, patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal, por ejemplo /Base~AL~IDAD/, /Base~AL~MENTE/, /Base~E~AR/, /Base~IK~AMENTE/, /Base~IS~AR/ y /Base~ISA~SIÓN/. iv) El autómata no representa la morfotáctica del encadenamiento de enclíticos. La tendencia es a separar sólo el clítico final. v) Las mejores secuencias de transiciones tienden a ser las que están asociadas a más bases, aunque esto no es una regla ya que también se descubrieron secuen- cias afortunadas asociadas a relativamente pocas bases. vi) Sufijos muy económicos son segmentados en palabras donde no son sufijos, como en /MAR~SO/ y /KAM~IÓN/. vii) Algunas veces se proponen sufijos más cortos, regulares y económicos que los esperados, como /~GO/ en lugar de /~ASGO/, /~ÓN/ en lugar de /~SIÓN/ o /~SO/ en lugar de /~OSO/ y /~ASO/. Aunque también se descubren los sufijos largos /~SIÓN/, /~OSO/ y /~ASO/. viii) Dependiendo del paradigma de palabras semejantes involucradas en los pa- trones morfotácticos, algún segmento, generalmente vocálico, se une al sufijo o a la base. Por ejemplo la /A/ en /~AMENTE/ y la /A/ en la base de /SALIBA~SO/, en lugar de /SALIB~ASO/, y /DOCTRINA~L/ en lugar de /DOCTRIN~AL/. 234 El método descubre de manera afortunada bastantes regularidades morfológicas (al- gunas morfofonológicas) que explican el surgimiento de sufijos y patrones morfotácticos pertinentes, aunque a veces no coincidan con lo esperado. Entre estas regularidades están: i) Aparición de consonante /g/ en verbos irregulares, por ejemplo /INTERPONER/-/INTERPON~GA/. ii) Pérdida de vocal final de la base de derivación, por ejemplo /SILBATO/- /SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/. iii) Presencia de vocales temáticas de las tres conjugaciones /Base~A~R/, /Base~E~R/ y /Base~I~R/. iv) Aparición de vocal /i/ en pretérito de indicativo: /Base~I~Ó/ y /Base ~IÓ/. v) Cambios consonánticos en derivados, por ejemplo /ADOPTAR/- /ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o /ESOFA~GO/-/ESOFA~ JIKA/. vi) Cambio de acento en presencia de marca de plural, por ejemplo /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/. A mi juicio, la mayoría de los patrones morfotácticos descubiertos por el método son pertinentes, por lo que considero al autómata como una buena primera representación de la morfotáctica del corpus y por tanto del español de México. En el anexo B se pueden ver algunos autómatas adicionales generados por el método. Además, pongo en un disco compacto adjunto a este trabajo todos los autómatas generados y sus bases asociadas. La descripción del contenido de este disco se encuentra en el Anexo D. Por otro lado, en el Anexo C se listan los cien patrones morfotácticos más frecuen- tes del corpus (Tabla 7.2) y se muestra la curva que relaciona la posición en la lista y la 235 frecuencia de los 422 patrones encontrados (Figura 7.1). La lista completa de patrones mor- fotácticos se incluye también en el disco compacto. En la siguiente sección puntualizo el método propuesto para el descubrimiento de la morfotáctica del español. 5.4. Método para descubrir la morfotáctica En esta sección describo de manera resumida el método que propongo para generar auto- máticamente una descripción morfológica del español mediante el descubrimiento de su morfotáctica. Generar una descripción de este tipo se puede ver como un procedimiento con dos grandes fases: (i) Descubrir las unidades morfológicas. (ii) Descubrir los patrones morfotácticos que describan su orden y secuencialidad. Después de la investigación realizada puedo proponer el siguiente método para des- cribir automáticamente la morfología del español. Esta descripción incluye el descubri- miento de sus bases, sufijos y patrones morfotácticos: 4. Cuantificar la afijalidad de segmentos: calcular un índice de afijalidad para cada posible corte al interior de todos los tipos de palabras del corpus mediante el promedio de tres medidas de afijalidad: entropía, economía y cuadros. 5. Descubrir las bases y sufijos: segmentar cada tipo de palabra mediante cortes sucesivos hacia la izquierda en el valor máximo del índice calculado siempre que sea mayor a 0.5. 6. Descubrir los patrones morfotácticos: generar automáticamente un autómata de estados finitos que describa el orden y secuencialidad de las bases y sufijos des- cubiertos. 236 De manera esquemática, la Figura 5.25 muestra los pasos del método que se propo- ne. Se puede observar que la entrada del método es un corpus, que para efectos de esta tesis fue el CEMC. La salida es el autómata de estados finitos representado como un diagrama de estados en forma de grafo. El autómata, como ya se mostró en la sección anterior, inclu- ye los patrones morfotácticos descubiertos. Figura 5.25 Esquema general del método propuesto La representación del autómata es opcional, se podría también utilizar una tabla de transiciones. Es más, se podría generar la gramática de estados finitos equivalente. En esta investigación se decidió usar el autómata en forma de diagrama de estados por las razones expuestas anteriormente. Cabe resaltar que el corpus de entrada puede ser distinto, ya sea de español o de otra lengua con morfología predominantemente sufijal. Lo importante es que sea, en la medida de lo posible, un corpus representativo de la lengua de estudio. Por otro lado, a futuro sería factible pensar en combinar sufijos y prefijos haciendo modificaciones al método propues- to. Incluso se podría pensar en ampliar el método para abarcar más fenómenos concatenati- vos, como la composición, y otras unidades no afijales, como los enclíticos, que en esta investigación no fueron descubiertos. 237 6. Conclusiones Presento en estas conclusiones un resumen de cada capítulo de la tesis y de los experimen- tos realizados. Además, reviso los objetivos y preguntas de investigación establecidas en el capítulo introductorio. Después, consigno el método que propongo para describir la morfo- táctica del español, sus problemas, ventajas y trabajo futuro. Al final expongo las conclu- siones finales de este trabajo de investigación. Esta tesis comienza con un capítulo introductorio donde presenté los problemas que la motivaron, las preguntas y objetivos de investigación, la delimitación de su alcance y la metodología para desarrollar el trabajo. El capítulo uno estuvo dedicado a la morfotáctica. Se incluyó su definición y algu- nas posturas que intentan explicar su naturaleza. Con la idea de conocer la descripción mor- fológica que generaría automáticamente, se consignó gran parte de la morfotáctica sufijal del español, tanto verbal como nominal. El capítulo cerró con la revisión de un procedi- miento para descubrir esquemas morfotácticos que ayudó a orientar mi investigación. En el capítulo dos se revisaron algunos métodos de descubrimiento de unidades morfológicas en corpus, cuatro de ellos en detalle porque son métodos no supervisados de segmentación morfológica. Uno de ellos fue el método que utilicé para desarrollar mi traba- jo de investigación. Al final del capítulo se hizo una comparación entre los cuatro métodos que sirvió, entre otras cosas, para puntualizar mi perspectiva de trabajo y justificar la selec- ción del método que calcula la glutinosidad (afijalidad) como método para realizar mi in- vestigación. 238 Presenté en el capítulo tres los fundamentos de las gramáticas formales y de los au- tómatas de estados finitos. Sobre las gramáticas se incluyeron sus antecedentes, definición, tipos y los lenguajes que generan. Sobre los autómatas se expusieron su definición, tipos y representaciones. Revisé también la equivalencia entre gramáticas y autómatas, aspecto que fue clave para decidir construir un autómata en lugar de una gramática. Al final hice un repaso de cómo al morfología computacional ha tratado la morfotáctica, especialmente bajo los rubros de morfotáctica de estados finitos y morfología de dos niveles. Este repaso ayudó a confirmar que era mejor estrategia crear el autómata. El capítulo cuatro incluyó la información sobre los experimentos de segmentación morfológica automática. Se consignaron los resultados del primer acercamiento al proble- ma de descubrir todos los sufijos de una palabra. Luego se plasmó una discusión detallada del método de segmentación, lo que permitió establecer distintas variantes del mismo para formar un grupo de experimentos. A final se expuso la manera de evaluar estos experimen- tos y se dieron los resultados de esa evaluación. Con los resultados obtenidos fue posible seleccionar una estrategia para descubrir las bases y sufijos del corpus de estudio. Finalmente, en el capítulo cinco se presentó el algoritmo que se desarrolló para ge- nerar el autómata de estados finitos y los experimentos que se llevaron a cabo. Además, se plasmó la idea general del método para descubrir la morfotáctica. Finalmente se ofreció la evaluación de algunos patrones morfotácticos inmersos en el autómata para determinar la pertinencia del método propuesto. El detalle de los experimentos de este capítulo y del an- terior se resume en la siguiente sección. 239 6.1. Resumen de experimentos En esta sección resumo el trabajo de experimentación realizado durante la investigación. Se pueden distinguir dos grupos de experimentos, primero, los relacionados con la segmenta- ción morfológica automática, y segundo, los experimentos de generación del autómata de estados finitos. Se estableció en el capítulo uno que para describir la morfotáctica de una lengua era necesario determinar los morfemas de las palabras. Para esto se adoptó el método que cal- cula un índice de afijalidad para cada posible corte dentro de una palabra. En investigacio- nes anteriores ya se había determinado que el valor máximo de este índice corresponde a una frontera morfológica que separa la base de los sufijos. Mi tarea consistió en usar este índice para obtener todos los cortes posibles en la palabra que correspondieran con fronte- ras morfológicas entre la base y entre secuencias de sufijos individuales. El primer acercamiento que tomé fue cortar la palabra en los picos de afijalidad, es- to es, donde un índice de afijalidad dentro de la palabra es más alto que el anterior y el pos- terior. Para evaluar si las segmentaciones obtenidas con esta estrategia eran regulares, se implementó un truncador de palabras que se acopló con un resumidor automático de docu- mentos. Se realizaron experimentos en español, francés e inglés, truncando la palabra en el primer pico a la izquierda, en el primer pico a la derecha, en el valor máximo de afijalidad y con otras estrategias de regularización de palabras. En español y francés, el mejor resumidor fue el que truncaba en el primer pico de afijalidad a la izquierda de la palabra. Esta evaluación extrínseca, mediante un programa que usó la estrategia de segmentación, demostró que la segmentación era regular, pero no decía si era morfológicamente pertinente (si descubría unidades morfológicas). Después de 240 observar algunos archivos con palabras truncadas observé que esta estrategia segmentaba al interior de las bases y generaba segmentaciones muy cuestionables. Se tomó la decisión de analizar más a fondo el método de segmentación poniendo especial interés en el comportamiento de las medias de cuadros, entropía, economía y del mismo índice de afijalidad. Se identificaron cuatro condiciones involucradas en el cálculo del índice de afijalidad: qué medidas se combinan, con qué operación matemática se com- binan, la direccionalidad hacia donde se hacen los cortes y el uso del umbral de 0.5 como valor mínimo para un corte. Las combinaciones de estas condiciones arrojaron un total de dieciséis experimentos que se llevaron a cabo en un corpus de español. El corpus estuvo constituido por un listado de palabras proporcionado por el Laboratorio de Lenguaje Natural y Procesamiento de Tex- to del IPN, los vocablos del DEM y los tipos de palabras del CEMC. Se decidió hacer una evaluación intrínseca de estos experimentos mediante un corpus segmentado a mano que incluyó flexión y derivación, tanto nominal como verbal (1,600 tipos de palabras). La estrategia de segmentación automática con mayor cantidad de aciertos fue la que segmenta hacia la izquierda en el valor máximo del índice de afijalidad mayor a 0.5, calcu- lado mediante un promedio de las tres medidas (cuadros, entropía y economía). Esta estra- tegia obtuvo mejores resultados en la parte de flexión verbal del corpus de evaluación, aun- que en términos generales presentó la tendencia a obtener menos segmentos que los espera- dos. Una vez determinada la estrategia de segmentación se realizaron los experimentos para obtener el autómata de estados finitos a partir del corpus de estudio: el CEMC. Se rea- lizaron dos experimentos que consistieron en crear un autómata basado en una representa- ción fonológica del corpus y otro sin cambiar la representación ortográfica. Ya que fue im- 241 práctico el manejo del autómata de manera completa dada la cantidad de estados y transi- ciones, para su representación y análisis se dividió en tantos autómatas (grafos) como seg- mentos finales. La comparación de algunos autómatas generados con ambos experimentos para los mismos segmentos finales mostró que el autómata obtenido a partir de la representación fonológica mostraba mejores patrones morfotácticos; especialmente por la presencia de sufijos derivativos intermedios que no aparecieron en el otro autómata. Además, éste tenía patrones morfotácticos pertinentes que no tenía el autómata de la representación ortográfi- ca. Entonces, se decidió como descripción morfotáctica del corpus el autómata generado de la representación fonológica y se procedió a su evaluación. Se realizó una evaluación cualitativa del autómata mediante el análisis de algunos grafos de segmentos finales. Se encontraron patrones morfotácticos no pertinentes debido a que son errados, como /Base~D/, /Base~GO/, o porque no dan cuenta del encadenamiento de sufijos, como /Base~ISASIÓN/. También se observó que la mayoría de los patrones fue- ron pertinentes ya que daban cuenta de regularidades del sistema morfológico del español. Algunos ejemplos son los patrones /Base~ASIÓN/, /Base~SIÓN/, /Base~IS~ASIÓN/ y /Base~ISA~SIÓN/; los dos últimos dan cuenta de la morfotáctica del sufijo derivativo – izar. Otros ejemplos son los patrones /Base~AMENTE/, /Base~AD~AMENTE/, /Base~OS~AMENTE/ y /Base~IK~AMENTE/, éstos muestran la morfotáctica del sufijo derivativo –amente que da cuenta de tres sufijos derivativos intermedios que crean adjeti- vos a partir de los cuales se generan los adverbios, esto son –ad(a), –os(a) e –ik(a). Es justo decir que no todas las palabras asociadas a los patrones pertinentes presen- taron segmentaciones válidas. Esto sucede porque el final de la palabra coincide con sufijos 242 muy económicos y se generaliza la segmentación. Afortunadamente, estos casos fueron la minoría. Algunas observaciones generales obtenidas de la evaluación fueron que se presenta- ron varios patrones morfotácticos equivalentes donde uno separaba en varios segmentos y otro los concatenaba, como /Base~ITA/ y /Base~IT~A/. Hubo tendencia a separar un seg- mento /~T~/ que dio cuenta de los cambios vocálicos que se dan en algunas bases como /ARISTOKRA~T~A/ contra /ARISTOKRA~SIA/. También se descubrieron un buen nú- mero de patrones morfotácticos con sufijos derivativos intermedios. Finalmente, se dio cuenta de distintas regularidades morfológicas asociadas a los patrones morfotácticos, al- gunas de ellas de carácter morfofonológico. Con base en este resumen de la experimentación realizada, puedo hacer una revisión de las preguntas y objetivos de investigación planteados al inicio. 6.2. Revisión de objetivos Fueron dos las interrogantes planteadas al inicio de este trabajo. Sobre la primera, que cues- tionaba la posibilidad de generar automáticamente un aparato formal de descripción morfo- lógica a partir de corpus, que diera cuenta de los sufijos y sufitáctica del español, considero que los resultados muestran que sí fue posible hacerlo. El aparato formal de descripción morfológica fue un autómata de estados finitos in- ferido automáticamente a partir del Corpus del Español Mexicano Contemporáneo. Se con- sidera una descripción morfológica pertinente porque sus transiciones, estados y alfabeto de símbolos representan de manera afortunada bases, sufijos y sufitáctica del español. La revi- sión de los patrones morfotácticos inmersos en el autómata permitió ver la tendencia del autómata para descubrir y presentar regularidades morfológicas pertinentes. Claro que que- 243 dan asuntos pendientes por resolver; sin embargo, el autómata obtenido es una primera des- cripción morfológica del español mexicano inferida automáticamente. La segunda pregunta era si una gramática de estados finitos es suficiente como apa- rato formal de descripción morfológica de los sufijos y sufitáctica del español. Primero hay que aclarar que no se generó una gramática, sino un autómata; sin embargo, la teoría de autómatas y gramáticas formales han demostrado que son equivalentes. Por tanto, creo que puedo discutir esta pregunta a partir de la construcción del autómata. Dado que el autómata construido automáticamente resultó una buena primera des- cripción de la morfología del español, específicamente de sus bases, sufijos y morfotáctica, y no fue necesario ningún mecanismo auxiliar que no fuera parte de la definición formal del autómata, considero que el autómata fue un aparato de descripción formal suficiente para esta descripción morfológica. Sin embargo, es necesario mencionar algunas cuestiones. Restringir solamente a la morfología sufijal, dejando de lado los fenómenos de para- síntesis y composición, ayudó enormemente a que el autómata fuera suficiente. La morfo- logía sufijal es un ejemplo claro de la morfología concatenativa secuencial, por lo que un autómata, donde un estado depende sólo del estado anterior, resultó una representación su- ficiente. En un fenómeno de parasíntesis el autómata tendría problemas para representar que un estado depende de estados anteriores no adyacentes. En la composición se esperaría que el autómata represente cierta jerarquía de segmentos para describir varias bases con sus respectivos sufijos. En este caso desconozco si será suficiente. Otro de los aspectos que permitió que el autómata generado fuera suficiente, es que no involucré cambios morfofonológicos (vocálicos, consonánticos, etcétera) en las bases o sufijos, por lo que el autómata no incluye información de este tipo. Al respecto, fue intere- 244 sante que el método de segmentación diera cuenta de manera indirecta de algunos de estos fenómenos. Por otro lado, la manera de construir el autómata aún tiene debilidades, que se dis- cutirán en la siguiente sección, por lo que si bien fue una buena primera descripción morfo- lógica, aún no refleja toda la información morfológica esperada. Ahora revisaré el cumplimiento de los objetivos planteados. Para este trabajo de in- vestigación establecí el objetivo de desarrollar un método automático no supervisado para generar, a partir de corpus y mediante una gramática de estados finitos, una descripción morfológica del español, acotada al descubrimiento de sus sufijos y su morfotáctica. El objetivo se cumplió dado que ahora se cuenta con un método con las característi- cas requeridas a pesar de que no se genera una gramática, sino un autómata que, como ya se ha establecido reiteradamente, es equivalente a la gramática. Los pasos del método propuesto son los siguientes: 1. Cuantificar la afijalidad de segmentos: calcular un índice de afijalidad para cada posible corte al interior de todos los tipos de palabras del corpus mediante el promedio de tres medidas de afijalidad: entropía, economía y cuadros. 2. Descubrir las bases y sufijos: segmentar cada tipo de palabra mediante cortes sucesivos hacia la izquierda en el valor máximo del índice calculado siempre que sea mayor a 0.5. 3. Descubrir los patrones morfotácticos: generar automáticamente un autómata de estados finitos que describa el orden y secuencialidad de las bases y sufijos des- cubiertos. En consecuencia, también se lograron los dos objetivos específicos planteados. El primero fue el descubrimiento, a partir de corpus y mediante un método no supervisado de 245 segmentación morfológica automática, los sufijos y sufitáctica de la lengua española. Esto se realiza en el paso dos del método propuesto, que descubre las bases y sufijos de los tipos de palabras del corpus. Al descubrir cada sufijo, se está descubriendo también su secuencia- lidad. El segundo objetivo fue generar, a partir de los sufijos y sufitáctica descubiertos, una gramática de estados finitos que describa la morfotáctica sufijal del español. Esto se realiza en el segundo paso del método, aunque en lugar de gramática se genera un autóma- ta. Una vez generado el autómata, un programa de computadora puede seguir algunos pasos establecidos en la teoría de autómatas y gramáticas formales para obtener la gramática equivalente. En resumen, se han cumplido con los objetivos planteados y se han resuelto favora- blemente las preguntas de investigación formuladas al inicio de esta tesis. Revisaré ahora los problemas, ventajas y propuestas de mejora de esta investigación. 6.3. Problemas del método y trabajo futuro En esta sección describo los problemas y trabajo futuro del método propuesto. Como se dijo en la evaluación del autómata generado, hay patrones morfotácticos que deben ser re- visados con mayor detenimiento para buscar mejorarlos. No se trata de forzar el método a obtener lo que las gramáticas consignan, pero si es necesario revisar si hay algún aspecto del método que pueda ser mejorado. Si bien el autómata generado ya es una buena primera descripción de la morfotácti- ca del español, presenta al menos una carencia. Ésta es la falta de agrupamiento de patrones morfotácticos a manera de paradigmas morfológicos. Esto es, el método propuesto fue ca- paz de generar los paradigmas de género y número tanto para bases simples (/Base~A/, 246 /Base~A~S/, /Base~O/ y /Base~O~S/), como para bases con sufijos derivativos como las siguientes: /Base~TIB~A/ /Base~TIB~AS/ /Base~TIB~O/ /Base~TIB~OS/ /Base~ID~A/ /Base~ID~A~S/ /Base~ID~O/ /Base~ID~O~S/ /Base~ER~A/ /Base~ER~A~S/ /Base~ER~O/ /Base~ER~O~S/ /Base~AD~A/ /Base~AD~A~S/ /Base~AD~O/ /Base~AD~O~S/ Sin embargo, estos patrones fueron generados separadamente, es decir, las transi- ciones del autómata no dan cuenta de que forman un paradigma y el análisis humano es el que reconoce en ellos su carácter paradigmático. Sería conveniente que el autómata genera- do refleje automáticamente estos paradigmas. Para ello, dado que actualmente cada patrón morfotáctico está representado por una secuencia de transiciones separada, sería necesario combinarlas tomando en cuenta sólo las bases que aparecen en todos los elementos del paradigma, lo que se puede ver como una operación de intersección entre conjuntos de bases. Para el caso de los patrones morfotácti- cos del sufijo –tiv(o), el autómata hipotético podría ser como el de la Figura 6.1. Figura 6.1 Ejemplo de autómata hipotético para sufijo –tiv(o) Representar los paradigmas de los sufijos –id(o), –er(o) y –ad(o) requeriría también de modificaciones a las secuencias de transiciones. En la Figura 6.2 se puede ver el autóma- 247 ta hipotético que se esperaría obtener para el sufijo –er(o) una vez que se agrupen las bases presentes en todos los patrones morfotácticos. Figura 6.2 Ejemplo de autómata hipotético para sufijo –er(o) A la larga sería posible pensar en la presencia de estados finales intermedios, lo que conlleva cambiar la dirección de las secuencias de transiciones del autómata actualmente generado. Comenzar a construir automáticamente el autómata por las bases y no por los sufijos finales no es un problema trivial, ya que éstas forman a un conjunto muy grande y variado de segmentos en comparación con los sufijos. Haber empezado a construir el autó- mata por los sufijos dio la ventaja de contar al principio del procesamiento con relativa me- nos variedad de segmentos. Para los patrones morfotácticos del sufijo –er(o), otro autómata hipotético sería el de la Figura 6.3. Nótese el estado final q3 que marca el final del paradigma de género. Ade- más, véase cómo el estado final es ahora el final de la palabra. 248 Figura 6.3 Ejemplo de otro autómata hipotético para sufijo –er(o) En resumen, como trabajo futuro se propone agregar, al menos, un paso al método propuesto en este trabajo. Éste se podría ver como una simplificación del autómata y con- sistiría en la búsqueda de paradigmas morfológicos mediante la unión de secuencias de transiciones a partir de la intersección de conjuntos de bases. No son pocas las posibilida- des de nuevos diseños de autómatas que se pueden idear, pero se debe tener cuidado en no perder de vista que el objeto de estudio es la lengua y no el autómata. Un problema que queda por resolver en este trabajo de investigación es encontrar otras opciones de evaluación del autómata. Por un lado es necesaria una evaluación com- pleta del mismo, lo que llevará bastante tiempo. Por otro lado, sería bueno encontrar a futu- ro una forma de evaluación que no dependa de un evaluador. Esta idea de buscar otras alternativas de evaluación también debe considerarse para la segmentación morfológica. Esto se debe a que la evaluación realizada fue estricta y el corpus de evaluación contenía un inventario muy variado de sufijos y alomorfos derivati- vos. Además, no es lo mismo evaluar contra una lista de tipos de palabras (como se hizo aquí) que contra ocurrencias de palabras. La segunda es la más común en trabajos publica- dos de segmentación automática. De hecho, quedaría pendiente una evaluación de los resultados de este trabajo con resultados generados con otras propuestas de segmentación morfológica, por ejemplo la de 249 Goldsmith o la basada en algoritmos genéticos, aunque éstas no descubren varios sufijos por palabra. Incluso se puede pensar en comparar en un futuro este método con el de Creutz y Lagus para ver qué proponen ambos métodos en cuanto a la morfotáctica del español. Es más, se podría pensar en combinar lo mejor de todos los métodos en la búsqueda de un nuevo método no supervisado. Sobre los patrones morfotácticos obtenidos quedan varios aspectos que revisar, de los cuales sólo mencionaré algunos de ellos. El primero es un análisis sobre el grupo de patrones morfotácticos equivalentes, pero que presentan diferentes segmentaciones. Véanse por ejemplo los siguientes patrones del sufijo –ad(o). /Base~AD~A/ /Base~AD~A~S/ /Base~AD~O/ /Base~AD~O~S/ /Base~AD~AS/ /Base~AD~OS/ /Base~ADA/ /Base~ADO/ /Base~ADA~S/ /Base~ADO~S/ /Base~ADAS/ /Base~ADOS/ Puede observarse que los patrones van desde los más segmentados (/Base~AD~A~S/) hasta los que no presentan segmentación (/Base~ADAS/). Quedaría pendiente una revisión a mayor detalle de estos grupos de patrones para identificar lo que motiva su aparición y tal vez proponer un cambio en el método para reunir los que son equivalentes. Otro pendiente es la incorporación de prefijos a la descripción morfológica propues- ta. Aunque en español el estatus de los prefijos tiende más hacia la composición, sería im- portante tomarlos en cuenta para la descripción de la morfotáctica. De hecho, los fenóme- nos de composición serían otro aspecto a considerar en un futuro. Para tomar en cuenta prefijos y palabras compuestas sería necesario modificar el método de segmentación de manera que se pueda descubrir no solo la secuencialidad de afijos, sino también de bases. Un método así se acerca más al de Creutz y Lagus para len- 250 guas aglutinantes. Entonces sería interesante llevar a sus límites al método del cálculo de afijalidad para verificar si puede dar cuenta de mayor complejidad morfológica. Algo parecido sucede con los enclíticos. Según los resultados obtenidos, el índice de afijalidad no sirvió para dividirlos debido a su naturaleza distinta. Entre otras cosas, son menos económicos que los sufijos. Podría utilizarse el índice de cliticidad que propone Me- dina o buscar una variante del índice afijalidad que dé mayor peso a alguna de las medidas. Por otra parte, a pesar de que se probaron dieciséis posibilidades de segmentación para descubrir la secuencialidad de sufijos, aún queda espacio para mayores experimentos. Una posibilidad sería modificar el umbral de 0.5 para los valores máximos. Se podría tomar como umbral el promedio de afijalidad al interior de la palabra. También sería posible in- crementar el umbral a medida que el corte es más cercano a la base, con la idea de prevenir segmentaciones dudosas. Es más, se podría pensar en utilizar la idea de los conjuntos difusos (Zadeh, 1965) para estudiar unidades y fenómenos morfológicos mediante las medidas de afijalidad. Esta propuesta permite describir objetos de manera imprecisa permitiendo que los elementos pertenezcan de forma parcial a un conjunto. Tal vez así se pueda tratar el problema de dis- tinguir entre afijos flexivos y derivativos. Un experimento futuro interesante sería reunir las bases asociadas a los patrones morfotácticos en grandes grupos, que se podría pensar que corresponderían toscamente con clases de palabras. La idea detrás es que si no todas las bases tienen los mismos patrones morfotácticos asociados, tal vez se puedan agrupar en conjuntos, que si bien se intersecta- rían, podrían ayudar a separar bases nominales de verbales. Lo anterior hace pensar en la conveniencia de generar un autómata morfológico que dé cuenta de la separación de bases nominales y verbales o que identifique sufijos flexivos 251 y derivativos. Incorporar estas cuestiones sería un gran avance en la generación no supervi- sada de una descripción morfológica más completa que permitiría estudiar lenguas poco estudiadas. Un último experimento para trabajo futuro sería probar el método propuesto en otros corpus. Primero, se podría pensar en corpus de distintas épocas o de distintas regiones, lo que permitiría comparaciones dialectales a partir de los autómatas generados de ambos cor- pus. Segundo, ya que en investigaciones anteriores se había usado el índice de afijalidad para describir unidades morfológicas en distintas lenguas, es factible pensar que el método propuesto para descubrir patrones morfotácticos pueda utilizarse también en corpus de otras lenguas sufijales. 6.4. Conclusiones finales Sobre las ventajas que ofrece este método, la más relevante es la posibilidad de des- cribir mediante un método automático no supervisado, con el mínimo de información lin- güística a priori, la morfotáctica del español, al menos en lo que respecta a las bases y la sufitáctica. El carácter no supervisado del método es lo que da pie a futuros experimentos en corpus de otras lenguas, lo que también es una ventaja del método. También se modificó el método del cálculo de afijalidad para contar ahora con un método que divida las palabras en varios sufijos. Esto trajo varios beneficios. Uno de ellos es que se sentaron las bases para futuras investigaciones, como las expuestas en el apartado anterior. Además, fue un logro para ese método que pudiera utilizarse con escasas modifi- caciones también para realizar varios cortes en la palabra. Esto habla de la pertinencia del acercamiento lingüístico de ese método. 252 Otra virtud del método propuesto es que sienta las bases para investigaciones más profundas en el descubrimiento de la morfotáctica de lenguas afijales mediante la inferencia del aparato de descripción y no mediante su construcción manual. Inferir la descripción del corpus es importante porque permite estudiar el lenguaje sin presuponer sus unidades y su secuencialidad. Esta es la gran ventaja de este método y de métodos que no parten de la idea de que existe una morfología ideal y única. Así, el presente trabajo de investigación ha logrado desarrollar un método no super- visado para inferir automáticamente la morfotáctica del español. Específicamente se logró que a partir de un corpus representativo de esta lengua se descubrieran sus bases y secuen- cias de sufijos, para con ellos elaborar una descripción de su orden y secuencialidad me- diante un autómata de estados finitos. En este sentido, esta tesis ha desarrollado un método que descubra automáticamente parte de la morfológica del español. Ya que el método desarrollado se basa fundamentalmente en un método ya existente que calcula la afijalidad (glutinosidad) de algunas unidades morfológicas, este trabajo tam- bién ha sido un intento por explorar los límites de ese método. Dados los resultados obteni- dos, se ve prometedor que dicho método pueda seguirse ampliando para abarcar cada vez más terreno de la morfología concatenativa del español y otras lenguas. Finalmente, este trabajo también ha sido un esfuerzo por brindar la posibilidad de estudiar la morfología del español desde una mirada imparcial, dejando que las regularida- des emerjan del corpus. En este sentido, los corpus electrónicos son herramientas idóneas para el estudio empírico de las lenguas. Así, este trabajo se inserta en el conjunto de estu- dios que tratan de explicar la lengua a partir de datos empíricos y no de la introspección de un analista. 253 7. Anexos A. Inventario de sufijos derivativos Consigno en este anexo el inventario de sufijos derivativos que incorporé al corpus de eva- luación y que fueron tomados de la recopilación que hace Moreno de Alba (1986). La Tabla 7.1 incluye una columna con el sufijo y sus alomorfos, otra columna con una breve descrip- ción del sufijo, y una tercera columna con un ejemplo tomado de ese autor (excepto ‘pari- siense’ que tomé del CEMC). Tabla 7.1 Inventario de sufijo de Moreno de Alba SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO (V)(C)ión Sufijo que forma sustantivos de acción o efecto a partir de verbos -ACIÓN (-A-CIÓN) eliminar > elimin~ación -CIÓN inscribir > inscrip~ción -ICIÓN definir > defin~ición -IÓN reunir > reun~ión -SIÓN dividir > divi~sión -UCIÓN evolutivo > evol~ución -V Sufijo que forma sustantivos a partir de verbos con significado general de acción o efecto -A probar > prueb~a -E combatir > combat~e -O consolar > consuel~o -(V)(C)it- Sufijo que expresa diminutivo -ECITO(A) padre > padr~ecito -CITO(A) canción > cancion~cita -ITITO(A) chico > chiqu~itito -ITO(A) palabra > palabr~ita -(V)al Sufijo que forma principalmente adjetivos con significado de relación o ca- racterización a partir de sustantivos -AL sentimiento > sentiment~al -IAL editor > editor~ial -UAL texto > text~ual 254 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO (V)(C)(C)ic- Sufijo que da lugar a sustantivos y adjetivos con sentido técnico o científico a partir de sustantivos -ÁTICA problema > problem~ática -ÁSTICO(A) -ICO(A) electrón > electrón~ica -ÍFICO(A) ciencia > cient~ífico -ÍSTICO(A) carácter > caracter~ístico -TICO(A) poema > poé~tico (V)(C)(C)ad Sufijo que crea sustantivos abstractos que indican cualidad, acción o conduc- ta a partir generalmente de adjetivos -AD amistoso > amist~ad -ALDAD (-AL-DAD) frío > fri~aldad -DAD desigual > desigual~dad -EDAD ansia > ansi~edad -IDAD materno > matern~idad -TAD libre > liber~tad (V)Vnte Sufijo que crea adjetivos que significan agentes a partir de verbos, princi- palmente de la primera conjugación -ANTE alarmar > alarm~ante -ENTE absorber > absorb~ente -IENTE corresponder > corres- pond~iente Vd- Sufijo que forma sustantivos con diversos significados (acción, resultado de la acción, conjunto, duración, golpe) a partir de verbos o sustantivos -ADA tiempo > tempor~ada -ADO estudiante > estudiant~ado -IDA comer > com~ida -IDO tejer > tej~ido Vncia, -anza Sufijo que forma sustantivos abstractos con significado de acción o resultado de la acción a partir de verbos de la primera conjugación -ANCIA constar > const~ancia -ANCIO cansar > cans~ancio -ENCIA decadente > decand~encia -IENCIA eficiente > efic~iencia -ANZA confiar > confi~anza (u)os- Sufijo que forma adjetivos que indican cualidades o defectos a partir de sus- tantivos, adjetivos o verbos -OSO(A) grande > grandi~oso -UOSO(A) defecto > defect~uoso 255 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO (Vd)er- Sufijo que forma sustantivos y adjetivos con significado de agente, nombres de objetos, instrumentos, alimentos, etcétera, a partir de verbos, sustantivos o adjetivos -ADERA tapar > tap~adera -ADERO pasar > pas~adero -ERA sordo > sord~era -ERO sombra > sombr~ero -ERO(A) compañía > compañ~ero Vm(i)ent- Sufijo que forma sustantivos con significado de acción, resultado de la ac- ción, colectivo y de lugar, a partir de verbos -AMENTO acampar > camp~amento -AMIENTA hierro > herr~amienta -AMIENTO relajar > relaj~amiento -IMIENTO descubrir > descubr~imiento (Vt)iv- Sufijo que forma adjetivos que caracterizan personas o cosas, a partir de sustantivos, adjetivos y verbos -ATIVO(A) -AT-IVO(A) informar > inform~ativo -ITIVO(A) -IT-IVO(A) primo > prim~itivo -IVO(A) intenso > intens~ivo Vble Sufijo que forma adjetivos con significado de capacidad o aptitud, a partir principalmente de verbos -ABLE respetar > respet~able -IBLE entender > entend~ible (V)Cor- Sufijo que forma adjetivos con significado de agentes, a partir de verbos -ADOR(A) colaborar > colabor~ador -EDOR(A) conmover > conmov~edor -IDOR(A) corregir > correg~idor -SOR(A) anteceder > antece~sor -TOR(A) satisfacer > satisfac~tor a(ta)ri- Sufijo que forma sustantivos con significados diversos y adjetivos caracteri- zadores de personas o cosas, a partir principalmente de sustantivos -ARIA refacción > refaccion~aria -ARIO(A) hospital > hospital~ario -ATARIO mandar > mand~atario 256 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO í- Sufijo que forma sustantivos abstractos y adjetivos, a partir de sustantivos, adjetivos y verbos -ÍA maestro > maestr~ía -ÍO -ÍO(A) tarde > tard~ío (V)(C)ón(-) Sufijo que forma sustantivos y adjetivos aumentativos, atenuativos, de ac- ción contundente o golpe, a partir de sustantivos, adjetivos o verbos -ERÓN casa > cas~erón -ÓN batalla > batall~ón -ONA casa > cas~ona -ÓN(A) llorar > llor~ón -OTÓN -OT-ÓN pisar > pis~otón Vría Sufijo que forma sustantivos abstractos y concretos, a partir de sustantivos y adjetivos -ARÍA secretario > secret~aría -ERÍA lavandero > lavand~ería -ORÍA auditor > audit~oría -URÍA tenedor > tened~uría (V)(C)ura Sufijo que forma sustantivos abstractos y concretos, a partir de sustantivos o verbos -ADURA -AD-URA diente >dent~adura -ATURA colegio > colegi~atura -IDURA -ID-URA vestir > vest~idura -TURA lección > lec~tura -URA hermoso > hermos~ura (V)(C)ez(-) Sufijo que forma sustantivos abstractos a partir de adjetivos -ALEZA fuerte > fort~aleza -EZ niño > niñ~ez -EZA bello > bell~eza 257 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO (V)(C)ori- Sufijo que forma sustantivos femeninos abstractos, sustantivos masculinos con significado de lugar y adjetivos caracterizadores de cosas, a partir prin- cipalmente de verbos -ATORIA escapar > escap~atoria -ATORIO observar > observ~atorio -ATORIO(A) rotar > rot~atorio -ITORIO audiencia > aud~itorio -ORIA trayecto > trayect~oria -ORIO consultar > consult~orio -ORIO(A) irrisión > irris~orio -TORIO satisfacción > satisfac~torio Vdor(A) Sufijo que forma sustantivos con diversos significados (objetos, instrumen- tos, lugares) a partir de verbos -ADOR tocar > toc~ador -ADORA incubar > incub~adora -EDOR correr > corredor in- Sufijo que forma sustantivos con diversos significados y adjetivos caracteri- zadores o de semejanza, a partir de sustantivos o adjetivos -INA estudiante > estudiant~ina -INO plata > plat~ino -INO(A) cervantes > cervant~ino t- Sufijo que forma sustantivos abstractos con significado de acción o efecto de la acción y adjetivos, a partir de verbos o sustantivos -TA aristocracia > aristócra~ta -TE morir > muer~te -TO instituir > institu~to -TO(A) atender > aten~to (i)(t)ud Sufijo que forma sustantivos abstractos con significado de acción, conducta o cualidad, a partir de adjetivos y sustantivos -ITUD exacto > exact~itud -TUD joven > juven~tud -UD quieto > quiet~ud (c)ill- Sufijo que forma sustantivos y adjetivos diminutivos o despectivos, a partir de sustantivos y adjetivos -CILLO(A) joven > joven~cilla -ILLO cera > cer~illo -ILLA cama > cam~illa -ILLO(A) chico > chiqu~illo 258 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO (i)ci- Sufijo que forma sustantivos concretos y abstractos, además adjetivos, a partir de adjetivos -CIA infante > infan~cia -ICIA justo > just~icia -ICIO alimentar > aliment~icio i- Sufijo que forma sustantivos abstractos a partir de verbos o sustantivos -IA molestar > molest~ia -IO armonía > armon~io -ACERO Sufijo que forma sustantivos a partir de sus- tantivos agua > agu~acero -ACIA Sufijo que forma sustantivos abstractos a partir de sustantivos diploma > diplom~acia -ACÍA Sufijo que forma sustantivos abstractos a partir de sustantivos abogado > abog~acía -ACO(A) Sufijo que forma adjetivos con significado de ‘relativo a’, despectivo y gentilicio a partir de sustantivos policía > polici~aco -ACHO Sufijo que forma sustantivos con significado despectivo a partir de sustantivos popular > popul~acho -ADO(A) Sufijo que forma adjetivos con significado activo a partir de verbos, sustantivos y adje- tivos criar > cri~ada -AJE Sufijo que forma sustantivos con diversos significados, a partir de verbos o sustantivos persona > person~aje -ALLA Sufijo que forma sustantivos con significado colectivo, a partir de sustantivos muro > mur~alla -ÁN Sufijo que forma adjetivos o sustantivos con significado de persona y gentilicios, a partir de sustantivos alemania < alem~án -ANDA Sufijo que forma sustantivos a partir de ver- bos propagar > propag~anda -ANO(A) Sufijo que forma sustantivos y adjetivos gen- tilicios o que indican procedencia o perte- nencia, a partir de verbos o sustantivos lejos > lej~ano -IANO(A) Sufijo que forma sustantivos y adjetivos gen- tilicios o que indican procedencia o perte- nencia, a partir de verbos o sustantivos cristo > crist~iano -AÑA Sufijo que forma sustantivos a partir de sus- tantivos monte > mont~aña -AÑO Sufijo que forma sustantivos a partir de sus- tantivos ermita > ermit~año 259 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO -AR Sufijo que forma sustantivos con significado de colectivo o de lugar donde abundan plan- tas, o adjetivos caracterizadores de personas o de objetos, a partir de sustantivos, adjetivos y verbos célula > celul~ar -ATIVA Sufijo que forma sustantivos abstractos fe- meninos, a partir de sustantivos o verbos negar > neg~ativa -ATO Sufijo que forma sustantivos con diversos significados, a partir de sustantivos o verbos bachiller > bachiller~ato -AVO(A) Sufijo que forma adjetivos fraccionarios, a partir de sustantivos ciento > cent~avo -AZ Sufijo que forma adjetivos, a partir de sustan- tivos > ver~az -AZGO Sufijo que forma sustantivos abstractos, a partir de sustantivos y verbos novio > novi~azgo -AZO Sufijo que forma sustantivos con significado de acción contundente, golpe o aumentativos, a partir de sustantivos bala > bal~azo -CIO Sufijo que forma adjetivos gentilicios, a par- tir de sustantivos egipto > egip~cio -ECO(A) Sufijo que forma adjetivos gentilicios, a par- tir de sustantivos mazatlán > mazatl~eco -EJO(A) Sufijo que forma sustantivos con significado atenuativo o despectivo, a partir de sustanti- vos animal > animal~ejo -EL Sufijo que forma sustantivos a partir de sus- tantivos planta > plant~el -ELA Sufijo que forma sustantivos a partir de sus- tantivos cliente > client~ela -ENA Sufijo que forma sustantivos a partir de sus- tantivos nueve > nov~ena -ENIO Sufijo que forma sustantivos a partir de sus- tantivos diez > dec~enio -ENO(A) Sufijo que forma adjetivos gentilicios a partir de sustantivos chile > chil~eno -ENSE Sufijo que forma adjetivos gentilicios a partir de sustantivos parís > parisi~ense85 -EÑO Sufijo que forma sustantivos y adjetivos con significado de gentilicio, semejanza o cuali- dad, a partir de sustantivos o adjetivos brasil > brasil~eño -EO(A) Sufijo que forma adjetivos con significado de ' relativo a', a partir de sustantivos o adjetivos árbol > arbór~eo 85 Este ejemplo fue tomado del CEMC, no lo propone Moreno de Alba. 260 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO -ERNO(A) Sufijo que forma adjetivos, a partir de sustan- tivos madre > mat~erno -ÉRRIMO(A) Sufijo que forma adjetivos superlativos, a partir de adjetivos pauperismo > paup~érrimo -ÉS(A) Sufijo que forma sustantivos y adjetivos gen- tilicios o de procedencia, a partir de sustanti- vos francia > franc~és -ESCO(A) Sufijo que forma sustantivos y adjetivos ca- racterizadores de personas o cosas, a partir de sustantivos, adjetivos o verbos pariente > parent~esco -ESTRE Sufijo que forma adjetivos a partir de sustan- tivos tierra > terr~estre -ETA Sufijo que forma sustantivos con significado de objetos, instrumentos o semejante pero pequeño, a partir de sustantivos y verbos trompa > tromp~eta -ETE Sufijo que forma sustantivos a partir de sus- tantivos juego > jugu~ete -ICIDA Sufijo que forma sustantivos a partir de sus- tantivos insecto > insect~icida -ICHE Sufijo que forma sustantivos y adjetivos des- pectivos, a partir de sustantivos bolo > bol~iche -IDUMBRE Sufijo que forma sustantivos a partir de sus- tantivos y adjetivos cierto > cert~idumbre -EDUMBRE Sufijo que forma sustantivos a partir de sus- tantivos y adjetivos mucho > much~edumbre -ADUMBRE Sufijo que forma sustantivos a partir de sus- tantivos y adjetivos pesar > pes~adumbre -ÍFERO Sufijo que forma adjetivos o sustantivos a partir de sustantivos mama > mam~ífero -IJO Sufijo que forma sustantivos con significado de acción, resultado de la acción o de dimi- nutivo, a partir de sustantivos o verbos acertar > acert~ijo -IL Sufijo que forma adjetivos con significado de pertenencia o relación, a partir de sustantivos mercante > mercant~il -ÍN Sufijo que forma sustantivos con significado de objeto o adjetivos caracterizadores, dimi- nutivos y gentilicios, a partir de sustantivos maleta > malet~ín -ÍNEO Sufijo que forma adjetivos a partir de sustan- tivos sangre > sangu~íneo -IÑO Sufijo que forma adjetivos a partir de sustan- tivos caro > car~iño -ISCO(A) Sufijo que forma sustantivos a partir de sus- tantivos mar > mar~isco -ÍSIMO(A) Sufijo que forma adjetivos superlativos a partir de adjetivos y adverbios hermoso > hermos~ísimo 261 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO -ISMO Sufijo que forma sustantivos con significado de doctrina, secta o calidad, a partir de sus- tantivos o adjetivos comunista > comun~ismo -ISTA Sufijo que forma sustantivos con significado de profesión, oficio y que caracterizan perso- nas o cosas, a partir de sustantivos o adjeti- vos análisis > anal~ista -ITA Sufijo que forma adjetivos gentilicios, a par- tir de sustantivos israel > isreal~ita -ITE Sufijo que forma el sustantivo ESCONDITE a partir de verbo esconder > escond~ite -ITIS Sufijo (seudosufijo) que forma sustantivos con significado de inflamación, a partir de sustantivos colon > col~itis -ÍVORO Sufijo (seudosufijo) que forma adjetivos, a partir de sustantivos insecto > insect~ívoro -IZ Sufijo que forma sustantivos, a partir de sus- tantivos cara > car~iz -IZA Sufijo que forma sustantivos con significado de golpe repetido, a partir de sustantivos o verbos palo > pal~iza -IZO Sufijo que forma adjetivos con significado de semejanza, a partir de sustantivos o adjetivos rojo > roj~izo -O(A) Sufijo que forma adjetivos de diversos signi- ficados, a partir de sustantivos fotografía > fotógraf~o -OIDE Sufijo que forma sustantivos y adjetivos con significado de semejanza, a partir de sustan- tivos estrella > aster~oide -OL(A) Sufijo que forma sustantivos y adjetivos di- minutivos o gentilicios, a partir de sustanti- vos españón > españ~ol -ÓNEO(A) Sufijo que forma adjetivos, a partir de sustan- tivos o verbos error > err~óneo -OR Sufijo que forma sustantivos abstractos o que designan objetos o instrumentos, a partir de sustantivos o verbos temblar > tembl~or -OR(A) Sufijo que forma sustantivos de oficios u ocupaciones, a partir de sustantivos o verbos supervisar > supervis~or -ORO(A) Sufijo que forma adjetivos, a partir de sustan- tivos o verbos sonar > son~oro -OTA Sufijo que forma sustantivos femeninos o adverbios aumentativos, a partir de sustanti- vos o adverbios araña > arañ~ota -OTE Sufijo que forma sustantivos masculinos o adverbios aumentativos, a partir de sustanti- vos o adverbios abajo > abaj~ote 262 Tabla 7.1 Inventario de sufijo de Moreno de Alba (continuación) SUFIJO ALOMORFO DESCRIPCIÓN EJEMPLO -OTE(A) Sufijo que forma sustantivos o adjetivos au- mentativos, a partir de sustantivos o adjetivos fuerte > fuert~ote -SA Sufijo que forma sustantivos, a partir de sus- tantivos o adjetivos defensivo > defen~sa -SO Sufijo que forma sustantivos abstractos, a partir de verbos de la segunda y tercera con- jugación ascender > ascen~so -TECA Sufijo (seudosufijo) que forma sustantivos, a partir de sustantivos bibliografía > biblio~teca -UDO(A) Sufijo que forma adjetivos caracterizadores de personas o cosas, a partir de sustantivos pelo > pel~udo -UELO(A) Sufijo que forma sustantivos diminutivos, a partir de sustantivos paño > pañ~uelo -UNA Sufijo que forma sustantivos, a partir de sus- tantivos lago > lag~una -URNO(A) Sufijo que forma sustantivos o adjetivos, a partir de sustantivos noctámbulo > noct~urno -UZ(A) Sufijo que forma adjetivos, a partir de sustan- tivos andalucía > andal~uz 263 B. Ejemplos de autómatas 264 265 ANDO q72 q71 base49 SE ER q l1 7 ql18 base76 AR ql99 q200 R q220 q2 J9 qO SE base J49 q239 base269 q427 lENDO q428 base3 12 A q509 q508 base375 q610 E q611 q44 base29 AMOS AMOS base266 0 qO q423 q.J.24 AMOS base459 q772 T q773 266 ARL AS q53 (163 AD ID L T IT T tB OS R N ER base778 S ql 324 IK 267 q57 ARL q58 basc:38 OS q2 12 L q2 13 base 13 1 q244 base: 154 OS q266 T q267 base l66 OS ,39' N q396 OS '1435 AD q436 b:lse274 qO OS base3! 1 OS qS22 IT qS23 base365 OS q596 S base4Z2 q597 OS baseS I I q697 TIB q698 OS q870 OS , 869 OS basc:867 q1 389 ER ql 390 ql507 IK ql508 268 RÁ ql65 1 basc: 12"2 ql 650 AR q2194 q2192 A q2193 269 C. Los cien patrones morfotácticos más frecuentes En este anexo se presentan los 100 patrones morfotácticos más frecuentes del corpus (véase Tabla 7.2) tomados de los 422 patrones descubiertos. La lista, ordenada de mayor a menor frecuencia, está encabezada por patrones con sufijos flexivos nominales que marcan género y número. Entre los más frecuentes también aparecen patrones con marcas verbales tanto de verboides (por ejemplo /Base~AR/) como de formas conjugadas (por ejemplo /Base~Ó/). Además, pueden apreciarse pares de patrones equivalentes, donde uno tiene los sufijos se- parados y el otro los sufijos concatenados, como /Base~O~S/ y /Base~OS/. Tabla 7.2 Los cien patrones morfotácticos más frecuentes Posición Patrón morfotáctico Frecuencia Frecuencia x posición 1 /Base~A/ 3200 3200 2 /Base~O/ 2811 5622 3 /Base~S/ 2324 6972 4 /Base~OS/ 1318 5272 5 /Base~AR/ 1276 6380 6 /Base~E/ 1261 7566 7 /Base~AS/ 1224 8568 8 /Base~Ó/ 1094 8752 9 /Base~A~S/ 1022 9198 10 /Base~AN/ 938 9380 11 /Base~O~S/ 875 9625 12 /Base~AD~A/ 812 9744 13 /Base~ANDO/ 810 10530 14 /Base~AD~O/ 768 10752 15 /Base~ABA/ 738 11070 16 /Base~ARON/ 685 10960 17 /Base~ES/ 599 10183 18 /Base~ARSE/ 590 10620 19 /Base~EN/ 545 10355 20 /Base~E~S/ 541 10820 21 /Base~AD~O~S/ 532 11172 22 /Base~ÍA/ 495 10890 23 /Base~AD~A~S/ 478 10994 24 /Base~AMOS/ 463 11112 25 /Base~É/ 448 11200 26 /Base~ASIÓN/ 436 11336 270 Tabla 7.2 Los cien patrones morfotácticos más frecuentes (continuación) Posición Patrón morfotáctico Frecuencia Frecuencia x posición 27 /Base~AMENTE/ 435 11745 28 /Base~ADO/ 418 11704 29 /Base~R/ 411 11919 30 /Base~ABAN/ 408 12240 31 /Base~N/ 384 11904 32 /Base~ÓN/ 370 11840 33 /Base~ARÁ 365 12045 34 /Base~SIÓN/ 364 12376 35 /Base~AL/ 311 10885 36 /Base~MENTE/ 293 10548 37 /Base~E~N/ 292 10804 38 /Base~ITA/ 270 10260 39 /Base~ONES/ 262 10218 40 /Base~ITO/ 259 10360 41 /Base~IENDO/ 243 9963 42 /Base~DO/ 239 10038 43 /Base~ASIONES/ 234 10062 44 /Base~ARME/ 232 10208 45 /Base~IDAD 229 10305 46 /Base~ID~A/ 228 10488 47 /Base~A~N/ 222 10434 48 /Base~IÓ/ 222 10656 49 /Base~TE/ 220 10780 50 /Base~ID~O/ 217 10850 51 /Base~ARÍA/ 210 10710 52 /Base~IERON/ 210 10920 53 /Base~SE/ 204 10812 54 /Base~ADO~R/ 202 10908 55 /Base~IK~O/ 199 10945 56 /Base~ADA/ 186 10416 57 /Base~IK~A/ 185 10545 58 /Base~ID~O~S/ 184 10672 59 /Base~ISTA/ 184 10856 60 /Base~ISMO/ 180 10800 61 /Base~T~A/ 180 10980 62 /Base~AL~ES/ 178 11036 63 /Base~ANDO~SE/ 176 11088 64 /Base~L/ 172 11008 65 /Base~AR~A/ 168 10920 66 /Base~ARL~A/ 164 10824 67 /Base~I~R/ 164 10988 68 /Base~ARL~O/ 163 11084 69 /Base~ARÁ~N/ 162 11178 70 /Base~ERO/ 155 10850 271 Tabla 7.2 Los cien patrones morfotácticos más frecuentes (continuación) Posición Patrón morfotáctico Frecuencia Frecuencia x posición 71 /Base~ID~A~S/ 154 10934 72 /Base~E~R/ 153 11016 73 /Base~L~A/ 148 10804 74 /Base~ADO~S/ 146 10804 75 /Base~ARA/ 145 10875 76 /Base~ADOR~ES/ 139 10564 77 /Base~T~O/ 139 10703 78 /Base~ANTE/ 137 10686 79 /Base~ANTE~S/ 137 10823 80 /Base~ARNOS/ 136 10880 81 /Base~D~O/ 135 10935 82 /Base~LO/ 134 10988 83 /Base~AMIENTO/ 130 10790 84 /Base~Í 129 10836 85 /Base~OS~O/ 129 10965 86 /Base~S~A/ 128 11008 87 /Base~ÍAN/ 126 10962 88 /Base~LE/ 126 11088 89 /Base~EMOS/ 124 11036 90 /Base~IT~A/ 123 11070 91 /Base~AD~AS/ 119 10829 92 /Base~TA/ 116 10672 93 /Base~OS~A/ 115 10695 94 /Base~L~O/ 112 10528 95 /Base~ARLO/ 111 10545 96 /Base~I/ 108 10368 97 /Base~L~ES/ 106 10282 98 /Base~R~A/ 106 10388 99 /Base~SI~ONES/ 106 10494 100 /Base~I~MOS/ 105 10500 En la Figura 7.1, se brinda una gráfica que muestra el comportamiento de la fre- cuencia ( ) de los 422 patrones con relación a su posición ( ) en una lista ordenada de ma- yor a menor frecuencia (los valores están expresados en escala logarítmica). Como exponen Manning y Schütze (1999, págs. 23-24), la relación entre la frecuencia de un elemento lin- güístico y su posición en una lista ordenada fue explorada por Zipf, quien propuso una ley empírica al respecto. Según esta ley existe una constante tal que . Para el caso 272 de los patrones morfotácticos descubiertos, la constante se puede establecer alrededor de 10,000. La cuarta columna de la Tabla 7.2 muestra el resultado de para los 100 patro- nes más frecuentes. El que dicha curva muestre este comportamiento es una caracterización empírica de la economía presente en el sistema morfológico. Esto es, existen pocos patrones muy fre- cuentes, algunos regularmente frecuentes y la gran mayoría de baja frecuencia. Figura 7.1 Comportamiento de la frecuencia de patrones morfotácticos 273 D. Descripción del disco compacto En este anexo se describe el contenido del disco compacto que acompaña a esta tesis, así como la manera de visualizarlo. En términos generales, el disco contiene el conjunto de grafos que representan los autómatas de estados finitos generados y sus bases asociadas. Con la idea de facilitar la visualización de estos autómatas, mostrando las bases que se aso- cian a cada uno, se elaboraron tres páginas web. La primera (Figura 7.2), punto de partida de la visualización del contenido del disco, incluye: 1. El resumen de la tesis. 2. Dos enlaces que llevan a una página cada uno para visualizar los autómatas ge- nerados a partir de la representación fonológica y ortográfica del corpus. 3. La lista completa de patrones morfotácticos descubiertos, su frecuencia, posi- ción en la tabla y una gráfica que representa la relación entre la frecuencia y la posición del patrón (ley de Zipf). Figura 7.2 Página principal del disco compacto 274 Para visualizar la página principal del disco, es necesario llevar a cabo los siguientes pasos: 1. Coloque el disco compacto en el lector de discos de la computadora. 2. Utilice un programa para explorar el contenido del disco. 3. Seleccione y abra el archivo index.html con un programa navegador de Internet. Bastará con hacer doble clic sobre el nombre del archivo. Las otras dos páginas web permiten visualizar los autómatas y sus bases; ambas tie- nen la misma estructura. La diferencia entre ellas radica en que una muestra los autómatas generados a partir de la transcripción fonológica y la otra muestra aquellos generados a partir de la transcripción ortográfica. Por lo anterior explicaré sólo el contenido de la prime- ra. Como se puede ver en la Figura 7.3, la zona (1) muestra la lista de letras con las que comienzan los segmentos finales descubiertos. Si se hace clic sobre una letra, se despliegan los segmentos finales que comienzan con esa letra. Por ejemplo, si se hace clic sobre la A, se muestran los segmentos A, ABA, ABAMOS, etcétera. 275 Figura 7.3 Página que permite visualizar autómatas La zona (2) muestra el grafo del autómata asociado al segmento final seleccionado en la lista de la zona (1); al mismo tiempo, la zona (3) despliega los grupos de bases aso- ciados al autómata. Véase la Figura 7.4 que muestra el grafo y grupos de bases del segmen- to final ABA. Figura 7.4 Página con autómata asociado al segmento ABA 276 En la zona del lado derecho (3), aparecen sólo los grupos de bases asociados al au- tómata que se está visualizando. Para ver las bases de cada grupo, basta con hacer clic en el nombre del grupo, por ejemplo base26. Debajo del nombre del grupo aparecerá la lista de bases. La Figura 7.5 muestra el grafo y lista de bases asociadas al patrón morfotáctico Base26~ABA. Figura 7.5 Página con autómata y lista de bases del segmento ABA 277 Bibliografía Alcoba, S. (1999). La flexión verbal. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (Vol. 3, págs. 4915-4991). Madrid: Espasa-Calpe y RAE. Allen, J. (1995). Natural Language Understanding. Redwood City, California: Benjamin/Cummings. Ambadiang, T. (1999). La flexión nominal. Género y número. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (Vol. 3, págs. 4843-4913). Madrid: Espasa-Calpe y RAE. Anderson, S. (1985). Typological Distinction in Word Formation. En T. Shopen (Ed.), Language Typology and Syntactic Description. Grammatical Categories and the Lexicon (Vol. III, págs. 3-56). Cambridge: Cambridge University Press. Anderson, S. (1992). A-Morphous Morphology. Cambridge: Cambridge University Press. Ando, R. K. y Lee, L. (2000). Mostly-unsupervised Statistical Segmentation of Japanese. Applications to Kanji. En Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference (NAACL) (págs. 241-248). Antworth, E. L. (1990). PC-KIMMO: A Two-level Processor for Morphological Analysis. Texas: Summer Institute of Linguistics. Aronoff, M. H. (1976). Word Formation in Generative Grammar. Cambridge, Mass.: The MIT press. Baroni, M., Matiasek, J. y Trost, H. (2002). Unsupervised Discovery of Morphologically Related Words Based on Orthographic and Semantic Similarity. En Proceedings of the ACL-02 Workshop on Morphological and Phonological Learning (págs. 48-57). Association for Computational Linguistics. Beard, R. (1998). Derivation. En A. Spencer y A. M. Zwicky (Edits.), The Handbook of Morphology (págs. 44-65). Oxford y Malden, Mass.: Blackwell. Beniers, E. (2000). Lecturas de morfología. México: UNAM. Beniers, E. (2004). La formación de verbos en el español de México. México: El Colegio de México, UNAM. 278 Biber, D. (1993). Representativeness in corpus design. Literary and linguistic computing, 8(4), 243-257. Bloomfield, L. (1961). Language. London: George Allen. Brent, M. R. (1999). An Afficient, Probabilistically Sound Algorithm for Segmentation and Word Discovery. Machine Learning, 34, 71-105. Bybee, J. L. (1985). Morphology: A Study of the Relation between Meaning and Form. Amsterdam, Philadelphia: John Benjamins Publishing. Charniak, E. (1996). Statistical Language Learning. Cambridge, Massachusetts: The MIT Press. Chomsky, N. (1984). Estructuras sintácticas. México: Siglo XXI. Creutz, M. (2003). Unsupervised Segmentation of Words Using Prior Distributions of Morph Length and Frequency. En E. Hinrichs y D. Roth (Edits.), Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (págs. 280- 287). Sapporo, Japan. Creutz, M. y Lagus, K. (2002). Unsupervised Discovery of Morphemes. En Proceedings of the Workshop on Morphological and Phonological Learning of ACL-02, SIGPHON-ACL (págs. 21–30). Philadelphia. Creutz, M. y Lagus, K. (2004). Induction of a Simple Morphology for Highlyinflecting Languages. En Proceedings of 7th Meeting of the ACL Special Interest Group in Computational Phonology SIGPHON-ACL (págs. 43–51). Creutz, M. y Lagus, K. (2005). Inducing the Morphological Lexicon of a Natural Language from Unannotated Text. En Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR’05) (págs. 106–113). Finlandia: Espoo. Crystal, D. (2003). A Dictionary of Linguistics & Phonetics. Oxford, UK: Blackwell. De Kock, J. y Bossaert, W. (1974). Introducción a la lingüística automática en las lenguas románicas. Madrid: Gredos. De Kock, J. y Bossaert, W. (1978). The Morpheme. An Experiment in Quantitative and Computational Linguistics. Amsterdam, Madrid: Van Gorcum. 279 De Marcken, C. (1995). The Unsupervised Acquisition of a Lexicon from Continuous Speech. Technical Report A.I. Memo 1558. Cambridge, Massachusetts: MIT Artificial Intelligence Lab. Déjean, H. (1998). Morphemes as Necessary Concept for Structures Discovery from Untagged Corpora. En D. Powers (Ed.), Workshop on Paradigms and Grounding in Language Learning, ACL (págs. 295-298). Deligne, S. y Bimbot, F. (1997). Inference of Variable-length Linguistic and Acoustic Units by Multigrams. Speech Communication, 23(3), 223-241. Diccionario del español de México (DEM). (s.f.). Recuperado el 15 de noviembre de 2012, de http://dem.colmex.mx Diccionario del español de México. (2010). México: El Colegio de México, CELL. Gelbukh, A., Alexandrov, M. y Han, S. (2004). Detecting Inflection Patterns in Natural Language by Minimization of Morphological Model. En A. Sanfeliu, J. F. Martínez y J. A. Carrasco (Edits.), CIARP 2004. (págs. 432-438). Heidelberg: Springer. Gelbukh, A. y Sidorov, G. (2003). Approach to Construction of Automatic Morphological Analysis Systems for Inflective Languages with Little Effort. En Computational Linguistics and Intelligent Text Processing (CICLing-2003), Lecture Notes in Computer Science, N 2588 (págs. 215–220). Verlag: Springer. Gelbukh, A., Sidorov, G. y Velásquez, F. (2003). Análisis morfológico automático del español a través de generación. Escritos(28), 9-25. Gelbukh, A., Sidorov, G., Lara-Reyes, D. y Chanona-Hernández, L. (2008). Division of Spanish Words into Morphemes with a Genetic Algorithm. En E. Kapetanios, V. Sugumaran y M. Spiliopoulou (Edits.), Natural Language and Information Systems (págs. 19-26). Berlin, Heidelberg: Springer. Goldsmith, J. (2001). Unsupervised Learning of the Morphology of a Natural Language. Computational Linguistics, 27(2), 153-198. Goldsmith, J. (2006). An Algorithm for the Unsupervised Learning of Morphology. Natural Language Engineering, 12(4), 353-371. Goldsmith, J. (2010). Segmentation and Morphology. En A. Clark, C. Fox y S. Lappin (Edits.), The Handbook of Computational Linguistics and Natural Language Processing (págs. 364–393). Oxford: Wiley-Blackwell. 280 González Calvo, J. M. (1998). Estudios de morfología española. Cáceres: Universidad de Extremadura. Greenberg, J. (1963). Some Universals of Grammar with Particular Reference to the Order of Meaningful Elements. En J. H. Greenberg, Universals of language (Vol. 2, págs. 73-113). Oxford, England: MIT Press. Greenberg, J. (1967). Essays in Linguistics. Chicago: The University of Chicago Press. Grishman, R. (1991). Introducción a la lingüística computacional. Madrid: Visor. Hammarström, H. y Borin, L. (2011). Unsupervised Learning of Morphology. Computational Linguistics, 37(2), 309-350. Harris, Z. S. (1955). From Phoneme to Morpheme. Language, 31(2), 190–222. Haspelmath, M. (2002). Understanding Morphology. New York: Oxford University Press. Hockett, C. F. (1971). Curso de lingüística moderna. (E. Gregores y J. A. Suárez, Trads.) Buenos Aires: EUDEBA. Holland, J. H. (1992). Genetic algorithms. Scientific american, 267(1), 66-72. Hopcroft, J. E. y Ullman, J. D. (1969). Formal Languages and their Relation to Automata. Reading, Massachusetts: Addison-Wesley. Hopcroft, J. E., Motwani, R. y Ullman, J. D. (2001). Introduction to Automata Theory, Languages and Computation (2 ed.). New York: Addison-Wesley. Hull, D. A. (1996). Stemming Algorithms. A Case Study for Detailed Evaluation. Journal of the American Society for Information Science, 47(1), 70-84. Hyman, L. M. y Mchombo, S. (2012). Morphotactic Constraints in the Chichewa Verb Stem. En Proceedings of the Eighteenth Annual Meeting of the Berkeley Linguistics Society. General Session and Parasession on The Place of Morphology in a Grammar (Vol. 18, págs. 350-364). Jurafsky, D. y Martin, J. H. (2009). Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, N.J.: Pearson Prentice Hall. Kageura, K. (1999). Bigram Statistics Revisited. A Comparative Examination of some Statistical Measures in Morphological Analysis of Japanese Kanji Sequences. Journal of Quantitative Linguistics, 6(2), 149-166. 281 Karttunen, L., Chanod, J.-P. y Grefenstette, G. (1996). Regular Expressions for Language Engineering. Natural Language Engineering, 2(4), 305-328. Katamba, F. y Stonham, J. (2006). Morphology. Houndsmills, Basingstoke, Hampshire: Palgrave Macmillan. Kay, M. (1987). Nonconcatenative Finite-State Morphology. En Proceedings of the third conference on European chapter of the Association for Computational Linguistics (págs. 2-10). Association for Computational Linguistics. Kay, M. (2003). Introduction. En R. Mitkov (Ed.), The Oxford Handbook of Computational Linguistics (págs. XVII-XX). Oxford: Oxford University Press. Kiparsky, P. (1983). Word Formation and the Lexicon. En F. Ingemann, Proceedings of the 1982 Mid-America Linguistics Conference (págs. 3-29). Lawrence, Kansas: University of Kansas. Kit, C. y Wilks, Y. (1999). Unsupervised Learning of Word Boundary with Description Length Gain. En Proceedings of CoNLL99 ACL Workshop. Bergen. Koskenniemi, K. (1983). Two-Level Model for Morphological Analysis. En Proceedings of the 8th International Joint Conference on Artificial Intelligence (págs. 683-685). Koskenniemi, K. (1984). A General Computational Model for Word-Form Recognition and Production. En Proceedings of the 10th International Conference on Computational Linguistics, Association for Computational Linguistics (págs. 178-181). Helsinki, Finland: University of Helsinki. Lara Reyes, D. (2008). Sistema de segmentación automática de palabras en morfemas para el español (Tesis de maestría inédita). México: CIC-IPN. Lara, L. F. (2004). ¿Es posible una teoría de la palabra? Lexis, XXVII(1-2), 401-427. Lara, L. F. (2006). Curso de lexicología. México: El Colegio de México. Lara, L. F. y Ham Chande, R. (1974). Base estadística del Diccionario del español de México. Nueva Revista de Filología Hispánica, 23(2), 245-267. Lara, L. F., Ham Chande, R. y García Hidalgo, M. I. (1979). Investigaciones lingüísticas en lexicografía. México: El Colegio de México. Lin, C. Y. (2004). Rouge: A Package for Automatic Evaluation of Summaries. En Text Summarization Branches Out: Proceedings of the ACL-04 Workshop (págs. 74-81). 282 Manning, C. D. y Schütze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass.: The MIT Press. McEnery, T. y Wilson, A. (1996). Corpus Linguistics. An introduction. Edinburgh: Edinburgh University Press. Medina, A. (2000). Automatic Discovery of Affixes by means of a Corpus. A Catalog of Spanish Affixes. Journal of Quantitative Linguistics, 7(2), 97–114. Medina, A. (2003). Investigación cuantitativa de afijos y clíticos del español de México: glutinometría en el Corpus del Español Mexicano Contemporáneo (Tesis doctoral inédita). México: El Colegio de México. Medina, A. (2007). Affix Discovery by Means of Corpora: Experiments for Spanish, Czech, Ralámuli and Chuj. En Aspects of Automatic Text Analysis (págs. 277-299). Berlin, Heidelberg: Springer. Medina, A. (2008). Affix Discovery based on Entropy and Economy Measurements. Computational Linguistics for Less-Studied Languages(10), 99-112. Medina, A. y Alvarado, M. (2006). Un experimento de reconocimiento automático de la derivación léxica en el ralámuli. En La lengua y la antropología para un conocimiento global del hombre. México: Conaculta/INAH. Medina, A. y Buenrostro, C. (2003). Características cuantitativas de la flexión verbal del chuj. Estudios de Lingüística Aplicada, 38, 15-31. Medina, A. y Hlaváčová, J. (2005). Automatic Recognition of Czech Derivational Prefixes. En A. Gelbukh (Ed.), Computational Linguistics and Intelligent Text Pro-cessing. CICLing 2005 (págs. 189-197). Berlin: Springer. Medina, A., Herrera, J. A. y Alvarado, M. (2009). Towards the Speech Synthesis of Raramuri. A Unit Selection Approach based on Unsupervised Extraction of Suffix Sequences. En A. Gelbukh (Ed.), Advances in Computational Linguistics, Re-search in Computing Science (Vol. 41, págs. 243-256). Berlín: Springer. Méndez-Cruz, C. F., Torres-Moreno, J. M., Medina, A. y Sierra, G. (2013). Extrinsic Evaluation on Automatic Summarization Tasks. Testing Affixality Measurements for Statistical Word Stemming. En I. Batyrshin y M. González Mendoza (Edits.), MICAI 2012, Part II, LNAI 7630 (págs. 46-57). Heidelberg: Springer. 283 Méndez-Cruz, C.-F., Soriano-Morales, E.-P. y Medina, A. (2011). Testing a Statistical Word Stemmer based on Affixality Measurements in INEX 2012 Tweet Contextualization Track. En INEX 2011 Workshop Pree-Proceedings (págs. 194- 200). Hofgut Imsbach, Saarbrücken, Germany: IR Publications. Moreno de Alba, J. G. (1986). Morfología derivativa nominal en el español de México. México: UNAM. Moreno de Alba, J. G. (1996). La prefijación en el español mexicano. México: UNAM, Instituto de Investigaciones Filológicas. Neuvel, S. y Fulop, S. (2002). Unsupervised Learning of Morphology without Morphemes. En Proceedings of the ACL-02 Workshop on Morphological and Phonological Learning (págs. 31-40). Association for Computational Linguistics. Nida, E. A. (1949). Morphology. The Descriptive Analysis of Words (2 ed.). Ann Arbor: The University of Michigan. Paik, J. H., Mitra, M., Parui, S. K. y Järvelin, K. (2011). GRAS: An Effective and Efficient Stemming Algorithm for Information Retrieval. ACM Transactions on Information Systems (TOIS), 29(4), 19-24. Pena, J. (1999). Partes de la morfología. Las unidades del análisis morfológico. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (Vol. 3, págs. 4305-4366). Madrid: Espasa-Calpe y RAE. Piera, C. y Varela, S. (1999). Relaciones entre morfología y sintáxis. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (Vol. 3, págs. 4367-4422). Madrid: Espasa-Calpe y RAE. Porter, M. F. (1980). An Algorithm for Suffix Stripping. Program, 14, 130–137. Redlich, A. N. (1993). Redundancy Reduction as a Strategy for Unsupervised Learning. Neural Computation, 5(2), 289-304. Saggion, H., Torres-Moreno, J. M., da Cunha, I. y SanJuan, E. (2010). Multilingual Summarization Evaluation without Human Models. En 23rd Int. Conf. on Computational Linguistics. COLING '10 (págs. 1059-1067). Beijing, China: ACL. SanJuan, E., Moriceau, V., Tannier, X., Bellot, P. y Mothe, J. (2011). Overview of the INEX 2011 Question Answering Track (QA@INEX). En INEX 2011 Workshop 284 Pree-Proceedings (págs. 145-153). Hofgut Imsbach, Saarbrücken, Germany: IR Publications. Santiago, R. y Bustos, E. (1999). La derivación nominal. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (págs. 4505-4594). Madrid: Espasa- Calpe y RAE. Sapir, E. (1954). El lenguaje. Introducción al estudio del habla. México: Fondo de Cultura Económica. Schone, P. y Jurafsky, D. (2000). Knowledge-Free Induction of Morphology using Latent Semantic Analysis. En Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning (págs. 67-72). Association for Computational Linguistics. Schone, P. y Jurafsky, D. (2001). Knowledge-Free Induction of Inflectional Morphologies. En Proceedings of the second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies (págs. 1-9). Association for Computational Linguistics. Serrano-Dolader, D. (1999). La derivación verbal y la parasíntesis. En I. Bosque y V. Demonte, Gramática descriptiva de la lengua española (Vol. 3, págs. 4684-4755). Madrid: Espasa-Calpe y RAE. Shannon, C. y Weaver, W. (1964). The Mathematical Theory of Communication. Chicago: The University of Illinois. Spärck-Jones, K. y Galliers, J. (1996). Evaluating Natural Language Processing Systems:. New York: Springer-Verlang. Spencer, A. (1991). Morphological Theory. An Introduction to Word Structure in Generative Grammar. Cambridge: Cambridge University Press. Sproat, R. (1992). Morphology and Computation. Cambridge, London: The MIT Press. Sproat, R., Shih, C., Gale, W. y Chang, N. (1996). A Stochastic Finite-State Word- Segmentation Algorithm for Chinese. Computational Linguistics, 22(3), 377-404. Stump, G. T. (1998). Inflection. En A. Spencer y A. M. Zwicky (Edits.), The handbook of morphology (págs. 13-43). Oxford y Malden, Mass.: Blackwell. Swadesh, M. (1966). El lenguaje y la vida humana. México: FCE. 285 Teahan, W. J., Wen, Y., McNab, R. y Witten, I. H. (2000). A Compression-based Algorithm for Chinese Word Segmentation. Computational Linguistics, 26(3), 375- 393. Torres-Moreno, J. M. (2011). Résumé automatique de documents. Paris: Lavoisier. Torres-Moreno, J. M., St-Onge, P. L., Gagnon, M., El-Bèze, M. y Bellot, P. (2009). Automatic Summarization System coupled with a Question-Answering System (QAAS). Torres-Moreno, J., Saggion, H., da Cunha, I., SanJuan, E. y Velázquez-Morales, P. (2010). Summary Evaluation with and without References. Polibits, 42, 13-19. Tzoukermann, E. y Mark, L. (1990). A Finite-State Morphological Processor For Spanish. En Proceedings of the 13th International Conference on Computational Linguistics: COLING. Helsinki, Finland. Val Álvarado, J. F. (1999). La composición. En I. Bosque y D. Violeta, Gramática descriptiva de la lengua español (Vol. 3, págs. 4757-4841). Madrid: Espasa-Calpe y RAE. Varela, S. y García, J. M. (1999). La prefijación. En I. Bosque y V. Demonte (Edits.), Gramática descriptiva de la lengua española (Vol. 3, págs. 4993-5040). Madrid: Espasa-Calpe y RAE. Wall, R. (1972). Introduction to Mathematical Linguistics. Englewood Cliffs, New Jersey: Prentice Hall. Zacarías, R. (2011). Formación de diminutivos con el sufijo/—ít—/. Una propuesta desde la morfología natural. Anuario de Letras(44), 77-103. Zadeh, L. A. (1965). Fuzzy sets. Information and control, 8(3), 338-353.