Generación automática de una gramática de estados finitos para la morfología del español  
  Proyecto de doctorado  
  Carlos Francisco Méndez Cruz  
A) Resumen de la tesis
El presente trabajo de investigación propone un método no supervisado de segmentación morfológica automática que infiere parte de la morfotáctica del español. Su principal interés ha sido el descubrimiento de patrones morfotácticos que describan el orden y secuencialidad de unidades morfológicas a partir de corpus (datos empíricos).

Ya que la morfotáctica de una lengua puede llegar a ser muy compleja, este trabajo se aboca únicamente al descubrimiento de bases y secuencias de sufijos (sufitáctica). Con estas unidades se crea un aparato de descripción formal que describe su orden y secuencialidad. Así, los objetivos planteados son:

1. Descubrir, a partir de corpus y mediante un método no supervisado de segmentación morfológica automática, los sufijos y sufitáctica de la lengua española.

2. Generar, a partir de los sufijos y sufitáctica descubiertos, una gramática de estados finitos que describa la morfotáctica del español.

Estos objetivos se llevaron a cabo mediante el procesamiento automático del Corpus del Español Mexicano Contemporáneo, que fue creado bajo criterios estadísticos como muestra representativa del léxico del español mexicano. Para lograr el primer objetivo, se modificó el método propuesto por Medina (200; 2003), que cuantifica la afijalidad de segmentos al interior de una palabra. Este método propone que los valores más altos de afijalidad dan cuenta de fronteras morfológicas.

Después de un primer acercamiento, en el que se desarrolló un truncador morfológico que demostró su efectividad para la tarea de resumen automático de documentos, y diversos experimentos de segmentación morfológica, se determinó la mejor estrategia para el descubrimiento de bases y sufijos de acuerdo a una evaluación hecha mediante un corpus segmentado manualmente.

Para el logro del segundo objetivo, se desarrolló un procedimiento que genera un autómata de estados finitos a partir de las unidades descubiertas. Como parte de la experimentación, dos autómatas fueron generados, uno a partir de la representación ortográfica del corpus y otro a partir de su representación fonológica. El autómata generado de esta última representación mostró patrones morfotácticos que no estaban presentes en el otro autómata, por lo que se tomó como mejor descripción de la morfotáctica del corpus.

Mediante la evaluación cualitativa de una muestra de patrones morfotácticos inmersos en el autómata, se observó que la gran mayoría son pertinentes y dan cuenta de distintas regularidades morfológicas del español. De esta manera, el método desarrollado incluye los siguientes pasos:

1. Cuantificar la afijalidad de segmentos al interior de la palabra.

2. Descubrir las bases y sufijos mediante una estrategia de segmentación basada en la afijalidad.

3. Descubrir los patrones morfotácticos mediante la generación de un autómata de estados finitos.

Este método ofrece distintas ventajas, como la posibilidad de describir automáticamente la morfotáctica (bases y sufijos) de lenguas predominantemente afijales. Además, permite sentar las bases para futuras investigaciones en el descubrimiento de la morfotáctica mediante la inferencia de su aparato de descripción y no mediante su construcción manual. Esto es importante porque se estudia la lengua sin presuponer sus unidades y su secuencialidad.
B) Autómatas generados

Seleccione el tipo de autómatas que desea ver:
C) Patrones morfotácticos descubiertos
Posición (r) Patrón Frecuencia (f) C = r x f
1 base~A 3200 3200
2 base~O 2811 5622
3 base~S 2324 6972
4 base~OS 1318 5272
5 base~AR 1276 6380
6 base~E 1261 7566
7 base~AS 1224 8568
8 base~Ó 1094 8752
9 base~A~S 1022 9198
10 base~AN 938 9380
11 base~O~S 875 9625
12 base~AD~A 812 9744
13 base~ANDO 810 10530
14 base~AD~O 768 10752
15 base~ABA 738 11070
16 base~ARON 685 10960
17 base~ES 599 10183
18 base~ARSE 590 10620
19 base~EN 545 10355
20 base~E~S 541 10820
21 base~AD~O~S 532 11172
22 base~ÍA 495 10890
23 base~AD~A~S 478 10994
24 base~AMOS 463 11112
25 base~É 448 11200
26 base~ASIÓN 436 11336
27 base~AMENTE 435 11745
28 base~ADO 418 11704
29 base~R 411 11919
30 base~ABAN 408 12240
31 base~N 384 11904
32 base~ÓN 370 11840
33 base~ARÁ 365 12045
34 base~SIÓN 364 12376
35 base~AL 311 10885
36 base~MENTE 293 10548
37 base~E~N 292 10804
38 base~ITA 270 10260
39 base~ONES 262 10218
40 base~ITO 259 10360
41 base~IENDO 243 9963
42 base~DO 239 10038
43 base~ASIONES 234 10062
44 base~ARME 232 10208
45 base~IDAD 229 10305
46 base~ID~A 228 10488
47 base~A~N 222 10434
48 base~IÓ 222 10656
49 base~TE 220 10780
50 base~ID~O 217 10850
51 base~ARÍA 210 10710
52 base~IERON 210 10920
53 base~SE 204 10812
54 base~ADO~R 202 10908
55 base~IK~O 199 10945
56 base~ADA 186 10416
57 base~IK~A 185 10545
58 base~ID~O~S 184 10672
59 base~ISTA 184 10856
60 base~ISMO 180 10800
61 base~T~A 180 10980
62 base~AL~ES 178 11036
63 base~ANDO~SE 176 11088
64 base~L 172 11008
65 base~AR~A 168 10920
66 base~ARL~A 164 10824
67 base~I~R 164 10988
68 base~ARL~O 163 11084
69 base~ARÁ~N 162 11178
70 base~ERO 155 10850
71 base~ID~A~S 154 10934
72 base~E~R 153 11016
73 base~L~A 148 10804
74 base~ADO~S 146 10804
75 base~ARA 145 10875
76 base~ADOR~ES 139 10564
77 base~T~O 139 10703
78 base~ANTE 137 10686
79 base~ANTE~S 137 10823
80 base~ARNOS 136 10880
81 base~D~O 135 10935
82 base~LO 134 10988
83 base~AMIENTO 130 10790
84 base~Í 129 10836
85 base~OS~O 129 10965
86 base~S~A 128 11008
87 base~ÍAN 126 10962
88 base~LE 126 11088
89 base~EMOS 124 11036
90 base~IT~A 123 11070
91 base~AD~AS 119 10829
92 base~TA 116 10672
93 base~OS~A 115 10695
94 base~L~O 112 10528
95 base~ARLO 111 10545
96 base~I 108 10368
97 base~L~ES 106 10282
98 base~R~A 106 10388
99 base~SI~ONES 106 10494
100 base~I~MOS 105 10500
101 base~IK~AS 104 10504
102 base~IKO 103 10506
103 base~ASTE 102 10506
104 base~DA 102 10608
105 base~IK~OS 102 10710
106 base~IDO 101 10706
107 base~IT~O 101 10807
108 base~SI~ÓN 101 10908
109 base~SIA 101 11009
110 base~ME 100 11000
111 base~IERA 98 10878
112 base~S~O 98 10976
113 base~T~E 98 11074
114 base~A~R 97 11058
115 base~LA 96 11040
116 base~ÍA~N 94 10904
117 base~ISTA~S 93 10881
118 base~E~MOS 92 10856
119 base~ER 92 10948
120 base~ABA~N 91 10920
121 base~AD~OS 91 11011
122 base~ABAMOS 89 10858
123 base~MIENTO 89 10947
124 base~NDO 89 11036
125 base~IA 88 11000
126 base~MOS 88 11088
127 base~ER~A 87 11049
128 base~ER~O 87 11136
129 base~I~RSE 87 11223
130 base~ITOS 87 11310
131 base~ARL~E 86 11266
132 base~ARTE 85 11220
133 base~TO 85 11305
134 base~AREMOS 84 11256
135 base~RON 84 11340
136 base~SIONES 84 11424
137 base~ADOS 83 11371
138 base~AN~TE 83 11454
139 base~IO 83 11537
140 base~ABLE 81 11340
141 base~ARÁN 81 11421
142 base~ERA 81 11502
143 base~I~A 81 11583
144 base~ÉS 80 11520
145 base~BA 79 11455
146 base~IYA 78 11388
147 base~ANDOSE 77 11319
148 base~ARA~N 77 11396
149 base~ARL~AS 77 11473
150 base~ARLA 77 11550
151 base~RSE 77 11627
152 base~IS 76 11552
153 base~A~SE 75 11475
154 base~ARL~OS 75 11550
155 base~ITO~S 75 11625
156 base~E~SE 74 11544
157 base~ÍA~S 74 11618
158 base~R~ES 74 11692
159 base~IKA 73 11607
160 base~RÍA 73 11680
161 base~ADO~R~A 72 11592
162 base~ARLE 72 11664
163 base~ARÉ 71 11573
164 base~RA 71 11644
165 base~AL~MENTE 69 11385
166 base~ENSIA 69 11454
167 base~I~RÁ 69 11523
168 base~ITAS 69 11592
169 base~ADAS 68 11492
170 base~D~A 68 11560
171 base~IDAD~ES 68 11628
172 base~ADA~S 66 11352
173 base~ARAN 66 11418
174 base~I~O 66 11484
175 base~ITA~S 63 11025
176 base~ON~ES 63 11088
177 base~ISTAS 62 10974
178 base~NOS 62 11036
179 base~NTE 62 11098
180 base~Á 61 10980
181 base~E~O 61 11041
182 base~I~D~O 61 11102
183 base~ISIMO 61 11163
184 base~L~E 60 11040
185 base~I~Ó 59 10915
186 base~N~A 59 10974
187 base~Í~A 58 10846
188 base~IYO 58 10904
189 base~ABLE~S 57 10773
190 base~DOS 57 10830
191 base~EROS 57 10887
192 base~OS~OS 57 10944
193 base~T~AS 57 11001
194 base~INA 56 10864
195 base~L~AS 56 10920
196 base~URA 56 10976
197 base~IK~AMENTE 55 10835
198 base~T~OS 55 10890
199 base~E~RSE 54 10746
200 base~ERO~S 54 10800
201 base~LOS 54 10854
202 base~T~AR 54 10908
203 base~A~TE 53 10759
204 base~ADOR 53 10812
205 base~OR 53 10865
206 base~R~SE 53 10918
207 base~AR~É 52 10764
208 base~ARLOS 52 10816
209 base~IENDO~SE 52 10868
210 base~ISA 52 10920
211 base~L~OS 52 10972
212 base~ON 52 11024
213 base~RÁ 52 11076
214 base~T~Ó 52 11128
215 base~AN~DO 51 10965
216 base~E~RÁ 51 11016
217 base~ÍN 51 11067
218 base~KA 51 11118
219 base~ADORES 50 10950
220 base~ANDO~LE 50 11000
221 base~AR~TE 50 11050
222 base~I~MIENTO 50 11100
223 base~ON~A 50 11150
224 base~IT~OS 49 10976
225 base~AD~AMENTE 48 10800
226 base~AJE 48 10848
227 base~KO 48 10896
228 base~NA 48 10944
229 base~O~R 48 10992
230 base~ANDO~LO 47 10810
231 base~N~O 47 10857
232 base~N~TE 47 10904
233 base~BLE 46 10718
234 base~ER~OS 46 10764
235 base~IS~A 45 10575
236 base~DOR 44 10384
237 base~OS~AS 44 10428
238 base~R~TE 44 10472
239 base~SA 44 10516
240 base~ÁN 43 10320
241 base~ANDO~ME 43 10363
242 base~E~RA 43 10406
243 base~ERÍA 43 10449
244 base~TE~S 43 10492
245 base~AMIENTO~S 42 10290
246 base~ANTES 42 10332
247 base~S~E 42 10374
248 base~AL~IDAD 41 10168
249 base~IN~A 41 10209
250 base~N~OS 41 10250
251 base~RME 41 10291
252 base~S~OS 41 10332
253 base~A~DO 40 10120
254 base~ALES 40 10160
255 base~ARÍAN 40 10200
256 base~E~AR 40 10240
257 base~I~RÍA 40 10280
258 base~IK~O~S 40 10320
259 base~T~AN 40 10360
260 base~AR~SE 39 10140
261 base~Ó~N 39 10179
262 base~OSA 39 10218
263 base~R~A~S 39 10257
264 base~E~A 38 10032
265 base~E~RÍA 38 10070
266 base~ENTE~S 38 10108
267 base~IR 38 10146
268 base~ISASIÓN 38 10184
269 base~ISIMA 38 10222
270 base~R~O 38 10260
271 base~RNOS 38 10298
272 base~TOR~ES 38 10336
273 base~AM~E 37 10101
274 base~LAS 37 10138
275 base~MO 37 10175
276 base~TIB~O 37 10212
277 base~ARÍA~N 36 9972
278 base~I~DO 36 10008
279 base~LES 36 10044
280 base~OSO 36 10080
281 base~RÁ~N 36 10116
282 base~ARL~O~S 35 9870
283 base~ATE 35 9905
284 base~ATIB~O 35 9940
285 base~ER~AS 35 9975
286 base~LE~S 35 10010
287 base~T 35 10045
288 base~US 35 10080
289 base~AN~A 34 9826
290 base~AN~O 34 9860
291 base~DAS 34 9894
292 base~EA 34 9928
293 base~ERA~S 34 9962
294 base~IL 34 9996
295 base~IT~AS 34 10030
296 base~L~E~S 34 10064
297 base~L~O~S 34 10098
298 base~T~ABA 34 10132
299 base~TA~S 34 10166
300 base~ARIO 33 9900
301 base~ASO 33 9933
302 base~I~STE 33 9966
303 base~IE~RA 33 9999
304 base~IENTE 33 10032
305 base~ISIM~O 33 10065
306 base~IT~O~S 33 10098
307 base~S~AS 33 10131
308 base~ARIAMOS 32 9856
309 base~ARL~E~S 32 9888
310 base~D 32 9920
311 base~N~AS 32 9952
312 base~STE 32 9984
313 base~ADO~RA 31 9703
314 base~ATIB~A 31 9734
315 base~GO 31 9765
316 base~ID~AS 31 9796
317 base~TIB~A 31 9827
318 base~ANDO~LA 30 9540
319 base~I~AMOS 30 9570
320 base~IDA 30 9600
321 base~S~A~S 30 9630
322 base~ESE 29 9338
323 base~IDO~S 29 9367
324 base~IMIENTO 29 9396
325 base~T~AD~O 29 9425
326 base~A~MOS 28 9128
327 base~AR~LO 28 9156
328 base~ARL~A~S 28 9184
329 base~IS~AR 28 9212
330 base~OR~ES 28 9240
331 base~OS~AMENTE 28 9268
332 base~R~AS 28 9296
333 base~RÁN 28 9324
334 base~SIS 28 9352
335 base~T~A~S 28 9380
336 base~TES 28 9408
337 base~ATO 27 9099
338 base~E~LO 27 9126
339 base~IAMOS 27 9153
340 base~IÓN 27 9180
341 base~R~E 27 9207
342 base~ANDO~LOS 26 8892
343 base~AR~AN 26 8918
344 base~ARÁ~S 26 8944
345 base~AS~TE 26 8970
346 base~D~E 26 8996
347 base~EO 26 9022
348 base~ER~O~S 26 9048
349 base~ETE 26 9074
350 base~M~E 26 9100
351 base~T~ANDO 26 9126
352 base~ARI~O 25 8800
353 base~B~E 25 8825
354 base~ENTE 25 8850
355 base~IRÁ~N 25 8875
356 base~IS~ASIÓN 25 8900
357 base~MA 25 8925
358 base~OS~O~S 25 8950
359 base~REMOS 25 8975
360 base~SITO 25 9000
361 base~T~ARON 25 9025
362 base~TO~S 25 9050
363 base~AB~LE 24 8712
364 base~AR~ES 24 8736
365 base~ÁS 24 8760
366 base~ER~ÍA 24 8784
367 base~IKOS 24 8808
368 base~NO 24 8832
369 base~RÉ 24 8856
370 base~TIK~A 24 8880
371 base~EDAD 23 8533
372 base~ER~SE 23 8556
373 base~ETA 23 8579
374 base~GA 23 8602
375 base~IN~O 23 8625
376 base~IYAS 23 8648
377 base~LO~S 23 8671
378 base~ONA 23 8694
379 base~S~O~S 23 8717
380 base~T~AD~A 23 8740
381 base~T~EN 23 8763
382 base~T~O~S 23 8786
383 base~TIK~O 23 8809
384 base~ABLES 22 8448
385 base~ARI~A 22 8470
386 base~EL 22 8492
387 base~ER~A~S 22 8514
388 base~ERAS 22 8536
389 base~ESA 22 8558
390 base~ISIM~A 22 8580
391 base~RO 22 8602
392 base~SO 22 8624
393 base~TAS 22 8646
394 base~TIB~OS 22 8668
395 base~TOR 22 8690
396 base~A~S~O 21 8316
397 base~AR~A~N 21 8337
398 base~ARLAS 21 8358
399 base~ARLO~S 21 8379
400 base~DOR~ES 21 8400
401 base~E~RME 21 8421
402 base~I~D~A 21 8442
403 base~IERAN 21 8463
404 base~IK~A~S 21 8484
405 base~IMOS 21 8505
406 base~N~E 21 8526
407 base~O~R~A 21 8547
408 base~TIB~AS 21 8568
409 base~UM 21 8589
410 base~A~ME 20 8200
411 base~ABILIDAD 20 8220
412 base~AL~ISMO 20 8240
413 base~ENSE 20 8260
414 base~ES~E 20 8280
415 base~IKAS 20 8300
416 base~ÍS 20 8320
417 base~ISA~SIÓN 20 8340
418 base~ISTE 20 8360
419 base~OTE 20 8380
420 base~R~L~E 20 8400
421 base~T~AMOS 20 8420
422 base~T~E~S 20 8440
Comportamiento de la frecuencia de patrones morfotácticos con relación a su posición en la tabla