UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO PROGRAMA DE MAESTRIA Y DOCTORADO EN PSICOLOGIA NEUROCIENCIAS DE LA CONDUCTA CURSO TEMPORAL DE LA PREACTIVACIÓN DEL SIGNIFICADO Y LA FORMA LÉXICA: UN ESTUDIO DE RASTREO OCULAR Y ELECTROENCEFALOGRAFÍA TEMPORAL COURSE OF PRE-ACTIVATION OF MEANING AND WORD-FORM: AN EYE-TRACKING AND ELECTROENCEPHALOGRAPHY STUDY TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN PSICOLOGIA PRESENTA: ARMANDO QUETZALCÓATL ANGULO CHAVIRA TUTOR PRINCIPAL: DRA. NATALIA ARIAS TREJO FACULTAD DE PSICOLOGÍA, UNAM MIEMBROS DEL COMITÉ TUTOR: DR. MARIO ARTURO RODRÍGUEZ CAMACHO FACULTAD DE ESTUDIOS SUPERIORES IZTACALA, UNAM DR. FRANCISCO ABELARDO ROBLES AGUIRRE CENTRO UNIVERSITARIO DEL NORTE, UNIVERSIDAD DE GUADALAJARA DR. RODOLFO SOLÍS VIVANCO INSTITUTO NACIONAL DE NEUROLOGÍA Y NEUROCIRUGÍA DR. ANUENUE BAKER-KUKONA SCHOOL OF HUMAN SCIENCES, UNIVERSITY OF GREENWICH CD.MX., DICIEMBRE 2024 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Dedication For the generations who have made science their path, and for the future inquisitive minds who will push the boundaries of knowledge even further. “Somewhere, something incredible is waiting to be known” Carl Sagan Funding Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) No. IN303221 (Efecto de la restricción oracional y la similitud de palabras en la actividad electroencefalográfica anticipatoria) and PAPIIT No. IG300224 (Predicción lingüística en monolingües y bilingües del español e inglés) awarded to Dra. Natalia Arias Trejo. Acknowledgments To my parents Thank you for your constant support and for instilling in me the importance of dedication and effort. This work is a reflection of the commitment and values you have passed on to me. I deeply appreciate the backing you have given me at every stage of this project. Thank you for always believing in me. To Dr. Natalia Arias Trejo I sincerely appreciate the collaboration and support provided throughout this process. Beyond her role as a supervisor, her collegiality and perspective were key in the development of this thesis. Thank you for sharing your expertise and for the exchanges that enriched my work and professional growth. To the thesis committee I extend my thanks to Dr. Mario Rodríguez Camacho, Dr. Francisco Robles Aguirre, Dr. Rodolfo Solís, and Dr. Anue Kukona for being part of my committee and for their contributions throughout the development of this project. Their presence and observations have been important in this process. To Mitzi Castellón My sincere gratitude to Mitzi Castellón, whose support and presence were fundamental to this project. Her willingness to contribute at each stage, from practical matters to providing encouragement during challenging times, gave this thesis invaluable momentum. Her commitment and kindness are reflected on every page of this work. To my colleagues in the Psycholinguistics Laboratory I thank my colleagues in the laboratory for their support at various points in this thesis. Their willingness to collaborate and their timely contributions enriched this project and made the journey smoother. Thank you for being part of this process. To my friends Arturo, Julia, Diana, Pedro, Rogelio, Citlalli, Yuri and Lorena To my friends, who have been a constant source of encouragement and companionship throughout this process. Thank you for being there at every moment, whether to celebrate progress or to offer support through challenges. Your friendship has been invaluable in helping me maintain balance and keep moving forward. To Dr. Elia Haydée Carrasco Ortiz and Dr. Beerelim Corona Dzul I am grateful to Dr. Elia Haydée Carrasco Ortiz and Dr. Beerelim Corona Dzul from the Universidad Autónoma de Querétaro for providing the electroencephalography equipment necessary to conduct one of the experiments for this thesis. Their generosity and support were essential to the development of this research. Index ABSTRACT ................................................................................................................................................... 1 INTRODUCTION ......................................................................................................................................... 2 THEORETICAL BACKGROUND ............................................................................................................. 4 PREDICTION DURING LANGUAGE COMPREHENSION ..................................................................................... 4 Operationalization of prediction during language comprehension ....................................................... 4 Generating predictions from constrained contexts ................................................................................ 8 PREDICTIVE RECOVERING OF WORD REPRESENTATION FROM THE MEMORY .............................................. 12 Semantic and word-form representation in the semantic memory ....................................................... 12 Organization of semantic and word-form representations .................................................................. 16 Brain basis of the semantic and word-form representations ............................................................... 20 PREDICTIVE RECOVERING OF WORD REPRESENTATIONS ............................................................................ 22 THEORIES AND MECHANISMS OF PREDICTIVE PROCESSING IN LANGUAGE COMPREHENSION ...................... 26 Prediction-by-production mechanism .................................................................................................. 28 Prediction-by-simulation mechanism .................................................................................................. 33 Prediction-by-association mechanism ................................................................................................. 34 Multiple predictive mechanisms approach .......................................................................................... 37 Time course of preactivation of semantic and form representation ..................................................... 39 PROBLEM STATEMENT ......................................................................................................................... 43 MAIN AIM .................................................................................................................................................. 45 SPECIFIC AIMS ........................................................................................................................................... 45 MAIN HYPOTHESIS..................................................................................................................................... 45 SPECIFIC HYPOTHESIS ................................................................................................................................ 45 METHOD ..................................................................................................................................................... 46 EXPERIMENT 1: CORPUS OF SENTENCES ENDINGS ..................................................................................... 46 Participants.......................................................................................................................................... 48 Material ............................................................................................................................................... 52 Procedure ............................................................................................................................................ 54 Data processing ................................................................................................................................... 56 Data analysis ....................................................................................................................................... 56 Results .................................................................................................................................................. 58 Discussion ............................................................................................................................................ 59 EXPERIMENT 2: VISUAL WORLD PARADIGM .............................................................................................. 62 Participants.......................................................................................................................................... 62 Instruments .......................................................................................................................................... 63 Stimuli .................................................................................................................................................. 64 Experimental design ............................................................................................................................ 77 Apparatus ............................................................................................................................................. 78 Procedure ............................................................................................................................................ 79 Data processing ................................................................................................................................... 79 Statistical analysis ............................................................................................................................... 81 Results .................................................................................................................................................. 87 Exploration of related effects ............................................................................................................... 91 Discussion ............................................................................................................................................ 97 EXPERIMENT 3: ELECTROENCEPHALOGRAPHY ........................................................................................ 107 Participants........................................................................................................................................ 109 Instruments ........................................................................................................................................ 109 Stimuli ................................................................................................................................................ 110 Experimental design .......................................................................................................................... 114 Data acquisition ................................................................................................................................. 116 Procedure .......................................................................................................................................... 116 Data processing ................................................................................................................................. 117 Statistical analysis ............................................................................................................................. 120 Results ................................................................................................................................................ 126 Discussion .......................................................................................................................................... 134 GENERAL DISCUSSION ........................................................................................................................ 144 THEORETICAL AND METHODOLOGICAL SYNTHESIS ................................................................................ 144 RESULTS SYNTHESIS ............................................................................................................................... 148 INTERPRETING THE FINDINGS OF EXPERIMENT 2 ..................................................................................... 150 INTERPRETING THE FINDINGS OF EXPERIMENT 3 ..................................................................................... 155 INTEGRATING FINDINGS FROM EXPERIMENT 2 AND 3 .............................................................................. 164 PROPOSED THEORETICAL MODEL ........................................................................................................... 168 CONSIDERATIONS AND FUTURES STUDIES ................................................................................. 173 CONCLUSION .......................................................................................................................................... 175 REFERENCES .......................................................................................................................................... 178 1 Abstract This thesis explores predictive processing during language comprehension, focusing on anticipation of upcoming words. Three theoretical mechanisms of prediction were evaluated: prediction-by-production, where predictions emerge from the production system and semantic predictions precede word-form ones; prediction-by-simulation, where both semantic and form predictions occur simultaneously through forward modeling; and prediction-by-association, where multiple lexical candidates are activated hierarchically through spreading activation. The study aimed to disentangle these mechanisms by examining the time-course of semantic and word-form predictions. Three experiments were conducted. Experiment 1 created a corpus with high and low predictability sentence endings for Mexican Spanish speakers. Experiment 2, using the visual world paradigm, revealed that semantic predictions precede phonological predictions, with a gap of ~800 ms between them. However, this result contrasts with the EEG findings in Experiment 3, where only a 30 ms gap was observed, indicating a faster transition between semantic and form predictions. The results collectively support the prediction-by-association mechanism, which posits fast, hierarchical and cascadic activation of multiple lexical candidates based on spreading activation principles. Unlike prediction-by-production, which relies on slower sequential processes, or prediction-by-simulation, which generates only a single prediction at a time, prediction-by-association provides a more flexible and biologically plausible explanation of real- time language prediction. Keywords: Prediction, Form, Meaning, electroencephalography, representational similarity analysis. 2 Introduction The predictive processing model suggests that the brain operates fundamentally by making predictions (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018; Spratling, 2017). Unlike the traditional perspective, which sees the brain as a passive “feature detector” merely reacting to sensory information (Marr, 1982; K. Martin, 1994), this framework conceptualizes the brain as an active agent in processing environmental stimuli. Consequently, the brain constantly anticipates upcoming sensory inputs, thereby enhancing processing efficiency. Prediction operates hierarchically and is experience-based (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Lange et al., 2018). Higher-order brain structures predict the input that lower-order areas should expect. When predictions are inaccurate, an error signals are generated, and only the discrepancies between the expected and actual input are processed. This makes prediction efficient, as neurons need to process only the discrepancies, not the entire input. Error signals are sent back through the system to adjust future predictions, enabling flexible adaptation to changes in the environment. This predictive function has received strong support from computational models (Bastos et al., 2012; Rao & Ballard, 1999) and neuronal recordings of primary sensory areas (Attinger et al., 2017; Fiser et al., 2016; Keller & Mrsic-Flogel, 2018; Leinweber et al., 2017; Zmarz & Keller, 2016). Moreover, higher-level processes, like speech perception and production in the human auditory cortex, are also involved (Forseth et al., 2020; Leonard et al., 2016). A growing body of evidence indicates that comprehenders actively predict linguistic information while reading or listening language (Dell & Chang, 2014; Huettig, 2015; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013). In the last twenty years, research has increasingly demonstrated that comprehenders can predict both general semantic 3 (meaning) information and highly detailed word form representations, including graphemes and phonemes (Ito, 2024; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). Nevertheless, questions remain regarding the computational principles and mechanisms underlying predictive language processing. The present thesis aims to contribute to the understanding of predictive processing by investigating the time-course of semantic and form preactivation, using a combination of experimental methods, including behavioral task, eye-tracking, and electroencephalography. Three key theoretical mechanisms of prediction were evaluated, each proposing distinct principles of prediction and consequently hypothesizing different time courses for information retrieval: The prediction-by-production and prediction-by-association mechanisms propose that semantic information is generated before phonological details, with differences in the speed of retrieval for each representation (Huettig, 2015; Pickering & Gambi, 2018). In contrast, the prediction-by- simulation mechanism suggests that predictions involve the simultaneous retrieval of both semantic and form representations (Pickering & Garrod, 2013). The structure of this thesis is as follows: The opening section presents a literature review on predictive processing in language comprehension. The second section outlines the experimental methods used to answer the research question. In the final section, the results are examined in relation to current theories, emphasizing their implications for models of predictive processing. This thesis aims to shed light on the cognitive and neural mechanisms supporting predictive processing in language, enhancing the broader understanding of how the human brain efficiently handles linguistic information in real-time. 4 Theoretical Background Prediction during language comprehension Pickering and Gambi (2018) define prediction in language comprehension as preactivation, where linguistic information is activated in advance of processing the upcoming input. Although conceptually straightforward, operationalizing this process is complex. Evidence suggests that prediction may occur at different temporal stages, with certain aspects of the upcoming input anticipated even as lexical stimuli are being processed. These predictions draw on information from both linguistic and non-linguistic contexts. This chapter examines both the theoretical foundations and methodological approaches related to prediction in language comprehension. First, it will outline the operationalization of prediction in this domain, followed by an examination of how context facilitates prediction generation. Operationalization of prediction during language comprehension To attribute an effect to prediction, it should occur before the stimulus is processed (Pickering & Gambi, 2018). Therefore, it is crucial to define when linguistic information has already been processed. This discussion focuses on semantic and phonological representations, as they are the primary subjects of study, although other word representations can be examined using the same method. Previous research utilizing electrophysiological techniques has demonstrated that an auditory or visual word is recognized within 200 ms (Carreiras et al., 2014; MacGregor et al., 2012). For instance, MacGregor et al. (2012) recorded event-related potentials (ERPs) in response to auditory words and pseudowords to track the timing of lexical access, identifying three separate stages of processing. The first stage, between 50 and 80 ms, was marked by differential voltage and interpreted as phonological processing. The second stage, between 110 and 170 ms, likely 5 corresponds to lexical access. The final stage, occurring between 320 and 520 ms, was attributed to post-lexical analysis. Given this evidence, predictive activation of a word is best evaluated around 200 ms following the onset of the stimulus that the participant is anticipated to predict; otherwise, it may reflect an integration process instead (Pickering & Gambi, 2018). This guideline applies specifically to measuring semantic and phonological prediction. The key questions are what to measure and how to measure prediction. Addressing these questions requires understanding prediction’s effects on both brain activity and behavior. An important aspect of predictions is that they are helpful because they increase the efficiency of information processing (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018), meaning predictive processing should be faster and require fewer cognitive resources than non-predictive processing. Thus, lexical prediction is assessed by measuring processing speed or cognitive resource expenditure (before 200 ms of the onset of the stimulus being predicted). Additionally, evidence of word retrieval occurring before 200 ms, such as the activation of brain regions associated with lexical retrieval, can be interpreted as predictive processing (Pickering & Gambi, 2018). To assess enhanced processing efficiency, methods like reaction time measurements, eye- tracking, and electroencephalography provide valuable insights into processing speed during language prediction (Kuperberg & Jaeger, 2016). These methods allow researchers to measure responses to a word presented before the preactivated lexical item. Eye-tracking is often combined with the visual world paradigm, which involves presenting an array of images alongside an auditory stimulus (McMurray, 2023). In this paradigm, eye movements indicate the time course of language processing, based on the assumption that processing follows the fixation order (McMurray, 2023). Thus, objects fixated on first are assumed 6 to be processed first or prioritized in a competitive visual environment (Chow et al., 2022; Huettig et al., 2011; Huettig & McQueen, 2007). For instance, Huettig et al. (2011) explored the time course of semantic and phonological information by presenting participants with an auditory stimulus linked to objects in a visual array that were semantically or phonologically related. Their results showed an initial increase in fixations on the phonological competitor, followed by the semantic one, suggesting that phonological information is processed before semantic information in a non-predictive task. In this thesis, the visual world paradigm is used, with prediction operationalized as fixations occurring before the presentation of the expected auditory target. To measure changes in resource usage, techniques such as pupil dilation, ERPs, and functional magnetic resonance imaging (fMRI) are commonly employed. Typically, an increase in these measures indicates greater cognitive effort or resource use (Beatty, 1958; Hepach & Westermann, 2016; Polich, 2007). Specifically, in prediction studies, the N400 component—a negative deflection occurring around 400 ms after stimulus presentation in response to semantic incongruence—is frequently analyzed (Kutas & Hillyard, 1980). The N400 is measured in response to a word presented before the intended preactivated lexical item (DeLong et al., 2005; C. D. Martin et al., 2018). For example, in analyzing the EEG response to the determiner "a" in a sentence like “The day was breezy, so the boy went outside to fly a kite,” both articles "a" and "an" are plausible continuations. Variation in the EEG response to the unexpected article signals that participant anticipated the expected word (e.g., "kite"); in other words, they predicted the word, resulting in increased processing effort for the incongruent article. Bornkessel-Schlesewsky and Schlesewsky (2019) argue that the N400 response associated with an expected word reflects error detection rather than preactivation of the upcoming word, as participants require more resources to integrate the incongruent article. Although the N400 might 7 represent the resource cost for processing an incongruent article, participants must predict the noun to recognize the article’s incongruence. This explanation is supported by the high correlation between N400 amplitude and word predictability (e.g., r = -.75, DeLong et al., 2005). Thus, while the N400 may not directly reflect the prediction process itself, it likely serves as a consequence of prediction. To provide evidence of the neural bases of word preactivation, prior studies have measured activity in brain areas associated with lexical access—such as the inferior temporal lobe, Heschl’s gyrus, and the visual word form area—using fMRI or source-localization electroencephalography (Huettig, 2015; Huettig & Mani, 2016; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). These regions have been linked to retrieving various representations of words (H. Damasio et al., 1996). While these methods offer valuable insights into brain function, their findings should be carefully interpreted with consideration of temporal factors and assumptions regarding the functional roles of these brain areas. A recent approach called representational similarity analysis (RSA) has been employed as an indicator of word retrieval across various neuroimaging techniques (Kriegeskorte et al., 2008; Kriegeskorte & Kievit, 2013). RSA is grounded in the theory of binding (A. R. Damasio, 1989), which posits that information retrieval in the brain relies on the temporal synchronization of neural networks. Thus, when listeners retrieve a word’s meaning, they must activate brain regions associated with processing both the word and its referent in a synchronized manner (Pulvermüller, 2001). This spatio-temporal coordination enables the recovery of word representations. In this framework, RSA posits that the instantaneous state of a multi-sensor recording captures information retrieval by forming a representational geometry (Kriegeskorte et al., 2008; 8 Kriegeskorte & Kievit, 2013). In a passive word recognition task, for example, the activation pattern across all electrodes in an EEG recording at a specific time point reflects the retrieval of particular aspects of word representation. To verify this, a distance or correlation measure is calculated between responses to identical and different stimuli. Ideally, responses to the same stimuli should be more similar than those to different stimuli. Moreover, because correlations are computed across the array of electrodes, RSA provides a time series of similarity, enabling investigation into the time course of processing. For instance, the time-by-time activation levels in response to the word “dog” should differ from those in response to the word “train”, yet remain consistent across separate instances of “dog”. This pattern arises because processing the same word engages the same brain areas simultaneously, whereas processing different words activates distinct regions. Notably, this methodology has been successfully used to demonstrate prediction by analyzing EEG activity preceding the presentation of the intended preactivated word (Hubbard & Federmeier, 2020; Wang et al., 2018, 2020, 2024; Wei et al., 2023). Generating predictions from constrained contexts Predictions are feasible because the brain infers the most likely upcoming input based on context (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018). Research has shown that the brain can utilize both linguistic and nonlinguistic information as context to generate predictions (Altmann & Kamide, 1999; DeLong et al., 2005; Hubbard & Federmeier, 2020; Kamide et al., 2003; Lowder & Ferreira, 2016). Consider the follow conversation: • You look so tired, what happened? • Last night Bills was barking. To predict the word “barking”, listeners must integrate both linguistic and non-linguistic information. For example, knowing that the speaker’s pet is a dog named Bills makes “bark” a 9 plausible candidate for prediction. Additionally, the adverbial phrase “last night” and the verb “was” help anticipate the morphological form of the upcoming word (verb + ing). In this brief interaction, listeners draw on their familiarity with the speaker and language to form a prediction, even when the context is minimally informative. If the listener is unaware that the speaker owns a dog, they might instead rely on other environmental cues, such as a visual scene (e.g., if the dog is visible) or auditory context (e.g., if barking is heard during the conversation). Thus, depending on the degree of uncertainty introduced by the context, the predictive system may lean more on certain types of information or, in cases of high ambiguity, focus on processing bottom-up input and disregard prediction altogether (Yon et al., 2020). In sentence contexts, uncertainty can be measured using the cloze procedure, where participants complete a sentence with the word, they feel best fits the context. The cloze probability is determined by the percentage of participants who select the same word for sentence completion (Taylor, 1953). For example, a sentence with low uncertainty, such as “the hen laid an egg”, has a high cloze probability (cloze = .99, Rodríguez-Camacho et al., 2011). In contrast, a sentence with high uncertainty, like “yesterday, I bought a pound of eggs”, has a low cloze probability (cloze = .17, Rodríguez-Camacho et al., 2011). Thus, sentences with high cloze probability create a constrained semantic context that facilitates the generation of predictions. Importantly, low-probability sentences do not preclude prediction; rather, they lead to greater variability in responses among participants (Kuperberg & Jaeger, 2016). For example, in the sentence “yesterday, I bought a pound of eggs”, participants also suggested alternative lexical items, such as “tortillas” (0.27), “sugar” (0.14), “rice” (0.10), “beans” (0.05), “apples” (0.04), and “beans” (0.03) (Rodríguez-Camacho et al., 2011). This variability raises at least three possibilities for low-cloze probability sentences: (1) they may not generate predictions (Huettig & Mani, 2016; 10 Pickering & Gambi, 2018), (2) they may generate individual-specific predictions (Becker, 1980; Pickering & Garrod, 2013), (3) they considers multiple lexical candidates based on the preactivation of their general representations (Dell, 2013; Dell & Chang, 2014; Kuperberg & Jaeger, 2016). Although the content of predictions was detailed in the next section, the first possibility— that prediction may not always occur—holds considerable plausibility. Some suggest that prediction enhances language comprehension but is not fundamentally necessary for it (Huettig & Mani, 2016; Pickering & Gambi, 2018). This view is supported by evidence that prediction depends on factors such as linguistic skill, timing, and cognitive resources. For instance, studies have found reduced prediction in bilinguals (Ito et al., 2018; C. D. Martin et al., 2013) and in populations with low literacy (Mani & Huettig, 2014). Additionally, prediction is diminished when stimuli are presented rapidly (Ito et al., 2016; Wlotko & Federmeier, 2012) or when participants have low working memory (Angulo Chavira et al., 2023), slower processing speeds (Huettig & Janse, 2016), or limited vocabulary (Borovsky et al., 2012; Mani & Huettig, 2012). Based on these studies, some authors suggest that predictions are generated only when minimum conditions—adequate information, time, and cognitive resources—are met; otherwise, prediction is absent (Huettig & Mani, 2016; Pickering & Gambi, 2018). Notably, under the predictive coding framework, the predictive system is thought to continuously form expectations about upcoming input (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). However, these expectations may be inaccurate when uncertainty is high— such as when the comprehender lacks sufficient experience or contextual information to generate a reliable prediction. In such cases, the lack of a behavioral prediction effect does not imply an 11 absence of prediction; instead, comprehenders may have generated an alternate prediction, leading to an error that must be propagated to refine future predictions. The ubiquitous nature of prediction in language presents challenges for empirical testing, as it is not easily falsifiable. When a prediction is inaccurate and there is no evidence of prediction, it becomes difficult to differentiate between a true absence of prediction and a mere error in prediction. However, this type of predictive mechanism appears to function effectively in computational models (Friston, 2018; Rao & Ballard, 1999). Furthermore, even if the content of individual sentences in natural language provides limited information for making predictions, comprehenders can draw on multiple cues to generate predictions. These cues include the broader thematic context (Kamide et al., 2003), objects in the visual field (Altmann & Kamide, 1999), and knowledge of the speaker’s intentions (Lowder & Ferreira, 2016). In conclusion, this chapter defined prediction as the preactivation of linguistic information occurring within 200 ms before the presentation of the anticipated word. Prediction relies heavily on both linguistic and nonlinguistic information, with context shaping the type of information that can be predictively accessed. The position adopted here is that prediction serves as an essential mechanism for language comprehension. Consequently, this thesis assumes that comprehenders consistently generate predictions; however, answering our research question aimed to shed light on this topic. 12 Predictive recovering of word representation from the memory As noted in the previous section, context enables word prediction, with the features that can be retrieved from semantic memory depending on both linguistic and nonlinguistic cues. This chapter will examine the structure of semantic memory and the role of contextual information in facilitating the retrieval of word representations. It is noteworthy that most research on word retrieval has stemmed from non-predictive studies; however, the retrieval processes during prediction appear to follow similar principles (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). Semantic and word-form representation in the semantic memory Semantic memory, a component of long-term memory, stores representations of concepts (McRae & Jones, 2012). It encompasses knowledge about words, their meanings, relationships between words, and the rules for organizing and manipulating this information (Tulving, 1972). This memory type is essential for recognizing words and objects, using that information to interpret events, anticipate incoming information, and execute actions (McRae & Jones, 2012). According to the classical view, semantic memory is amodal, meaning it contains abstract information that is independent of the sensorimotor processing involved in bottom-up information processing (Tulving, 1972). However, recent experimental results suggest that retrieving information from semantic memory activates brain regions akin to those engaged during the actual perception of these stimuli. (Pulvermüller, 2001; Pulvermüller & Fadiga, 2010). For instance, when processing the word “hammer”, the brain activates sensorimotor regions related to hand movement, visual areas associated with the object’s appearance, and auditory areas linked to its characteristic sounds. 13 A key aspect of semantic memory is that information is organized according to word features (McNamara, 2004). This organization is often examined through the priming effect, a memory phenomenon where a preceding stimulus influences the processing of a subsequent one (Meyer & Schvaneveldt, 1971; Squire, 2004). For instance, when the word “dog” is presented before “cat”, participants typically respond more quickly and accurately to “cat” than when an unrelated word (e.g., “train”) is presented first. The degree of facilitation reflects the semantic distance between two concepts in memory (Jones, 2010). Semantic priming typically refers to the effect generated by superordinate members within the same category (McNamara, 2004). However, a word can also be primed through various types of relationships, including morphological (Bobb & Mani, 2013), word-form (Dufour, 2008; Slowiaczek & Hamburger, 1992), syntactic (Chang et al., 2006), perceptual (Mani et al., 2013), and associative (Meyer & Schvaneveldt, 1971) information. This discussion will focus on semantic and word-form priming effects, as these are the most researched representations in lexical prediction studies (Huettig, 2015; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013). Semantic relationships are defined as connections between words that share meaning features (McNamara, 2004). Traditionally, these relationships include membership within the same superordinate category (e.g., animal, tool, food). However, they also encompass associative relationships, which are based on the statistical co-occurrence of objects in the world or words in language (McNamara, 2004). Semantic relationships are often measured using word norms, such as feature norms (Buchanan et al., 2019; McRae & Jones, 2012). In these norms, participants list characteristic features of a specific concept. For example, for the concept “dog”, participants might provide 14 responses like “used for protection”, “barks”, “has a wet nose”, “has four legs”, “has fur”, “chases cats”, “an animal”, “a pet”, “a mammal”, and “a carnivore”. Although this task does not fully represent how information is stored in semantic memory, these norms offer a statistical perspective on which features are most relevant to a given concept (Buchanan et al., 2019; McRae & Jones, 2012). Consider the category “bird”: while certain birds, such as pigeons, are commonly associated with this category, others, like penguins, may not be as semantically close. Feature norms provide insights into the degree of relatedness between two concepts (Buchanan et al., 2019; McRae & Jones, 2012). In this example, pigeons likely share more features typical of birds than penguins do, indicating a closer semantic relationship. Cosine similarity can be calculated between two concepts to quantify the strength of their relationship based on shared features. This measure ranges from 0 to 1, where 0 indicates concepts that share no features, and 1 indicates identical concepts. Cosine similarity considers both the shared features and the distinct features between concepts. Alternatively, semantic similarity can be measured using taxonomies such as WordNet (Miller, 1995), a database that organizes information hierarchically based on hypernyms, hyponyms, and coordinate categories. A hypernym is a term with a broad meaning encompassing others; for example, “animal” is a hypernym for “canine” and “feline”. Conversely, “cat” is a hyponym of “feline” but a coordinate category with other felines like “tiger” or “lion”. In WordNet, semantic distance is measured by counting the number of concepts between two words until reaching a common ancestor. However, a limitation of this approach is that concepts like “pigeon” are assigned equal relatedness to “penguin” and “eagle”, even if these birds are conceptualized differently at a psychological level. Thus, while this measure is effective in 15 capturing shared features similar to feature norms, it lacks validity for psychological distinctions among concepts. To address this limitation, semantic distance can be refined using information content— data on word usage within discourse to provide insight into deeper semantic meaning. Concepts are labeled in corpora such as SemCor (Miller et al., 1994), where they are embedded in linguistic contexts, allowing for consideration of co-occurrence frequencies between concepts. This adjusted measure, known as Lin’s similarity, ranges from 0 (unrelated words) to 1 (identical concepts). In this thesis, we favored Lin’s similarity over cosine similarity based on feature norms, as it is available in Spanish through word translations. Feature norms are often limited to certain concepts, which may not always extrapolate effectively to meaning in Spanish. In terms of word form organization, this representation appears to be structured around the phonological and orthographic features of words (Dufour, 2008). Similar to semantic organization, words can be primed by form related words, either through shared onsets or rhymes (Dufour, 2008; Dufour & Peereman, 2003; Mani et al., 2012; Mani & Plunkett, 2010, 2011; Slowiaczek & Hamburger, 1992). For example, “dog” and “doll” are related by onset, while “dog” and “frog” share a rhyme. Certain computational models of lexical access suggest that any similarity in form between words can propagate activation among them (Dell, 1986; Duta & Plunkett, 2021; McClelland & Elman, 1986). Note that this activation is incremental and dependent of temporal order of presentation of the form units, for example, in the visual world paradigm onset effects are presented before rhyme effects (Allopenna et al., 1998; Chow et al., 2022). The similarity between two word forms can be quantified by “edit distance”, which counts the number of insertions, deletions, and substitutions required to convert one string into the other (Yujian & Bo, 2007). For example, “cat” and “cap” have an edit distance of 1, as only one 16 substitution is required, while “cat” and “dog” have an edit distance of 3 due to three necessary changes. This thesis employs a variation called “normalized edit similarity” (Yujian & Bo, 2007), which accounts for string length and scales from 0 to 1, with 0 indicating no shared phonemes and 1 representing identical words. This algorithm can be applied to orthographic strings for orthographic similarity or to phonological transcriptions to assess phonological similarity. Organization of semantic and word-form representations To understand the nature and type of information retrieved during prediction, it is essential to first examine how information is stored and accessed in non-predictive processing. Marslen- Wilson (1987) proposed the cohort model, a speculative model rooted in brain function principles. This model posits that word selection occurs by progressively discarding lexical candidates as new phonological information becomes available during speech perception. For instance, when a speaker begins to say “refrigerator”, the listener discards any candidates not starting with /r/, then further narrows down by rejecting candidates that don’t begin with /re/, continuing this process until reaching the “unicity point”, where the word is uniquely identifiable. However, a limitation of this model is its lack of a correction mechanism for speech errors. If the speaker, for instance, says “rat” instead of “cat”, the word “cat” would be prematurely excluded from the cohort, which would prevent successful identification despite context. Other cognitive models of lexical access propose that word representations are stored within a multilevel network (Anderson, 1983; Collins & Loftus, 1975; Dell, 1986; McClelland & Elman, 1986; Ratcliff & McKoon, 1988). In these models, concepts and word features are represented as nodes, while the connections or relationships between them are depicted as links (Figure 1). These models propose that lexical access occurs across three processing levels: “semantic”, “word, and “form” (Dell, 1986; Levelt et al., 1999). 17 At the semantic level, meaning is interpreted; at the lexical level, syntactic information is incorporated into the word; and at the form level, the sounds of spoken language or visual features of written text are encoded. Each level is organized according to the similarity between features (Figure 1). At the semantic level, organization is based on the degree of similarity between semantically related concepts, where concepts with closer meanings are positioned near each other, while less similar concepts are farther apart. Similarly, the form level is structured into neighborhoods based on shared phonemes or graphemes between words (Caramazza et al., 2001; Jones, 2010; McNamara, 2004; O’Seaghdha & Marin, 1997). Figure 1 Example of a semantic and phonological lexical networks Note. These networks show the semantic (red) and phonological (blue) lexical organization of a 21-months old toddler (Arias-Trejo et al., 2022). Each vertex represents words, and each edge indicates the relationship between words. The thickness of the edges and the distances among nodes indicate the degree of relationships between works. This structure operates independently of whether the task is language production or comprehension, but the main distinction between these processes lies in the activation time course across levels1 (Dell, 1986; McClelland & Elman, 1986). During language production, lexical access starts at the semantic level, where the meaning of the intended word is accessed, and ends 1 Although the comprehension and production systems share a similar structure, they are independent (Hickok, 2013). Neuropsychological evidence has shown that both systems can be affected separately by a lesion causing the so-called Wernicke and Broca’s aphasia. 18 at the phonological level, where phonemes are converted into motor plans for articulation. Conversely, lexical access in comprehension follows an inverse pattern: listeners first decode phonemes from the auditory stream and then access the word’s meaning. Fundamentally, information is transmitted across levels and between concepts through a spreading activation mechanism (Anderson, 1983; Collins & Loftus, 1975; Dell, 1986; McClelland & Elman, 1986). This transmission may occur in discrete steps, as described in the WEAVER++ model (Levelt, 1999). In this model, an activated meaning at the semantic level exclusively activates its corresponding lemmas at the word level, and only the phonological representations of those activated lemmas are retrieved (Figure 2). Figure 2 Fragment of Levelt’s WEAVER ++ model Note. In a normal situation, the information spread discretely, selecting only one lemma and one phonological representation Levelt et al (1999). According to interactive models, information transmission occurs in a parallel, cascading manner. Although the information flow has a general direction, processing can proceed concurrently across levels. Consequently, information progresses to the subsequent level even before processing is entirely finished at the preceding level (Angulo-Chavira & Arias-Trejo, 2018; Chow et al., 2017, 2022; Huang & Snedeker, 2011; Mani et al., 2012; O’Seaghdha & Marin, 1997). Spreading activation is partially automatic but can be influenced by factors such as expectation or attention. Activation can propagate directly (e.g., “forest-wood”) or indirectly (e.g., “forest-chair”) 19 between related concepts within semantic memory (Jones, 2010). The extent of activation spread relies on the strength of connections between concepts and diminishes with both time (since the prime’s presentation) and distance (the number of intermediating elements between two concepts). Figure 3 Fragment of Dell’s interactive model of spreading activation Note. Spreading activation model based on Dell (1986). Spreading activation models are particularly compatible with prediction, as they assume that activation spreads prospectively; thus, related linguistic representations are activated even before the word appears. However, it is important to consider that priming effects can also be explained by retrospective models, in which facilitation arises from identifying the relationship between the prime and the target after both have been processed (Jones, 2010; McRae & Jones, 2012; Neely & Keefe, 1989; Ratcliff & McKoon, 1988). For example, Neely and Keefe (1989) proposed that priming effects emerge only after the target is presented, while Ratcliff and McKoon (1988) argued that the familiarity of prime-target pairs is evaluated in working memory after the target presentation by comparing word pairs with long-term memory. Although retrospective 20 models share a similar lexical representational organization, the difference in timing is essential for this thesis, as “prediction is a matter of timing” (DeLong et al., 2021). Consequently, one could argue that in the visual world paradigm, the presence of the target may not necessarily indicate prediction; instead, participants might simply be matching the sentence context with the most congruent item on the screen rather than genuinely preactivating the target information. Brain basis of the semantic and word-form representations To this point, lexical-semantic organization has been primarily understood at the cognitive level, based on behavioral experiments conducted since the 1970s. While much of our understanding of lexicon organization has been inferred from behavior, recent neuroimaging research provides additional support for these theories. Key brain areas are involved in processing semantic and form representations. For instance, the posterior medial temporal lobes are associated with word recognition, while the anterior inferior temporal lobe is linked to meaning retrieval (Nobre et al., 1994). The word-form level, however, maps to different cerebral regions depending on the modality: the superior temporal sulcus is implicated in phonological processing (Hickok & Poeppel, 2007), and the visual word form area is associated with grapheme encoding (Cohen et al., 2004). Although the temporal lobe plays a key role in word processing, word information is not stored in this region alone; instead, word representations are distributed throughout the brain (A. R. Damasio, 1989; H. Damasio et al., 1996). These networks are organized based on the similarities between words and their referents, such that related concepts activate overlapping networks across the brain (Huth et al., 2016; Quiroga, 2012). For example, words like “hammer” and “shovel” are represented more closely in the brain than words like “hammer” and “cat”, as they share extensive sensory, semantic, perceptual, motor, and functional attributes (Figure 3). 21 This means that while both concepts activate a distributed neural representation, certain brain areas are commonly activated between them (Quiroga, 2012). Figure 3 Model of representations of concepts in the brain Note. Hypothetical representation of concepts in the brain. Related concepts share some (purple), but not all (red and blue), neuronal groups in their representation, whereas unrelated objects have distinct representations (green). This type of organization aligns with the concept of "concept cells" in the temporal lobe (Quiroga, 2012). These cells are multimodal, responding to specific concepts regardless of the modality of presentation. For example, the same group of cells may respond to the concept dog whether it is presented as a visual image, a printed word, or an auditory cue. Furthermore, a subset of cells related to one concept can also respond to associated concepts, such as cat in relation to dog. This response pattern is theoretically grounded in Hebbian principles: when two concepts frequently co-occur, the corresponding groups of cells are repeatedly activated together, strengthening links between these neuron groups (Messinger et al., 2001). This linking mechanism can be attributed to neural processes like long-term potentiation and long-term depression, where frequently used links are reinforced, and infrequently used links are weakened (Hagena & Manahan-Vaughan, 2024). 22 Predictive recovering of word representations As stated in previous sections, it is assumed here that the preactivation of lexical representations follows the same principles as non-predictive activation; however, this retrieval process is context-dependent, allowing different levels of processing to be preactivated. Certain contexts enable the prediction of upcoming semantic information, while others allow for predicting the grammatical category or even just the form of the next word (DeLong et al., 2019). The following section reviews previous research that demonstrates lexical preactivation across various levels of representation. At the semantic level, research has shown that listeners can preactivate the general meaning of words (Altmann & Kamide, 1999; Angulo-Chavira et al., 2022; Arias-Trejo et al., 2019; Kamide et al., 2003; Kukona et al., 2011). For instance, in Altmann and Kamide’s (1999) study, participants viewed a complex array of objects (e.g., a boy, cake, ball, train, and car) while listening to sentences that directed attention toward specific objects. In one condition, participants heard sentences like “the boy will eat the…” or “the boy will move the…”. Upon hearing the verb “eat”, but before hearing the word “cake”, participants began to fixate on the object “cake” (considered predicted fixations). Importantly, participants did not predictively fixate on "cake" when they heard the verb “move”. This suggests that sentence information, such as the verb, can constrain prediction to a general category (e.g., food). Although the visual context may amplify the verb’s restrictive effect, it remains unclear whether participants specifically predicted “cake” as the target item. Additionally, evidence supports the predictive retrieval of perceptual features of words. Rommers et al. (2013) presented participants with sentences that strongly suggested a specific ending, such as “In 1969, Neil Armstrong was the first man to step on the….” Alongside these 23 sentences, participants viewed a 2x2 grid of images, which included three distractors (e.g., a bowl, fire, bag) and one critical image that was either the anticipated target (e.g., “moon”), a competitor resembling the target’s shape (e.g., “tomato”), or an unrelated distractor (e.g., “rice”). Participants predictively fixated on both the expected target and the shape-related competitor, but not on the unrelated distractor. This suggests that participants may have retrieved a visual representation of “moon” and subsequently activated shape-related concepts like “tomato”. Here, participants could access this information due to the constraint generated by encyclopedic knowledge (e.g., learned associations with “moon”). Thus, while the linguistic elements were not narrowly restricted, the sentence’s broader meaning constrained attention to the concept “moon”. Moreover, certain syntactic features, such as grammatical gender, can be retrieved using contextual cues (C. D. Martin et al., 2018; Otten et al., 2007; Otten & Van Berkum, 2008; Wicha et al., 2004; Wlotko & Federmeier, 2012). Martin et al. (2018) examined the N400 component prior to the critical word in highly constraining Spanish sentences, such as “El rey llevaba en la cabeza una corona Antigua” [The King wore an ancient crown on his head] and a control sentence, “El rey llevaba en la cabeza un sombrero antiguo” [The King wore an ancient hat on his head]. In Spanish, the articles “una” (feminine) and “un” (masculine) signal grammatical gender [both meaning a/an], with “una” suggesting an upcoming feminine noun, and “un” a masculine one. Here, the context provided by the words “rey” [king], “cabeza” [head], and “llevaba” [wore] was sufficiently restrictive to predict “corona” [crown], a feminine noun, rather than “sombrero” [hat], a masculine noun. Results showed a higher N400 amplitude for the grammatically unexpected article than for the expected one. This outcome suggests that participants anticipated the feminine word “corona”, as both feminine and masculine articles are syntactically congruent with the 24 sentence’s continuation, meaning the effect could only be due to predictive processing of the target gendered noun. Likewise, context can be leveraged to predict phonological word forms (Ito, 2024). In a seminal study, DeLong et al. (2005) investigated the N400 response to articles preceding expected nouns. Participants heard highly constrained sentences like “The day was breezy, so the boy went outside to fly a/an kite/airplane”. Although both “kite” and “airplane” fit the context, “kite” was more expected. Importantly, the initial sounds of these words differed: “kite” starts with a consonant, and “airplane” with a vowel. Consequently, the articles “a” and “an” generated phonological expectations— “an” implies an upcoming vowel sound, and “a” implies a consonant sound, even though both articles are syntactically appropriate. Results indicated that the N400 amplitude increased when the article was incongruent with the initial sound of the expected word, suggesting that listeners anticipated phonological aspects of upcoming words. However, DeLong’s findings were not replicated in a large-scale study conducted by Nieuwland et al. (Nieuwland et al., 2018). Other researchers, however, have shown evidence of word-form prediction using the visual world paradigm (Ito et al., 2018; Ito & Sakai, 2021; Kukona, 2020; Li et al., 2022). A recent meta-analysis by Ito (2024) confirmed that form prediction is a reliable, though modest, effect. Finally, evidence suggests that specific lexical items can be preactivated and retrieved through the temporal synchronization of different brain regions (Hubbard & Federmeier, 2020; Wang et al., 2018, 2020, 2024; Wei et al., 2023). Wang et al. (2018) employed magnetoencephalography (MEG) along with representational similarity analysis (RSA) in the context of highly constrained sentences. They presented sentence pairs that guided listeners toward the same target word, such as “In the crib, there is a sleeping baby” and “In the hospital, there is a newborn baby,” or “To keep the food fresh, the family bought a new fridge” and “To prevent the 25 milk from going bad, mum put it in the fridge.” RSA was then used to assess the similarity between sentences predicting the same word (within-pairs: baby-baby, fridge-fridge) compared to different words (between-pairs: baby-fridge). The primary focus was on the MEG activity in response to the penultimate word, preceding the expected target (e.g., “sleeping”, “newborn”, “new”, “the”). Results showed a significant increase in representational similarity for within-pairs compared to between-pairs, indicating lexical preactivation specific to the expected word. Notably, this MEG effect was observed only for the penultimate word and not for the final target word itself. Wang’s (2018) research demonstrated not only that a specific lexical item can be predicted but also that this preactivation involves the synchronization of distributed brain networks. This finding supports the idea that predictive retrieval relies on mechanisms similar to those in non-predictive lexical processing. Consequently, it suggests that retrieval might involve the preactivation of not just a single item but also of related items based on their semantic and form properties. Supporting this, Wei et al. (2023) examined phonological prediction using representational similarity analysis and found that after presenting a syllable, participants showed increased EEG similarity when the following syllable was identical, compared to when it was different. These results indicate that readers can predict word-forms in considerable detail. In summary, this chapter presented evidence on the neural basis of lexical access in both predictive and non-predictive processes. Preactivation of a word involves retrieving its semantic and phonological representations. In non-predictive theories of lexical access, these representations are stored across distinct processing levels and retrieved in varying sequences depending on whether the process is production or comprehension, often engaging coactivation of multiple related representations. The next chapter will outline models of prediction in language comprehension. 26 Theories and mechanisms of predictive processing in language comprehension The predictive processing framework in general cognition explains how the brain generates and utilizes predictions in domains such as perception and motor control. In these areas, researchers can directly assess prediction accuracy, as behaviors and neural responses provide measurable outcomes of the brain’s anticipatory processes. For example, in motor control, neural signals and motor responses can be compared with intended actions, offering direct evidence of predictive mechanisms in real-time. In language comprehension, however, predictive mechanisms are less directly observable. Researchers must rely on behavioral and neural data as indirect evidence of underlying prediction processes. Measures such as eye movements or reaction times may suggest anticipation of upcoming words, but they do not clearly reveal the specific predictions or processing mechanisms at play. For instance, if participants predict the word “eggs” following the sentence context “The hen laid…,” it remains unclear which word representations were activated, how these representations were accessed, and whether only one prediction or multiple lexical candidates were considered simultaneously. These and other questions make it challenging to establish a unified theory of prediction in language comprehension. Assuming that prediction is a core principle of the human brain, some researchers have extended this general predictive principle to language processing (Kuperberg & Jaeger, 2016; Ryskin & Nieuwland, 2023). For instance, Kuperberg and Jaeger (2016), drawing on the predictive coding framework, proposed that prediction in language comprehension is both probabilistic and hierarchical. In this model, higher hierarchical levels generate predictions that are transmitted to lower levels, while lower levels send prediction errors back to higher levels to refine future predictions (Figure 4). According to Kuperberg and Jaeger (2016), these hierarchies are organized 27 according to the granularity of language processing: at the top are broader themes or topics, while at the lowest levels are sensory perceptions, such as acoustic or visual features. Between these extremes lie intermediate levels of processing, including syntactic, semantic, lexical, and phonological stages. Figure 4 Hierarchical Prediction in Language Comprehension Based on the Predictive Coding Framework Note. This figure was constructed based on the hierarchical models proposed by Kuperberg and Jaeger (2016), and Ryskin and Nieuwland (2023). Although it is biologically plausible that language processing follows the same principles as other cerebral processes, Kuperberg and Jaeger (2016) do not explain the mechanisms underlying the retrieval of these representations, how predictions are transmitted across processing levels, or the possibility of multiple predictions at each level. To my knowledge, only three theories in language comprehension propose specific mechanisms for prediction. Chronologically, the first model by Dell and Chang (2014) is based on a computational algorithm. The second, proposed by Pickering and Garrod (2013), is entirely theoretical, and the third by Pickering and Gambi (2018) is largely theoretical as well. These models suggest the involvement of three predictive mechanisms: prediction-by-production, prediction-by-simulation, and prediction-by-association. Additionally, the combinatorial mechanism has been proposed; however, it will be described briefly, as it is more relevant to the 28 selection of the grammatical class of the upcoming word rather than the retrieval of specific word semantics and form information (Chang et al., 2006; Dell & Chang, 2014; Huettig, 2015). Prediction-by-production mechanism The P-chain model Figure 5 presents a visual representation of the P-Chain model proposed by Dell and Chang (2014). The central premise of this model is that prediction relies on the production system, excluding articulation. This approach is grounded in the time course of the production system, where producing a word requires first retrieving its meaning at the semantic level, followed by phonological retrieval, which is then transformed into motor commands for articulation (Dell, 1986). According to the P-Chain model, prediction mirrors this processing path: the language system uses context to access the intended meaning at the semantic level, integrates this information into a word representation, and subsequently retrieves the phonological properties of the word (Dell & Chang, 2014). In the P-Chain model, prediction error is essential not only for word acquisition but also for the development of semantic memory. This model accounts for the structured, non-random nature of errors, which are typically semantic or phonological in speech (Dell, 1986). For instance, errors may involve substituting a word with another from the same category (e.g., calling a teacher “mom”) or with a similar sound (e.g., saying “lettuce” instead of “letter”). Since these errors are non-random, they could represent valid future predictions and thus are stored close to related concepts in semantic memory. This learning is implicit—generated by the system itself rather than by instruction—and supports the acquisition of new words (or linguistic skills) and their integration into semantic memory. Consequently, prediction errors and corrections actively shape semantic memory organization. For example, if one frequently confuses “cat” and “dog”, these 29 words would form a connection in semantic memory, potentially becoming plausible continuations in predictive contexts. Figure 5 P-Chain model Note. Figure based on Dell and Chang (2014). The P-Chain model builds on the dual-path computational model developed by Chang et al. (2006), which is designed to predict the next word in a sequence. This model’s architecture features two distinct pathways: the sequencing path and the meaning path. The sequencing path functions as a combinatorial mechanism, selecting the optimal grammatical structure for the upcoming word. In contrast, the meaning path is responsible for selecting the correct meaning based on the preceding context. Dell and Chang (2014) argued that that the dual-path model supports prediction during both language comprehension and language production by utilizing the same underlying process: the continuous generation of the upcoming word. In language comprehension, the model predicts what comes next based on context, grammar, and meaning, effectively simulating the production process internally. This internal simulation allows the system to anticipate and interpret incoming words, making comprehension more efficient and responsive to context. In language production, the model similarly relies on predicting the next word to 30 construct coherent sentences, using the sequencing and meaning paths to guide accurate word choice and structure. Thus, the dual-path model creates a unified mechanism for prediction, where the act of “producing” the next word is central to both understanding and generating language, aligning comprehension and production within a single predictive framework. Pickering and Gambi’s model The model proposed by Pickering and Gambi (2018) introduces two mechanisms: prediction-by-production and prediction-by-association (Figure 6). Pickering and Gambi extend the prediction-by-production mechanism outlined by Dell and Chang (2014), adding details on how this mechanism processes context. According to Pickering and Gambi (2018), prediction-by- production is the most effective approach, as it incorporates linguistic and nonlinguistic context, past experiences, and the speaker’s intentions to generate predictions. However, this mechanism is also slow, cognitively costly, and optional, operating only when there is sufficient time and cognitive resources available. Figure 6 Prediction-by-production model Note. Figure based on Pickering and Gambi (2018). 31 Skipper et al. (2017) argue that the involvement of the production system in predictive language comprehension is linked to its flexibility in translating any context into sound units. In production, specific words must be chosen to convey the intended meaning, and these selected words are then transformed into articulatory plans. This selection and translation process is repurposed during language perception, where a top-down signal uses the production system’s functions to select meaning, words, and sounds. This process ultimately facilitates the interpretation of upcoming auditory information. In contrast, the prediction-by-association mechanism is quick, low in cognitive resource demands, and operates automatically. However, Pickering and Gambi (2018) argued that prediction-by-association is less effective because it doesn’t account for context, relying solely on the words in the speaker’s message. This mechanism is based on spreading activation (as described in previous chapters). For instance, in the sentence “the hen laid an egg”, the word “egg” may be predicted due to activation spreading from “hen”. However, other related words, such as “chicken”, could also be preactivated, even if they are not congruent with the sentence context. Furthermore, Pickering and Gambi (2018) outline three stages in the predictive process during comprehension (Figure 6): covert imitation, derived intention, and production implementation. The process functions as follows: upon receiving a message, the “comprehension implementer” processes and integrates the linguistic context, where prediction-by-association operates by preactivating possible related concepts. Next, this comprehension signal is converted into production representations to activate the prediction-by-production mechanism (covert imitation). In the derived intention stage, the prediction is refined as linguistic, extralinguistic, and shared background information constrain activation to preactivate only coherent lexical 32 candidates. Finally, the production implementer preactivates the intended upcoming input, retrieving semantic information first, followed by syntactic and phonological information. This entire process takes approximately 600 ms—the same time it takes to produce a word (Indefrey & Levelt, 2004; Levelt, 1999). This dynamic resembles the cohort model discussed in the previous chapter (Marslen-Wilson, 1987), where the predictive system incrementally rules out lexical representations as it gathers evidence toward the correct prediction, prioritizing semantic eliminations first, followed by phonological ones. Evidence supporting prediction-by-production mechanism There is substantial correlational and indirect evidence supporting the prediction-by- production mechanism. Federmeier (2007) argued that high interconnectivity between production and comprehension areas in the left hemisphere suggests strong interaction between these processes. Additionally, studies have found correlations between production skills and prediction abilities, such as productive vocabulary in children (Mani & Huettig, 2012) and verbal fluency in adults (Huettig & Janse, 2016). However, in my view, the most compelling evidence for the involvement of the production system in prediction during language comprehension comes from Martin et al. (2018). They measured the N400 response to determiners in highly constrained sentences to assess the prediction of the grammatical gender of the noun following the determiner. The critical aspect of this research was that participants were asked to either produce a syllable, make a non-linguistic sound with the tongue, or listen to a prerecorded syllable. The results showed that participants exhibited a gender prediction effect in all conditions except the one involving syllable production. The authors argued that engaging the production system exclusively for syllable production prevented it from being 33 available for predictive processing, suggesting that prediction could not be implemented when the production system was occupied. Prediction-by-simulation mechanism Pickering and Garrod (2013) proposed two mechanisms: prediction-by-association, similar to the one described by Pickering and Gambi (2018), and prediction-by-simulation. The prediction-by-simulation mechanism relies on the comprehender’s production experience to anticipate what the speaker might say next (Figure 7). Essentially, when a comprehender receives a message, prediction-by-simulation predicts the most likely word the comprehender would say in that context. This requires the comprehender to covertly imitate the received message, engaging a production-like system specialized in prediction. This production-like predictive system creates a forward model that simulates the context, including a prediction of the intended message. Pickering and Garrod (2013) posit an additional system because the standard production system is too slow for timely predictions and online correction. To achieve the necessary speed, this production-like system generates simplified representations of the upcoming inputs. Figure 7 Prediction by simulation model Note. Adapted from Pickering and Garrod (2013). A key feature of the simulation system is that it predicts all information simultaneously. Because the system assumes that the comprehender would produce the same information in a similar context, it generates a complete prediction. Thus, when the upcoming word is retrieved, it comes with all its associated representations—semantic, syntactic, and phonological—activated at once. 34 Evidence supporting prediction-by-simulation mechanism Indirect evidence suggests that facial muscles involved in sound production activate when participants are exposed to speech sounds, but not when exposed to non-speech sounds (Fadiga et al., 2002). This activation indicates that the motor system may covertly engage in processing incoming speech, mirroring the articulatory movements required to produce those sounds. Similarly, brain areas associated with phoneme production, particularly in the left hemisphere, are active during both speech production and comprehension, indicating a shared neural foundation between these processes (Pulvermüller & Fadiga, 2010). Kamide et al. (2003) provide empirical evidence for prediction by simulation through the visual word paradigm. In Experiment 2, participants listened to sentences such as “The man is going to ride the motorcycle” or “The girl is going to ride the carousel” while observing a scene with these and other irrelevant objects. Results showed that participants directed their attention in advance toward the most plausible object (e.g., the motorcycle for the man and the carousel for the girl) before the object was explicitly mentioned in the sentence. This suggests that listeners use both the verb’s semantic constraints and contextual role knowledge to internally “simulate” the event described by the speaker. By mentally activating a representation of the likely action, listeners anticipate the next referent and adjust their visual attention accordingly. These findings support the theory that language processing involves mental simulation mechanisms, where the internal production system allows listeners to foresee upcoming content in the discourse. Prediction-by-association mechanism The prediction-by-association mechanism builds on extensive research on priming and lexical organization since the 1970s (Figure 2). Although there has been debate on whether priming 35 itself constitutes prediction (Kuperberg & Jaeger, 2016), in a broad sense, processing a word can indeed preactivate other words, including anticipated ones (Dell & Chang, 2014; Pickering & Gambi, 2018; Pickering & Garrod, 2013). As previously discussed, this type of prediction follows a Hebbian rule, where co-occurring information tends to activate each other. This applies not only to associative relationships in discourse but also to taxonomic and even form-based features (Dell, 1986; McClelland & Elman, 1986). The core idea of this mechanism is that each processed word triggers a cascade of activation across related words, with the most probable word receiving the highest activation, facilitating its predictive retrieval. Pickering and Gambi (2018) argued that prediction-by-association is less efficient than prediction-by-production because activation spreads freely through the lexical network. As a result, activating one concept leads to the coactivation of all related concepts, even if some are not congruent with the sentence context. Evidence supporting prediction-by-association mechanism The effect of predictive coactivation was demonstrated by Kukona et al. (2011), who presented sentences with a subject-verb-object structure, such as “Toby arrests the crook”. Participants viewed an array of images that included the agent (e.g., police), the patient (crook), and distractors. Notably, participants fixated not only on the “crook” but also on the “police”, even though the “police” was the agent and had already been mentioned. Kukona et al. (2011) suggested that both mechanisms—active prediction and thematic priming—operate simultaneously, with predictive processing coactivating related concepts based on both prediction and thematic roles. The study by Kukona et al. (2011) appeared to support the notion that prediction-by- association is a less efficient mechanism for prediction. However, Kukona (2020) later questioned this assumed inefficiency, arguing that “preactivation is necessarily linked to the spreading 36 activation”, as the free flow of activation adjusts the activation levels of potential upcoming words. This conclusion was reinforced by two experiments using the visual world paradigm. In Experiment 1, participants were presented with highly constrained sentences, such as “In order to have a closer look, the dentist asked the man to open his mouth”, while viewing a visual array containing the target (mouth), a phonological competitor (mouse), and two unrelated distractors (bone, sock). Results indicated a strong predictive effect: after hearing the associated word “dentist”, participants predictively fixated on images, showing more fixations on the phonological competitor (mouse) than on unrelated distractors. Since these fixations occurred before hearing the auditory target “mouth”, Kukona interpreted this as evidence of word-form prediction, suggesting that “dentist” activated “mouth”, which then spread activation to the phonologically related word “mouse”. In Experiment 2, the same visual stimuli were used but without full sentences; participants only heard the word “dentist” while viewing the image array. Results mirrored those of Experiment 1, with participants showing a similar fixation pattern in response to the word “dentist” alone. These findings suggest that prediction-by-association may support general predictive processes, even within the prediction-by-production framework, by enhancing overall activation levels across related words and facilitating predictive processing. Prediction-by-association also finds support in computational modeling. Inspired by Elman’s Simple Recurrent Network (SRN) model, Altmann and Mirkovic (2009) argued that listeners interpret linguistic input by actively anticipating upcoming words and structures, mapping unfolding sentences onto mental representations of real-world events. In this framework, recurrent connections allow the network to retain information about prior states, enabling the processing of current input in the context of both linguistic and non-linguistic cues. As language unfolds over time, both linguistic and situational contexts—such as visual scenes or discourse history—interact 37 within the network to activate learned associations between words, thematic roles, and likely events. These associations reflect common linguistic patterns, where words evoke representations of frequently co-occurring entities and actions (e.g., “eat” evokes edible items), allowing listeners to anticipate lexical items and event structures based on experience. This model supports the idea that language comprehension relies on predictive associations encoded within recurrent networks and refined through continuous exposure to language and the environment, rather than on symbolic prediction mechanisms. Similarly, Kukona et al. (2014) proposed a self-organizing neural network model addressing the integration of lexical information with sentence context through a balance of bottom-up interference and feedback connections. In this model, sentence comprehension unfolds incrementally through a network of autonomous processing units that interact through continuous bidirectional feedback, allowing the system to generate anticipatory fixations and manage temporary activations of contextually irrelevant meanings. Bottom-up interference occurs when initial lexical input activates multiple possible meanings or associations, even those conflicting with the sentence context. Feedback mechanisms, however, enable the network to gradually resolve these conflicts by reinforcing contextually appropriate meanings. This self-organizing structure suggests that prediction is achieved by a network of associative activations that reflect learned relationships between words and contexts, dynamically balanced by bottom-up interference and contextual feedback. Multiple predictive mechanisms approach Up to this point, each predictive mechanism has been described as mutually exclusive. However, even within each framework, these mechanisms often interact to some degree. For example, Dell and Chang (2014) emphasize that both combinatorial and associative mechanisms 38 are necessary for making predictions. Similarly, Pickering and Garrod (2013) argue that simulation and associative mechanisms operate simultaneously. In contrast, Pickering and Gambi (2018) propose a two-stage prediction model, where the associative mechanism is employed first, followed by the prediction-by-production mechanism. Huettig (2015) argued that the brain draws on four distinct but interconnected mechanisms: production-based, association-based, combinatorial-based, and simulation-based prediction. Each of these mechanisms offers unique benefits, making it possible for the brain to anticipate language across a variety of contexts. The production-based prediction mechanism involves using the brain’s own language production system to anticipate what another speaker might say. This process is similar to mentally completing someone else’s sentence, allowing for highly specific and detailed predictions about upcoming words. Listeners can anticipate not only individual words but also the phrasing and structure likely to follow, creating a detailed mental representation of the speaker’s potential utterances. The association-based prediction enables the brain to anticipate language with speed and accuracy in familiar contexts, particularly when linguistic elements are consistently linked through repeated experience. The combinatorial-based prediction uses syntactic and semantic structure to guide its expectations of upcoming language. This combinatorial mechanism is particularly useful in complex sentences, where associative memory alone might not provide enough context to anticipate upcoming words. Finally, simulation-based prediction enables the brain to predict language based not only on words but also on broader contextual elements, particularly when there are references to shared visual scenes or familiar actions. Huettig’s (2015) model emphasizes that these mechanisms are not isolated but instead interact dynamically, forming a flexible system that adapts to different linguistic contexts. 39 Associative priming can make word retrieval faster, supporting combinatorial processing, while event simulations can activate specific associations between events and relevant words. Furthermore, the model suggests that context determines which mechanisms are most prominently engaged. For example, in spontaneous conversation, the brain may rely more on simulation and production mechanisms, while in structured or predictable settings, combinatorial and associative mechanisms might dominate. In summary, Huettig’s (2015) model illustrates that predictive language processing is the result of multiple, interconnected pathways. Each mechanism provides distinct advantages that allow for rich, context-sensitive predictions, ultimately supporting a robust and adaptable system for understanding language. Time course of preactivation of semantic and form representation It is important to note that each predictive mechanism assumes different trajectories for the retrieval of semantic and form representations. For instance, the prediction-by-production mechanism (Pickering & Gambi, 2018)(Pickering & Gambi, 2018) proposes a hierarchical predictive retrieval where semantic representations are accessed before form representations. Crucially, form prediction is entirely dependent on prior semantic prediction. Additionally, this mechanism is optional; if semantic prediction fails, form prediction would not be generated. Similarly, if the comprehender has limited time or cognitive resources, they might predict only semantic information, omitting form details. Accordingly, if comprehenders employ this mechanism, they should first predict semantic information, followed by form information if time permits. Given the time demands of prediction-by-production (approximately 600 ms) due to its reliance on the production system, there may be around a 300 ms delay between the retrieval of semantic and form information (Indefrey & Levelt, 2004). 40 In contrast, prediction-by-association does not presuppose a specific sequence for retrieving information, as activation spreads freely throughout the lexical-semantic system (Dell, 1986). However, a trajectory can be inferred based on the semantic coherence of words within a sentence’s context. Even if each word in a sentence produces inaccurate form-level predictions, they tend to converge at the semantic level. For instance, in a sentence like “In the farm, the hen laid eggs”, individual words may elicit different form predictions, yet words like “farm” and “hen” converge on the concept “egg” at the semantic level, subsequently activating its phonological representation, assuming these representations are distinct (Dell, 1986). A key difference from prediction-by-production is timing: spreading activation is theoretically much faster process (Pickering & Gambi, 2018). Therefore, the temporal gap between semantic and form activation should be significantly shorter in prediction-by-association than in prediction-by-production. Finally, prediction-by-simulation assumes that all information related to the upcoming word is retrieved simultaneously (Pickering & Garrod, 2013), as the forward model predicts the exact word the comprehender would produce in the same context. This simultaneous retrieval includes semantic, syntactic, and phonological representations, generated as a cohesive prediction of the anticipated word. While strong theories exist regarding how semantic and form representations are retrieved, limited information is available on their exact time course, most of which comes from non- predictive paradigms (DeLong et al., 2019; Heilbron et al., 2022; Ito et al., 2016). For instance, Heilbron et al. (2022) analyzed electroencephalographic responses to audiobooks using a deep neural network algorithm to compute the phonological and semantic "surprise" of target words based on preceding context. Their findings indicated that phonological surprise induced earlier activation changes than semantic surprise. Additionally, they modeled phoneme prediction by 41 calculating occurrence probabilities using either the overall frequency of phonemes or conditional probabilities constrained by context. The model that best predicted phonemes relied on conditional probabilities, suggesting a hierarchical processing structure where context constrains phonological prediction. This study supports the idea that context may limit potential lexical candidates at the phonological level. However, it remains unclear if this constraint arises from initial semantic preactivation, reducing possible candidates. Additionally, while phonological information seems to be processed earlier than semantic information, it is uncertain if this order relates to prediction, as it occurs post-presentation of the preactivated target word. Ito et al. (2016) examined the N400 component in response to highly constrained sentences, such as “The student is going to the library to borrow a…”, followed by a predictable word (“book”), a phonologically related word (“hook”), a semantically related word (“page”), or an unrelated word (“sofa”). They tested different stimulus onset asynchronies (SOAs) of 500 ms and 700 ms to assess the impact of time on prediction. Their findings showed a reduction in the N400 component for semantically related words, but not for phonologically related words, at the shorter SOA. At the longer SOA, however, the N400 reduction appeared in both semantic and phonological conditions. The authors concluded that phonological predictions require more time to develop, suggesting that phonological predictions occur later in processing than semantic ones. In contrast, DeLong et al. (2019), using a 500 ms SOA, found an N400 reduction for both semantic and phonological conditions, indicating a similar time course for semantic and phonological processing. Notably, both studies (DeLong et al., 2019; Ito et al., 2016) evaluated N400 activity after the presentation of the stimuli, which may reflect processes involved in sentence reanalysis or prediction error processing, rather than pure preactivation (Bornkessel- Schlesewsky & Schlesewsky, 2019). 42 The only study that directly investigates predictive retrieval of semantic and form information is by Wang et al. (2024)2, who used RSA on sentence pairs that predict a specific word (e.g., bank as a financial institution), a semantically related word (e.g., loan), or a homograph (e.g., bank as in bank of fish). Their results showed an early increase in representational similarity between semantically related words, followed by a later increase between homographs. Wang et al. (2024) interpreted this 300 ms gap between effects as support for the prediction-by-production mechanism. However, this interpretation may be premature, as the delay could be attributed to homographs generally requiring more time to process due to semantic interference (Azuma et al., 2004; Ferrand & Grainger, 2003). This interference may slow the retrieval of homographs during prediction, rather than directly supporting a prediction-by-production. In conclusion, this chapter outlined the theoretical mechanisms for generating predictions: prediction-by-production, prediction-by-simulation, and prediction-by-association. However, several open questions remain, particularly the need for more detailed understanding of the time course of semantic and phonological preactivation. 2 Note that this article was published in the same year that the ending of this thesis. 43 Problem statement A challenging aspect of language comprehension is real-time speech processing, which requires the incremental integration of different types of information. To address this challenge, it has been hypothesized that people continually create predictions about the upcoming linguistic information (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). Studies using the eye tracker and electroencephalography have provided evidence that supports language prediction at multiple levels of representation (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). At the semantic level individuals have been able to predict thematic- related information or the superordinate category (Altmann & Kamide, 1999; Grisoni et al., 2017, 2021; Hubbard & Federmeier, 2020; Van Petten & Luka, 2012; Wang et al., 2018, 2020); at the word form levels, they can predict the word form such as the phonemes or graphemes of the word (DeLong et al., 2005; Dikker et al., 2010; Ito et al., 2018; Ito & Sakai, 2021; Kukona, 2020). Three mechanisms have been theorized for prediction: prediction-by-production, prediction-by-simulation, and prediction-by-association (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018)(Pickering & Garrod, 2013). The prediction-by- production mechanism assumes that the prediction during language comprehension is generated by using the production system (Dell & Chang, 2014; Pickering & Gambi, 2018). Thus, the prediction follows production-like lexical access from semantic to form representations, but in a slow pace. The prediction-by-simulation mechanism assumes that the predictions are created via forward models that contain the information about what the comprehender would predict in the same situation based on a cover imitation process (Pickering & Garrod, 2013). In this mechanism, both semantic and form representations are retrieved simultaneously. By contrast, prediction-by- association is based on the spreading activation mechanism (Dell & Chang, 2014; Kuperberg & 44 Jaeger, 2016; Pickering & Gambi, 2018), which consists in the propagation of activation between related word representations (Collins & Loftus, 1975; Dell, 1986). In this mechanism, the spreading of activation has not direction, but it is reasonable to assume a fast recovery from semantic to form representations (Kukona, 2020). Noteworthy, there is scarce evidence about the preactivation of semantic and word representation (Ito et al., 2016; Heilbron et al., 2022; DeLong et al., 2019; (Wang et al., 2024). Therefore, this thesis aims to shed light on the directionality of the prediction mechanisms during language comprehension. Utilizing the visual word paradigm and representational similarity analysis applied to electroencephalography data, we aim to unravel the temporal dynamics of predictive processing. We postulate that through this approach, we can effectively trace the flow of information between semantic and form levels, delineating the activation path involved in each prediction mechanism. The findings of this research have the potential to significantly contribute to our understanding of the cognitive mechanisms underlying language prediction. 45 Main aim To explore the temporal retrieval of both semantic and word-form representations in high- constraint sentences. Specific aims 1. To construct a corpus of sentences that vary in their level of restriction towards the final word. 2. To examine the progression of predictive activation for both semantic and phonological information using the visual world paradigm in an eye-tracking. 3. To explore the progression of predictive activation of semantic and orthographic information during sentence reading tasks using representational similarity analysis on electroencephalographic recordings. Main hypothesis The semantic representation will exhibit earlier predictive activation compared to the word- form representation. Specific hypothesis 1. Before hearing the expected word embedded in a highly constrained sentences, participants initially direct their gaze towards a picture semantically related to the expected word; then, they will shift towards the picture phonologically related to the expected word. 2. Prior to encountering the expected word in a highly constrained sentence presented discretely, there will be an increase in the similarity of electroencephalographic signals for highly semantically related expected words; subsequently, there will be an increase in the similarity of electroencephalographic signals for highly orthographically related expected words. 46 Method Ethical considerations All procedures described in this thesis were conducted according to the Norma Oficial Mexicana [Official Mexican Standards] NOM-012-SSA3-2012 and Helsinki’s declaration for human research. They were approved by the Comité de Ética de la Facultad de Psicología de la Universidad Nacional Autónoma de México [Ethics Committee of the Faculty of Psychology of the National Autonomous University of Mexico] with the approval number: FPCE_ 21012021_H_AC. The face-to-face experiments were carried out when the Government and the University consider them to have a minimal risk of contagion of the SARS-COV2 virus. Consequently, all participants accepted the terms of the research before the experimental procedures started which included information about any risk to their physical or psychological health and the use of their data for research purposes. Furthermore, a strict sanitary protocol was followed. Experiment 1: Corpus of sentences endings Several prior studies have compiled corpora of constrained sentence endings in languages other than Mexican Spanish (Block & Baldwin, 2010; Bloom & Fischler, 1980; Brothers & Kuperberg, 2021; Lahar et al., 2004); however, cloze probabilities cannot be directly transferred across languages and cultures. Even simple sentences can introduce complications. For example, consider the sentence: "The firefighter noticed there was smoke coming out of the chimney of the house." In Mexico, houses typically lack chimneys, so the predictability of "chimney" would likely be lower than in regions where chimneys are common. Additionally, in Spanish, "chimney" ("chimenea") is marked for gender and number, so the preceding article "the" [la] conveys grammatical gender and singularity. This increases the predictability of "chimenea" in Spanish, as 47 the predictive system can exclude certain lexical candidates based on gender or number. Thus, in this example, translation alters the predictability of the word. To the best of my knowledge, only one normative study in Mexico has used a sentence completion task with school-aged children (Rodríguez-Camacho et al., 2011). Although this corpus is valuable for research involving children, it presents certain limitations for the current study. First, because prediction is experience-dependent, it cannot be assumed that sentence endings are similar between children and adults. Vocabulary typically expands with age (Wulff et al., 2019), meaning adults may complete sentences with different words than children. Second, the previous corpus included only 278 sentences, with just 47 having a cloze probability higher than .90. This limited number of highly constrained sentences restricts variability when selecting enough words that are semantically and form-related. Another Spanish sentence completion norm was developed by McDonald and Tamariz (2002), comprising 112 sentences with varying levels of cloze probability. However, this corpus also poses challenges due to cultural and dialectal differences. For instance, lexical variations exist, such as the national currency— “euro” in Spain versus “peso” in Mexico. In a sentence like "In my wallet, I don’t have a single _," respondents from different countries would complete it differently. Additionally, pronunciation differences affect phonological processing; for example, words like “zapato” and “salón” are pronounced differently in Spain (with /θ/ and /s/ for the initial sounds, respectively), whereas in Mexico, both words start with the phoneme /s/. This phonological variation allows Mexican speakers to include both words in phonological predictions, while Spanish speakers might exclude one based on pronunciation. Moreover, only 23 sentences in this corpus have a cloze probability above 75%, which limits the selection of 48 stimuli for electrophysiological studies that require high cloze probabilities for predictive processing investigations. Given these gaps in the existing literature, Experiment 1 aims to develop a comprehensive corpus of sentence endings specific to Mexican Spanish. By focusing on adult populations and including a larger number of highly constrained sentences, this normative study seeks to address the limitations of previous corpora. Additionally, the sentences were carefully crafted to reflect the cultural and dialectal nuances of Mexican Spanish, ensuring the corpus’s cultural relevance to the primary aims of this thesis in Experiments 2 and 3. Beyond the immediate needs of this thesis, Experiment 1 is designed to provide a more reliable and valid tool for future research in language prediction, extending its applicability to other languages or dialects with similar cultural and linguistic particularities. The findings from this study are expected to deepen our understanding of prediction processes in language comprehension and support the development of more accurate and effective tools for language prediction research. Participants For Experiment 1, participants were native Spanish-speaking Mexican young adults, either graduate or undergraduate students. Recruitment was conducted through advertisements posted on university social networks across Mexico, which included a QR code directing participants to the experimental task. Initially, 1524 individuals participated in the study. However, 54 participants were excluded from the final analysis for the following reasons: six were excluded for not having Spanish as their first language or not being from Mexico, five for being under 18, ten for providing nonsensical or random answers, and 34 for completing only the basic information without progressing to the main task. 49 After exclusions, our final sample included 1470 adults, with an average age of 25.78 years (SD = 5.38), ranging from 18 to 57 years. Of these participants, approximately 76% (1111) were women, 23% (342) were men, and about 1% (17) identified as nonbinary. Participants who did not provide informed consent, did not give valid responses, had a native language other than Spanish, or had an education level below high school were excluded (n = 5620). No additional exclusion criteria were applied, as the main objective of this corpus was to broadly characterize Mexican Spanish speakers. Demographic description Participants represented all 32 Mexican states (Figure 8), with the highest proportion— 69.18% (n = 1017)—residing in the South-Central Region. Smaller proportions were from other regions: 7.34% (n = 108) from the Northwest, 7.14% (n = 105) from the East, 6.93% (n = 102) from the West, 3.60% (n = 53) from the North-Central, 2.38% (n = 35) from the Southeastern, 1.76% (n = 26) from the Southwestern, and 1.63% (n = 24) from the Northeast. Most participants had lived in their current state of residence since birth, with an average residence duration of 21.30 years (SD = 8.27, range = 0.02 - 54). In terms of educational fulfilment, the distribution of completed degrees among participants was as follows: 44.76% held undergraduate degrees (n = 658), while 47.27% had completed graduate degrees (n = 695). A smaller percentage, 6.87%, held master’s degrees (n = 101), and only 1.08% had Ph.D. degrees (n = 16). Regarding academic disciplines, nearly half of the participants (44.89%, n = 660) were engaged in social sciences and humanities. Biological and medical sciences were pursued by 25.64% (n = 377). Physical and mathematical sciences or engineering accounted for 9.37% of participants (n = 137), while 5.37% (n = 79) were in 50 economics and administrative sciences. It should be noted that the question about participants’ fields of study was optional, and some participants chose not to disclose this information. Figure 8 State of Living Our demographic survey assessed the presence of developmental, psychiatric, and neurological disorders among participants. Most participants did not report a diagnosis of developmental disorders; however, a small subset did disclose such diagnoses. Specifically, 4.69% (n = 69) reported attention deficit and hyperactivity disorder, while 2.72% (n = 40) indicated a diagnosis of dyslexia. The autistic spectrum and language delay were each reported by 0.7% of participants (n = 11 each). Motor delay and intellectual disability were each reported by 0.6% (n = 9), and dyscalculia was reported by 0.2% (n = 4). The demographic data also highlighted the presence of psychiatric disorders among participants. A notable proportion, 24.48% (n = 360), reported a diagnosis of anxiety, while 19.11% (n = 281) reported depression. Smaller proportions of participants reported diagnoses of 51 obsessive-compulsive disorder (2.99%, n = 44) and post-traumatic stress disorder (2.44%, n = 36). Less common conditions included eating disorders (1.83%, n = 27), drug dependence (1.49%, n = 22), bipolar disorder (0.68%, n = 10), dissociative disorders (0.54%, n = 8), and schizophrenia (0.27%, n = 4). Additionally, some participants indicated neurological conditions: 0.95% (n = 14) reported epilepsy, while brain trauma and stroke were noted by 0.47% (n = 10) and 0.34% (n = 5), respectively. The survey also gathered information on participants’ use of specific substances. Antidepressants were reported by 6.53% of participants (n = 96), while a smaller percentage, 3.40% (n = 50), reported using anxiolytics. Fewer participants indicated the use of opiates (1.83%, n = 27), antipsychotics (0.68%, n = 10), and mood stabilizers (0.40%, n = 6). In a separate category, 2.78% of participants (n = 41) reported consuming an illegal drug within 24 hours prior to participating in the task. Another area of interest in our study was participants’ proficiency in languages other than Spanish. Notably, all but two participants identified Spanish as their mother tongue; the two exceptions, native speakers of Nahuatl and Tsotsil (Mexican indigenous languages), were excluded according to the study’s exclusion criteria. Among the remaining participants, 48.50% reported fluency in at least one additional language, with a total of 12 different languages cited. Of these multilingual participants, 90% identified English as their second language, while the remaining 10% reported various languages, including German, Catalan, Korean, French, Italian, Japanese, Mexican Sign Language, Latin, Maya, Nahuatl, Portuguese, Purepecha, Romanian, and Russian. The average age of second language acquisition was 11.13 years (SD = 5.96, range = 1–35), classifying these individuals as late second language learners. 52 Additionally, these participants reported an average exposure to their second language of 5.43 hours per week (SD = 11.50, range = 0–150). Their self-rated proficiency in the second language, on a scale from 0 to 4, was generally moderate to low. Specifically, mean proficiency ratings for speaking, listening, writing, and reading were 1.54 (SD = 0.80), 1.09 (SD = 0.82), 1.30 (SD = 0.79), and 0.77 (SD = 0.77), respectively. Finally, a small fraction, precisely 0.01% (n = 21), demonstrated multilingual abilities, reporting proficiency in more than two languages. Material Experiment 1 utilized a pool of 2925 sentence contexts. Of these, 1253 were adapted from established norms in previous studies in English and Chinese (Block & Baldwin, 2010; Bloom & Fischler, 1980; Brothers & Kuperberg, 2021; Lahar et al., 2004; Nieuwland et al., 2020; Wang et al., 2018); however, we included the two existing norms in Spanish (McDonald & Tamariz, 2002; Rodríguez-Camacho et al., 2011). English and Chinese norms were translated into Spanish and adapted to align with the Mexican cultural context. It should be noted that only contexts that were easily translatable and culturally adaptable to the Mexican context were included in the pool of 1253 sentences. Based on the most frequent endings within the 1253 sentence contexts (n = 670), an additional pool of sentences was created (n = 1672). The primary goal of this approach was to ensure a diverse representation of each unique noun across varying levels of constraint. Specifically, for each unique noun, at least one sentence was included to represent each constraint level: high (cloze > .70), medium (cloze = .40 – .70), and low (cloze < .40). In assembling the corpus, 670 nouns were selected, representing a broad range of frequency per million (M = 118, SD = 206.84, Range = 1–1879). This variability was intentionally included, as it is anticipated to be valuable in future studies exploring the effects of frequency in constrained 53 sentences. On average, these nouns consisted of three syllables (SD = 0.84, Range = 1–6) and six letters (SD = 1.87, Range = 2–14). Regarding grammatical gender, the corpus included 380 masculine and 290 feminine nouns. Notably, in many cases, the grammatical gender could be modified by altering the final morpheme—for example, "perro" (masculine for "dog") can be changed to "perra" (feminine for "dog"). In terms of noun types, 465 were categorized as concrete, while 205 were abstract. The selected nouns exhibited a broad range of semantic properties, with notable variability in the relationships between them, as shown in Figure 9. Semantic similarity, calculated using feature norms from Buchanan et al. (2019), displayed a left-skewed distribution (M = 0.09, SD = 0.08, Range = 0.003–0.84)3. Most nouns (81%) did not share any features with one another; however, the remaining 19% represented 25534 relationships4. Although this is a minority, it provides a sufficient number of relationships for the experimental objectives of our study. Figure 9 Semantic relationships between nouns of the complete corpus Note. X and Y axis indicates the word of the corpus ordered by category. Thus, the diagonal represents words within the same category. Color indicates the cosine similarity; the reddest colors show more semantically related words. 3 The central tendence values were computed excluding all zeros which mean any relationship between words. 4 This percentage only considers 519 words due to 151 nouns were not included in the feature norm. 54 The phonological relationships among the nouns (Figure 10), calculated using normalized edit distance, also exhibited a high degree of variability and a left-biased distribution (M = 0.12, SD = 0.07, Range = 0.03 – 0.75). However, in contrast to the semantic relationships, only 26% of the words were entirely unrelated phonologically. This is expected given the morphological features of Spanish, which often produce minor phonological relationships between words. For instance, ‘perro’ [dog] and ‘gato’ [cat] are phonologically distinct, except for the final phoneme ‘o’, which serves as a masculine gender marker in Spanish. Figure 10 Phonological relationships between nouns of the complete corpus Note. X and Y axis indicates the word of the corpus alphabetically ordered. Thus, the diagonal represents words with the same initial phoneme. Color indicates the normalized edit distance, the bluest color show more phonological related words. Procedure The experimental task was hosted on Cognition (https://www.cognition.run/), an online platform utilizing JavaScript to create behavioral experiments compatible with various devices, 55 including computers, tablets, and mobile phones. Participants accessed the experiment by scanning a QR code or clicking a hyperlink (https://nlabvnm8td.cognition.run). Upon entering the platform, participants were first presented with an informed consent form. Those who did not agree to the terms were automatically redirected to Cognition’s home page. Once participants accepted the terms, the experiment began with a series of non-confidential personal information questions, capturing demographic details such as gender, age, education level, and place of birth. The questionnaire also inquired about any neurodevelopmental, neuropsychiatric, neurological, or substance use issues. Participants were also asked to self-report their proficiency in languages other than Spanish. Following this, the cloze procedure was conducted. Participants were presented with sentences missing the final word and instructed to quickly supply a word that best completed each sentence. If a sentence was left incomplete for 15 seconds, it was replaced with a new sentence. The 2924 sentences were divided into 25 lists, each containing 117 sentences. To minimize potential memory effects, each list contained distinct nouns (Figure 11). Figure 11 Example of the trial in Experiment 1 Note. Participants were asked to write the word that best continue the sentences. Trials changed when participant press the button “continue” or after 15 seconds. 56 Data processing Before commencing the formal analysis, a manual correction process was applied to the responses. This involved correcting spelling errors, converting all words to lowercase, and removing superfluous spaces. Synonymous terms (e.g., “Puerco” and “cerdo”, both meaning “pig”) and variations in gender or number were standardized, selecting the most representative term based on frequency and syntactic fit within the sentence context. Responses left blank, containing unrecognizable words, or using non-existent terms were marked as errors. Data analysis All descriptive analyses were conducted in Matlab (Matlab, 2020). Responses from the experimental task were assessed using three metrics: cloze probability, Bayesian surprisal, and entropy. Cloze probability indicates the likelihood that a given word will follow a specific sentence. This is calculated as follows: 𝑝(𝑐𝑙𝑜𝑧𝑒)𝑖 = 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 Here, f represents the absolute frequency of the i-th word, x. The cloze probability for each unique word is calculated by dividing the frequency of that word by the total number of responses for the sentence. Bayesian surprisal is defined as the negative logarithm of the conditional probability of a word occurring within a given sentence context (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). In this context, the conditional probability is equivalent to the cloze probability. Therefore, words with low surprisal have high cloze probabilities, indicating predictability, while words with high surprisal are less expected. Although cloze probability and surprisal are highly correlated, previous research has shown that surprisal often serves as a stronger predictor of cognitive processing difficulty than cloze probability (Kuperberg & Jaeger, 2016). The logarithmic 57 transformation also amplifies the effect of lower cloze probabilities relative to higher ones. Bayesian surprisal is calculated as follows: 𝑠𝑢𝑟𝑝𝑟𝑖𝑠𝑎𝑙 = −𝑙𝑜𝑔2 ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 ) To facilitate interpretation, base-2 logarithms were used, aligning with Shannon’s information theory (Shannon, 1948). This makes surprisal interpretable as the amount of information, measured in bits, gained upon encountering the final word of a sentence (Kuperberg & Jaeger, 2016). Thus, surprisal quantifies how much new information is provided by the word in the given context, with higher values indicating greater unpredictability. Entropy is the third measure calculated for the responses, capturing the degree of uncertainty or unpredictability in sentence completion (Pickering & Gambi, 2018). Unlike cloze probability and surprisal, entropy provides a single value reflecting both the diversity of possible endings and the distribution of their cloze probabilities. A high entropy value indicates a sentence with a broad variety of potential endings and a relatively uniform distribution of cloze probabilities, suggesting less predictability. In contrast, a low entropy value reflects a sentence with limited ending options and a more skewed distribution, where a few endings have much higher cloze probabilities than others, indicating higher predictability. Entropy is calculated as follows: 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 = − ∑ ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 )𝑁 𝑖=1 (𝑙𝑜𝑔2 ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 )) As with surprisal, base-2 logarithms are used in calculating entropy, allowing entropy values to be interpreted within the framework of Shannon’s information theory (Shannon, 1948). This means that entropy, expressed in bits, quantifies the average amount of uncertainty or "information content" associated with predicting the final word of a sentence based on response variability. 58 Results Figure 12 presents the distributions of cloze probabilities, surprise values for the most frequently given response, and entropy for each of the 2925 sentences. On average, each sentence was completed by 55.06 participants (SD = 6.18, range = 39-67 participants), which is notably higher than typical participant numbers reported in previous studies ( e.g., n = 30; DeLong et al., 2005; Wang et al., 2018). The relatively high number of participants per sentence ensures that the cloze probabilities derived from this dataset are reliable for experimental use. Figure 12 Distribution of metric of predictability of the corpus The cloze probability distribution across the corpus is approximately uniform, indicating that the sentences are evenly distributed across different cloze probability ranges. In contrast, the distribution of surprise is left-skewed, suggesting that a greater number of sentences elicit low surprise values compared to high ones. This pattern is consistent with the logarithmic 59 transformation applied, which more strongly penalizes responses with lower cloze probabilities. Lastly, the entropy distribution is generally flat, implying a roughly equal number of sentences across different levels of uncertainty, except at the highest entropy levels. The statistical analyses reveal that cloze probability, surprise, and entropy are all significantly correlated (p < 0.001; Figure 13). This strong correlation indicates that these measures are closely related, sharing much of the same variability and largely capturing the same underlying construct. However, previous research has demonstrated that these measures can have differential associations with performance in predictive tasks (Lowder et al., 2018; Yan et al., 2017). This highlights the importance of considering all three measures in studies of predictive language processing, as each may capture unique aspects of this complex process. Figure 13 Correlation among metrics of the corpus Note. For the sake of clarity, diagonal cells were colored in gray. Intensity of blue and purple color indicates the strong of the positive and negative correlations, respectively. Discussion Experiment 1 aimed to create a corpus of sentence completions specifically designed for Mexican Spanish speakers. While previous studies have developed sentence-completion norms, these norms are not necessarily applicable across all research contexts, especially in the field of 60 prediction (McDonald & Tamariz, 2002; Rodríguez-Camacho et al., 2011). For example, McDonald and Tamariz (2002) reported cloze probabilities for Spanish speakers from Spain, but cloze probabilities can differ between populations and cultures (Arcuri et al., 2001). Therefore, it is inappropriate to assume that Mexican Spanish speakers would respond identically to the same sentences. Similarly, Rodríguez-Camacho et al. (2011) validated sentences with Mexican schoolchildren, but predictive abilities can evolve with age due to differing experiences and developmental stages (Lahar et al., 2004; Pinheiro et al., 2010), making their data less applicable to an adult population. Furthermore, these previous corpora primarily focus on presenting a variety of end words for each sentence, making it challenging to find sentences that conclude with the same word. This limits their suitability for studies that aim to examine the effect of sentence context on the predictability of a specific word, a common question in prediction research. Therefore, there is a clear need for a corpus like the one developed in Experiment 1, which enables the controlled study of prediction specifically among Mexican Spanish speakers. The newly created corpus of sentence endings serves as a valuable resource for conducting prediction-based research. Specifically developed for Mexican Spanish speakers, it provides cloze probability values across a broad range of anticipated sentence endings, each associated with varying levels of cloze probability. Additionally, the corpus includes key metrics relevant to prediction studies, such as cloze probability, surprise, and entropy, making it a comprehensive tool for examining language predictability in this population. Participants from various regions of Mexico, with diverse demographic profiles including gender, age, education level, occupation, bilingual abilities, and neurodiversity, contributed to the corpus. It is important to acknowledge that this variability is not perfectly balanced, as each 61 participant contributed to only a small subset of sentences, which could potentially minimize the impact of specific demographic influences. For example, a significant proportion of the participants are from central Mexico (around 70%), raising questions about the generalizability of the results to other regions. Additionally, the majority of participants were undergraduate students (92%) or self-identified as neurotypical (92%), which may further limit the applicability of the findings across different educational backgrounds and neurodiverse populations. While the corpus is primarily designed to support this thesis, it is also intended to serve as a valuable resource for psycholinguistic research conducted in Mexican Spanish. Future research should consider the relevance of this corpus for their own studies. All materials used in this experiment are freely available in the supporting material of the publication (Angulo-Chavira et al., 2023). Researchers can use these materials to calculate cloze probabilities, applying different unification processes or inclusion criteria to tailor the measure to their specific research needs. 62 Experiment 2: Visual world paradigm Experiment 2 aimed to examine the time-course of predictive lexical access to semantic and phonological information using the visual world paradigm. This approach creates a competitive visual setting, requiring participants to focus on and select one piece of information at a time. It operates under the assumption that the sequence of eye fixations reflects the temporal access to the corresponding information (Chow et al., 2017, 2022; Huettig & McQueen, 2007). Thus, when participants listen to constrained sentences, they can exhibit predictive fixations toward either semantically related competitors or phonological ones, but not both simultaneously. If eye fixations shift to the semantically related competitor before the phonological one, this would indicate that predictive activation occurs in that sequence. This experiment aims to provide valuable insights into the order of semantic and phonological processing during prediction. Participants In Experiment 2, we studied a final sample of 43 undergraduate students (average age = 19.63 years, SD = 1.23; 12 male) from the National Autonomous University of Mexico (UNAM). All participants were native Spanish speakers and reported having normal or corrected-to-normal vision and hearing. Three additional participants were assessed but excluded due to poor behavioral performance (n = 2) or a high proportion of unattended trials (n = 1). Our sample size (n = 43) exceeded the number derived from our power analysis (n = 21), which was based on a medium effect size for a single paired comparison (δ = 0.66, α = 0.05, β = 0.80). This analysis was informed by studies with similar visual world paradigm (VWP) designs, such as those by Chow et al. (2022) and Huettig et al. (2011). Additionally, our sample size was larger than those in prior studies that successfully identified a predictive phonological effect in VWP. For example, Ito et al. (2018) included 24 participants, and Kukona (2020) had 30 participants. Thus, our study’s 63 sample size was sufficiently robust to effectively investigate the influence of semantic and phonological competitors in predictive language processing. Instruments To quantify variations in predictive skills among individuals, a series of cognitive assessments was conducted. The primary focus of these assessments was on measuring processing speed and working memory capacity, given their well-documented relationship with general predictive abilities (Huettig & Janse, 2016). Specifically, the assessments targeted both verbal and non-verbal abilities to better understand the nature of predictive skills during language comprehension. The aim was to determine whether these skills are more closely associated with language-specific abilities or if they extend to broader cognitive domains. This approach aims to offer a more nuanced understanding of the factors that shape predictive abilities. The Semantic Verbal Fluency task (Ostrosky-Solís et al., 1998) is designed to assess verbal processing speed, particularly in relation to the organization of semantic memory. In this task, participants are instructed to list as many unique animal names as possible within a 60-second timeframe. The primary performance metric is the total number of distinct animal names produced within this time frame. This count serves as an indicator of the participant’s verbal fluency, reflecting both their verbal processing speed and the efficiency of their semantic memory organization. The Phonological Verbal Fluency task (Ostrosky-Solís et al., 1998) is designed to assess verbal processing speed, with a particular focus on executive function and phonological coactivation. Participants are instructed to generate as many unique words containing the phoneme /f/ as possible, without repetition, within a 60-second timeframe. The final score, representing a 64 measure of participants’ verbal processing speed and executive function, is calculated based on the total number of distinct words they generate within the allotted time. The Coding task (Wechsler, 2008) is designed to assess non-verbal processing speed. In this test, each number is paired with a specific symbol, and participants are challenged to write the corresponding symbol beneath a series of numbers within a 120-second time limit. The final score, which measures the participant’s non-verbal processing speed, is calculated by counting the total number of correct symbol-number associations made within the allotted time. This task offers valuable insight into the participant’s cognitive agility in processing non-verbal information. The Digit Span test (Wechsler, 2008) is designed to assess verbal working memory. In this test, participants hear a sequence of numbers spoken by the evaluator, which they must then repeat either in the same order (forward) or in reverse (backward). The final score of the reverse order, reflecting the participant’s verbal working memory, is based on the length of the longest sequence they can accurately reproduce. Thus, here the reverse order was used. The Corsi’s Blocks task (Ostrosky-Solís et al., 1998) is designed to measure non-verbal working memory. In this task, the evaluator indicates a sequence of cubes, and the participant is then required to replicate the sequence of cube positions, either in the same order or in reverse order. The final score of the reverse order, which serves as a measure of the participant’s non- verbal working memory, is determined by the length of the longest sequence of cube positions that the participant can accurately recall. Thus, here the reverse order was used. Stimuli Sentences selection A selection of 32 sentences with high cloze probability (M = 0.88, SD = 0.08, range = 0.70 - 1.00), low surprise, and low entropy was made from Experiment 1. These sentences were chosen 65 based on the strong semantic relationship between the verb and the target (e.g., smoke-cigarette) and the high degree of representability and concreteness of the final word. This careful selection ensures that the sentences are well-suited for examining predictive language processing, as the predictable nature of the target words facilitates analysis of semantic and contextual effects. In 21 of these sentences, the last three words followed a verb + determiner + expected word structure. The remaining 11 sentences had a different structure but always concluded with the critical expected word. Half of these sentences were crafted so that their overall context was semantically related to the expected word, as in “Durante la luna llena aulló el lobo” [During the full moon, the wolf howled]. These sentences were then evenly divided into experimental and filler categories, ensuring a balanced design for examining the effects of semantic context on predictive processing. To standardize the length across all sentences, they were homogenized to seven words. Some sentences were restructured to follow a verb + determiner + critical word format. In most cases, an adverbial phrase was introduced to adjust the length. Occasionally, the syntactic structure was modified, but the semantic content of the sentences was always preserved to maintain the intended meaning and context. The predicted noun was embedded into a highly constrained sentence, such as "compré una nueva correa para sacar a pasear a mi perro" [I bought a new leash to walk my dog]. All sentences were recorded by a native Spanish speaker with neutral intonation to ensure that no part of the sentence was emphasized. The recordings were made in a sound-proof room using a Shure MV51 microphone. After recording, the audio files were amplified and normalized using Adobe Audition to ensure consistent sound levels across all sentences. For more precise control over the stimuli, two pilot studies were conducted to assess the plausibility and cloze probability of the sentences. 66 Additionally, two descriptive studies were carried out to examine the semantic relationship between the target word, the verb, and the overall context. Table 1 Sentences for Experiment 2 ID Type Spanish Translations O1 E En el aeropuerto, Susana abordó el avión At the airport, Susana boarded the airplane O2 E El vaquero disparó y enfundó su pistola The cowboy fired and holstered his gun O3 E Por su aliento necesitaba masticar un chicle Due to his breath, he needed to chew some gum O4 E Juan se preparó para montar a caballo Juan got ready to go horse riding O5 E Ayer, compré harina para hornear un pastel Yesterday, I bought flour to bake a cake O6 E Durante la luna llena, aulló el lobo During the full moon, the wolf howled O7 E Después de comer, se cepilló los dientes After eating, he brushed his teeth O8 E Está oscuro porque se fundió el foco It is dark because the light bulb burned out O9 E Estaba triste porque le lloraban los ojos As she was sad, her eyes were watering O10 E El sartén se calentó en la estufa The pan was heated on the stove O11 E Para hacer jugo, Ana exprimió una naranja To make juice, Ana squeezed an orange O12 E Con delicadeza, el carpintero lija la madera Delicately, the carpenter sands the wood O13 E En la regadera, me lavé con jabón In the shower, I scrubbed myself with soap O14 E Al comer, Mario se mordió la lengua While he was eating, Mario bit his tongue O15 E Óscar se despertó y tendió su cama Oscar woke up and made his bed O16 E Al comer debo mantener cerrada la boca When eating, I need to keep my mouth closed O17 F Al carro se le ponchó la llanta The car has a flat tire O18 F En la cena brindé con una copa At dinner, I toasted with a glass O19 F El pasto se regó con una manguera The grass was watered with a hose O20 F El capitán se hundió con su barco The captain went down with his ship O21 F Antonio nunca olvidó cómo andar en bicicleta Antonio never forgot how to ride a bike O22 F Para cubrirme del frío, tejí un suéter To protect me from the cold, I knitted a sweater O23 F En la biblioteca, Lupita lee un libro In the library, Lupita reads a book O24 F Corrió rápido para hacer volar su papalote He ran fast to make his kite fly O25 F Ayer, Luis se afeitó con un rastrillo Yesterday, Luis shaved with a razor O26 F Con fuerza, mi papá martilló un clavo With powerful strokes, my dad hammered a nail O27 F La blusa se quemó con la plancha The shirt was scorched by the iron O28 F El carnicero del mercado afiló un cuchillo The butcher from the market sharpened a knife O29 F En el patio, Miguel fuma un cigarro On the patio, Miguel smokes a cigarette O30 F Antes de salir, Ignacio boleó sus zapatos Before going out, Ignacio polished his shoes O31 F Sin miedo, el soldado disparó una bala Fearlessly, the soldier fired a bullet O32 F El tocino se frio en el sartén The bacon was fried in the pan Note. The position of the verb determiner and the expected noun can vary by translation. The verb is in italics and the expected noun in bold for easy identification. E, experimental; F, fillers. 67 Pilot study 1: plausibility Pilot Study 1 was primarily designed to measure the plausibility of the sentences for Mexican Spanish speakers, specifically assessing whether the sentences were perceived as naturally occurring or likely to be heard in a given context. This evaluation was crucial, as any irregularity in the semantic or syntactic structure could potentially induce an erroneous prediction signal, thereby affecting the semantic and phonological predictions associated with the critical word. The study involved 60 undergraduate students (29 males, 31 females), with an average age of 23.13 years (SD = 3.50, range = 18–29). The experimental task was administered online using the Cognition platform (https://www.cognition.run/). Before beginning the task, participants were required to accept the informed consent; otherwise, they could not proceed. Participants were asked to rate the plausibility of the sentences on an analog scale ranging from 0 to 1, where 0 represented unnatural sentences and 1 indicated natural sentences. They were also provided with three familiarization trials to ensure they understood the task. Descriptive results indicated an average plausibility rating of 0.77 (SD = 0.52, range = 0.65–0.87). There were no statistically significant differences between the experimental sentences (M = 0.76, SD = 0.05) and filler sentences (M = 0.78, SD = 0.04) (t(30) = 1.55, p = 0.132). Both types of sentences scored significantly higher than the chance level of 0.5 (Experimental: t(15) = 19.81, p < 0.001; Filler: t(15) = 23.23, p < 0.001). These results suggest an acceptable level of plausibility (maximum = 1). Each sentence was individually compared to the chance level to exclude any sentences deemed implausible (see Figure 14 and Table 1). One-sample Wilcoxon signed-rank tests against the chance level (0.5) 68 showed that all sentences scored significantly above the chance level (all p-values < 0.001), indicating that participants considered the sentences to be plausible. In summary, all the sentences were deemed plausible within a sample that shared similar characteristics with our experimental group. Figure 14 Sentence plausibility Note. The ID of the sentence is the same as in Table 1. The vertical line indicates the chance level. 69 Pilot study 2: Cloze probability Even though cloze probabilities were obtained from Experiment 1, alterations in the length and syntactic structure of the sentences could impact their predictability. Consequently, the 32 sentences were re-evaluated using a task similar to that in Experiment 1. The only modification was that the 60 participants were asked to provide demographic information limited to their age (M = 23.21, SD = 3.41, range = 18–28) and gender (25 males, 35 females). Table 2 presents the cloze, surprise, and entropy values of the sentences used in Experiment 2. Descriptive analysis revealed that both types of sentences exhibited high cloze probability (Experimental: M = 0.97, SD = 0.02, range = 0.90–1.00; Fillers: M = 0.95, SD = 0.03, range = 0.88–1.00), low surprise (Experimental: M = 0.04, SD = 0.04, range = 0.00–0.15; Fillers: M = 0.06, SD = 0.05, range = 0.00–0.18), and low entropy (Experimental: M = 0.20, SD = 0.18, range = 0.00–0.51; Fillers: M = 0.29, SD = 0.25, range = 0.00–0.85). According to the Mann-Whitney U test, no significant differences were observed between experimental sentences and fillers in terms of cloze probability (Z = 0.85, p = 0.40), surprise (Z = 0.85, p = 0.40), and entropy (Z = 0.79, p = 0.42). The high cloze probability value (0.96) indicates that these sentences are highly constrained, meaning that the critical target word was highly predictable within its context. The target word also exhibited low surprisal values (0.058), suggesting that it contributed minimal additional information to the sentence context due to its high predictability. Lastly, the sentence context produced a low level of entropy (0.24), indicating that the context generated minimal uncertainty regarding the possible continuations of the sentence. Importantly, all sentences generated a high constraint toward the critical target word, slightly surpassing the constraint observed in the corpus of Experiment 1. This difference might 70 be attributed to changes in the length and syntactic structure of the sentences or possibly to the larger and less variable sample size in the current study. Table 2 Predictability of sentence and target in Experiment 2 ID Type Target Cloze Surprise Entropy O1 Experimental Plane 0.97 0.044 0.242 O2 Experimental Gun 0.9 0.152 0.516 O3 Experimental Gum 1 0 0 O4 Experimental Horse 0.99 0.014 0.081 O5 Experimental Cake 0.94 0.089 0.483 O6 Experimental Wolf 1 0 0 O7 Experimental Teeth 1 0 0 O8 Experimental Lightbulb 1 0 0 O9 Experimental Eyes 0.96 0.059 0.322 O10 Experimental Stove 0.96 0.059 0.282 O11 Experimental Orange 0.93 0.105 0.482 O12 Experimental Wood 0.96 0.059 0.302 O13 Experimental Soap 0.97 0.044 0.242 O14 Experimental Tongue 1 0 0 O15 Experimental Bed 0.96 0.059 0.302 O16 Experimental Mouth 0.99 0.014 0.081 O17 Filler Tire 1 0 0 O18 Filler Glass 1 0 0 O19 Filler Hose 0.97 0.044 0.222 O20 Filler Boat 0.97 0.044 0.222 O21 Filler Bicycle 0.95 0.074 0.382 O22 Filler Sweater 0.9 0.152 0.599 O23 Filler Book 0.99 0.014 0.081 O24 Filler Kite 0.93 0.105 0.462 O25 Filler Razor 0.99 0.014 0.081 O26 Filler Nail 0.97 0.044 0.222 O27 Filler Iron 0.93 0.105 0.562 O28 Filler Knife 0.98 0.029 0.161 O29 Filler Cigar 0.97 0.044 0.242 O30 Filler Shoes 0.99 0.014 0.081 O31 Filler Bullet 0.88 0.184 0.852 O32 Filler Pan 0.91 0.136 0.586 Note. The IDs correspond to the sentences in Table 1. 71 Competitor selection A total of thirty-two groups of competing words were selected, each based on the predicted word of each sentence (Table 3 and Table 4). For example, in the experimental sentence "Delicately, the carpenter sands the wood," each set included the expected final noun, such as "wood" [madera], along with four competing words. These included two nouns related to the predicted word: one semantic competitor, like "brick," and one phonological competitor, like "baggage" [maleta]. Additionally, three words were included that were semantically, phonologically, and associatively unrelated to the target word, such as “clock”, “button”, and “coyote”. For the filler sentences, three words that were semantically, phonologically, and associatively unrelated to the common target word were chosen to ensure a balanced experimental design. The degree of semantic relatedness was measured using Lin’s similarity index, which considers two main factors when calculating similarity: the distance between two concepts and the frequency of word usage. The distance between concepts is determined by identifying the least common subsumer in WordNet (Miller, 1995); this refers to the deepest category that two concepts share within a hierarchical taxonomy. For example, the words "dog" and "cat" are linked to "canine" and "feline," respectively, both of which fall under the broader category of "animals." Thus, the distance of the least common subsumer is 2. Lin’s similarity index further adjusts this distance based on the likelihood of the words appearing together in a corpus, using the SemCor corpus (Landes et al., 1998) for calculations in this study. The similarity index ranges from 0 to 1, where a value of 1 indicates that the two concepts are identical, while a value of 0 suggests a substantial semantic separation between them. 72 Table 3 Target and competitors ID Target Phonological Semantic Unrelated Unrelated Unrelated O01 avión/airplane abrigo/coat cohete/rocket rata/rat sierra/saw enchufe/plug O02 pistola/gun pizza/pizza arco/bow cucharón/ladle gorro/hat recogedor/dustpan O03 chicle/gum chimenea/chimney dulce/candy raqueta/racket espejo/mirror gato/cat O04 caballo/horse candado/lock rinoceronte/rhinoceros toalla/towel flauta/flute tren/train O05 pastel/cake pantera/panther gelatina/jelly regla/ruler falda/skirt cuerda/rope O06 lobo/wolf lodo/mud tigre/tiger taza/cup radio/radio arete/earring O07 dientes/teeth diamante/diamond nariz/nose rifle/rifle patineta/skateboard faro/lighthouse O08 foco/light bulb foca/seal vela/candle guante/glove brújula/compass pan/bread O09 ojos/eyes oso/bear dedo/finger escoba/broom taladro/drill camisa/shirt O10 estufa/stove estrella/star refrigerador/refrigerator árbol/tree periódico/newspaper violín/violin O11 naranja/orange navaja/razor melón/melon burro/donkey helicóptero/helicopter peine/comb O12 madera/wood maleta/suitcase paja/straw reloj/watch botón/button zanahoria/carrot O13 jabón/soap jaula/cage pasta/toohpaste ancla/anchor pera/pear guitarra/guitar O14 lengua/tongue lentes/glasses mano/hand collar/necklace nave/ship balcón/balcony O15 cama/bed camarón/shrimp sillón/armchair globo/balloon fuente/fountain buitre/vulture O16 boca/mouth bolsa/bag pie/foot dados/dice pingüino/penguin televisión/television O17 llanta/tire - - cordero/lamb muñeca/doll brócoli/broccoli O18 copa/glass - - antorcha/torch tiburón/shark flor/flower O19 manguera/hose - - autobús/bus durazno/peach frasco/jar O20 barco/boat - - aguacate/avocado flecha/arrow cebra/zebra O21 bicicleta/bike - - zapatillas/slippers rábano/radish calendario/calendar O22 suéter/sweater - - barril/barrel submarino/submarine ballena/whale O23 libro/book - - cerillo/match delfín/dolphin buzón/mailbox O24 papalote/kite - - almohada/pillow hormiga/ant rosquilla/donut O25 rastrillo/rake - - pluma/feather cartera/wallet elefante/elephant O26 clavo/nail - - nutria/otter popote/straw mochila/backpack O27 plancha/iron - - tenis/tennis caja/box acordeón/accordion O28 cuchillo/knife - - trompeta/trumpet paloma/dove lavadora/washer O29 cigarro/cigarette - - tortuga/turtle maíz/corn casco/helmet O30 zapatos/shoes - - leche/milk edificio/building botella/bottle O31 bala/bullet - - cisne/swan bufanda/scarf arpa/harp O32 sartén/pan - - puma/puma regalo/gift bocina/speaker Note. Words were presented in Spanish. Thus, the phonological similarity was computed using Spanish phonemic transcriptions. The IDs correspond to the sentences in Table 1. 73 The phonological relationship was evaluated using normalized edit similarity (Yujian & Bo, 2007), calculated from the phonological transcriptions of Mexican Spanish. The normalized edit similarity values range from 0 to 1, where 1 indicates that two words share all their phonemes, and 0 signifies no phonetic overlap. This metric builds on Levenshtein’s distance, which measures the number of changes (additions, deletions, or substitutions) required to transform one character string into another (Yujian & Bo, 2007). For example, the distance between "car" and "cat" is one, as only a single modification (substitution of ‘r’ with ‘t’) is needed to convert one word into the other. Furthermore, to quantify the correlation between the anticipated word and its competitors, as well as the context of the sentences, a method based on Latent Semantic Analysis (LSA) was implemented. LSA is a natural language processing and information retrieval technique that detects patterns in relationships between terms and concepts within a collection of unstructured text. It operates on the principle that words used in similar contexts tend to have similar meanings. The primary objective of LSA is to reduce the dimensionality of the data by transforming it into a smaller set of latent variables, which helps to uncover hidden or ‘latent’ relationships between words and their contexts. This technique assumes that meaningful connections exist between words that frequently appear in similar textual environments (Landauer & Dumais, 1997). The values referenced earlier were computed using a tool developed and hosted by the University of Colorado, accessible at: http://wordvec.colorado.edu/index.html. According to Lin’s similarity measure, the semantic competitor showed a higher degree of semantic relation to the expected word (median = 0.68, range = 0.30–0.86) compared to the unrelated competitors (median = 0.07, range = 0.04–0.27). This difference was statistically 74 significant (Z = 3.51, p < 0.001), reinforcing the conclusion that there is a stronger semantic linkage between the semantic competitor and the expected word. Table 4 Target and competitor measures of similarity ID Semantic similarity Phonological similarity Context similarity P S U1 U2 U3 P S U1 U2 U3 T P S U1 U2 U3 O01 .31 .67 .15 .00 .12 .33 .00 .00 .00 .00 .60 .31 .28 .13 .38 .11 O02 .06 .63 .40 .31 .00 .27 .07 .00 .07 .00 .53 .14 .45 .18 .36 .01 O03 .06 .86 .05 .05 .06 .27 .11 .09 .00 .00 .24 .24 .33 .27 .13 .21 O04 .16 .77 .16 .14 .18 .40 .04 .20 .00 .00 .36 .26 .12 .25 .16 .16 O05 .00 .30 .05 .05 .06 .40 .06 .00 .09 .00 .43 .22 .10 .10 .34 .03 O06 .06 .63 .13 .13 .00 .60 .00 .00 .11 .00 .10 .16 .06 .08 .07 .06 O07 .06 .45 .07 .00 .06 .33 .07 .16 .06 .00 .17 .13 .37 .39 .21 .17 O08 .00 .81 .00 .42 .06 .60 .00 .00 .00 .00 .42 .24 .50 .17 .08 .26 O09 .06 .54 .07 .00 .08 .33 .00 .09 .00 .09 .48 .12 .35 .47 .07 .37 O10 .00 .81 .16 .27 .24 .40 .09 .00 .05 .00 .48 .11 .47 .14 .16 .10 O11 .00 .75 .00 .00 .13 .55 .07 .00 .00 .07 .41 .07 .27 .11 .18 .15 O12 .07 .83 .07 .06 .00 .50 .20 .00 .00 .23 .48 .13 .33 .12 .14 .07 O13 .06 .82 .06 .34 .06 .25 .11 .00 .00 .00 .16 .30 .15 .11 .13 .12 O14 .06 .48 .06 .07 .00 .33 .09 .00 .09 .00 .33 .43 .48 .24 .18 .28 O15 .00 .70 .37 .27 .15 .40 .00 .00 .00 .00 .49 .12 .39 .15 .38 .14 O16 .07 .49 .07 .00 .06 .42 .00 .00 .00 .05 .28 .46 .34 .36 .12 .11 Note. T: Target, P: Phonological competitor, S: Semantic competitor, U: Unrealted competitor. Semantic similiatiry: Lin’s similarity based on Wordnet. Phonological similarity: Normalized edit similarity. Context similarity: Latent semantic analysis. Conversely, no statistically significant difference was detected between the semantic competitor (median = 0.07, range = 0.00–0.20) and the unrelated competitors (median = 0.02, range = 0.00–0.08) in terms of normalized edit distance (Z = 1.81, p = 0.06). This metric measures phonological similarity, and the results indicate that there was no significant phonological similarity between the semantic competitor and the expected target. Therefore, while the semantic competitor was found to have a strong semantic connection with the target word, the lack of phonological similarity between them was also evident. The results from the LSA revealed no significant difference between the expected target and the semantic competitor (Z = 1.39, p = 0.16). However, the semantic competitor showed significantly higher values when compared to the unrelated competitors (Z = 2.99, p = 0.003). These outcomes align with the understanding that part of the semantic relationships is inherently 75 based on the co-occurrence of concepts and referents. Therefore, while the semantic competitor may not have been a plausible continuation in the specific sentence context, its inherent meaning was still found to be connected to the expected target when analyzed through the LSA approach. On the contrary, the phonological competitor (median = 0.40, range = 0.25–0.60) demonstrated a statistically significantly higher value of normalized edit similarity compared to the average of unrelated competitors (median = 0.03, range = 0.00–0.08) (Z = 3.51, p < 0.001). This result indicates that the phonological competitor not only shared onset phonemes with the target but also exhibited a broader phonological resemblance when compared to the unrelated competitors. Lin’s similarity analysis revealed no significant differences (Z = 1.29, p = 0.196) between the phonological competitor (median = 0.06, range = 0.00–0.31) and the average of unrelated competitors (median = 0.07, range = 0.04–0.27). These results suggest that the competitor words, including the phonological competitor, do not share a substantial semantic relationship. Additionally, the LSA indicated that the expected word exhibited a stronger association with the context of the sentence compared to the phonological competitor (Z = 2.44, p = 0.01) and the average of unrelated competitors (Z = 3.25, p = 0.001). However, when comparing the phonological competitor with the unrelated competitors, no significant differences were detected (Z = 0.90, p = 0.35). This indicates that, within the context of the sentences used in this study, the expected word maintained a stronger contextual connection. In contrast, the phonological competitor and the unrelated competitors did not show substantial differences in their contextual associations. 76 Visual stimuli The visual stimuli used in the study consisted of real-life photographs representing the target, semantic, phonological, and unrelated word competitors. These competitor images were authentic color photographs sourced from public image libraries available on the internet. To ensure that the images were recognized and named as expected, 140 undergraduate students (average age = 24.27 years, SD = 3.61, including 66 males) were enlisted to provide names for the photographs. Each photograph was assessed by 70 participants, as the images were divided into two sets. The overall rate of correct recognition for the visual stimuli was exceptionally high, at 98.43% (SD = 0.05, range = 53–100). Only one image received a recognition rate lower than 70%, where participants responded with a synonym (dona-rosquilla [donut]). Since this word corresponded to a filler trial, it was decided to retain the image in the study. Each photograph was resized to 300x300 pixels and arranged equidistantly within a 2x2 array on a gray background measuring 1440x1080 pixels (RGB: 158, 158, 158). While empirical evidence suggests that photographs elicit similar language effects in the Visual World Paradigm (VWP) as drawings do (Chow et al., 2017), many studies have traditionally used black and white drawings to control for visual saliency, despite the high recognizability of photographs. To quantify the saliency of the images used in this study, a saliency toolbox designed for MATLAB was employed (Walther & Koch, 2006). This tool generates saliency maps based on the location, color, and intensity of objects in an image, simulating how attention might be drawn through bottom-up processing. These saliency maps help identify the regions within each image that are most likely to attract attention, allowing for a more controlled assessment of visual stimuli in the study. 77 Saliency maps were generated for the 2x2 array of images as they were presented in the study (Figure 15). The calculations for these maps incorporated the color and intensity dimensions to assess the saliency of each image, while the location dimension was excluded, as the positioning of images remained consistent throughout the experiment. The saliency values were averaged independently for each competitor, revealing that neither the semantic competitor (median = 0.39, range = 0.19) nor the phonological competitor (median = 0.35, range = 0.19–0.60) exhibited higher saliency than the average saliency of the unrelated competitors (median = 0.33, range = 0.25–0.39) in the experimental arrays (semantic: Z = 0.26, p = 0.79; phonological: Z = 0.26, p = 0.79). These analyses confirm that the competitors have similar saliency levels. Figure 15 The saliency of an experimental trial Note. The bright colors indicate more saliency. Experimental design Each experimental trial lasted for a total duration of 8500 ms, with the onset of the expected word designated as 0 ms to distinguish between the periods of prediction and bottom-up processing (Figure 16). The trial sequence began with participants focusing on a fixation point for 1000 ms, 78 spanning from -6500 to -5500 ms. This was followed by the presentation of four images for 6500 ms, ranging from -5500 to 1000 ms. To conclude the trial, a question mark was displayed for 1000 ms, from 1000 to 2000 ms, signaling to participants that they should generate their behavioral responses. El intervalo entre estímulos (ISI) fue de 0 ms, ya que cada estímulo se presentó inmediatamente después del anterior. The auditory sentences were initiated, on average, 1700 ms before the onset of the expected target word, with verbs being presented at approximately -500 ms. Notably, the images were previewed for an average duration of 3300 ms. This extended preview time was intentionally included in the study design to increase the likelihood of detecting a phonological effect, as suggested by previous research (Chow et al., 2022; Huettig & McQueen, 2007). Additionally, this strategy aimed to reduce any initial bias towards specific objects that participants might have had, thereby promoting a more balanced and controlled experimental environment. Figure 16 Example of trial in visual world paradigm experiment Note. Sentences can be translated as En el aerpuerto Susana abordó el avión. Competitor translation. Distractor: segueta [hacksaw]. Distractor: ratón [mouse]; Phonological: Abrigo [coat]. Semantic: cohete [rocket]. Apparatus The study employed a Tobii TX-300 eye-tracker to record participants’ eye movements. This device, positioned just below the screen, recorded binocular gaze data at a sampling rate of 79 300 Hz, with an accuracy level of 0.5° visual angle. Participants’ responses were captured using a custom-made response pad, designed with an Arduino Mega 2560. The response pad featured two buttons, one green and one red, allowing participants to provide their responses during the trials. Procedure Participants were positioned approximately 60 cm from the screen of a Tobii TX300 eye tracker, which measured 23 inches with a resolution of 1920x1080. The eye tracker was placed just below the screen, while loudspeakers were centrally located. Before starting the experiment, participants received on-screen instructions and completed three familiarization trials. This was followed by a five-point calibration and a four-point validation, both conducted using the Tobii Pro Lab software. Recalibration was performed if needed. Participants were instructed to focus on the screen throughout the experiment and to remain silent until the experiment was completed. They also received specific guidance on using the response pad: they were to press the green button if one of the displayed images matched the content of the sentence they heard, and the red button if no image corresponded to the sentence. The experiment consisted of 32 trials, all completed in a single session. After the experiment, participants underwent a series of neuropsychological assessments in a specific order: first, the verbal fluency task, followed by digit retention, then Corsi’s cubes, and finally, coding. At the end of the session, researchers explained the main objectives of the task to the participants and addressed any questions they had. Data processing The behavioral data analysis involved comparing the percentage of correct responses and reaction times between experimental and filler trials using the Wilcoxon test. Eye movements, specifically fixations to each quadrant in the 2x2 array, were recorded and analyzed using the Tobii 80 I-VT fixation filter. This filter manages missing data, which can occur due to blinks, rapid eye movements, or calibration loss, through interpolation. Additionally, noise reduction is applied using a median filter to minimize discrepancies from micro-saccades or equipment noise. Finally, the filter validates the data to ensure that recorded gaze points meet expected accuracy parameters, discarding irrelevant points as necessary. Tobii performs this validation using a scale from zero to four, where lower values indicate better data acquisition based on calibration quality, and any values above two are excluded by the filter. An analysis of track loss was also conducted using the eyetrackingR package in R v4.1.1 (R CoreTeam, 2020). Trials with less than 50% fixation during the presentation of auditory stimuli (from -1700 to 1000 ms) were excluded from the dataset. Additionally, any participant whose data included less than 50% of the experimental trials or less than 75% of the behavioral task was removed from the study. The processed data was then divided into 50 ms intervals and aggregated across subjects. A difference score was calculated between the related (semantic or phonological) and unrelated competitors to ensure independence for statistical testing and derive a linear, unbounded dependent variable suitable for parametric testing. The difference score was computed using the formula: p(related) - p(unrelated), where p(related) is the probability of fixation on the semantic or phonological competitor and p(unrelated) represents the probability of fixation on the average of the three unrelated competitors. This measure is symmetric around zero, producing positive values when participants fixate more on the related competitors and negative values when there is greater fixation on unrelated competitors. A score of zero indicates no discernible preference among the competitors. 81 Statistical analysis The study employed two distinct data analyses to elucidate the temporal nature of the semantic and phonological effects: a cluster permutation analysis and a divergence point analysis. Traditionally, the temporal course of fixations toward images in response to linguistic stimuli is analyzed in the Visual World Paradigm. However, with a sampling frequency of 300 Hz, there are 600 comparison points within a 2000 ms time window. Given a statistical significance level (alpha) of 0.05, this time series could yield up to 30 values (~100 ms) that are susceptible to Type I errors. To minimize the likelihood of Type I errors when conducting multiple comparisons, several methods can be used. One approach is the Bonferroni correction, which adjusts the alpha level by dividing it by the number of comparisons. However, this method is often overly conservative. For instance, in this study, applying a Bonferroni correction would result in an adjusted alpha of 0.00016, meaning only very large effects could be considered significant. The conservativeness arises because the Bonferroni correction assumes all comparisons are independent, yet points in a time series are not independent of each other. Maris and Oostenveld (2007) propose an alternative statistical method to address this issue: the cluster-based non-parametric test. This test utilizes permutation testing to verify the null hypothesis of data interchangeability and is adapted to work at the cluster level. The steps to calculate this method are as follows: 1. A statistic is calculated for each time sample between two types of trials. The statistic used is irrelevant, it can be t, W, U, F, or even the effect size. However, it should measure the magnitude of the difference between two conditions. The t statistic is commonly used. 82 2. All values above a certain threshold are selected. The threshold can be based on the distribution of the statistic. The choice of threshold will affect the test’s sensitivity but not the Type I error control. 3. Clusters of supra-threshold values adjacent to each other in time are formed. If the test is two-tailed. Clusters of positive or negative values are formed separately. 4. The statistic of each cluster is calculated. This can be done by summing, averaging the values of the statistic, or taking the maximum value of the cluster. The sum of statistics is usually used, as it is sensitive to the extent and intensity of the effect within the cluster. 5. The value of the largest cluster is taken and stored. This is the observed value. 6. Data between conditions or subjects are permuted or bootstrapped for each time sample separately. 7. Steps 1 to 5 are repeated a determined number of times. Once the iterations are completed, a null distribution is generated for comparison with the observed cluster. For a two-tailed test, the proportion of absolute values in the null distribution that exceed the observed value is calculated, yielding the p-value. This p-value indicates the probability of forming clusters of a given size within a permuted distribution that includes the largest clusters from each permutation. The Type I error rate is controlled by reducing the number of comparisons, as only the observed maximum cluster is compared with the maximum clusters from each permutation. This method decreases the likelihood that smaller observed clusters will be deemed significant, though it comes at the cost of reduced sensitivity for detecting smaller clusters. This method poses several challenges, as outlined below. The number of iterations is crucial because it determines the minimum attainable p-value and the computational cost. For 83 instance, with only four permutations, the minimum p-value is 0.33. Although theoretically, all possible permutations should be performed, this is often computationally prohibitive, leading to the use of the Monte Carlo approximation, which involves repeating the process a large number of times. Pernet et al. (2015) suggest that a minimum of 500 iterations is necessary to achieve stable p-values. In this study, the cluster permutation analysis was designed to detect and describe the temporal characteristics of the phonological and semantic effects, including their approximate onset, duration, and offset. This analysis covered the timeframe from the average onset of the sentence until the end of the picture presentation, spanning -1700 to 1000 ms relative to the expected word onset. The dependent variable was the difference score, which was compared against zero using a one-sample t-test. Clusters were formed by summing adjacent t-values that exceeded the critical t-value (t = 2.04) for an alpha level of 0.05 (two-tailed), given 30 degrees of freedom. The null distribution was constructed from the maximum clusters of 100000 permutations, with the signs of the time series randomized and compared against zero. An observed cluster was considered significant if it fell within the top or bottom 5% of clusters in the null distribution. It is important to note that while the cluster permutation analysis can determine whether an effect exists, it does not provide precise information about the start and end times of the effect. The analysis offers a probability value for the entire cluster rather than specific time points, making it unsuitable for drawing conclusions about specific timings. Additionally, because eye-tracking data tend to change gradually, the onset and offset of effects are more prone to false positives. Thus, while the non-parametric cluster permutation test is useful for identifying the existence of an effect, it does not directly address the research question of this thesis. 84 To address this limitation, we also implemented a divergence point analysis. Unlike the non-parametric approach, divergence point analysis enables inferences about differences in the onset of effects, allowing for a more precise assessment of the timing of the phonological and semantic effects. However, it does not determine whether an effect exists, which was the focus of the cluster permutation analysis. This dual approach provided a more comprehensive understanding of the temporal dynamics of predictive processing in the study. Divergence Point Analysis is a non-parametric statistical method specifically designed to estimate the point at which two fixation curves begin to diverge. This method is particularly useful for identifying the onset of differences in eye-tracking data. The steps for conducting a Divergence Point Analysis are as follows: 1. Initial Statistical Testing: The analysis begins with fixation data divided into small time bins. A statistical test, such as t-tests or linear mixed-effects models, is conducted on each time bin. Since Divergence Point Analysis is non-parametric, t-tests are often preferred over mixed-effects models due to their lower computational demands and absence of convergence issues. 2. Identifying the Divergence Point: A divergence point is determined by identifying the first time bin among multiple consecutive bins where the effect becomes significant. The minimum required number of consecutive bins is defined based on the specific research question, ensuring that the identified divergence is not a result of random variation. 3. Bootstrapping for Distribution: To estimate a plausible range for the onset of the effect, bootstrapping is employed. This involves resampling the dataset with replacement to create a new dataset. Steps 1 and 2 are then repeated on this resampled data, allowing for the 85 calculation of a divergence point for each resample. This process generates a bootstrap distribution of the divergence points. 4. Calculating the Mean and Confidence Interval: After obtaining the bootstrap distribution, the mean and confidence interval of the divergence point are computed. This provides an estimate of the average onset time of the effect and the range within which this onset is likely to fall. One of the key advantages of Divergence Point Analysis is its ability to estimate both the onset of an effect and its confidence interval, allowing for statistical testing of differences in the timing of effects (divergence points) across different conditions or groups. This method avoids issues related to multiple comparisons and controls for the autocorrelation often present in eye- movement data. Additionally, because it does not require data to meet the assumptions of parametric tests, it is highly versatile and applicable to a wide range of datasets. Despite its strengths, Divergence Point Analysis has several limitations. While it can estimate the onset of an effect, it cannot assess the duration of that effect. Additionally, it is unable to identify multiple divergence points, as it focuses solely on the initial divergence point. Another significant limitation is that this analysis assumes the presence of an effect. During the bootstrapping process, there is a chance that a resampled dataset might show participants looking at the target more than the baseline purely by chance, and these values would be included in the onset distribution. Therefore, to determine both the presence and the onset of an effect, a separate analysis, such as a cluster-based permutation analysis, must first verify the significance of the effect. In this study, the Divergence Point Analysis aimed to statistically test the onset of the semantic and phonological effects by comparing the difference score against zero using a one- 86 sample t-test. The divergence point was defined as the first three consecutive t-values exceeding 2.04 (the two-tailed critical value for 30 degrees of freedom). These three bins (each representing 50 ms) matched the size of the initial effect identified in the cluster analysis. A distribution of divergence points was generated using 100000 bootstrap samples, from which the mean and confidence interval of the divergence point were calculated. To measure individual differences in the prediction of semantic and phonological information, a series of binomial mixed-effects models were conducted. A reference model was established to capture the baseline effect of the competitor, and this model was then compared to models that included one of the psychometric measures: semantic fluency, phonological fluency, verbal working memory, visuospatial working memory, and processing speed. Model comparisons were carried out using the log-likelihood ratio test. If the inclusion of a psychometric measure significantly improved the model fit, the variable was considered relevant in explaining the data. Otherwise, the reference model was deemed a better fit for the dependent variable. To minimize the risk of Type I errors, only the models demonstrating the best fit were further analyzed. This analysis focused on the prediction window, defined as the period from the average verb onset (-500 ms) to the target onset (0 ms). The dependent variable was the fixations in each time window. The fixed factors in the models included the Competitor (Unrelated, Phonological, Semantic) and its interaction with one of the psychometric measures. The Competitor factor was dummy-coded, with the unrelated competitor serving as the baseline. All psychometric measures were normalized and centered using z-scores to ensure consistency in the analysis. Random effects included the slope of the Competitor within Subjects and the intercept for Items, allowing for individual variation in response patterns across subjects and variability between items. Thus, the general formulas were as follow: 87 Reference model: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖,𝑗 = 𝛽0 + 𝛽1 ∙ 𝐶𝑖,𝑗 + (𝑆0𝑖 + 𝑆1𝑖 ∙ 𝐶𝑖,𝑗) + 𝐼0𝑖 Individual difference model: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖,𝑗 = 𝛽0 + (𝛽1 ∙ 𝐶𝑖,𝑗) + (𝛽2 ∙ 𝑃𝑖,𝑗) + (𝛽3 ∙ [𝐶 ∙ 𝑃]𝑖,𝑗) + (𝑆0𝑖 + 𝑆1𝑖 ∙ 𝐶𝑖,𝑗) + 𝐼0𝑖 Where: o p is the probability of success for the i-th individual and j-th Item. o β0 is the fixed intercept. o β1 is the fixed slope for the Competitor effect ©. o β2 is the fixed slope for the psychometric effect (P). o β3 is the fixed slope for the interaction between C and P. o S0 is the random intercept for the i-th individual. o S1 is the random slope for the C effect for the i-th individual. o I0 is the random intercept for the j-th item. Results Behavioral In Experiment 2, behavioral results indicated that participants performed at a high accuracy level, with an average of 92.7% correct responses (SD = 4.13, range = 84–100), and an average reaction time of 549.57 ms (SD = 101.62, range = 343.24–769.96). When comparing experimental and filler trials, no significant differences were found in the percentage of correct responses across conditions (Z = 0.814, p = 0.416; Experimental: median = 94, Q1–Q3 = 88–94; Filler: median = 94, Q1–Q3 = 88–100). However, a significant increase in reaction times was observed for experimental trials (Z = 4.770, p < 0.001; median = 575.99, Q1– Q3 = 484.13–668.23) compared to filler trials (median = 514.33, Q1–Q3 = 455.74–576.91). 88 These findings suggest that while participants maintained consistent accuracy across experimental and filler trials, the presence of both semantic and phonological competitors in the experimental trials led to longer response times. This indicates that the additional cognitive processing required to manage competing information may have slowed participants’ responses. Eye tracking In Experiment 2, out of the total 688 experimental trials conducted by the 43 participants, 54 trials (7.84%) were excluded because participants did not maintain gaze for more than 50% of the time during the analysis window (-1700 to 1000 ms relative to the expected word onset). The nonparametric cluster analysis revealed that participants fixated significantly more on the semantic competitor than at chance level from -600 to 550 ms relative to the expected target presentation (tcluster = 107.66, tmax = 6.199, p < 0.001). In contrast, participants fixated more on the phonological competitor than at chance level only during the 250 ms period following the presentation of the expected word (tcluster = 2.164, tmax = 2.164, p = 0.018). Additionally, participants fixated more on the semantic competitor than on the phonological competitor from - 400 to 600 ms relative to the expected word onset (tcluster = 82.244, tmax = 5.211, p < 0.001). The divergence point analysis indicated that the onset of the semantic prediction effect occurred on average at -578.37 ms (CI95% = -700 to -450 ms). This interval suggests that the semantic prediction effect began before the onset of the expected word, indicating that participants were actively predicting semantic information in advance. Interestingly, the divergence point analysis also revealed the onset of a phonological effect, averaging -506.8 ms (CI95% = -600 to - 450 ms). This result implies that, unexpectedly, the bootstrapped samples showed evidence of a predictive phonological effect as well (Figure 17). 89 These findings suggest that participants not only predicted the semantic content before the expected word was presented but also, to a lesser extent, engaged in phonological prediction during the same time frame. The early onset of both effects highlights the anticipatory nature of language processing, with semantic prediction appearing slightly earlier than phonological prediction. Figure 17 Experiment 2: Time course of the phonological and semantic prediction. Note: The lines represent the average proportion of gaze direction toward the phonological competitor (red), the semantic competitor (blue), and the three unrelated images (black). The shaded areas accompanying these lines indicate the standard error. The vertical dashed line within the graph serves to mark the onset of the anticipated word. The horizontal bars placed at the upper segment of the graph indicate the temporal clusters during which the participants’ gaze was predominantly directed toward the phonological (red) and semantic (blue) competitors. The difference in the participants’ gaze towards both competitors is represented in black. The lower segment of the graph encompasses the distribution of the onset effects. Here, both the mean value and the confidence interval associated with this distribution are presented. Individual differences Table 5 presents the full statistics for the model comparisons. Among the various psychometric measures tested, only the inclusion of processing speed improved the fit of the reference model (p = 0.04), suggesting that general information processing speed plays a role in the prediction of semantic or phonological information. 90 Table 5 Individual difference model comparison Model Parameters AIC logLik X2 df p Reference 10 150107 -75043 Semantic fluency 13 150112 -75043 0.427 3 0.934 Phonological fluency 13 150113 -75043 0.052 3 0.996 Verbal working memory 13 150111 -75042 1.922 3 0.588 Visuo-spatial working memory 13 150111 -75042 1.873 3 0.599 Processing speed 13 150105 -75039 8.013 3 0.045 Bold values represent statistical significance. Table 6 Model of predictive effect and processing speed. Fixed factor Β SE z p Intercept -1.309 0.04 -32.183 <0.001 Phonological -0.02 0.086 -0.233 0.816 Semantic 0.662 0.105 6.254 <0.001 Processing Speed -0.045 0.04 -1.127 0.26 Phonological:Processing Speed -0.119 0.086 -1.384 0.166 Semantic:Processing Speed 0.239 0.105 2.274 0.023 Bold values indicate statistical significance. Figure 18 Individual difference in processing speed Note. Solid lines show the predicted values of fixation for each competitor in the prediction window. Ribbons indicate 95% confidence interval. Processing speed values are normalized and centered; thus, higher values are faster participants. 91 Further analysis of this model revealed a significant interaction between the semantic competitor and processing speed (p = 0.02). This interaction indicates that the difference between fixations on the semantic competitor and unrelated competitors increases for participants with faster processing speeds (Figure 18). Notably, processing speed did not interact with the phonological competitor, suggesting that this effect is specific to semantic prediction (Table 6). Exploration of related effects Since the results of the Experiment 2 are unexpected, we perform a series of exploratory studies to describe the time course of the independent phonological and semantic effects, but also how both effects interact together in a bottom-up design. All this studies with the results of Experiment 2 would provide a full picture for explaining the interaction between both types of information during prediction. Phonological effect In this experiment, the primary aim was to confirm that the experimental sentences used in the study elicited phonological prediction. The same set of sentences from Experiment 2 was used, but the visual stimuli were modified. Instead of including both phonological and semantic competitors in the visual array, only the phonologically related competitor was included alongside the same three unrelated competitors. This change allowed us to observe whether participants showed a preference for the phonologically related item over the unrelated competitors, thereby indicating phonological anticipation of the expected word based on the sentence context. The final sample for this phonological study comprised 30 undergraduate students (mean age = 21.57 years, SD = 2.08, 10 males) from the National Autonomous University of Mexico (UNAM). All participants were native Spanish speakers, reporting normal or corrected-to-normal 92 vision and hearing. In line with the study’s exclusion criteria, two additional participants were excluded from the final analysis. The study involved a total of 480 experimental trials, of which 20 trials (4.16%) were excluded because participants did not maintain visual focus for at least 50% of the time during the analysis window. No further exclusions were necessary, and the final analysis included data from the remaining 30 participants. Figure 19 Time course of the phonological prediction. Note: The line graph visualizes the mean-looking proportion for the phonological competitor (shown in red) and the three unrelated pictures (shown in black). The shaded regions represent the standard error of the mean. The onset of the expected word is represented by a vertical dashed line. Horizontal bars located at the upper part of the plot signify the time clusters during which participants were inclined to look at the phonological competitor. The distribution of effect onsets, along with their mean and confidence interval, are depicted in the lower section of the plot. This representation allows for a clear understanding of how gaze behavior changes over time and when exactly participants start to focus more on the phonological competitor compared to unrelated pictures. The nonparametric cluster analysis revealed two significant clusters. The first cluster occurred from -650 to -550 ms before the expected target presentation (tcluster = 8.107, tmax = 2.934, p < 0.001). The second cluster appeared from -50 ms to 150 ms relative to the expected word 93 presentation (tcluster = 15.90, tmax = 3.830, p < 0.001). In both clusters, participants paid more attention to the phonological competitor than would be expected by chance (zero level). According to the divergence point analysis, the onset of the anticipated phonological effect occurred on average at -566.37 ms, although there was considerable variability, with the confidence interval ranging from -800 to -150 ms. Despite this variability, the upper limit of the effect’s onset fell before the presentation of the expected word. In conclusion, the results from both analyses indicate that participants activated the phonological form of the expected word before its presentation (Figure 19). This finding supports the notion that phonological information is anticipated in advance of hearing the target word, highlighting the role of phonological prediction in language processing. Semantic effect This semantic study was designed to confirm the elicitation of semantic prediction by the experimental sentences used in the study and to indirectly contrast the timing of semantic prediction with phonological preactivation. To achieve this, the same experimental sentences from Experiment 2 were employed, but modifications were made to the visual stimuli. Instead of including both phonological and semantic competitors in the image array, only a semantic competitor was presented, accompanied by the same set of three unrelated competitors. This change allowed us to observe whether participants showed a preference for the semantically related item over the unrelated competitors, which would suggest that they were anticipating the semantic content of the expected word based on the sentence context. By conducting this semantic experiment, we aimed to validate the experimental sentences in terms of their ability to elicit semantic preactivation. 94 The sample for this semantic study consisted of 32 undergraduate students (mean age = 21.27 years, SD = 1.48, 14 males) from the National Autonomous University of Mexico (UNAM). All participants were native Spanish speakers and self-reported either normal vision and hearing or corrected-to-normal levels. Figure 20 Time course of the semantic prediction. Note: The lines depicted in the graph correspond to the mean-looking proportion, with the blue line representing the phonological competitor and the black line representing the three unrelated pictures. The shaded areas illustrate the standard error. The onset of the expected word is indicated by the vertical dashed line. In the upper section of the graph, the horizontal bar denotes the time cluster during which participants exhibited a tendency to look at the semantic competitor. The lower section of the plot showcases the distribution of effect onsets, alongside the mean and confidence interval. Out of a total of 512 experimental trials, 13 trials (2.53%) were excluded because the participants’ gaze did not remain within the analysis window for more than 50% of the time. The nonparametric cluster analysis revealed a significant pattern: participants looked more frequently at the semantic competitor than expected by chance. This pattern occurred from -900 ms to 650 ms relative to the anticipated target presentation (tcluster = 132.011, tmax = 6.201, p < 0.001). These 95 results indicate that during this time window, participants were actively aware of the semantic relationship between the expected word and its semantic competitor. The Divergence Point Analysis established that the onset of the semantic prediction effect occurred on average at -847.51 ms (CI95% = -950 to -700 ms). Since this confidence interval indicates that the onset of the effect began before the presentation of the expected word, it can be concluded that participants were indeed predicting semantic information (Figure 20). This finding supports the presence of anticipatory processing of semantic content, demonstrating that participants used contextual clues from the sentence to anticipate the meaning of the expected word before it was heard. Bottom-up effects The objective of the bottom-up study was to investigate whether the presence of the expected word would trigger bottom-up processing of phonological and semantic information when both types of competitor images were present in the same array. This study used the same visual stimuli as in Experiment 2, but the key difference was that only the expected word was presented, without any accompanying sentence context. The expected word was adjusted to be presented 1100 ms earlier, allowing sufficient time to assess the bottom-up effect. The final participant pool for the bottom-up study consisted of 32 undergraduate students (mean age = 22.65 years, SD = 2.75, 11 males) from the National Autonomous University of Mexico (UNAM). All participants were native Spanish speakers with normal or corrected-to- normal vision and hearing. Due to calibration issues, gaze data could not be recorded for seven participants. Additionally, three participants were excluded from the analysis due to low behavioral performance (n = 2) or a high proportion of unattended trials (n = 1). 96 In this bottom-up study, 491 out of the 512 experimental trials (96.09%) met the trial inclusion criteria, which required that participants maintain more than 50% of fixations during the time window from 0 to 2100 ms (Figure 21). The nonparametric cluster analysis revealed two significant clusters where participants fixated significantly more on the semantic competitor than would be expected by chance. The first cluster occurred from 650 to 1450 ms after the onset of the expected word (tcluster = 94.765, tmax = 9.334, p < 0.001), and the second cluster appeared towards the end of the trials, from 1800 to 1950 ms (tcluster = 9.861, tmax = 2.659, p = 0.002). Additionally, participants fixated significantly more on the phonological competitor than would be expected by chance from 650 to 950 ms relative to the target onset (tcluster = 18.808, tmax = 3.870, p < 0.001). Figure 21 Time course of the phonological and semantic bottom-up processing. Note: The graph lines represent the average gaze proportion for the phonological competitor (red), the semantic competitor (blue), and the three unrelated images (black). The shaded areas indicate the standard error. The horizontal bars in the upper section of the plot denote the time clusters where participants tended to fixate on the phonological (red) and semantic (blue) competitors, with the difference between both competitors depicted in black. In the lower section of the plot, the distribution of effect onsets, as well as the mean and the confidence interval, are illustrated. 97 In two periods, participants showed significantly more gaze towards the semantic competitor compared to the phonological competitor: from 800 to 1350 ms (tcluster = 57.879, tmax = 7.205, p < 0.001) and from 1750 to 1900 ms (tcluster = 10.524, tmax = 2.710, p = 0.004). The divergence point analysis indicated that the onset of the semantic bottom-up effect occurred at an average of 601.20 ms (CI95% = 550 to 650 ms). Similarly, the analysis revealed the onset of the effect for the phonological competitor at 637.93 ms (CI95% = 550 to 750 ms). These results suggest that when presented with only the expected word, participants initially processed both semantic and phonological information in a bottom-up manner, but with a slightly earlier onset for semantic information. The findings indicate that even without the guiding context of a sentence, participants can access both types of information, with a stronger preference for semantic cues over time. This distinction between the processing of semantic and phonological competitors offers insights into how bottom-up mechanisms contribute to language comprehension. Discussion Experiment 2 investigated the time course of phonological and semantic preactivation during language comprehension using a visual world paradigm combined with eye-tracking. A target-absent visual world paradigm was used, wherein participants listened to highly constraining sentences while viewing four competing pictures: one semantic competitor, one phonological competitor, and two unrelated images. Additionally, participants were assessed on verbal and nonverbal processing speed and working memory tasks. The results highlighted a strong semantic prediction effect, showing that participants anticipated the semantic content of the expected word before its presentation. In contrast, no evidence of phonological preactivation was found during this anticipatory phase. Following the 98 presentation of the expected word, the semantic influence persisted, and a phonological effect emerged, but this phonological effect appeared to be driven by bottom-up processes rather than prediction. Moreover, the semantic predictive effect was found to be positively correlated with nonverbal processing speed, suggesting that participants with faster general processing speeds were better at utilizing semantic context for prediction. These findings emphasize the dominant role of semantic information in predictive processing and suggest that phonological activation primarily follows rather than precedes word presentation. The observed semantic predictive effect aligns with findings from previous studies (Altmann & Kamide, 1999; Angulo-Chavira et al., 2022; Arias-Trejo et al., 2019; Li et al., 2022; Mani & Huettig, 2012), showing that semantic anticipation persists up until the onset of the expected word. This robust effect can likely be attributed to the primary goal of communication: understanding the meaning of the conveyed message. As a result, it is plausible that the meanings embedded within sentences pre-activate semantic information to a greater extent, allowing listeners to anticipate upcoming content based on the overall context (Li et al., 2022). This suggests that during language comprehension, listeners prioritize semantic processing to predict likely continuations, facilitating smoother interpretation of spoken language. In contrast to the consistent findings on semantic prediction, previous studies have shown mixed results regarding the prediction of word forms. While some studies have reported a strong predictive effect of word forms (DeLong et al., 2005; Ito et al., 2018; Kukona, 2020), others have not been able to replicate these effects (C. D. Martin et al., 2013; Nieuwland et al., 2018). Similarly, our study revealed unexpected mixed outcomes. On one hand, when the phonological competitor was presented in isolation, a strong predictive effect was observed, suggesting that predicting the target word may also involve predicting its phonological features. This indicates 99 that participants can anticipate phonological aspects of the target when no other competing semantic information is present. However, when the phonological competitor was presented alongside the semantic competitor, participants did not fixate on the phonological competitor before the presentation of the expected word. Instead, their attention shifted to the phonological competitor only after the target word was presented, indicating a bottom-up effect. This suggests that in the presence of both semantic and phonological cues, the semantic information takes precedence during prediction, while phonological features become relevant mainly after the actual word form is encountered. These results can be interpreted as a preferential processing of semantic information over phonological information during prediction (Pickering & Gambi, 2018). Alternatively, phonological information might be more adaptable, with its prediction occurring only when it is deemed necessary (Huettig, 2015; Huettig & Mani, 2016; Pickering & Gambi, 2018). Another possibility is that phonological prediction is sensitive to time constraints; thus, participants may not have fixated on the phonological competitor because, although they retrieved the phonological information, they lacked sufficient time to direct their gaze toward it during the prediction window, leading them to shift their focus to this competitor only after the target presentation. In the following paragraphs, we will explore these three non-mutually exclusive alternatives in an attempt to clarify whether phonological prediction was present. However, the broader discussion concerning the underlying mechanisms will be addressed in the General Discussion, where we will integrate the findings from both Experiment 2 and Experiment 3 to provide a more comprehensive understanding of the observed effects. When presented in isolation, semantic prediction appeared to precede phonological prediction; however, due to high variability in the phonological prediction, this difference did not 100 reach statistical significance. The phonological effect exhibited a biphasic pattern, with an initial peak occurring nearly simultaneously with the semantic peak, followed by a second, later peak just before the presentation of the target word. A closer examination of this biphasic predictive effect revealed that 80% of participants displayed this pattern, but it was present in only 60% of the trials. The variability in the phonological effect was further highlighted by differences across trials: some trials demonstrated an extended and strong monophasic phonological prediction, others exhibited prediction only towards the end of the trial, and only one trial showed no predictive effect at all. In contrast, the semantic effect was consistently strong and sustained across both participants and trials, indicating a more stable and robust pattern of semantic preactivation. Descriptive observations suggested that phonological prediction is more sensitive to variations in sentence context compared to semantic prediction. This sensitivity may account for the observed variability in the phonological effect, as changes in the context might influence the extent and timing of phonological activation more than they affect semantic activation. The relative stability of semantic prediction, by contrast, underscores its primary role in guiding anticipatory language processing across different conditions. This interpretation is supported by findings from previous non-predictive studies that demonstrate variability in phonological effects under different conditions. For instance, Huettig and McQueen (2007) found that phonological activation was influenced by the preview duration of images. Phonological cohort effects emerged when the images were presented with a longer preview time (1000 ms), but these effects were absent when the images were shown with a shorter preview time (200 ms). This suggests that the availability of time can significantly impact the likelihood of phonological activation, with longer exposure allowing for more robust phonological 101 processing. These results align with the observed variability in phonological prediction in the current study, indicating that time constraints may play a crucial role in determining when and how phonological information is accessed. It is also possible that competition between semantic and phonological competitors influences the processing of the phonological competitor. Chow et al. (2022) found that the presence of a semantic competitor could explain the absence of a phonological effect in the short preview condition observed in Huettig and McQueen (2007). They proposed that the semantic competitor exerts top-down inhibition on the phonological competitor when the preview duration is limited, effectively suppressing the phonological activation. This interpretation is consistent with findings from Apfelbaum et al. (2021), who reported a phonological non-predictive effect even when no semantic competitor was present, despite using conditions with no preview. These findings suggest that the presence of a semantic competitor could interfere with participants’ fixations on the phonological competitor, even if they have anticipated phonological information. Thus, it is possible that participants in the current study were predicting phonological information, but their fixations on the phonological competitor were suppressed or overshadowed by the processing demands associated with the semantic competitor. This hypothesis implies that the competition between different types of information—semantic and phonological—affects the allocation of visual attention, with the dominant semantic processing potentially inhibiting the expression of phonological anticipation in participants’ eye movements. Finally, the hypothesis that participants lacked sufficient time for phonological prediction seems less likely. Firstly, research indicates that the time required to make a fixation following a linguistic stimulus is approximately 200 ms (Viviani, 1990). In our study, the divergence point analysis showed that prediction onsets occurred around -600 ms, which provides ample time for 102 participants to make at least two fixations before the expected word was presented. Additional evidence comes from the phonological effect observed when the phonological competitor was presented in isolation. In this condition, participants exhibited two peaks of phonological prediction within the same time frame, suggesting that there was indeed enough time for phonological processing to occur before the target word presentation. Moreover, the pattern of results in our experiment indicated that both semantic and phonological effects could be observed simultaneously. After the presentation of the target word, participants fixated on both the phonological and semantic competitors on the bottom-up experiment, suggesting that they were able to shift their attention between these competitors. This alternation of attention suggests that both types of information were accessible to participants and that time constraints did not prevent the emergence of phonological prediction. Instead, the interplay between the semantic and phonological competitors, rather than a lack of time, likely influenced the observed fixation patterns during the prediction phase. The question that arises is whether, even if participants do not show a preference for the phonological competitor before the target word presentation, the sentence context influences phonological bottom-up processing during the integration process. In other words, does the context of the sentence modulate how participants process phonological information once the target word is presented? Based on a temporal analysis, we argue that there was a facilitation in the processing of phonological features during the integration process. Specifically, our bottom-up phonological effect emerged around 250 ms after the target word presentation. This is notably earlier than the typical onset of such effects, which is generally observed around 300 ms (Chow et al., 2017, 2022; Huettig et al., 2011; Huettig & McQueen, 2007). Additionally, the results from our bottom-up 103 study, where the phonological competitor was presented in isolation, indicated that the phonological effect with our stimuli occurred later, approximately between 550 and 750 ms. The earlier onset of the phonological effect in the context of sentence presentation suggests that the presence of a meaningful sentence context facilitated the integration of phonological information after the target word was encountered. This temporal shift implies that although phonological preactivation may not have been prominent before the target word’s appearance, the context nonetheless prepared the system to integrate phonological details more efficiently once the word was presented. Thus, the context likely acted as a priming mechanism, allowing for a faster response to phonological information during the integration phase. This explanation is indeed compelling, as it contrasts with previous findings where phonological integration effects before highly constrained sentences showed phonological suppression rather than facilitation (Dahan & Tanenhaus, 2004). This discrepancy suggests an important distinction between scenarios where phonological information has already been preactivated and those where it has not. When phonological processing occurs before the presentation of the target word—due to strong predictive preactivation—bottom-up processing of phonological information may not occur because this information has already been accessed and integrated. This is consistent with the results of both our phonological pilot experiment and those of Dahan and Tanenhaus (2004), where phonological preactivation led to a diminished or suppressed response to phonological information during integration. Conversely, when there is no strong phonological preactivation, as observed in our experimental setup, the presentation of the target word leads to facilitation of phonological processing during the integration phase. In this scenario, the lack of prior activation allows the 104 phonological features of the target word to be processed more readily once the word is encountered, resulting in a more robust bottom-up effect. This perspective aligns with predictive coding theories, which suggest that predictions serve a crucial role in reducing the cognitive load associated with processing incoming information by preactivating likely features of upcoming stimuli (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). When predictions successfully preactivate features like phonology, there is less need for additional bottom-up processing when the predicted word is heard, as the information has already been accounted for. However, in the absence of such preactivation, the system responds with a more pronounced bottom-up effect as it processes the newly encountered information. Ultimately, this theory emphasizes the adaptive nature of predictive mechanisms in language comprehension: predictions help optimize cognitive resources by preparing the system for expected input, while also allowing for rapid processing when new or unexpected features arise. This nuanced view helps explain the variability in phonological effects depending on the presence or absence of prior predictive processing, as well as the balance between top-down and bottom-up influences in language processing. This interpretation aligns well with our hypothesis regarding the interference created by the semantic competitor (Chow et al., 2022). It suggests that participants do indeed predict phonological information, but their fixations on the phonological competitor are overshadowed by the presence of the semantic competitor during the predictive phase. Essentially, the attention directed towards the semantic competitor interferes with the ability to fixate on the phonological competitor before the target word is presented. However, when the participants hear the target word, the phonological competitor receives an additional boost in activation. This boost results in the observed facilitation, with phonological processing occurring approximately 300 ms earlier 105 than it would under conditions where no such interference is present. In other words, the semantic competitor’s interference delays the participants’ overt attention to the phonological competitor, but the phonological processing itself is not entirely suppressed; it simply becomes more evident as a bottom-up effect when the target word is presented, leading to faster integration. This interpretation also sheds light on the phonological effect observed in the divergence point analysis of Experiment 2. Specifically, it suggests that some participants in certain trials exhibited a phonological effect because the interference from the semantic competitor was not strong enough to entirely suppress phonological prediction. This explanation points to individual differences in the ability to process phonological information, though these differences were not directly captured by our measures. Our results on individual differences revealed that faster participants showed stronger semantic predictive effects, yet no significant relationship was found between processing speed and phonological prediction. This suggests that semantic prediction is more closely tied to a general domain of processing speed rather than a domain-specific language process. It implies that participants who are generally faster at processing information might also be quicker at making predictions across various cognitive domains, not just in language processing. However, other skills could potentially influence individual differences in phonological prediction. For example, reading skills might play a significant role in this area, as they are known to improve and refine phonological representations (Huettig & Pickering, 2019). Individuals with stronger reading skills may develop more precise phonological representations, enabling them to maintain phonological predictions even when faced with interference from semantic information. Future studies could explore whether measures of reading ability or phonological awareness might better account for the variability in phonological prediction effects observed in this study. This 106 would provide a more comprehensive understanding of how individual differences shape the balance between semantic and phonological processing during predictive language comprehension. In sum, Experiment 2 demonstrated that during language comprehension, semantic information is strongly and consistently pre-activated, shaping predictions about upcoming words. In contrast, phonological information exhibits more variability in its prediction. We interpret this variability as evidence that participants do predict the phonological form of target words, as indicated by the facilitation observed in the bottom-up effect. However, phonological prediction appears to be influenced by several modulators, including competition from semantic information and individual differences among participants. 107 Experiment 3: Electroencephalography A known limitation of the visual world paradigm is the closed-set problem (Apfelbaum et al., 2021). This issue arises when the visual presentation of competing items artificially facilitates the retrieval of a competitor, which might not typically occur, effectively transforming the visual world paradigm into a four-alternative forced choice task. In the present experiment, participants may have predicted the semantic information not because it was inherently activated in their lexicons, but because the visual competitor was explicitly displayed. Additionally, an intrinsic feature of eye-tracking technology is that it selects one piece of information at a time. Although visual information is processed in parallel, encompassing both the focal point and peripheral vision (Kandel, 2012), this parallel processing may affect how competing elements within a visual scene are interpreted. As a result, the observed phenomenon of predictive phonological suppression could be influenced more by this methodological constraint than by a naturally occurring cognitive process. It is important to acknowledge that the visual world paradigm is inherently a multimodal method, which presents a challenge when attempting to separate the influence of visual and linguistic information on the timing of predictive processing. However, this multimodality, while complicating the differentiation of distinct cognitive processes, also contributes to the paradigm’s ecological validity (McMurray, 2023). In real-world settings, language processing frequently involves the integration of multimodal information (Pickering & Gambi, 2018). Therefore, although the visual world paradigm may obscure the boundaries between different cognitive processes, it effectively captures the complexity and richness of everyday cognitive and linguistic experiences. 108 Moreover, the visual world paradigm relies on the high-frequency sampling assumption (McMurray, 2023), which suggests that each data point in the fixation signal represents a sample of the underlying activation curve. While studies have shown similarities between activation patterns in computational models and those derived from visual world paradigm data (e.g., Duta & Plunkett, 2021), this assumption does not fully account for the noise introduced by the time required to initiate an eye movement (Viviani, 1990). Although a single fixation might reflect the underlying activation curve, the eye must remain fixated for at least 200 ms before shifting to a different object. Consequently, the visual world paradigm may struggle to detect rapid or parallel processes, such as those proposed by prediction-by-association or prediction-by-simulation mechanisms. For instance, our divergence point analysis revealed that the average onset of semantic prediction occurred earlier than that of phonological prediction; however, the difference was minimal, and the relatively high variance rendered this distinction unreliable. In light of these considerations, the objective of Experiment 3 was to investigate the timeline of predictive lexical access to both semantic and form information using EEG. This technique, known for its high temporal resolution, enables the capture of data within the millisecond domain, thus providing a detailed view of the temporal dynamics underlying cognitive processing. EEG offers valuable insights into the mechanisms involved in retrieving semantic and form information. This research is based on the premise that word representation retrieval relies on the temporal synchronization of neural networks associated with specific words (A. R. Damasio, 1989; Kriegeskorte et al., 2008; Kriegeskorte & Kievit, 2013; Wang et al., 2018). To explore this, RSA was employed to assess whether temporal synchronization differs between semantically and orthographically related words. Previous studies have demonstrated the activation of similar neural 109 ensembles when semantically- and form-related words are predicted (Wang et al., 2018, 2020, 2024; Wei et al., 2023). Building on this foundation, Experiment 3 aims to compare the temporal characteristics of semantic and form effects, providing a deeper understanding of their respective timelines. Participants In Experiment 3, the final sample consisted of 24 undergraduate students (mean age = 19.63 years, SD = 1.23, 12 males) from the Autonomous University of Queretaro (UAQ). All participants were native Spanish speakers, predominantly right-handed, with either normal or corrected-to-normal vision and normal hearing. An additional 10 participants were evaluated but excluded due to experimental errors (n = 2) or excessive artifacts (n = 8). The final sample size (n = 24) exceeded the number determined through our power analysis (n = 17). This power analysis was based on a medium effect size for a single paired comparison (δ = 0.73, α = 0.05, β = 0.80), using data from Wang et al. (2018). Thus, the study was well-powered, with a sufficient sample size to effectively examine the predictive activation of semantic and phonological information during language comprehension. Instruments To quantify variations in predictive skills among individuals, two cognitive assessments were conducted: verbal reasoning and verbal working memory. Due to constraints related to time, space, and available materials at the site of the electrophysiological experiment, the assessment was shorter than the more comprehensive evaluation used in Experiment 2. These cognitive skills have been previously linked to prediction abilities in prior studies (Ryskin & Nieuwland, 2023). The Similarities task (Wechsler, 2008) was used to assess verbal abstraction. In this task, participants identify the relationship between two concepts (e.g., "numbers: seven-one"). 110 Responses are scored from 0 to 2, with a score of 2 indicating a deeper level of abstraction. The final score is the sum of the individual scores across all items. The Digit Retention task (Wechsler, 2008) was employed to measure verbal working memory. In this task, participants are presented with a sequence of numbers, which they must repeat either in the same order (forward recall) or in reverse (backward recall). The final score, representing the participant’s verbal working memory capacity, is determined by the length of the longest sequence they can accurately reproduce. Stimuli In this study, 94 highly constrained sentences from Experiment 1 were selected, with the final word of each sentence serving as the primary selection criterion. Forty-seven highly imageable, concrete nouns were selected, with each noun paired with two distinct sentences that provided different semantic contexts (e.g., Como tenía mucho sueño me lloraban mis ojos [As I was very sleepy, tears filled my eyes]; Antes de besarla, él miró sus lindos ojos [Before kissing her, he looked into her beautiful eyes]). To ensure consistency in sentence length throughout the experiment, all sentences were standardized to contain eight words. This standardization was achieved primarily by introducing adverbial phrases. In some instances, the syntactic structure was modified, but the core semantic content of each sentence was preserved. Additionally, modifications were made to the pre-final word of each sentence, replacing it with a semantically and syntactically plausible, yet unexpected, alternative. This adjustment aimed to create a controlled variation without altering the overall meaning. To maintain participants’ engagement throughout the experiment, 47 yes/no questions related to these sentences were developed. These questions were designed to be straightforward, requiring participants’ full attention. For example, if the experimental sentence was, “The cow in 111 the barn produced little milk,” the corresponding question might be, “Did the cow in the barn produce a lot of milk?” This design ensured that participants needed to attend closely to each word in the sentence to answer the question accurately, thus helping to maintain their focus on the task throughout the experiment. Pilot study 1: plausibility Pilot Study 1 was designed to evaluate the plausibility of the sentences as perceived by Mexican Spanish speakers. The primary objective was to determine whether the sentences were considered natural utterances or plausible statements that could be encountered in a specific context. This evaluation was crucial, as any semantic or syntactic anomalies could potentially disrupt prediction processes, thereby affecting the semantic and phonological predictions associated with the critical word. The study involved 100 undergraduate students (51 males, 49 females), with an average age of 23.13 years (SD = 3.50, range = 18–29). The experimental task was conducted online using the Cognition platform (https://www.cognition.run/). Participants were required to agree to the informed consent before starting the task, with those declining consent being unable to proceed. Participants rated the plausibility of the sentences on a continuous scale ranging from 0 to 1, where zero indicated a sentence was perceived as unnatural, and one indicated it was perceived as natural. To ensure familiarity with the rating process, participants completed three familiarization trials before the main task. Descriptive results indicated an average plausibility rating of 0.90 (SD = 0.60, range = 0.62–0.93). One-sample Wilcoxon signed rank tests, comparing ratings against the chance level of 0.5, revealed that all sentences were rated significantly above chance (all p-values < 0.001). These 112 findings suggest that the sentences were generally perceived as plausible by the participants, validating their use in subsequent experimental phases. Pilot study 2: Cloze probability of the final word While cloze probabilities were initially obtained from Experiment 1, the modifications made to the length and syntactic structure of the sentences could potentially affect their predictability. Therefore, the set of 94 sentences was re-evaluated using a task similar to that in Experiment 1. The only difference was that the 101 participants in this study provided demographic information regarding their age (M = 23.21, SD = 3.41, range = 18–28) and gender (25 males, 35 females). The descriptive analysis revealed that the sentences maintained high cloze probability (M = 0.93, SD = 0.09, range = 0.71–1), along with low surprise (M = 0.10, SD = 0.15, range = 0.00– 0.48) and entropy (M = 0.27, SD = 0.38, range = 0.00–1.16). The high cloze probability (0.93) indicates that the sentences are highly constrained, with participants strongly anticipating the target words. The low surprisal values of the critical target words (0.09) suggest that these words contributed little new information to the sentence context due to their predictability. Additionally, the low entropy (0.27) implies that the context created minimal uncertainty, reinforcing the likelihood that participants would accurately predict the target word. Given the highly constraining nature of the sentences, which facilitate the anticipation of the expected word, participants are likely to activate both the semantic and phonological information of the critical word during processing. This supports the suitability of these sentences for investigating predictive mechanisms in the subsequent experiments. 113 Pilot study 3: Cloze probability of the semifinal word While the predictability of the final word is crucial, it is possible that any observed differences in the processing of the prefinal word could be influenced by its degree of predictability. For example, in the sentence “Food was served on the table,” not only is the final word ‘table’ highly predictable, but the prefinal determiner ‘the’ is also expected. To account for this, the set of 94 sentences underwent an evaluation task similar to that of Experiment 1, with a key modification: the sentence contexts were presented without the final and prefinal words, prompting participants to provide the most suitable continuation. Each sentence context was evaluated by 70 university students, whose average age was 23.21 years (SD = 3.41, range = 18–28 years, 25 males and 35 females). The descriptive analysis revealed that these sentence contexts had low cloze probability (M = 0.04, SD = 0.07, range = 0.00–0.30), indicating that they were weakly constrained with regard to the prefinal word. This suggests that participants were generally unable to reliably predict the prefinal word. It is important to note, however, that while the prefinal word was weakly constrained, it was not entirely unexpected. This interpretation is supported by findings from Pilot Study 1, where even though the prefinal word was not highly predictable, the overall sentences were still rated as highly plausible by the participants. This suggests that, despite the variability in predicting the prefinal word, the broader sentence context remains coherent and natural, thus maintaining the integrity of the experimental stimuli. Pilot study 4: Questions Pilot Study 4 aimed to determine an appropriate response time window for participants and to assess whether the questions were easy enough to answer accurately. The study was conducted online using the Cognition platform, where participants viewed complete sentences for 4 seconds, 114 followed by a corresponding question displayed for 4 seconds. Participants were instructed to decide whether the question was consistent with the preceding sentence. The pilot study involved 70 university students with an average age of 23.21 years (SD = 3.41, range = 18–28), including 25 males and 35 females. Descriptive analysis indicated a high percentage of correct responses (M = 98.38%, SD = 2.15, range = 95.71–100.00%), suggesting that the questions were well understood and the task was sufficiently easy for participants to perform accurately. Regarding reaction times, participants took an average of 1558.16 ms to respond (SD = 57.70, range = 1457.82–1668.77 ms). This initial range suggested that 1700 ms would be adequate for most participants to read the sentence and answer the question. However, closer examination of individual response times revealed that some participants required up to 2200 ms to complete their responses. Given this variability and the diversity within the participant pool, we decided to extend the response time window to 2400 ms. This adjustment ensures that all participants have ample time to respond accurately, accommodating those who may need additional time without compromising the flow of the experiment. Experimental design In the main experiment, the 94 sentences were presented as a single block, with each word shown individually at the center of the screen in black font against a gray background. The word height was adjusted to 1.5° of visual angle to ensure uniform visibility for all participants. Before the first word of each sentence appeared (Figure 22), a fixation point was displayed for 1400 ms, followed by an interstimulus interval (ISI) of 100 ms. The initial five words of each sentence were presented for 400 ms each, with a 100 ms ISI between them. To allow for more processing time, the presentation rate was reduced for the last three words, which were displayed 115 for 600 ms each with an ISI of 200 ms. After the sentence presentation, participants saw either a string of numeral symbols (#####) or a yes/no question related to the sentence content. The numeral symbols were shown for 900 ms with a 100 ms ISI, while the questions were displayed for 2400 ms, followed by a 100 ms ISI. This extended time for question presentation was chosen based on the results of Pilot Study 4, ensuring that participants had enough time to read and respond accurately. Figure 22 Example of trial in electroencephalographic experiment. Note. The stimuli were displayed from left to right, and top to bottom. The red rectangle indicates the time period from which the epochs were extracted, while the blue rectangle shows the time when a predictive effect was expected. The question mark symbolizes the question presented in some trials; however, in half of the trials, a sequence of numeral symbols (######) was shown for 1000 ms. In the current experiment, it is hypothesized that there could be mismatches between semantic and phonological information in word prediction. This complexity necessitated us to give participants additional time to properly process and integrate both semantic and phonological cues for prediction. Despite this, the word presentation rate in our experiment was still faster than that used by Wang et al. (2018). However, a trade-off had to be made considering the overall task duration. Extensive tasks pose a challenge to participants in terms of maintaining attention and 116 engagement. Consequently, we decided to accelerate the presentation of the first five words of the sentences. This decision was informed by previous research findings, which showed that the predictive effects as measured by representational similarity analysis tend to manifest during the presentation of the prefinal word (Wang et al., 2018, 2024). Data acquisition The electroencephalographic (EEG) signal was recorded using a NuAmps amplifier (Neuroscan Inc.), with a setup of 34 silver/silver-chloride electrodes arranged according to the international 10-10 system. The electrode positions included: Fp1, Fp2, F7, F3, Fz, F4, F8, FT7, FC5, FC3, FCz, FC4, FC6, FT8, T7, C3, Cz, C4, T8, TP7, CP5, CP3, CPz, CP4, CP6, TP8, P7, P3, Pz, P4, P8, O1, Oz, and O2. Additionally, five extra electrodes were placed as follows: one for grounding, two on the earlobes for re-referencing, and two to monitor vertical and horizontal eye movements. To ensure high-quality data, electrode impedance levels were maintained below 10 kΩ. The raw EEG signals were recorded at a sampling rate of 1000 Hz and a bandwidth of 0.1 – 50 Hz, which provides detailed temporal resolution for capturing rapid neural processes. Data collection was conducted using Curry 7 software (Neuroscan Inc.), while the behavioral task was delivered through Stim2 software (Neuroscan Inc.). Synchronization between these platforms was achieved using a Cedrus Stim Tracker Quad (Neuroscan Inc.), which sent markers to denote the timing and nature of each presented stimulus. Participants’ responses were recorded with a Cedrus RB-740 response pad, ensuring precise logging of their inputs. Procedure Upon arrival at the laboratory, each participant followed a standard sanitary protocol to ensure a clean and safe environment for the procedures. They were then asked to sign an informed 117 consent form and provide demographic information as part of the preparation for the EEG recording. Participants were seated approximately 60 cm away from the screen and instructed to use their right hand’s index and middle fingers to press the buttons during the experimental tasks. They were also advised to remain calm, relaxed, and to minimize blinking as much as possible, although they were permitted to blink during the appearance of the fixation point when needed. Prior to starting the experimental task, participants received clear instructions. They were instructed to press the green button if the question matched the sentence they had read, and to press the red button if it did not. For trials involving the presentation of numeral symbols, participants were directed not to respond. To ensure understanding, a brief familiarization phase of three trials was provided. If a participant made an error during this phase, the experimenter offered feedback, and the familiarization trials were repeated until the participant demonstrated accurate comprehension. Throughout the experiment, participants were monitored through a Gesell chamber, allowing the experimenter to ensure adherence to instructions and correct any issues if necessary. After completing the experimental task, participants were provided with cleaning materials to remove the gel used for EEG recordings. A detailed explanation of the primary objectives of the research project was given to the participants, fostering their understanding and appreciation of the study. Data processing The preprocessing of the data was conducted using EEGLAB (Delorme & Makeig, 2004), a versatile tool for processing electrophysiological signals. Initially, the EEG signal was re- referenced to the average of the earlobes, and the direct current (DC) component was removed by subtracting the mean of the entire time series for each electrode. 118 The treatment of artifacts involved a four-stage process. In the first stage, line noise at 60 Hz was extracted from the signal to reduce electrical interference. The second stage applied a 4th- order Butterworth filter with a passband range of 0.5 to 30 Hz, effectively isolating the frequencies of interest while filtering out low-frequency drift and high-frequency noise. The third stage involved a visual inspection of the data, allowing for the removal of prominent and non-coherent noise that could not be handled automatically. Subsequently, automatic artifact correction was performed using the ‘runica’ algorithm and the ICAlabels extension within EEGLAB. This step involved removing independent components associated with muscle activity, eye movements, cardiac signals, line noise, and other channel noise. Following this, an artifact subspace reconstruction procedure was employed to further correct or reject any residual artifacts. Finally, a second visual inspection was conducted to identify and eliminate any remaining artifacts, ensuring the integrity of the cleaned signal. Subsequently, the signal was segmented into epochs spanning from -800 to 0 ms relative to the anticipated word onset. Given the word presentation rate of 800 ms, each epoch captured the neural activity associated with the word immediately preceding the critical expected word. Using these epochs, RSA was performed by computing Pearson’s correlations between the spatial vectors of all possible epoch combinations across each sample point within the epoch. In simpler terms, the electrode array for one sentence was correlated with that of another sentence at each millisecond, producing a unique correlational time series for each sentence pairing. With a total of 94 sentences in the experiment, this resulted in 4371 potential paired combinations for the RSA analysis. This approach allowed for a detailed examination of the representational patterns and how neural activity aligned across different sentence contexts. The RSA computation can be summarized in the following equation: 119 𝑅𝑆𝐴[𝑒1,𝑒2,𝑡] = ∑ (𝑥[𝑒1,𝑖,𝑡] − ?̅?[𝑒1,𝑡])(𝑥[𝑒2,𝑖,𝑡] − ?̅?[𝑒2,𝑡])𝐶𝑖=1√∑ (𝑥[𝑒1,𝑖,𝑡] − ?̅?[𝑒1,𝑡])2𝐶𝑖=1 √∑ (𝑥[𝑒2,𝑖,𝑡] − ?̅?[𝑒2,𝑡])2𝐶𝑖=1 In this formula, the EEG data is represented in a three-dimensional matrix, denoted as x, representing epochs, electrodes, and time points. In our data, this matrix is of size 94 x 34 x 800, representing 94 epochs, 34 electrodes (C = {i1, i2…, i34}), and 800 time points (t = {t1, t2…, t800}). The RSA is calculated for all possible pairs of epochs, excluding self-comparison. For each pair of epochs (e1, e2 ∈ {1, 2..., 94}; e1≠e2), the Pearson correlation is calculated across all electrodes at each time point, resulting in a correlation value that signifies the degree of similarity between the two EEG patterns at that specific moment. Following the computation of the representational similarity time series, each series representing the electroencephalographic similarity between predicted pairs of words was categorized into three groups: word-specific, semantic, and form. In the word-specific category, the RSA signals were classified into two groups: within words and between words. Pairs of signals corresponding to sentences predicting the same word (e.g., "piano-piano") were assigned to the within words group, whereas pairs involving different predicted words (e.g., "piano-clock") were categorized into the between words group. For the semantic and form categories, pairings were determined using the semantic and orthographic similarity values calculated from all combinations of expected words. Semantic similarity was computed using Lin’s similarity measure (Miller et al., 1994), while orthographic similarity (Yujian & Bo, 2007) was assessed using the normalized edit similarity (as described in the Stimuli Section of Experiment 2). A median split was then applied to the data, dividing the 4371 pairs of representational similarity signals into high and low semantically related conditions, 120 as well as high and low orthographically related conditions. After this classification, data were aggregated across participants. Additionally, RSA was performed on the filtered EEG signals across traditional frequency bands to explore the synchronization mechanisms in the brain. Theoretically, slower frequencies are associated with global synchronization, while higher frequencies reflect more localized synchronization processes (Basar et al., 1999). Specifically, the broadband EEG data were filtered into the following frequency bands using a passband 6th-order Butterworth filter: delta (0.5–3.5 Hz), theta (3.5–7.5 Hz), alpha (7.5–12.5 Hz), beta 1 (12.5–25.5 Hz), and beta 2 (25.5–30 Hz). This analysis allowed for a deeper understanding of how different frequencies contribute to the processing of semantic and phonological predictions during language comprehension. Statistical analysis The dependent variables for the upcoming analysis are the aggregated representational similarity time series, specifically on the period from -800 to 0 ms. This timeframe, which aligns with the presentation of the prefinal word, was selected based on findings from previous research (Wang et al., 2018). This choice allowed for a data-driven approach to the analysis, ensuring that the window captured relevant predictive processes. The analysis window was determined using a non-parametric statistical test (detailed in the Statistical Analysis Section of Experiment 2). A statistical chance level of 0.02, derived from the median of the representational similarity time series, was used as a benchmark to evaluate the values of the series, independent of any specific conditions. To identify significant clusters, t- values exceeding a critical threshold (t = 2.06) were summed for adjacent time points, with an alpha level set at 0.05 (two-tailed). A null distribution was generated through 100000 permutations, in which the sign of the time series was randomized for one-sample comparisons. A 121 cluster was considered significant if its value exceeded the 95th percentile of clusters in the null distribution. This process identified three significant clusters where representational similarity values significantly surpassed the predefined chance level (Figure 23): two clusters at the beginning of the window (-738 to -676 ms, tcluster = 271.25, tmax = 5.39, p < 0.001; -671 to -498 ms, tcluster = 610.20, tmax = 4.51, p < 0.001) and one cluster near the end of the window (-69 to -45 ms, tcluster = 59.71, tmax = 3.14, p < 0.001). However, only the first two clusters, spanning from -738 to -498 ms, were considered for subsequent comparisons of experimental conditions. This decision was made to remain consistent with prior research findings (Wang et al., 2018), which emphasized the importance of this earlier time window for examining the dynamics of predictive processing. Figure 23 Representational similarity excluding conditions Note. The plotted line displays the average of the representational similarity signal of all possible pairs of stimuli. The horizontal dashed line represents the chance level (0.02). The vertical dashed line marks the onset of each of the final expected words. The gray-shaded region highlights the significant differences against chance level. The advantage of this analytical approach lies in its unbiased focus, targeting time points where representational similarity significantly increases, regardless of the specific condition. This 122 method establishes a robust basis for subsequent comparisons across different conditions. The identified analysis window is applied uniformly to all data splits, including word-specific, semantic, and form categories. For the formal analysis, we utilized cluster permutation analysis alongside divergence point analysis to compare conditions: within vs. between words, high vs. low semantic similarity, and high vs. low orthographic similarity. The underlying assumption is that if word-specific, semantic, or form-based representations are being activated, then the representational similarity derived from the EEG signals of prefinal word pairs should yield higher values in the relevant conditions. During the analysis, clusters were formed by summing adjacent t-values that exceeded a critical threshold of 2.06, corresponding to an alpha level of 0.05 (two-tailed). The null distribution was generated using 100000 permutations, where signals were randomly shuffled between conditions for paired comparisons. A cluster was deemed significant if its value exceeded 95% of the clusters in the null distribution, indicating a statistically reliable difference between the compared conditions. The Divergence Point Analysis was conducted to statistically determine the onset of predictive effects by comparing conditions (within vs. between, high vs. low) through paired t- tests. The divergence point was defined as the first instance where three consecutive t-values exceeded 2.06, the critical threshold for 23 degrees of freedom. To assess the reliability of these divergence points, a distribution of probabilities was generated from 100000 bootstrap samples. This allowed for the calculation of the mean and confidence intervals of the divergence points, facilitating a comparison among the three distributions of effect onsets: word-specific, semantic, and form. 123 The analysis was restricted to a narrower time window, ranging from -600 to -500 ms. This window was chosen based on the initial unbiased permutation analysis and ensured that the distinct effects of each condition were accurately measured during the bootstrapping procedure. By focusing on this window, the analysis aimed to capture the earliest time points where predictive differences between conditions emerged, providing a clearer understanding of when different types of information (word-specific, semantic, or form) begin to influence the processing of the prefinal word. To assess individual differences in the prediction of the three contrasts—word-specific, semantic, and word form—a series of linear mixed-effects models was conducted. For each contrast, an initial reference model was created to capture the baseline effect of the condition. This reference model was then compared with models that included one of the psychometric measures: verbal reasoning or verbal working memory. Model comparisons were performed by evaluating the log-likelihood of each model, taking the degrees of freedom into account. A significant improvement in model fit indicated that the added psychometric variable contributed meaningfully to explaining the variance in the data. If no significant improvement was found, the reference model without the psychometric measure was deemed more suitable. To prevent Type I errors, only the models demonstrating the best fit were considered for further analysis. This analysis focused on the time periods where each contrast showed a significant difference between conditions, as determined by the cluster permutation analysis (word-specific: -528 to -514 ms; semantic: -593 to -574 ms; word-form: -562 to -535 ms). The dependent variable in these analyses was the representational similarity time series in the broadband range, scaled and centered using z-scores. 124 The fixed factors in the models included the Condition (word-specific: within vs. between; semantic: high vs. low; word-form: high vs. low) and its interaction with one of the psychometric measures. The Condition variable was dummy coded, using the "between" and "low" conditions as the baseline. All psychometric measures were scaled and centered using z-scores to ensure comparability. The random effect was the intercept for subjects, given that the representational similarity analysis is an aggregate measure incorporating all possible combinations of items. This approach allowed for the assessment of how individual differences in verbal reasoning and working memory may influence the predictive processing of semantic and phonological information during language comprehension. Thus, the general formulas were as follow: Reference model: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖 = 𝛽0 + 𝛽1 ∙ 𝐶𝑖 + (𝑆0𝑖) Individual difference model: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖 = 𝛽0 + (𝛽1 ∙ 𝐶𝑖) + (𝛽2 ∙ 𝑃𝑖) + (𝛽3 ∙ [𝐶 ∙ 𝑃]𝑖) + (𝑆0𝑖) Where: • p is the probability of success for the i-th individual. • β0 is the fixed intercept. • β1 is the fixed slope for the Condition effect (C). • β2 is the fixed slope for the psychometric effect (P). • β3 is the fixed slope for the interaction between C and P. • S0 is the random intercept for the i-th individual. 125 Finally, the analysis of EEG frequency bands was performed using a cluster-based permutation approach similar to that used in the broadband analysis, but applied across the entire time window from -800 to 0 ms relative to the onset of the expected word. Unlike the planned broadband analysis, this frequency-based exploration was requested by the thesis reviewers and did not stem from specific hypotheses regarding the dynamics of RSA. As a result, the analysis was exploratory, focusing on semantic and form comparisons to identify potential temporal and frequency-based differences in the recovery of these representations. The primary aim of this analysis was to describe whether predictive effects in the broadband of the EEG were driven by local synchronization (reflected in high-frequency bands) or global synchronization (reflected in low-frequency bands). By examining how these synchronization patterns vary across different conditions, the study sought to better understand the underlying neural mechanisms involved in the predictive processing of semantic and phonological information. Given the need to measure changes in synchronization dynamics, particularly in slower frequency bands, the RSA analysis was extended across the full 800 ms window. This approach ensured adequate time to capture the synchronization patterns in low-frequency bands, such as delta (0.5–3.5 Hz). For example, with a lower bound frequency of 0.5 Hz, 800 ms would include only half of a wave cycle, requiring a longer window to observe meaningful oscillatory activity. By analyzing the entire -800 to 0 ms window, the study aimed to capture a comprehensive view of how both slow and fast oscillations contribute to the predictive processing of semantic and form- based information during language comprehension. 126 Results Behavioral The participants demonstrated strong performance in the task, achieving an average accuracy of 93.97% (SD = 1.72, range = 84.80–94.89). Notably, all but one participant scored above 90% in their correct responses. This high level of accuracy is particularly significant when compared to the chance level of 50%, indicating that participants were attentive and actively engaged throughout the behavioral task. Such results suggest that the participants effectively understood the instructions and maintained focus, contributing to the reliability of the data collected during the experiment. EEG Broadband After the artifact rejection process, participants retained an average of 85.15 epochs (SD = 14.83, range = 42–94). While some participants had fewer than 50% of their trials containing epochs free of artifacts, they still had 861 possible epoch combinations available for the computation of representational similarity. Importantly, 85% of participants retained more than 75% of their epochs free from artifacts, ensuring a robust dataset for analysis. Based on the cluster permutation analysis, a significant cluster was identified (Figure 24, left panel), showing a difference between pairs of sentences predicting the same word (within) versus those predicting different words (between) during the time window from -529 to -515 ms (tcluster = 36.12, tmax = 3.24, p < 0.001). This result suggests that participants were able to recover the specific word predicted by the sentence context during this time frame. 127 Figure 24 Representational similarity time series of the broadband. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. Similarly, high semantic relationships showed an increase in representational similarity during the prefinal word window (Figure 24, central panel). This increase was observed from -595 to -574 ms (tcluster = 42.28, tmax = 2.47, p < 0.001), suggesting that the process of predictive recovery inherently involves the retrieval of semantically related information. In parallel, the form comparison revealed a significant cluster through the cluster permutation analysis, where pairs of sentences with high orthographic relationships exhibited increased representational similarity during the prefinal word window (Figure 24, right panel). This increase was detected between -563 and -536 ms (tcluster = 77.96, tmax = 3.77, p < 0.001). These findings strongly suggest that the predictive recovery process also includes the retrieval of orthographically related information. Furthermore, the divergence point analysis revealed that the onset of the word-specific effect occurred at -521 ms (CI95% = -527 to -517), the semantic effect began at -579 ms (CI95% = - 590 to -568), and the form effect was observed at -548 ms (CI95% = -564 to -552). The earlier onset of the semantic effect, as indicated by the bounds of its confidence interval, significantly preceded both the form and word-specific effects. However, no significant differences were found between the onset of the orthographic and form effects. 128 These findings suggest that the brain initially retrieves semantically related information before accessing form-related information, and subsequently engages in the prediction of the specific word itself (Figure 25). Figure 25 Divergent point analysis results Note. The density plots display the distribution of onset times for differences between representational similarity signals associated with pairs of expected words. The blue distribution represents the semantic analysis, the red distribution represents the form effect, and the green distribution shows the word-specific effect. In the lower section, the mean and confidence interval for each effect is shown, each corresponding to their respective colors. Individual differences According to the linear mixed-effects model comparisons (Table 7), the inclusion of verbal working memory did not significantly improve the fit of the models for the word-specific and semantic contrasts (p > 0.05). Similarly, verbal reasoning did not enhance the model fit for the word-specific and semantic contrasts (p > 0.05). However, adding verbal reasoning to the word- form model significantly improved the model fit (p = 0.04). This result suggests that while verbal working memory and reasoning abilities do not appear to influence the retrieval of word-specific or semantic information, verbal reasoning may play a role in the processing of form-related information during predictive language tasks. 129 Table 7 Model comparison for the effect of individual variable on the representational similarity Contrast Model Parameters AIC logLik X2 df p Word-specific Reference 4 111.730 -51.863 Verbal reasoning 6 114.850 -51.425 0.875 2 0.645 Working memory 6 115.590 -51.794 0.137 2 0.933 Semantic Reference 4 92.105 -42.053 Verbal reasoning 6 91.995 -39.997 4.110 2 0.128 Working memory 6 93.336 -40.668 2.769 2 0.250 Form Reference 4 67.477 -29.738 Verbal reasoning 6 65.350 -26.675 6.126 2 0.0467 Working memory 6 68.691 -28.345 2.786 2 0.248 Statistically significant values are indicated in bold. Figure 26 Effect of verbal reasoning on word-form prediction Note. Solid lines show the predicted values of fixation for each condition in the word form prediction window. Ribbons indicate 95% confidence interval. Verbal reasoning and representational similarity (RSA) values are scale and centered. Thus, higher values are bigger magnitudes. The exploration of the word-form model, which included the verbal reasoning variable (Table 8, Figure 26), revealed a significant interaction between the Condition factor and verbal reasoning (p = 0.04). This interaction suggests that the difference in representational similarity between low and high word-form similarity conditions becomes more pronounced in participants with higher verbal reasoning skills. In other words, individuals with greater verbal reasoning ability seem to be better able to differentiate between low and high form-related similarities, 130 indicating that verbal reasoning may enhance the sensitivity to orthographic cues during predictive processing. Table 8 Effect of verbal reasoning on the word-form prediction effect Fixed effects β SE df t p (Intercept) -0.113 0.222 18.578 -0.511 0.615 Condition 0.227 0.055 18 4.064 <0.001 Verbal reasoning -0.325 0.225 18.578 -1.446 0.164 Condition:Verbal reasoning 0.122 0.056 18 2.165 0.044 Bold values indicate statistically significant effects. Spectral analysis Regarding the frequency analysis in the delta band (Figure 27), there was a significant increase in representational similarity for high semantic similarity compared to low semantic similarity, observed between -527 and -482 ms (tcluster = 91.47, tmax = 2.25, p < 0.001). In contrast, the form comparison revealed two significant clusters where high orthographic similarity was associated with increased representational similarity. The first cluster appeared early, from -733 to -649 ms (tcluster = 192.26, tmax = 2.64, p < 0.001), while the second cluster was identified later, between -465 and -410 ms (tcluster = 139.35, tmax = 2.89, p < 0.001). Figure 27 Representational similarity time series of the delta band. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. 131 In the theta band (Figure 28), the representational similarity was significantly higher for the high semantic similarity condition compared to the low semantic similarity condition during the time window from -593 to -574 ms (tcluster = 42.28, tmax = 2.49, p < 0.001). In the form contrast, the high orthographic similarity condition showed greater representational similarity than the low similarity condition in three distinct periods: from -562 to -535 ms (tcluster = 77.96, tmax = 3.77, p < 0.001), from -286 to -279 ms (tcluster = 13.71, tmax = 2.43, p = 0.001), and from -122 to 116 ms (tcluster = 11.07, tmax = 2.27, p = 0.005). Figure 28 Representational similarity time series of the theta band. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. In the alpha band (Figure 29), three significant clusters were identified with an increase in representational similarity for the high semantic similarity condition compared to the low one. Two of these clusters were early: one from -798 to -791 ms (tcluster = 14.09, tmax = 2.59, p = 0.0002) and another from -756 to -740 ms (tcluster = 32.007, tmax = 2.19, p < 0.001). A later cluster was observed from -400 to -393 ms (tcluster = 10.79, tmax = 2.21, p = 0.002). For the form contrast, there was a significant cluster from -216 to 202 ms (tcluster = 30.05, tmax = 2.87, p < 0.001), indicating that high orthographic similarity was associated with increased representational similarity during this time window. 132 Figure 29 Representational similarity time series of the alpha band. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. In the beta 1 band (Figure 30), two significant clusters were identified where representational similarity was higher in the high semantic similarity condition, occurring at both the beginning and the end of the analysis window. The first cluster spanned from -633 to -624 ms (tcluster = 17.75, tmax = 2.32, p < 0.001), and the second appeared from -20 to -11 ms (tcluster = 20.71, tmax = 2.86, p < 0.001). For the form contrast, two significant clusters were found towards the end of the analysis window. The first occurred from -126 to -120 ms (tcluster = 12.15, tmax = 2.60, p = 0.0003), and the second from -84 to -80 ms (tcluster = 6.47, tmax = 2.19, p = 0.02). Figure 30 Representational similarity time series of the beta 1 band. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. 133 In the beta 2 band (Figure 31), the analysis of the semantic contrast revealed four early clusters where representational similarity was greater in the high semantic similarity condition: - 674 to -667 ms (tcluster = 15.20, tmax = 2.80, p = 0.0006), -655 to -648 ms (tcluster = 13.98, tmax = 2.52, p = 0.001), -628 to -621 ms (tcluster = 13.29, tmax = 2.35, p = 0.002), and -606 to -598 ms (tcluster = 16.66, tmax = 2.60, p = 0.0002). Additionally, two late clusters showed a similar effect: -201 to - 195 ms (tcluster = 12.00, tmax = 2.66, p = 0.0005) and -182 to -177 ms (tcluster = 10.80, tmax = 3.06, p = 0.0009). For the form contrast, representational similarity was greater in the high orthographic similarity condition than in the low similarity condition in three clusters towards the end of the analysis window: -127 to -122 ms (tcluster = 9.20, tmax = 2.41, p = 0.011), -111 to -102 ms (tcluster = 22.44, tmax = 3.13, p < 0.001), and -91 to -82 ms (tcluster = 21.71, tmax = 2.92, p < 0.001). Figure 31 Representational similarity time series of the beta 2 band. Note. The plotted lines display the average of the representational similarity signal. The blue line indicates pairs of expected words that are related, while the red line represents pairs of unrelated words. The gray-shaded region highlights the significant differences between conditions. In sum, the broadband results provided evidence that semantic information is recovered earlier than form information during predictive processing. The frequency analysis further highlighted that both semantic and form coactivation phenomena are distributed across all EEG bands, yet with a key distinction: form effects tended to appear early in the slower frequency bands 134 (e.g., delta and theta) and later in the faster bands (e.g., beta 1 and beta 2). In contrast, semantic effects were observed in both early and late periods across the entire frequency range, suggesting a more continuous engagement with semantic information throughout the predictive processing window. This pattern suggests that semantic processing may be more sustained and pervasive, while form processing may involve a shift from early global synchronization to later, more localized neural activity. Discussion Experiment 3 aimed to investigate the temporal sequence of semantic and word-form prediction during language comprehension by utilizing EEG combined with RSA. Participants engaged in a reading task where highly constraining sentences were presented word-by-word. RSA was computed for all possible pairs of sentences across the broadband EEG signal, as well as within specific traditional frequency bands (delta, theta, alpha, beta 1, beta 2). Additionally, participants’ verbal skills, including verbal reasoning and working memory, were measured to explore how these individual differences might relate to predictive processing during the task. Initially, the representational similarity signals were categorized based on whether they were derived from pairs of sentences predicting the same word (within) or different words (between). The core hypothesis of this contrast was that representational similarity would be higher in the within condition compared to the between condition, as the neural activity pattern associated with retrieving the same word should be more similar than that for different words. As anticipated, an increase in representational similarity was observed approximately 550 ms before the presentation of the expected words. This finding not only replicated the results of Wang et al. (2018), who observed a similar effect between -800 and -485 ms, but it also reinforced the conclusion that participants were actively and predictively recovering specific word 135 representations prior to encountering the expected word. This supports the idea that predictive processing plays a critical role in language comprehension. Subsequently, the representational similarity signals were divided into high and low relatedness categories based on the semantic and orthographic similarity of the pairs of expected words. The analysis revealed that representational similarity increased when there was high semantic or orthographic similarity between the predicted words, notably occurring before the presentation of the anticipated word. Crucially, the onset of the semantic effect was found to precede that of the orthographic effect. These findings align with previous research, suggesting that semantic information is accessed earlier than form-related information during predictive processing. This timing difference supports the view that the brain prioritizes the retrieval of meaning before accessing more specific details, such as word form. While these results contribute to our understanding of prediction in language comprehension, a deeper exploration of the underlying mechanisms of prediction will be provided in the General Discussion section. These findings corroborate previous studies, such as Wang et al. (2020), which demonstrated that RSA can identify broad semantic categories, such as distinctions between animate and inanimate entities. However, our results extend this understanding by capturing semantic similarity across a more comprehensive spectrum of meaning. For instance, while a bee and a tree belong to different categories in terms of animacy—one being animate and the other inanimate—they are thematically related. Our results suggest that the predictive processing mechanisms in the brain can recognize and integrate these subtler thematic relationships, going beyond simple categorical distinctions. This broader sensitivity to varying degrees of semantic relatedness illustrates a more refined and flexible approach to prediction during language 136 comprehension, where the brain considers both categorical and thematic dimensions when anticipating upcoming words. The results also align with recent research indicating that representational similarity is sensitive to the predictive activation of word form (Wang et al., 2024; Wei et al., 2023). For example, Wei et al. (2023) demonstrated that representational similarity is responsive to phonological sublexical information, showing increased EEG similarity when two words share the same ending syllable. Similarly, Wang et al. (2024) observed an increase in representational similarity when homographs were predicted, highlighting the brain’s sensitivity to shared orthographic features. The findings from Experiment 3 extend this understanding by showing that the increase in similarity is more interactive, as it reflects the overall normalized edit similarity computed across the entire string of characters, without emphasis on the position of similarities. For instance, “car” and “cat” are considered equally similar to “car” and “bar,” as well as “cat” and “cut,” under this approach. This pattern is consistent with interactive models of lexical access (Dell, 1986; Duta & Plunkett, 2021; McClelland & Elman, 1986), which propose that each unit at the form level produces a cascade of activation that is modulated by the activation of preceding and following units. In such models, form prediction is not limited to fixed positions but involves a dynamic interaction among various elements of the word, allowing for a more flexible and integrated processing of orthographic similarity. Thus, our comparison using RSA offers a valuable alternative methodology for investigating word-form prediction, contributing significantly to the ongoing debate within the electroencephalographic literature regarding this phenomenon. The seminal study by DeLong et al. (2005) provided initial evidence for the prediction of phonological word form, using the “a/an” 137 paradigm to suggest that readers anticipate the phonological form of upcoming words. However, subsequent replication attempts have yielded mixed results (Gambi et al., 2018; C. D. Martin et al., 2013; Nieuwland et al., 2018; Yan et al., 2017). One possible limitation of the “a/an” paradigm is that it may present challenges for populations with lower language proficiency, such as second language learners (C. D. Martin et al., 2013) and children (Gambi et al., 2018), who may struggle with the subtle phonological cues required for successful prediction. These populations might not consistently utilize such subtle cues in their predictive processing, leading to variability in the findings. In contrast, the prediction of word form has been more consistently demonstrated in studies employing RSA (Wang et al., 2024; Wei et al., 2023) and the visual word paradigm (Ito, 2024). RSA, in particular, allows for a more nuanced measurement of similarities in neural patterns, capturing the gradual build-up of predictive processes across various types of word-form similarities. This approach does not rely on specific syntactic constructions like the “a/an” distinction, making it more broadly applicable across different populations. By providing a more flexible and robust method for assessing word-form prediction, RSA can contribute to a deeper understanding of how the brain anticipates and processes phonological and orthographic features during language comprehension. Beyond replicating previous findings and offering methodological contributions, our study provides evidence for a faster processing of semantic information compared to form prediction. Notably, both orthographical and specific word representations were retrieved almost in parallel. The most striking aspect of our results is the relatively small gap between the onset of semantic and form prediction, which was approximately 30 ms. This suggests that transitions between these types of predictions are exceptionally rapid—about 10 times faster than those reported in prior 138 studies. For instance, Wang et al. (2024) also observed a transition from semantic to form information, but with a much larger gap of about 300 ms between the two effects. The substantially shorter interval observed in our study may indicate a highly efficient integration process during language comprehension, where semantic information quickly primes or activates form-related information. This rapid transition could reflect a more dynamic and flexible predictive mechanism than previously thought, allowing the brain to adapt swiftly to different types of linguistic information as it processes incoming words. The question that arises is why both studies yield similar findings yet display significant differences in the timing of predictive processes. An advantage of the experimental design in Experiment 3 is the inclusion of a word-specific comparison, which provides a clearer indication of when the specific word is predicted on average. This design feature allowed Experiment 3 to show that both semantic information and, to a lesser extent, form information are processed before the prediction of the specific word itself. As a result, Experiment 3 offers more insight into the temporal sequence of the predictive process, suggesting a structured build-up where broader semantic and phonological cues precede the final word-specific activation. In contrast, Wang et al. (2024) did not include a word-specific condition, which makes it more challenging to draw conclusions about the overall temporality of predictions beyond semantic and form information. This limitation is particularly relevant given their use of homographs as proxies for form prediction. Homographs, by nature, can introduce complexities because they represent words with the same spelling but different meanings, which often leads to mutual exclusivity and competition between possible interpretations. This competition can result in interference effects (Azuma et al., 2004; Ferrand & Grainger, 2003). 139 Therefore, it remains unclear whether the effects reported by Wang et al. (2024) truly reflect the process of building predictions, whether the observed delay is a byproduct of competition between homographic meanings, or whether the form effect they detected is actually a post-lexical predictive effect rather than an anticipatory one. Given these ambiguities, it is difficult to pinpoint the precise reasons for the difference in temporal dynamics between their results and those of Experiment 3. However, two out of these three possibilities suggest that the processing of form information is inherently faster than what Wang et al. (2024) reported. Experiment 3’s findings imply that when the potential interference from homographs is removed, form prediction can unfold much more quickly, closer in time to semantic prediction. Our results also revealed that the dynamics of frequency in representation retrieval are not a singular process but rather multifaceted. Significant differences between highly related and lowly related conditions were observed across all frequency bands, indicating that both global and local synchronization processes play a role in lexical retrieval. These processes involve different temporal and frequency-specific mechanisms, reflecting the complexity of the brain’s predictive capabilities. However, a key distinction emerged between the semantic and form contrasts. Semantic effects were observed in two distinct periods across all frequency bands: an early period, roughly between -800 to -500 ms, and a later period occurring in the second half of the analysis window. This suggests that the brain engages in a continuous, sustained retrieval of semantic information throughout the predictive process. In contrast, the form effect exhibited a different temporal pattern. It was present early in the slower frequency bands (delta, theta, and alpha), indicating that initial form processing may involve more widespread, lower-frequency synchronization processes. However, form-related effects appeared only during the later period in the faster frequency bands (beta 1 and beta 2), 140 suggesting a shift to more localized, higher-frequency processes as the brain refines its prediction of specific phonological details closer to the presentation of the anticipated word. These findings align with the inherent nature of lexical retrieval. Previous research has demonstrated that retrieving a word involves the activation of multiple brain regions, each associated with different facets of the word’s meaning (Grisoni et al., 2021; Pulvermüller, 2001, 2005; Pulvermüller & Fadiga, 2010). Semantically related words, in particular, tend to activate overlapping regions in the brain, including general networks for semantic processing and more specific areas like the anterior temporal lobe (Huth et al., 2016). Our findings regarding semantic processing support this view, as they reflect widespread activation patterns across different frequencies during both early and late processing stages. In contrast, word-form processing follows a distinct temporal and spatial pattern, beginning with global synchronization in lower frequency bands and transitioning to local synchronization in higher frequencies. This pattern aligns with previous research indicating that phonological encoding and acoustic processing are modulated primarily by slow oscillations in the delta and theta bands. These lower frequency bands are well-suited to the temporal dynamics of speech, as they match the rhythm and prosodic features of auditory signals (Di Liberto et al., 2023; Mai et al., 2024). As phonological information becomes more refined and specific, the processing shifts to faster frequency bands, such as beta 1 and beta 2, reflecting more localized neural activity involved in fine-grained phonological analysis. Additionally, the engagement of specific regions, such as Heschl’s gyrus, has been identified in phonological selection during language comprehension (Hickok & Poeppel, 2007). This transition from global to local synchronization likely reflects the shift from broader, rhythmically driven processing of auditory information to more focused, region-specific activation 141 as the brain zeroes in on particular phonological details. The combination of global synchronization for capturing the rhythmic structure of speech and local synchronization for detailed phonological processing underscores the complexity of the brain’s mechanisms for predicting and processing word form during language comprehension. An additional insight from our frequency analysis is the observed relationship between the number of significant clusters and frequency: higher frequencies exhibited more clusters than lower frequencies. This suggests that representation recovery during language comprehension involves multiple instances of synchronization across brain networks. In this context, the oscillatory patterns in higher frequencies could reflect complex interactions within the neural networks involved in processing predictive cues. According to nonpredictive theories of lexical retrieval, such oscillatory activity may be associated with feedback and feedforward processes that help refine and ensure the correct selection of lexical candidates (Dell, 1986). These processes likely involve iterative interactions between higher-level semantic information and lower-level phonological or form-based information, adjusting the selection of words based on ongoing input and contextual cues. Another possible interpretation is the concept of reverberation of activation (Anderson, 1983), which is traditionally linked to prolonged stimulus exposure. In a predictive framework, this reverberation could be interpreted as the brain’s mechanism for maintaining the deep meaning of a sentence in working memory while anticipating upcoming words. However, our analysis showed that working memory capacity was not significantly related to any of the predictive contrasts, indicating no direct link between working memory and the observed representational similarity effects. 142 Given this lack of association with working memory, the feedback and feedforward processes provide a more plausible explanation. These processes likely play a critical role in adjusting predictions based on ongoing lexical retrieval and integrating new information as it becomes available. They enable the brain to refine its predictions and make necessary corrections, contributing to the overall accuracy and efficiency of language comprehension. This interpretation emphasizes the dynamic nature of predictive processing, where the brain continually adjusts its expectations through rapid cycles of information exchange between different neural networks. In contrast, verbal reasoning was found to be associated with word-form prediction but not with semantic prediction. Typically, semantic prediction relies on understanding the general theme or gist of the intended message, allowing the brain to anticipate broader conceptual meanings. On the other hand, word-form predictions require more detailed and specific representations of individual words (Gambi et al., 2018). These detailed representations are often strengthened by the development of advanced language skills (Huettig & Pickering, 2019; Ryskin & Nieuwland, 2023). For instance, literacy significantly enhances word-form representation because it increases awareness of the phono-orthographic structure of words—how their phonological form relates to their written representation. As individuals become more skilled readers, they develop a more refined ability to recognize and anticipate the specific forms of words based on their orthographic and phonological characteristics. Therefore, verbal reasoning could act as a proxy for an individual’s overall language proficiency, encompassing not just the understanding of word meanings but also a capacity for manipulating and predicting other aspects of language, such as word forms. This broader language proficiency might enable individuals with higher verbal reasoning skills to more effectively engage 143 in detailed word-form predictions during language comprehension, as their enhanced linguistic knowledge allows for a more precise anticipation of phonological and orthographic details. In sum, the study found evidence of a rapid transition from semantic to form predictions during language comprehension. This finding suggests that the brain initially prioritizes the understanding of a sentence’s meaning before shifting focus to the specific phonological details of the words. These predictive processes appear to be supported by distinct patterns of local and global synchronization, which facilitate the fine-tuning of both semantic and word-form representations. The interplay between these synchronization processes enables the brain to efficiently integrate broader contextual information with the detailed phonological structure, allowing for precise and adaptive language comprehension. 144 General Discussion Theoretical and Methodological Synthesis The predictive processing framework posits that prediction is a fundamental principle of brain function, suggesting that the brain actively anticipates future events instead of merely receiving sensory information passively (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018; Spratling, 2017). This view is supported by extensive evidence from both computational models (Bastos et al., 2012; Rao & Ballard, 1999) and neuronal recordings (Attinger et al., 2017; Fiser et al., 2016; Keller et al., 2012; Leinweber et al., 2017; Zmarz & Keller, 2016), demonstrating how the brain generates predictions based on prior knowledge and adjusts these predictions based on incoming sensory data. In the context of language comprehension, predictive processing is particularly vital. It allows listeners and readers to anticipate upcoming semantic content and word-form information as they process sentences (Huettig, 2015; Huettig & Mani, 2016; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). This anticipatory mechanism enables more efficient processing of language by reducing uncertainty and facilitating faster recognition of words and meanings as they unfold. Thus, the predictive processing framework provides a powerful explanation for how the brain integrates contextual information and previous experiences to interpret and respond to complex linguistic input. This thesis aimed to explore the temporal dynamics of prediction during language comprehension. Specifically, it evaluated three theoretical mechanisms of prediction, each with different assumptions about the time-course of semantic and word-form information: prediction- by-production (Pickering & Gambi, 2018), prediction-by-simulation (Pickering & Garrod, 2013), 145 and prediction-by-association (Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013). The prediction-by-production mechanism proposes that semantic preactivation occurs before form preactivation because predictions are implemented through the production system. This process mirrors the natural sequence of language production, where semantic content is typically formulated before the phonological aspects of speech. As a result, the predictive retrieval of these representations follows the relatively slower pace of the production process, with estimates suggesting a time frame of around ~600 ms for generating predictions (Pickering & Gambi, 2018). This slower pace means that the prediction process may not always have sufficient time to generate a complete prediction of a word’s full representation, including both its meaning and phonological form. As a result, the prediction-by-production mechanism allows for the possibility that predictions can be incomplete or even absent if time or cognitive resources are limited. For example, if there is not enough time to fully generate the prediction, only semantic preactivation might occur without progressing to the word-form level. This flexibility implies that prediction is optional and dependent on the availability of time and cognitive resources, which can result in instances where only partial predictions (e.g., semantic but not phonological) are made. The prediction-by-simulation mechanism argues that both semantic and word-form representations are retrieved simultaneously because predictions are generated through a forward model. This forward model creates a prediction of the upcoming word by simulating what the comprehender would say in the same situation, effectively mirroring the internal processes of speech production (Pickering & Garrod, 2013). In this approach, the forward model generates a comprehensive prediction of an expected word, encompassing both its semantic meaning and phonological form as a single, integrated representation. The prediction is not partial but instead 146 anticipates the word’s complete characteristics, making it more precise about the upcoming language input. This type of prediction is considered to be ubiquitous, as it is theoretically applied continuously, even in contexts where predictive cues are minimal or where the context provides limited information. The mechanism operates consistently, leveraging any available context to anticipate upcoming words. Moreover, it facilitates learning through prediction error adjustments—when the predicted word differs from the actual input, the error signals provide feedback that helps refine the internal forward model, thereby enhancing future predictions. The prediction-by-association mechanism is supported by the comprehension system, which relies on changes in activation levels induced by both linguistic and non-linguistic context on the lexicon (Dell, 1986, 2013). In this framework, each word processed in the context of a sentence triggers multiple activations of semantic and form information. Initially, this activation occurs at the form level and is followed by semantic-level activation (Chow et al., 2017, 2022; Huettig et al., 2011; Huettig & McQueen, 2007). For example, in processing the sentence, “The teacher wrote the lesson on the board,” the word “lesson” could activate other words at the form level, such as “lemon” (onset similarity) or “person” (rhyme similarity), driven by the phonological similarity in speech perception. Subsequently, a semantic activation of related words would occur, including words like “professor” or “homework,” based on their meaning of “lesson”. Notably, the initial activation at the form level is not necessarily useful for predicting the upcoming word “board”. Instead, the prediction of “board” is thought to result from a buildup of activation across multiple words in the sentence context, along with an additional step in the propagation process. In this model, all content words— “lesson,” “wrote,” and “teacher”—contribute to the activation of the semantic representation of “board.” This activation then propagates to its phonological form, suggesting that predictions unfold through a cascade of activations that spread through the entire 147 system, with the strength of activation decreasing as it moves further from the initial source (Anderson, 1983). Consequently, this mechanism implies that while a semantic prediction would likely occur before the activation of form-based information, the transition between these two stages would be very rapid. The rapid shift is due to the continuous and automatic propagation of activation through the interconnected lexical system, facilitating a nearly simultaneous emergence of form and semantic predictions. To differentiate between the mechanisms of prediction—prediction-by-production, prediction-by-simulation, and prediction-by-association—three experiments were conducted as part of the current research. Experiment 1 focused on developing a corpus of sentence endings with varying levels of predictability, tailored for Mexican Spanish. Experiment 2 utilized the visual world paradigm in combination with eye-tracking to explore the time course of predictive activation for both semantic and phonological information. Experiment 3 employed EEG and RSA to investigate the neural processes underlying prediction of semantic and form information during sentence reading. The findings from these experiments provide critical insights into the nature of predictive processing in language comprehension. In the following sections, we will explore the temporal differences observed in the retrieval of semantic and word-form information. We will then address and integrate these results with theoretical models, including prediction-by-simulation, prediction- by-production, and prediction-by-association. By doing so, we aim to clarify the cognitive mechanisms that underlie language prediction and offer a more comprehensive understanding of how predictive processing operates during comprehension. 148 Results Synthesis Experiment 1: The creation of a corpus of sentence endings tailored for Mexican Spanish provided a robust set of high- and low-predictability sentences necessary for the development of this research but also crucial for future research. This corpus addressed the need for culturally and linguistically relevant stimuli, which is crucial for accurately investigating predictive processing in Mexican Spanish speakers. The use of contextually appropriate materials ensured that the predictions made by participants were reflective of their natural language use. The resulting corpus demonstrated a broad spectrum of cloze probabilities, ranging from highly predictable to less predictable endings. This variation validated the corpus as a suitable tool for use in subsequent experiments, which aimed to explore the temporal dynamics of prediction. The diversity in cloze probabilities allowed for a nuanced analysis of how predictability influences the processing of upcoming words, setting the stage for more precise investigations in Experiments 2 and 3. Experiment 2: Using the visual world paradigm combined with eye-tracking, we observed distinct temporal patterns in the predictive activation of semantic and phonological information. Participants initially directed their gaze toward images that were semantically related to the expected word before subsequently shifting their gaze to images that were phonologically related. This sequence suggests a clear differentiation in the timing of predictive processes, with semantic information being activated earlier than phonological information. Importantly, the nature of these effects differed: the semantic effect was fully predictive, indicating that participants actively anticipated the meaning of the upcoming word based on the context provided by the sentence. In contrast, the phonological effect appeared more as a facilitation during the bottom-up integration of the target word as it was processed. 149 Experiment 3: The EEG and RSA revealed that the neural correlates of predictive processing follow a clear temporal sequence. Specifically, we observed increased similarity in EEG signals for highly semantically related words before similar effects emerged for orthographically related words. This pattern suggests that the brain engages in a sequential process of preactivation, where semantic representations are accessed before word-form representations during predictive processing. Furthermore, the spectral analysis revealed differences: semantic contrast showed increased similarity across the entire time and frequency range, while form contrast caused early increases in slow frequencies and later increases in fast frequencies. These results collectively support the main hypothesis that semantic representations exhibit earlier predictive activation compared to word-form representations. This time-course aligns with both the prediction-by-production and prediction-by-association mechanisms. However, the key distinction between these two models lies in the expected timing of the transition from semantic to form prediction. According to the prediction-by-production mechanism, a slower transition is anticipated, with a gap of around 300 ms between the activation of semantic and form information (Gambi et al., 2018). In contrast, the prediction-by-association mechanism suggests a much faster transition, as rapid as the brain’s processing capabilities, typically ranging from 30 to 120 ms (MacGregor et al., 2012). Interestingly, the findings from our two experimental approaches revealed conflicting temporal patterns. In Experiment 2, which used the visual world paradigm, we observed a large gap of approximately 800 ms between the predictive activation of semantic and form information. This suggests a more protracted process, potentially indicative of the time needed for participants to shift their visual attention from semantically related to phonologically related objects. On the other hand, Experiment 3, using EEG and representational similarity analysis, revealed a much 150 smaller gap of about 30 ms between the activation of semantic and word-form representations. This fast transition points to a highly efficient neural mechanism that quickly moves from processing the meaning of words to their phonological form. To reconcile these findings, a unifying explanation is needed that can account for the differing time courses observed in each experimental context. In the following sections, we will explore potential interpretations that integrate the results from both experiments, considering factors such as differences in methodology, the role of conscious attention in the visual world paradigm, and the direct measurement of neural processing in EEG. Interpreting the Findings of Experiment 2 Experiment 2 appears to align with the prediction-by-production mechanism for two key reasons. First, there is a substantial gap between the activation of semantic and phonological effects, consistent with the slower pace of predictions proposed by this mechanism. The prediction- by-production model suggests that predictions follow the temporal dynamics of the production system, where semantic representations are activated before phonological ones, with a typical delay of around 300 ms (Indefrey & Levelt, 2004). In Experiment 2, however, this gap was even larger, around 800 ms, which suggests that the prediction process might be slower when the production system is engaged in the context of the visual world paradigm. Second, the phonological effect observed in Experiment 2 was characterized as a facilitation during the integration of bottom-up stimuli rather than as a predictive effect. This indicates that participants may not have been actively predicting phonological forms but were instead using phonological information to more efficiently integrate the sensory input as it became available. This outcome is consistent with the prediction-by-production mechanism, which suggests that if there is insufficient time to complete the prediction process before the word appears, only partial 151 predictions (e.g., semantic without phonological form) might be generated. Both of these reasons are complementary. It is plausible that participants did not exhibit a clear phonological prediction because they lacked sufficient time to process the word-form predictions according to the slower, sequential pace of the production system. However, it is important to consider that the facilitation of phonological information during the integration period appears to originate before the actual presentation of the expected auditory word. This suggests that participants may indeed use the sentence context to predict certain aspects of the phonological form of upcoming words, thereby easing the processing of these words once they are encountered. This interpretation is further supported by findings from an exploratory experiment that separately examined semantic and phonological predictions. In that experiment, evidence of predictive processing emerged for both semantic and phonological information, and crucially, there was no significant difference in their timing—the confidence intervals of the effects for both types of prediction overlapped, suggesting that these predictions occurred concurrently. Moreover, the divergence point analysis of Experiment 2 indicated that, in some participants and trials, fixations shifted toward the phonological competitor even before the auditory presentation of the expected word. This behavior suggests that, at least in certain cases, participants were actively generating phonological predictions in anticipation of the upcoming word, rather than solely relying on bottom-up information during word integration. When considering the timing of these predictive trials, there is no clear difference between the temporal dynamics of semantic and phonological predictions. This indicates that, contrary to the strict predictions of the prediction-by-production mechanism, participants were capable of generating both types of predictions almost simultaneously under certain conditions. 152 This interpretation aligns more closely with the prediction-by-simulation mechanism since it suggests no statistically significant difference between the timing of predictions for semantic and phonological representations. The prediction-by-simulation framework argues that both types of predictions are generated in parallel using a forward model that simulates what the comprehender might say in a given context. However, this interpretation is based on the idea of a “masked prediction”, where the predictive process occurs but might not always be directly observable in measures like eye-tracking unless specific conditions bring it to light. This raises an important question: which mechanism better accounts for this type of masked prediction? According to the previous evidence, the most plausible explanation is that the semantic competitor exerts some influence over participants’ fixations, reducing the likelihood of fixating on the phonological competitor (Chow et al., 2022). This influence could occur passively, where participants primarily fixate on the semantic competitor, which effectively masks the phonological relationship. Alternatively, it could involve a more direct process, such as inhibition, where the presence of the semantic competitor actively suppresses the tendency to fixate on the phonological competitor. Given that our line of reasoning assumes the presence of a phonological prediction, the most parsimonious explanation is that a top-down inhibitory process is at play, directing attention away from the phonological competitor. This inhibition likely occurs because participants perceive the semantic competitor as a more relevant or potential target in the context of the task. As a result, their predictive processing may favor the semantic competitor, leading to a diminished influence of the phonological competitor in their fixations. This explanation highlights the role of top-down cognitive control in modulating predictions, where the anticipation of certain targets can suppress alternative predictions, thereby shaping the observed fixation patterns. 153 This explanation gains further support when considering that the semantic competitor often has a higher value in LSA measures, suggesting stronger semantic similarity with the sentence context. Additionally, fixations on the semantic competitor tend to persist even after the presentation of the auditory expected word, indicating that the semantic competitor continues to exert influence over participants’ attention. This suggests that participants are not merely making initial predictive fixations but are also reevaluating the semantic competitor as new information unfolds. Moreover, even when the semantic competitor is contextually implausible within the sentence, certain features of the competitor may still align with elements of the preceding context, such as the verb. For example, in the sentence, “In the airport, Susan boarded the plane,” the competitor “rocket” is not a plausible object in an airport context, yet it shares a relevant feature with the verb “board”, specifically its “boardability”, In such cases, participants might partially inhibit the primary prediction of “plane” and begin to consider “rocket” as a potential alternative, based on this overlapping feature. This inhibition is likely partial, allowing for a degree of flexibility in the predictive process. A complete inhibition of “plane” would prevent any facilitation of the phonological competitor, which is inconsistent with the observed data. Instead, the partial inhibition allows for both the semantic competitor to be considered as a viable option and for the phonological competitor to maintain some level of predictive activation. This interpretation suggests that participants were making parallel predictions, a quality that is fundamentally incompatible with the prediction-by-simulation mechanism. In prediction- by-simulation, each forward model generates a single, unified prediction at a time, which integrates the most likely semantic and phonological features of the upcoming word. However, this explanation fits well with the prediction-by-association mechanism. According to this model, activation spreads through the network of related words, allowing for multiple lexical candidates 154 to become active in parallel. As described by Dell (1986, 2013), the associative nature of this mechanism means that words that share semantic or phonological relationships with the context are simultaneously activated. The lack of statistically significant differences in the onset of semantic and phonological predictions, as observed in the divergence point analysis in Experiment 2, can be understood more clearly by examining the nuanced timing of these effects. While the statistical analysis did not find a significant separation between the two types of predictions, it is important to recognize that the semantic effect did consistently precede the phonological one. For instance, when looking at the effects in isolation, the semantic effect began around -850 ms relative to the critical word’s presentation, while the first peak of the phonological effect emerged at around -650 ms. This results in a gap of approximately 200 ms between the two effects. The timing of 200 ms aligns with the minimum time required for the eyes to make a movement in response to a linguistic stimulus (Viviani, 1990). While the actual time required for fixations to targets can often be longer (McMurray, 2023), this 200 ms difference suggests that the phonological effect indeed lags slightly behind the semantic effect, even if this gap was not large enough to reach statistical significance in the analysis. Similarly, in Experiment 2, when both semantic and phonological competitors were presented together, the semantic effect was observed around -578 ms, while the phonological effect emerged approximately at -506 ms, creating a gap of about 70 ms5. This shorter time difference supports the interpretation that semantic predictions tend to initiate earlier, but the phonological 5 These estimates are based on divergence point analysis. This type of analysis is not intended to confirm the presence of effects but rather to examine the timing of divergences in response patterns. Therefore, these results are derived from a bootstrapped sample of trials and participants where a reliable effect was detected; however, on average, the phonological effect was not consistently observed across all trials. 155 predictions follow closely thereafter, leading to overlapping activations. The gap is small but consistent, reflecting the rapid transition between semantic and phonological processing. The key issue here seems to be the term “statistically significant”. While the difference in onset times between the semantic and phonological effects was not statistically significant in the strict sense, the data still show a temporal sequence where semantic information is activated slightly earlier. In this scenario, the eye-tracking methodology may not have been sufficiently fine-grained to capture the rapid transition between semantic and phonological effects. The true gap between these effects likely falls within the range of 70 to 200 ms. This range is consistent with the estimated time required for lexical retrieval (MacGregor et al., 2012), suggesting that the transition between predicting semantic content and phonological form occurs very quickly, yet not instantaneously. This rapid shift aligns well with the prediction-by-association mechanism, which posits that activation spreads dynamically through the network of related words. In this model, multiple lexical candidates can become active in parallel, with the strongest activation typically corresponding to semantically related content. As activation continues to propagate, it engages phonological representations closely related to the anticipated word, resulting in the observed quick but sequential activation of phonological details following semantic preactivation. Interpreting the Findings of Experiment 3 Similar to Experiment 2, given the rapid transition between semantic and form information observed in Experiment 3 (30 ms), a prediction-by-association mechanism is the most plausible explanation. The methodology used in Experiment 3 has the advantage of measuring independent effects through comparisons of all neural signals, which allows for a more direct observation of 156 form effects that are not necessarily contingent upon the presence of semantic effects. This means that the predictive activation of phonological or orthographic information is not simply a byproduct of prior semantic activation but rather suggests that such information is inherently embedded in the processing of a single sentence. However, it is important to acknowledge that, in natural language processing, there is likely an inherent interdependence between semantic and form representations (Kuperberg & Jaeger, 2016; Ryskin & Nieuwland, 2023). Semantic meaning and phonological details interact closely as part of the brain’s comprehensive understanding of language, with each influencing the retrieval and prediction of the other. While the RSA used in Experiment 3 is effective for identifying patterns of neural activation associated with different types of predictions, it may not be ideally suited for exploring the nuanced interdependencies between semantic and form information. The RSA provides insights into the time points at which the processing of two stimuli exhibits similar neural patterns. In Experiment 3, this approach revealed an increase in the similarity of semantically related items approximately 230 ms after the presentation of the penultimate word (around -570 ms). This suggests that when participants process a sentence context, such as “the cat chases the mouse,” it activates a particular neuronal ensemble. Part of this activation overlaps with the neuronal ensemble triggered by another sentence context predicting a semantically related word, such as “I bought a bone for my dog.” The RSA indicates that these contexts share a commonality in how the brain processes related meanings, reflecting the activation of overlapping patterns of neural activity. A similar pattern was observed for pairs of sentences that predicted orthographically related words. For instance, a sentence context like “The girl was playing with her doll” might activate neural patterns that partially overlap with those triggered by a different sentence predicting a word with similar orthographic features. This overlap 157 in activation suggests that the brain uses shared aspects of these representations when processing related words, even when those words are not identical but share semantic or orthographic characteristics. This behavior is reminiscent of the concept cell phenomenon, which describes neurons that respond to conceptual information independently of the modality through which the information is presented (Quiroga, 2012). Concept cells can react to the identity of a particular stimulus regardless of whether it is presented visually, auditorily, or in written form. Importantly, this phenomenon is not limited to a single neuron; rather, groups of neurons typically responding to the same stimulus. Moreover, some of these neuron groups may also respond to other, related concepts. A classic example is a group of neurons that responded to the identity of Jennifer Aniston. Interestingly, these same neurons were also activated by other characters from the TV show “Friends”, where Jennifer Aniston played a key role. This suggests that the neuronal representations of Jennifer Aniston and other characters from the show are interconnected due to their shared context in the participant’s memory. These associative connections are thought to be formed through Hebbian mechanisms, often summarized as “cells that fire together, wire together”. According to this principle, if a neuron that responds to one concept is repeatedly activated in conjunction with another concept, it can begin to respond to that related concept as well (Messinger et al., 2001). This mechanism likely underlies the ability of concept cells to capture relationships between different but related concepts, such as characters from the same TV show or objects that share a common thematic or functional relationship. According to Dell and Chang (2014), implicit associative learning relies heavily on prediction and the correction of errors. During the initial stages of learning, predictions are often 158 random and incorrect due to a lack of prior experience. These errors, however, serve as a critical mechanism for adjustment, prompting changes in the organization of memory to improve future predictions. This process gradually builds a repertoire of options for predictions, forming the basis of semantic memory and giving rise to the phenomenon known as spreading activation, which underlies priming effects. For example, consider the sentence, “My mom peels the banana.” A learner who initially predicts “apple” instead of “banana” is likely making an incorrect guess due to incomplete knowledge about the context. However, this error-driven process leads to adjustments in memory organization. The predictive system starts to recognize “banana” as a more likely outcome in similar contexts, creating a link between “apple” and “banana” based on their shared attribute of “peelability” as a semantic feature (Unger et al., 2023). Through repeated exposure to similar contexts, the learner’s system refines its predictions, gradually forming more accurate and contextually appropriate anticipations. This mechanism is evident in early language development. Research shows that toddlers can begin to make predictions about words as early as 15 months of age (Reuter et al., 2019), but they become particularly sensitive to these kinds of semantic relationships between 18 and 21 months (Arias-Trejo et al., 2022; Arias-Trejo & Plunkett, 2009; Delle Luche et al., 2014; Plunkett et al., 2022). During this period, toddlers become increasingly adept at using context to anticipate upcoming words, reflecting a growing ability to draw on semantic links between concepts. By the second half of the second year of life, children develop a more robust organization of their lexical- semantic network, allowing for more sophisticated and accurate predictions based on past learning (Angulo-Chavira & Arias-Trejo, 2018; Arias-Trejo et al., 2022). 159 This process of prediction and error correction not only shapes early language development but also underlies how adults continue to refine their semantic networks throughout life. Each experience with prediction and subsequent feedback, whether through direct correction or context- based reinforcement, helps to strengthen the associative links between related concepts. This dynamic learning mechanism creates a network where related words, concepts, and features are activated together, facilitating more accurate predictions during language comprehension. The spreading activation model helps explain how these connections become established and how a learner’s semantic memory becomes increasingly organized, ultimately leading to more effective and context-sensitive language use. Once these associative links are established, prediction during language processing involves the retrieval of word representations through the activation of neural ensembles that correspond to words embedded within the sentence context. According to the results of Experiment 3, this retrieval of semantic and form information relies on the temporal synchronization of neural ensembles across different brain scales. Notably, semantic prediction requires the coordination of both global and local processes. This finding aligns with existing evidence that semantic information is distributed widely across the brain (Hickok & Poeppel, 2007; Huth et al., 2016). It also supports the view that semantic processing depends on cortical hubs that integrate the diverse streams of multimodal information scattered throughout the brain (Garagnani & Pulvermüller, 2016). These hubs function to bring together various types of sensory and conceptual information, allowing for a cohesive understanding of meaning. In this framework, global neural processes could be involved in extracting multimodal information, effectively simulating a concept in the brain (Pulvermüller, 2001, 2005). For example, 160 when encountering a word or concept, the brain might activate regions associated with visual imagery, sounds, or motor functions linked to that concept, reflecting the distributed nature of semantic processing. In contrast, local processing is likely related to the integration and refinement of this distributed information within specific cortical hubs, such as the temporal and frontal lobes. These hubs serve as focal points where the diverse elements of a concept are synthesized into a coherent representation. For instance, in processing a sentence like “I hit the nail with a hammer,” various brain areas would be activated to retrieve the relevant information. Visual areas might activate images of the hammer, somatosensory regions could engage the tactile sensation of holding the tool, auditory regions might recall the sound of a hammer striking a nail, and motor cortex regions could simulate the action of swinging the hammer. However, to fully comprehend the sentence, all of this information needs to be integrated into a unified understanding of the event. This integration occurs within cortical hubs like the temporal and frontal lobes, which are capable of bringing together these different sensory and conceptual dimensions into a coherent semantic interpretation. In contrast to the processing of semantic information, phonological prediction appears to follow a different pattern, starting with more global activation and becoming more localized as the prediction process unfolds. This pattern aligns with the hierarchical processing proposed by the predictive coding framework, which suggests that predictions are generated in a top-down manner. In this framework, higher-order brain regions provide contextual constraints that shape and refine the activity of lower-order sensory areas (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). In the context of language, this model suggests that the brain uses semantic context to filter and narrow down potential phonological candidates, making the prediction process more efficient 161 (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). The semantic context helps guide the brain’s expectations about upcoming words, focusing attention on phonological forms that are most likely given the context. For example, in a sentence like “The dog chased the...” the context provided by “dog” and “chased” primes the brain to anticipate phonological forms that align with words like “cat” or “ball.” The predictive theory of language comprehension, however, does not specify precisely which levels of phonological information are involved in this form of prediction. In languages with transparent orthographies like Spanish, where there is a close correspondence between phonemes and graphemes, the prediction of word form could encompass both lexical and sublexical information. This means that the brain might predict not only the broader lexical form of a word but also finer details like specific phonemes, graphemes, and even expected visual/acoustic features of the word (Arnal & Giraud, 2012; Kuperberg & Jaeger, 2016). Given this, it is reasonable that global processes dominate the early stages of form prediction. Initially, these processes may be driven by the activation of the distributed semantic network, where broader contextual cues guide the brain’s expectations about the phonological structure of upcoming words. This distributed activity serves to narrow down the possible phonological forms that fit the predicted meaning. As the process continues, phonological prediction becomes more localized, focusing on specific details of the expected word. This finer-grained processing is likely to involve areas more closely associated with sensory processing, such as primary visual cortex, where the brain can simulate the visual and orthographic features of the predicted word. Additionally, this localized activity could extend to subcortical visual processing areas, such as the thalamus and ganglionic cells, which play a role in refining visual input before it reaches cortical processing stages. 162 This interpretation aligns with the broadband results, which, although not statistically reliable, show differences in the semantic contrast early in the analysis window but not in the form contrast. Toward the end of the analysis window, however, the form contrast differences become even more pronounced than the semantic contrast. This pattern suggests that semantic predictive retrieval begins with a broad, general prediction of semantic features and gradually narrows to more specific features as the sentence unfolds. In contrast, form prediction becomes precise only when sufficient activation from the semantic levels has been transmitted. In fact, the form prediction is so specific by this point that there is no temporal differences between the form contrast and the specific-word contrast, indicating that this may represent the final stage of retrieval. An alternative interpretation of the spectral results, grounded in the predictive coding framework, suggests that slow oscillations are more closely associated with the generation of predictions, while faster frequencies relate to the processing of prediction errors and the subsequent adjustments in those predictions (Arnal & Giraud, 2012). This perspective shifts the focus from a distinction between semantic and phonological processing levels to a distinction between the types of neural activity involved in generating and refining predictions. According to this view, both semantic and form predictions rely on slow oscillations, such as those in the delta and theta bands, which support the propagation of predictive signals throughout the brain. These slow oscillations help establish the brain’s expectations about upcoming linguistic input, irrespective of whether the focus is on the general meaning (semantic) or the specific phonological/orthographic features (form) of a word. This means that the processes driving predictions at both levels—semantic and phonological—are underpinned by similar mechanisms of slow-wave synchronization. 163 However, once predictions are made, the brain must continually adjust and correct these predictions based on incoming sensory information. This is where faster oscillations, such as those in the beta 1 and gamma bands, come into play. These higher-frequency activities are thought to be associated with the processing of prediction errors—instances where the incoming information does not align with the predicted input. Fast oscillations are then involved in updating the predictive model, adjusting the brain’s expectations to better match the new sensory evidence. Under this perspective, the timing of fast oscillatory activity would correspond to when adjustments are needed in response to prediction errors. Since semantic predictions are typically generated earlier than phonological ones, it follows that the adjustments and error corrections related to semantic information would occur earlier as well. This explains why faster oscillations reflecting error corrections might be observed earlier for semantic information than for form information, even though both types of predictions are initially supported by slower oscillatory activity. With the current methodology, it is indeed challenging to disentangle between these two interpretations; however, they are not mutually exclusive and could potentially coexist. It is plausible that adjustments in semantic predictions depend on the activity within semantic hubs, such as those in the temporal and frontal regions, which integrate multimodal information. Simultaneously, error corrections related to form predictions might occur in areas involved in the early processing of phonological and orthographic information, such as the auditory and visual cortices. For example, Leonard et al. (2016) demonstrated that the auditory cortex can restore missing phonetic-acoustic information, a process that likely involves input from frontal regions. This finding supports the idea that higher-order brain areas can send top-down signals to sensory regions, adjusting their processing in line with predictive expectations. This interaction aligns with 164 both interpretations of the role of different oscillatory bands in predictive processing. On one hand, slow oscillations could facilitate the initial establishment of predictions in early processing areas, such as those that process phonetic or graphemic details. On the other hand, faster oscillations may reflect the feedback mechanisms from higher-order regions that correct and fine-tune these predictions when discrepancies are detected. This dual perspective suggests a dynamic interplay between top-down and bottom-up processes in prediction and error correction. Predictions, whether semantic or phonological, are initially formed in response to context and sensory input, engaging both distributed networks and more localized areas for processing. When the incoming sensory information does not match the predicted pattern, top-down signals from areas like the frontal cortex may guide adjustments, helping to refine the sensory processing in regions like the auditory cortex (for phonological adjustments) or visual areas (for orthographic corrections). Thus, while our current data cannot definitively separate these explanations, it is likely that both processes are at work. Predictions may originate in early processing areas, but their refinement and adjustment depend on interactions with higher-order cognitive areas. This combined approach provides a more nuanced understanding of how the brain dynamically manages predictions and corrects errors during language comprehension, suggesting that both the hierarchical organization of predictive coding and the integration of distributed semantic networks play crucial roles in this complex process. Integrating Findings from Experiment 2 and 3 After a thorough examination of the results from this thesis, the interpretations of Experiments 2 and 3 align closely with the prediction-by-association mechanism, as it is consistent not only from a cognitive perspective but also from a biological one. This mechanism involves the 165 spreading activation of related concepts within the brain’s associative networks, allowing for predictions to be made based on learned relationships and context. Unlike some of the more structured models, such as prediction-by-simulation or prediction-by-production, prediction-by- association is characterized by its ability to activate multiple related representations simultaneously. Previous work has often described this mechanism as “inefficient” (Pickering & Gambi, 2018) or even “dumb” (Huettig, 2015), suggesting that its broad activation of related concepts lacks the precision of more targeted predictive systems. Nevertheless, the results presented in this thesis provide evidence of a mechanism that is both fast and flexible, capable of adapting quickly to new information. Far from being a slow or unsophisticated process, prediction-by-association demonstrates an ability to consider multiple possible outcomes in parallel, which allows for a richer and more nuanced understanding of language context. On one hand, mechanisms like prediction-by-production are often considered more efficient because they generate predictions that are highly accurate and contextually congruent (Pickering & Gambi, 2018). This model relies on the internal production system to simulate upcoming words, leading to predictions that are closely aligned with the intended meaning and context of the communication. However, despite its accuracy, prediction-by-production seems less suited for real-time language processing due to its slower pace—typically around 600 ms. This slower processing makes it less effective in situations where the brain needs to anticipate or adjust to new information quickly, such as during rapid conversations or dynamic reading contexts. The limitations of prediction-by-production become especially apparent when considering the need to predict smaller linguistic units, such as phonemes or syllables, which often require predictions within a few milliseconds. The model’s slower time scale makes it challenging to 166 handle these more fine-grained predictions, which are critical for fluent language comprehension and rapid word recognition. Furthermore, the slower processing speed of prediction-by-production may impede the detection and adjustment of prediction errors. For a prediction mechanism to be truly effective, it must be able to detect discrepancies between expected and actual input and adjust its expectations swiftly. These corrections need to occur quickly, often before or during the presentation of the next word, to ensure that the brain can revise its predictions in light of new information. Without the capacity for rapid error correction, the predictive process risks becoming rigid and less adaptive, missing opportunities to fine-tune predictions as language input evolves. The limitations of prediction-by-production become especially apparent when considering the need to predict smaller linguistic units, such as phonemes or syllables, which often require predictions within a few milliseconds. The model’s slower time scale makes it challenging to handle these more fine-grained predictions, which are critical for fluent language comprehension and rapid word recognition. Furthermore, the slower processing speed of prediction-by-production may impede the detection and adjustment of prediction errors. For a prediction mechanism to be truly effective, it must be able to detect discrepancies between expected and actual input and adjust its expectations swiftly. These corrections need to occur quickly, often before or during the presentation of the next word, to ensure that the brain can revise its predictions in light of new information. Without the capacity for rapid error correction, the predictive process risks becoming rigid and less adaptive, missing opportunities to fine-tune predictions as language input evolves. On the other hand, the prediction-by-simulation mechanism is often described as fast, yet it lacks flexibility because it generates only one prediction at a time, relying heavily on the 167 comprehender’s past experiences (Pickering & Garrod, 2013). This approach suggests that the brain simulates what it would say or hear in a given context, producing a single, detailed prediction of the upcoming linguistic input. However, this focus on generating a single, specific prediction limits the ability to adapt quickly to unexpected variations, as it does not consider multiple possible outcomes simultaneously. Moreover, prediction-by-simulation lacks biological plausibility, as it overlooks the hierarchical structure of the brain in generating predictions. The brain typically creates predictions in a top-down manner, moving from general semantic information to more specific phonological or sublexical details (Ryskin & Nieuwland, 2023). This hierarchical processing allows for the gradual refinement of expectations based on context, which is critical for integrating various levels of linguistic representation during language comprehension. In contrast, prediction-by-simulation treats semantic and form representations as equivalent, failing to acknowledge the nuanced interaction between these levels during lexical retrieval. This omission means that the model does not fully capture the way different aspects of language processing—such as meaning and phonology—interact to guide predictions in real time. Notably, Pickering et al. (2018) moved away from the prediction-by-simulation mechanism as they further refined the prediction-by-production framework, which had initially outlined the implications of the production system for predictions during language comprehension in only vague terms (Pickering & Garrod, 2013). In many respects, prediction-by-production can be seen as an evolution of prediction-by-simulation, incorporating some of its core concepts but refining the model to account for the processes involved in speech production. The prediction-by- production mechanism retained the emphasis on using the production system for generating predictions but acknowledged the slower, more deliberate nature of this process, as well as the 168 potential for partial predictions. This shift allowed the model to address some of the limitations of prediction-by-simulation, such as its lack of flexibility and the inability to consider multiple potential outcomes. Proposed Theoretical Model One of the central ideas across various theories of predictive processing, including prediction-by-production and prediction-by-simulation, as well as other proposals (Dell & Chang, 2014; Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013), is the role of the production system in generating predictions. A wealth of evidence from experimental studies, computational modeling, and neuropsychological research links the prediction process directly to the mechanisms underlying language production (Chang et al., 2006; Federmeier et al., 2002; C. D. Martin et al., 2018). This evidence suggests that the same neural circuits involved in producing speech are also engaged when predicting linguistic input. For instance, Martin et al. (2018) demonstrated that when participants were required to produce linguistic units while simultaneously making predictions about upcoming words, they failed to show the expected predictive effects. The authors suggested that this failure occurred because the production system, which is thought to play a crucial role in generating predictions, was already occupied with the task of speech production. Thus, it was unable to implement predictions concurrently. This interpretation implies that the production system has a dual role: it is used not only for producing speech but also for anticipating what might be heard or read next, and it struggles to perform both functions at the same time. However, this proposal has faced criticism, particularly regarding its biological plausibility (Hickok, 2013). One key challenge is that this view assumes that the production system’s involvement in prediction prevents it from multitasking, which seems inconsistent with the brain’s 169 ability to handle multiple simultaneous processes. Furthermore, the effects observed by Martin et al. (2018) could also be explained by an alternative phenomenon known as “predictive attenuation”. When individuals produce speech, studies have shown that there is a reduced response in the auditory cortex to the sound of their own voice (Forseth et al., 2020). This reduction is thought to occur because the brain actively dampens the auditory response to self-generated speech, possibly to minimize interference between the speaker’s own speech production and their perception of external speech. This predictive attenuation mechanism could explain why predictions are disrupted during simultaneous speech production—not necessarily because the production system is directly involved in implementing predictions, but because speaking itself interferes with auditory processing of language. When the brain is engaged in producing speech, the attenuation of auditory signals could reduce the brain’s sensitivity to the kinds of subtle cues needed for making accurate predictions about external linguistic input. Theoretically, the prediction-by-association mechanism does not inherently require the involvement of the production system, whereas other theories, like prediction-by-production and prediction-by-simulation, emphasize the production system’s central role in generating predictions. A straightforward way to address this discrepancy is to assume that these mechanisms are separate systems or that production is not essential for prediction during language comprehension (Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013). However, it is also possible to integrate these perspectives into a unified mechanism where predictions during language comprehension involve the production system but follow the associative principles of spreading activation. 170 In this integrated proposal, the prediction process could involve two interconnected steps that, together, form a single predictive mechanism (Figure 32). This proposal suggests that while the production system plays a role in predictions, it does so by following the same rules of spreading activation that underlie associative networks. Notably, some spreading activation models have focused primarily on speech production (Dell, 1986), emphasizing how activation flows through semantic and phonological networks. By extending this approach, prediction could be seen as a function of lexical retrieval processes that occur during both comprehension and production. Figure 32 Example of Concept Retrieval and Prediction Mechanisms in Theoretical Framework Note. The figure illustrates the activation pathways and prediction mechanisms within a hierarchical representation system based on spreading activation. Each line’s width reflects the activation strength of a given representation, with thicker lines indicating higher levels of activation. Dashed lines represent activation flows that reach subsequent levels but are not visually displayed to avoid clutter. Purple lines indicate a successful retrieval of the concept associated with the currently processed word. Green lines represent correct predictions aligned with contextual expectations, while red lines signify potential incorrect predictions. 171 In this framework, semantic information is shared between the comprehension and production systems, allowing predictions to flow seamlessly between them. During comprehension, the system processes incoming information hierarchically, with form information (e.g., phonological or orthographic features) being activated first, followed by broader semantic representations. This sequence leads to the activation of semantically and form-related words through the mechanisms of spreading activation. However, as semantic information is activated, it spreads to the production system, which then contributes to the activation of other form-related information, but this time based on the semantic context. This interplay suggests that the comprehension system lays the groundwork for predictions, while the production system enhances those predictions by adding layers of specificity based on semantic cues. Ultimately, this integrated proposal frames prediction as a process of lexical retrieval that depends on the stable organization of semantic memory and dynamic adjustments in activation levels based on incoming linguistic input. By treating predictions as part of a cascading process, this model allows for the simultaneous processing of different types of information. Processing does not need to fully complete at one level before it begins to influence subsequent levels. Instead, information can propagate through the system as soon as it begins to be processed, much like how Huettig and McQueen (2007) describe cascading effects in speech processing. This cascading quality accelerates the prediction process by enabling rapid transmission of partial information through the system, which is particularly valuable when there is high uncertainty or when time is limited. It also introduces flexibility, allowing the system to adjust predictions dynamically as new information is encountered. The correction of predictions in this model is achieved through feedback and feedforward connections between different levels of representation, which are similar to those described in 172 models of lexical retrieval (Dell, 2013), but also computational models of prediction (Altmann & Mirković, 2009; Kukona et al., 2014). These connections allow the brain to continuously refine its predictions, akin to the principles of predictive coding (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). Errors in predictions are identified and adjusted through interactions between the top-down predictions (informed by broader semantic or contextual knowledge) and the bottom-up sensory input (actual speech or text encountered). This continuous loop of adjustment ensures that the system remains responsive and accurate, refining its expectations as it processes language in real time. In summary, this proposal envisions a unified predictive mechanism where the production system is involved in generating predictions, but in a way that is consistent with the principles of spreading activation. Semantic and form information interact and cascade through the comprehension and production systems, allowing for parallel processing and rapid, flexible adjustments. This proposal retains the speed and adaptability of prediction-by-association while incorporating the detailed control and specificity suggested by the involvement of the production system, offering a more comprehensive understanding of how the brain anticipates linguistic input. 173 Considerations and futures studies While our findings provide robust support for hierarchical predictive processing in language comprehension through a prediction-by-association mechanism, several methodological considerations must be addressed to contextualize these results. One key consideration is the use of the visual world paradigm and EEG techniques. These methods offer valuable insights into the timing of predictive processes, yet they come with inherent limitations. The visual world paradigm relies on eye-tracking data, which can be influenced by individual differences in visual attention and gaze patterns, potentially introducing variability into the results (McMurray, 2023). For instance, some participants may naturally allocate more attention to certain visual areas or exhibit idiosyncratic gaze behaviors that could affect how predictive effects are observed. EEG, on the other hand, provides high temporal resolution, making it ideal for tracking rapid changes in brain activity during language comprehension. However, its limited spatial resolution makes it challenging to precisely identify the neural sources of predictive activity, which constrains our ability to pinpoint the exact brain regions involved in prediction. Future research could benefit from combining EEG with other neuroimaging techniques, such as fMRI, to provide a more comprehensive picture of both the spatial and temporal dynamics of predictive processing. Another consideration is our study’s focus on high-constraint sentences to investigate predictive mechanisms. This approach effectively isolates predictive processes by ensuring that the context strongly biases the expectation of certain words. However, it may not fully capture the richness and variability of natural language comprehension, which often involves navigating a spectrum of contexts ranging from highly predictable to ambiguous. Real-world language comprehension rarely offers such clear-cut expectations (Levy, 2008), and it is crucial to 174 understand how the brain adjusts its predictions when faced with varying levels of contextual constraint. Additionally, while our results strongly support the prediction-by-association model, the precise role of other mechanisms in prediction remains unresolved. Some findings from Experiment 2 could be interpreted within the frameworks of prediction-by-production or prediction-by-simulation. Furthermore, our results focus specifically on word-level prediction without accounting for broader syntactic context, which may relate more closely to a combinatorial mechanism. Consequently, while the present findings support a unified theory of language prediction during comprehension, this proposal is limited to the predictive preactivation of words. It requires further refinement to address other predictive phenomena, such as syntactic structure prediction or inferences about interlocutors’ beliefs. Ultimately, each of these mechanisms has been proposed because distinct evidence supports them, and although a single, unified predictive mechanism is tempting, it remains likely that multiple mechanisms interact—or even compete— to generate the most accurate predictions (Huettig, 2015). Finally, a promising direction for future research lies in further investigating the potential for parallel prediction processes and their biological underpinnings. Understanding how the brain manages multiple competing predictions and resolves them in real time could provide critical insights into the flexibility and adaptability of the predictive system. For example, studies could explore the mechanisms that allow the brain to balance predictions for different linguistic levels— such as semantics, syntax, and phonology—and how these predictions interact when they converge or conflict. Such research would help illuminate the neural dynamics that underlie the brain’s ability to anticipate language input across diverse contexts, adding depth to our understanding of predictive processing in language comprehension. 175 Conclusion This thesis investigated the temporal dynamics of predictive processing in language comprehension, focusing on how semantic and phonological information is activated during sentence processing. The predictive processing framework posits that the brain continuously generates predictions about upcoming events, including language input, rather than passively receiving information. This predictive ability is crucial for efficient cognitive functioning, enabling faster processing and the capacity to correct errors during comprehension. Three theoretical mechanisms of prediction were examined: prediction-by-production, prediction-by-simulation, and prediction-by-association. Each of these theories offers a unique perspective on how and when predictions are formed in the brain. Prediction-by-production suggests that the production system is central to generating predictions, with semantic information activated before phonological details, following the natural sequence of speech production. Prediction-by-simulation proposes that complete word representations, including both semantic and phonological aspects, are predicted simultaneously, simulating what the comprehender might say in the same context. Prediction-by-association, on the other hand, posits that predictions emerge from the activation of related words in the mental lexicon. In this model, semantic information is activated before form-related information, but the temporal gap between these activations is minimal, allowing for rapid shifts between different linguistic levels. To test these models, three experiments were conducted. Experiment 1 focused on developing a culturally relevant corpus of sentence endings with varying levels of predictability for Mexican Spanish speakers, providing a foundation for subsequent experiments. Experiment 2 employed the visual world paradigm combined with eye-tracking to assess how listeners anticipate upcoming words based on contextual clues in real-time. Experiment 3 used EEG and RSA to 176 investigate the neural correlates of predictive activation, focusing on the temporal dynamics of how predictions unfold at the neural level. Across these experiments, a consistent pattern emerged: semantic information was activated earlier than phonological information during language comprehension. This hierarchy was particularly evident in contexts with high predictability, where participants initially anticipated the broad meaning of an upcoming word before processing its phonological form. The EEG data from Experiment 3 further revealed a rapid (~30 ms) transition from semantic to phonological predictions, suggesting that the brain is capable of quickly shifting between these levels of representation during comprehension. Notably, the visual world paradigm in Experiment 2 showed a longer delay (~800 ms) between the onset of semantic and phonological predictions, indicating slower processing in certain conditions. In contrast, the EEG results from Experiment 3 suggested a much shorter delay. These differences can be attributed to the distinct methodologies used in each experiment. While eye-tracking captures overt attentional shifts, EEG provides a more direct measure of neural activation over time. Despite these methodological variations, the overall findings indicate that predictive processing is a flexible system that adapts to the demands of the task and the complexity of the linguistic input. The evidence supports the prediction-by-association mechanism, which suggests that predictions are formed through the spread of activation across related lexical items. This mechanism enables parallel activation of multiple word candidates, providing the flexibility to adjust predictions as new information is encountered. Unlike the prediction-by-production model, which may struggle with the rapid adjustments required for real-time comprehension, prediction- 177 by-association allows for fast and adaptive processing, making it better suited for dynamic language understanding. In conclusion, this thesis demonstrates that predictive processing in language is both rapid and adaptable, with a clear temporal order in which semantic representations are activated before phonological details. These findings challenge the notion that prediction relies solely on the production system, suggesting instead that prediction is driven by associative processes within a hierarchical lexical network. This perspective contributes to our understanding of how the brain processes language and has implications for models of language acquisition 178 References Allopenna, P. D., Magnuson, J. S., & Tanenhaus, M. K. (1998). Tracking the Time Course of Spoken Word Recognition Using Eye Movements: Evidence for Continuous Mapping Models. Journal of Memory and Language, 38(4), 419–439. https://doi.org/10.1006/jmla.1997.2558 Altmann, G. T. M., & Kamide, Y. (1999). Incremental interpretation at verbs: Restricting the domain of subsequent reference. Cognition, 73(3), 247–264. https://doi.org/10.1016/S0010-0277(99)00059-1 Altmann, G. T. M., & Mirković, J. (2009). Incrementality and Prediction in Human Sentence Processing. Cognitive Science, 33(4), 583–609. https://doi.org/10.1111/j.1551- 6709.2009.01022.x Anderson, J. R. (1983). A Spreading Activation Theory of Memory. Journal of Verbal Learning and Verbal Behavior, 22, 261–295. https://doi.org/10.1016/S0022-5371(83)90201-3 Angulo Chavira, A. Q., Castellón-Flores, A. M., López-Santillán, H., & Arias-Trejo, N. (2023). Phono-semantic prediction during language comprehension: Effects of working memory. Proceedings of the Annual Meeting of the Cognitive Science Society, 45(45). https://escholarship.org/uc/item/61b2t22v Angulo-Chavira, A. Q., & Arias-Trejo, N. (2018). Development of bidirectional phonosemantic activation in toddlers. Quarterly Journal of Experimental Psychology, 71(9), 1968–1979. https://doi.org/10.1177/1747021817737214 Angulo-Chavira, A. Q., Castellón-Flores, A. M., Barrón-Martínez, J. B., & Arias-Trejo, N. (2022). Word prediction using closely and moderately related verbs in Down syndrome. Frontiers in Psychology, 13. https://www.frontiersin.org/articles/10.3389/fpsyg.2022.934826 179 Angulo-Chavira, A. Q., Castellón-Flores, A. M., Ciria, A., & Arias-Trejo, N. (2023). Sentence- final completion norms for 2925 Mexican Spanish sentence contexts. Behavior Research Methods. https://doi.org/10.3758/s13428-023-02160-y Apfelbaum, K. S., Klein-Packard, J., & McMurray, B. (2021). The pictures who shall not be named: Empirical support for benefits of preview in the Visual World Paradigm. Journal of Memory and Language, 121(September 2020), 104279. https://doi.org/10.1016/j.jml.2021.104279 Arcuri, S., Rabe-Hesketh, S., Morris, R., & McGuire, P. (2001). Regional variation of cloze probabilities for sentences context. Behavior and Research Methods, Instruments & Computers, 33(1), 80–90. https://doi.org/Regional variation of cloze probabilities for sentences context Arias-Trejo, N., Angulo-Chavira, A. Q., Avila-Varela, D. S., Chua-Rodriguez, F., & Mani, N. (2022). Developmental Changes in Phonological and Semantic Priming Effects in Spanish- Speaking Toddlers. Developmental Psychology, 58(2), 236–251. https://doi.org/10.1037/dev0001290 Arias-Trejo, N., Angulo-Chavira, A. Q., & Barrón-Martínez, J. B. (2019). Verb-mediated anticipatory eye movements in people with Down syndrome. International Journal of Language and Communication Disorders, 54(5), 756–766. https://doi.org/10.1111/1460- 6984.12473 Arias-Trejo, N., & Plunkett, K. (2009). Lexical-semantic priming effects during infancy. Philosophical Transactions of the Royal Society B: Biological Sciences, 364(1536), 3633– 3647. https://doi.org/10.1098/rstb.2009.0146 180 Arnal, L. H., & Giraud, A.-L. (2012). Cortical oscillations and sensory predictions. Trends in Cognitive Sciences, 16(7), 390–398. https://doi.org/10.1016/j.tics.2012.05.003 Attinger, A., Wang, B., & Keller, G. B. (2017). Visuomotor Coupling Shapes the Functional Development of Mouse Visual Cortex. Cell, 169(7), 1291-1302.e14. https://doi.org/10.1016/j.cell.2017.05.023 Azuma, T., Williams, E. J., & Davie, J. E. (2004). Paws + cause = pause? Memory load and memory blends in homophone recognition. Psychonomic Bulletin & Review, 11(4), 723– 728. Basar, E., Basar-Eroglu, C., Karakas, S., & Schurmann, M. (1999). Oscillatory brain theory: A new trend in neuroscience. IEEE Engineering in Medicine and Biology Magazine : The Quarterly Magazine of the Engineering in Medicine & Biology Society, 18(3), 56–66. Bastos, A. M., Usrey, W. M., Adams, R. A., Mangun, G. R., Fries, P., & Friston, K. J. (2012). Perspective Canonical Microcircuits for Predictive Coding. Neuron, 76(4), 695–711. https://doi.org/10.1016/j.neuron.2012.10.038 Beatty, J. (1958). Task-evoked pupillary responses, processing load, and the structure of processing resources. Psychological Bulletin, 91(2), 276–292. Becker, C. (1980). Semantic context effects in visual word recognition: An analysis of semantic strategies. Memory & Cognition, 8(6), 493–512. Block, C. K., & Baldwin, C. L. (2010). Cloze probability and completion norms for 498 sentences: Behavioral and neural validation using event-related potentials. Behavior Research Methods, 42(3), 665–670. https://doi.org/10.3758/BRM.42.3.665 Bloom, P. A., & Fischler, I. (1980). Completion norms for 329 sentence contexts. Memory & Cognition, 8(6), 631–642. https://doi.org/10.3758/BF03213783 181 Bobb, S. C., & Mani, N. (2013). Categorizing with gender: Does implicit grammatical gender affect semantic processing in 24-month-old toddlers? Journal of Experimental Child Psychology, 115(2), 297–308. https://doi.org/10.1016/j.jecp.2013.02.006 Bornkessel-Schlesewsky, I., & Schlesewsky, M. (2019). Toward a neurobiologically plausible model of language-related, negative event-related potentials. Frontiers in Psychology, 10(FEB), 1–17. https://doi.org/10.3389/fpsyg.2019.00298 Borovsky, A., Elman, J. L., & Fernald, A. (2012). Knowing a lot for one’s age: Vocabulary skill and not age is associated with anticipatory incremental sentence interpretation in children and adults. Journal of Experimental Child Psychology, 112(4), 417–436. https://doi.org/10.1016/j.jecp.2012.01.005 Brothers, T., & Kuperberg, G. R. (2021). Word predictability effects are linear, not logarithmic: Implications for probabilistic models of sentence comprehension. Journal of Memory and Language, 116(January 2020), 104174. https://doi.org/10.1016/j.jml.2020.104174 Buchanan, E. M., Valentine, K. D., & Maxwell, N. P. (2019). English semantic feature production norms: An extended database of 4436 concepts. Behavior Research Methods, 51(4), 1849– 1863. https://doi.org/10.3758/s13428-019-01243-z Caramazza, A., Costa, A., Miozzo, M., & Bi, Y. (2001). The specific-word frequency effect: Implications for the representation of homophones in speech production. Journal of Experimental Psychology: Learning, Memory, and Cognition, 27(6), 1430–1450. https://doi.org/10.1037//0278-7393.27.6.1430 Carreiras, M., Armstrong, B. C., Perea, M., & Frost, R. (2014). The what, when, where, and how of visual word recognition. Trends in Cognitive Sciences, 18(2), 90–98. https://doi.org/10.1016/j.tics.2013.11.005 182 Chang, F., Dell, G., & Bock, K. (2006). Becoming syntactic. Psychological Review, 113(2), 234– 272. https://doi.org/10.1037/0033-295X.113.2.234 Chow, J., Aimola, A., & Plunkett, K. (2017). Spoken-word recognition in 2-year-olds: The tug of war between phonological and semantic activation. Journal of Memory and Language, 93, 104–134. https://doi.org/10.1016/j.jml.2016.08.004 Chow, J., Angulo-Chavira, A. Q., Spangenberg, M., Hentrup, L., & Plunkett, K. (2022). Bottom- up processes dominate early word recognition in toddlers. Cognition, 228, 105214. https://doi.org/10.1016/j.cognition.2022.105214 Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181–204. https://doi.org/10.1017/S0140525X12000477 Collins, A. M., & Loftus, E. F. (1975). A Spreading-Activation Theory of Semantic Processing. Psychological Review, 82(6), 407–428. http://dx.doi.org/10.1037/0033-295X.82.6.407 Dahan, D., & Tanenhaus, M. K. (2004). Continuous Mapping From Sound to Meaning in Spoken- Language Comprehension: Immediate Effects of Verb-Based Thematic Constraints. Journal of Experimental Psychology: Learning Memory and Cognition, 30(2), 498–513. https://doi.org/10.1037/0278-7393.30.2.498 Damasio, A. R. (1989). The Brain Binds Entities and Events by Multiregional Activation from Convergence Zones. Neural Computation, 1(1), 123–132. https://doi.org/10.1162/neco.1989.1.1.123 Damasio, H., Grabowski, T. J., Tranel, D., Hichwa, R. D., & Damasio, A. R. (1996). A neural basis for lexical retrieval Lexical retrieval in subjects with lesions. Nature, 11, 499–505. 183 Dell, G. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93(3), 283–321. https://doi.org/10.1037/0033-295X.93.3.283 Dell, G. (2013). Cascading and feedback in interactive models of production: A reflection of forward modeling? Behavioral and Brain Sciences, 36(4), 351–352. https://doi.org/10.1017/S0140525X12002531 Dell, G., & Chang, F. (2014). The P-chain: Relating sentence production and its disorders to comprehension and acquisition. Philosophical Transactions of the Royal Society B: Biological Sciences, 369(20120394), 2–9. http://dx.doi.org/10.1098/rstb.2012.0394 Delle Luche, C., Durrant, S., Floccia, C., & Plunkett, K. (2014). Implicit meaning in 18-month- old toddlers. Developmental Science, 6, 948–955. https://doi.org/10.1111/desc.12164 DeLong, K. A., Chan, W. hsuan, & Kutas, M. (2019). Similar time courses for word form and meaning preactivation during sentence comprehension. Psychophysiology, 56(4). https://doi.org/10.1111/psyp.13312 DeLong, K. A., Chan, W. hsuan, & Kutas, M. (2021). Testing limits: ERP evidence for word form preactivation during speeded sentence reading. Psychophysiology, 58(2), 1–8. https://doi.org/10.1111/psyp.13720 DeLong, K. A., Urbach, T. P., & Kutas, M. (2005). Probabilistic word pre-activation during language comprehension inferred from electrical brain activity. Nature Neuroscience, 8(8), 1117–1121. https://doi.org/10.1038/nn1504 Delorme, A., & Makeig, S. (2004). EEGLAB: An open source toolbox for analysis of single-trial EEG dynamics including independent component analysis. Journal of Neuroscience Methods, 134(1), 9–21. https://doi.org/10.1016/j.jneumeth.2003.10.009 184 Di Liberto, G. M., Attaheri, A., Cantisani, G., Reilly, R. B., Ní Choisdealbha, Á., Rocha, S., Brusini, P., & Goswami, U. (2023). Emergence of the cortical encoding of phonetic features in the first year of life. Nature Communications, 14(1), 7789. https://doi.org/10.1038/s41467-023-43490-x Dufour, S. (2008). Phonological priming in auditory word recognition: When both controlled and automatic processes are responsible for the effects. Canadian Journal of Experimental Psychology, 62(1), 33–41. https://doi.org/10.1037/1196-1961.62.1.33 Dufour, S., & Peereman, R. (2003). Lexical competition in phonological priming: Assessing the role of phonological match and mismatch lengths between primes and targets. Memory and Cognition, 31(8), 1271–1283. https://doi.org/10.3758/BF03195810 Duta, M., & Plunkett, K. (2021). A Neural Network Model of Lexical-Semantic Competition During Spoken Word Recognition. Frontiers in Human Neuroscience, 15. https://www.frontiersin.org/articles/10.3389/fnhum.2021.700281 Fadiga, L., Craighero, L., Buccino, G., & Rizzolatti, G. (2002). Speech listening specifically modulates the excitability of tongue muscles: A TMS study. European Journal of Neuroscience, 15(2), 399–402. https://doi.org/10.1046/j.0953-816x.2001.01874.x Federmeier, K. D., McLennan, D. B., de Ochoa, E., & Kutas, M. (2002). The impact of semantic memory organization and sentence context information on spoken language processing by younger and older adults: An ERP study. Psychophysiology, 39(2), 133–146. https://doi.org/10.1017/S0048577202001373 Federmeier, K. D., Wlotko, E. W., De Ochoa-Dewald, E., & Kutas, M. (2007). Multiple effects of sentential constraint on word processing. Brain Research, 1146(1), 75–84. https://doi.org/10.1016/j.brainres.2006.06.101 185 Ferrand, L., & Grainger, J. (2003). Homophone interference effects in visual word recognition. The Quarterly Journal of Experimental Psychology. A, Human Experimental Psychology, 56(3), 403–419. https://doi.org/10.1080/02724980244000422 Fiser, A., Mahringer, D., Oyibo, H. K., Petersen, A. V., Leinweber, M., & Keller, G. B. (2016). Experience-dependent spatial expectations in mouse visual cortex. Nature Neuroscience, 19(12). https://doi.org/10.1038/nn.4385 Forseth, K. J., Hickok, G., Rollo, P. S., & Tandon, N. (2020). Language prediction mechanisms in human auditory cortex. Nature Communications, 11(1), 1–14. https://doi.org/10.1038/s41467-020-19010-6 Friston, K. (2018). Does predictive coding have a future? Nature Neuroscience, 21(8), 1019–1021. Gambi, C., Gorrie, F., Pickering, M. J., & Rabagliati, H. (2018). The development of linguistic prediction: Predictions of sound and meaning in 2- to 5-year-olds. Journal of Experimental Child Psychology, 173, 351–370. https://doi.org/10.1016/j.jecp.2018.04.012 Garagnani, M., & Pulvermüller, F. (2016). Conceptual grounding of language in action and perception: A neurocomputational model of the emergence of category specificity and semantic hubs. European Journal of Neuroscience, 43(6), 721–737. https://doi.org/10.1111/ejn.13145 Grisoni, L., Tomasello, R., & Pulvermüller, F. (2021). Correlated Brain Indexes of Semantic Prediction and Prediction Error: Brain Localization and Category Specificity. Cerebral Cortex, 31(3), 1553–1568. https://doi.org/10.1093/cercor/bhaa308 Hagena, H., & Manahan-Vaughan, D. (2024). Interplay of hippocampal long-term potentiation and long-term depression in enabling memory representations. Philosophical Transactions 186 of the Royal Society B: Biological Sciences, 379(1906), 20230229. https://doi.org/10.1098/rstb.2023.0229 Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P., & de Lange, F. P. (2022). A hierarchy of linguistic predictions during natural language comprehension. Proceedings of the National Academy of Sciences, 119(32), e2201968119. https://doi.org/10.1073/pnas.2201968119 Hepach, R., & Westermann, G. (2016). Pupillometry in infancy research. Journal of Cognition and Development, 17(3), 359–377. https://doi.org/10.1080/15248372.2015.1135801 Hickok, G. (2013). Predictive coding? Yes, but from what source? Behavioral and Brain Sciences, 36(4), 358–358. https://doi.org/10.1017/S0140525X12002750 Hickok, G., & Poeppel, D. (2007). The cortical organization of speech understanding. Nature, 8(May), 393–402. Huang, Y. T., & Snedeker, J. (2011). Cascading activation across levels of representation in children’s lexical processing. Journal of Child Language, 38(3), 644–661. https://doi.org/10.1017/S0305000910000206 Hubbard, R. J., & Federmeier, K. D. (2020). Representational pattern similarity of electrical brain activity reveals rapid and specific prediction during language comprehension. bioRxiv, 2020.04.23.058552. https://doi.org/10.1101/2020.04.23.058552 Huettig, F. (2015). Four central questions about prediction in language processing. Brain Research, 1626, 118–135. https://doi.org/10.1016/j.brainres.2015.02.014 Huettig, F., & Janse, E. (2016). Individual differences in working memory and processing speed predict anticipatory spoken language processing in the visual world. Language, Cognition and Neuroscience, 31(1), 80–93. https://doi.org/10.1080/23273798.2015.1047459 187 Huettig, F., & Mani, N. (2016). Is prediction necessary to understand language? Probably not. Language, Cognition and Neuroscience, 31(1), 19–31. https://doi.org/10.1080/23273798.2015.1072223 Huettig, F., & McQueen, J. M. (2007). The tug of war between phonological , semantic and shape information in language-mediated visual search. Journal of Memory and Language, 57, 460–482. https://doi.org/10.1016/j.jml.2007.02.001 Huettig, F., & Pickering, M. J. (2019). Literacy Advantages Beyond Reading: Prediction of Spoken Language. Trends in Cognitive Sciences, 23(6), 464–475. https://doi.org/10.1016/j.tics.2019.03.008 Huettig, F., Singh, N., & Mishra, R. K. (2011). Language-mediated visual orienting behavior in low and high literates. Frontiers in Psychology, 2(October), 285. https://doi.org/10.3389/fpsyg.2011.00285 Huth, A. G., De Heer, W. A., Griffiths, T. L., Theunissen, F. E., & Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532(7600), 453– 458. https://doi.org/10.1038/nature17637 Indefrey, P., & Levelt, W. J. M. (2004). The spatial and temporal signatures of word production components. Cognition, 92(1), 101–144. https://doi.org/10.1016/j.cognition.2002.06.001 Ito, A. (2024). Phonological prediction during comprehension: A review and meta-analysis of visual-world eye-tracking studies. Journal of Memory and Language, 139, 104553. https://doi.org/10.1016/j.jml.2024.104553 Ito, A., Corley, M., Pickering, M. J., Martin, A. E., & Nieuwland, M. S. (2016). Predicting form and meaning: Evidence from brain potentials. Journal of Memory and Language, 86, 157– 171. https://doi.org/10.1016/j.jml.2015.10.007 188 Ito, A., Pickering, M. J., & Corley, M. (2018). Investigating the time-course of phonological prediction in native and non-native speakers of English: A visual world eye-tracking study. Journal of Memory and Language, 98, 1–11. https://doi.org/10.1016/j.jml.2017.09.002 Ito, A., & Sakai, H. (2021). Everyday Language Exposure Shapes Prediction of Specific Words in Listening Comprehension: A Visual World Eye-Tracking Study. Frontiers in Psychology, 12(February), 1–16. https://doi.org/10.3389/fpsyg.2021.607474 Jones, L. L. (2010). Pure mediated priming: A retrospective semantic matching model. Journal of Experimental Psychology. Learning, Memory, and Cognition, 36(1), 135–146. https://doi.org/10.1037/a0017517 Kamide, Y., Altmann, G. T. M., & Haywood, S. L. (2003). The time-course of prediction in incremental sentence processing: Evidence from anticipatory eye movements. Journal of Memory and Language, 49(1), 133–156. https://doi.org/10.1016/S0749-596X(03)00023-8 Kandel, E. (2012). Intermediate-level visual processing and visual primitives. In 602-619 (Ed.), Principles of neural science. Mc Graw Hill Medical. Keller, G. B., Bonhoeffer, T., & Hübener, M. (2012). Sensorimotor Mismatch Signals in Primary Visual Cortex of the Behaving Mouse. Neuron, 74(5), 809–815. https://doi.org/10.1016/j.neuron.2012.03.040 Keller, G. B., & Mrsic-Flogel, T. D. (2018). Perspective Predictive Processing: A canonical cortical computation. Neuron, 100(2), 424–435. https://doi.org/10.1016/j.neuron.2018.10.003 Kriegeskorte, N., & Kievit, R. A. (2013). Representational geometry: Integrating cognition, computation , and the brain. Trends in Cognitive Sciences, 17(8), 401–412. https://doi.org/10.1016/j.tics.2013.06.007 189 Kriegeskorte, N., Mur, M., & Bandettini, P. (2008). Representational similarity analysis – connecting the branches of systems neuroscience. Frontiers in Human Neuroscience, 2(November), 1–28. https://doi.org/10.3389/neuro.06.004.2008 Kukona, A. (2020). Lexical constraints on the prediction of form: Insights from the visual world paradigm. Journal of Experimental Psychology: Learning Memory and Cognition, 46(11), 2153–2162. https://doi.org/10.1037/xlm0000935 Kukona, A., Cho, P. W., Magnuson, J. S., & Tabor, W. (2014). Lexical interference effects in sentence processing: Evidence from the visual world paradigm and self-organizing models. Journal of Experimental Psychology: Learning Memory and Cognition, 40(2), 326–347. https://doi.org/10.1037/A0034903 Kukona, A., Fang, S. Y., Aicher, K. A., Chen, H., & Magnuson, J. S. (2011). The time course of anticipatory constraint integration. Cognition, 119(1), 23–42. https://doi.org/10.1016/J.COGNITION.2010.12.002 Kuperberg, G., & Jaeger, T. (2016). What do we mean by prediction in language comprehension? Language, Cognition and Neuroscience, 31(1), 32–59. https://doi.org/10.1080/23273798.2015.1102299 Kutas, M., & Hillyard, S. A. (1980). Reading senseless sentences: Brain potentials reflect semantic incongruity. Science, 207(4427), 203–205. http://dx.doi.org/10.1126/science.7350657 Lahar, C. J., Tun, P. A., & Wingfield, A. (2004). Sentence-Final Word Completion Norms for Young, Middle-Aged, and Older Adults. Journals of Gerontology - Series B Psychological Sciences and Social Sciences, 59(1), 7–10. https://doi.org/10.1093/geronb/59.1.P7 Landes, S., Leacock, C., & Tengi, R. I. (1998). Building Semantic Concordances. In C. Fellbaum (Ed.), WordNet: An Electronic Lexical Database. The MIT Press. 190 Lange, F. P. D., Heilbron, M., & Kok, P. (2018). How Do Expectations Shape Perception ? Trends in Cognitive Sciences, xx, 1–16. https://doi.org/10.1016/j.tics.2018.06.002 Leinweber, M., Ward, D. R., Sobczak, J. M., Attinger, A., & Keller, G. B. (2017). A Sensorimotor Circuit in Mouse Cortex for Visual Flow Predictions. Neuron, 95(6), 1420-1432.e5. https://doi.org/10.1016/j.neuron.2017.08.036 Leonard, M. K., Baud, M. O., Sjerps, M. J., & Chang, E. F. (2016). Perceptual restoration of masked speech in human cortex. Nature Communications, 7(1), 13619. https://doi.org/10.1038/ncomms13619 Levelt. (1999). Models of word production. Trends in Cognitive Sciences, 3(6), 223–232. https://doi.org/10.1016/S1364-6613(99)01319-4 Levelt, Roelofs, A., & Meyer, a S. (1999). A theory of lexical access in speech production. The Behavioral and Brain Sciences, 22(1), 1–38; discussion 38-75. https://doi.org/10.1017/S0140525X99001776 Levy, R. (2008). Expectation-based syntactic comprehension. Cognition, 106(3), 1126–1177. https://doi.org/10.1016/j.cognition.2007.05.006 Li, X., Li, X., & Qu, Q. (2022). Predicting Phonology in Language Comprehension: Evidence From the Visual World Eye-Tracking Task in Mandarin Chinese. Journal of Experimental Psychology: Human Perception and Performance, 48(5), 531–547. https://doi.org/10.1037/xhp0000999 Lowder, M. W., Choi, W., Ferreira, F., & Henderson, J. M. (2018). Lexical Predictability During Natural Reading: Effects of Surprisal and Entropy Reduction. Cognitive Science, 42, 1166– 1183. https://doi.org/10.1111/cogs.12597 191 Lowder, M. W., & Ferreira, F. (2016). Prediction in the processing of repair disfluencies. Language, Cognition and Neuroscience, 31(1), 73–79. https://doi.org/10.1080/23273798.2015.1036089 MacGregor, L. J., Casteren, M. V., & Shtyrov, Y. (2012). Ultra-rapid access to words in the brain. Nature Communications, 3(711), 1–7. https://doi.org/10.1038/ncomms1715 Mai, A., Riès, S., Ben-Haim, S., Shih, J. J., & Gentner, T. Q. (2024). Acoustic and language- specific sources for phonemic abstraction from speech. Nature Communications, 15(1), 677. https://doi.org/10.1038/s41467-024-44844-9 Mani, N., Durrant, S., & Floccia, C. (2012). Activation of phonological and semantic codes in toddlers. Journal of Memory and Language, 66, 612–622. https://doi.org/10.1016/j.jml.2012.03.003 Mani, N., & Huettig, F. (2012). Prediction during language processing is a piece of cake-But only for skilled producers. Journal of Experimental Psychology: Human Perception and Performance, 38(4), 843–847. https://doi.org/10.1037/a0029284 Mani, N., & Huettig, F. (2014). Word reading skill predicts anticipation of upcoming spoken language input: A study of children developing proficiency in reading. Journal of Experimental Child, 126, 264–279. http://dx.doi.org/10.1016/j.jecp.2014.05.004 Mani, N., Johnson, E., McQueen, J., & Huettig, F. (2013). How yellow is your banana? Toddlers’ language-mediated visual search in referent-present tasks. Developmental Psychology, 49(6), 1036–1044. https://doi.org/10.1037/a0029382 Mani, N., & Plunkett, K. (2010). In the infant’s mind’s ear: Evidence for implicit naming in 18- month-olds. Psychological Science, 21(7), 908–913. https://doi.org/10.1177/0956797610373371 192 Mani, N., & Plunkett, K. (2011). Phonological priming and cohort effects in toddlers. Cognition, 121, 196–206. https://doi.org/10.1016/j.cognition.2011.06.013 Maris, E., & Oostenveld, R. (2007). Nonparametric statistical testing of EEG- and MEG-data. Journal of Neuroscience Methods, 164, 177–190. https://doi.org/10.1016/j.jneumeth.2007.03.024 Marr, D. (1982). David Marr. Mit Press. Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word-recognition. Cognition, 25(1–2), 71–102. https://doi.org/10.1016/0010-0277(87)90005-9 Martin, C. D., Branzi, F. M., & Bar, M. (2018). Prediction is Production: The missing link between language production and comprehension. Scientific Reports, 8(1), 1–9. https://doi.org/10.1038/s41598-018-19499-4 Martin, C. D., Thierry, G., Kuipers, J. R., Boutonnet, B., Foucart, A., & Costa, A. (2013). Bilinguals reading in their second language do not predict upcoming words as native readers do. Journal of Memory and Language, 69(4), 574–588. https://doi.org/10.1016/j.jml.2013.08.001 Martin, K. (1994). A Brief History of the " Feature Detector ". Cerebral Cortex, 94, 1047–3211. http://cercor.oxfordjournals.org/ Matlab. (2020). 9.8.0.1451342 (R2020a) Update 5 [Computer software]. The MathWorks Inc. McClelland, J. L., & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18(1), 1–86. https://doi.org/10.1016/0010-0285(86)90015-0 McDonald, S., & Tamariz, M. (2002). Completion norms for 112 Spanish sentences. Behavior Research Methods, Instruments, and Computers, 34(1), 128–137. https://doi.org/10.3758/bf03195431 193 McMurray, B. (2023). I’m not sure that curve means what you think it means: Toward a [more] realistic understanding of the role of eye-movement generation in the Visual World Paradigm. Psychonomic Bulletin & Review, 30(1), 102–146. https://doi.org/10.3758/s13423-022-02143-8 McNamara, T. (2004). Semantic priming perspectives from memory and word recognition. Psychology Press. McRae, K., & Jones, M. (2012). Semantic Memory. In D. Reisberg (Ed.), The Oxford Handbook of Cognitive Psychology. https://doi.org/10.1093/oxfordhb/9780195376746.001.0001 Messinger, A., Squire, L. R., Zola, S. M., & Albright, T. D. (2001). Neuronal representations of stimulus associations develop in the temporal lobe during learning. Proceedings of the National Academy of Sciences, 98(21), 12239–12244. https://doi.org/10.1073/pnas.211431098 Meyer, D. E., & Schvaneveldt, R. W. (1971). Facilitation in recognizing pairs of words: Evidence of a dependence between retrieval operations. Journal of Experimental Psychology, 90(2), 227–234. https://doi.org/10.1037/h0031564 Miller, G. A. (1995). WordNet: A Lexical Database for English. Communications of the ACM, 38(11), 39–41. https://doi.org/10.1145/219717.219748 Miller, G. A., Chodorow, M., Landes, S., Leacock, C., & Thomas, R. G. (1994). Using a Semantic Concordance for Sense Identification. Human Language Technology: Proceedings of a Workshop Held at Plainsboro, New Jersey, March 8-11, 1994. HLT 1994. https://aclanthology.org/H94-1046 Neely, J. H., & Keefe, D. E. (1989). Semantic Context Effects on Visual Word Processing: A Hybrid Prospective-Retrospective Processing Theory. Psychology of Learning and 194 Motivation - Advances in Research and Theory, 24(C), 207–248. https://doi.org/10.1016/S0079-7421(08)60538-1 Nieuwland, M. S., Barr, D. J., Bartolozzi, F., Busch-Moreno, S., Darley, E., Donaldson, D. I., Ferguson, H. J., Fu, X., Heyselaar, E., Huettig, F., Husband, E. M., Ito, A., Kazanina, N., Kogan, V., Kohút, Z., Kulakova, E., Mézière, D., Politzer-Ahles, S., Rousselet, G., … Von Grebmer Zu Wolfsthurn, S. (2020). Dissociable effects of prediction and integration during language comprehension: Evidence from a largescale study using brain potentials. Philosophical Transactions of the Royal Society B: Biological Sciences, 375(1791). https://doi.org/10.1098/rstb.2018.0522 Nieuwland, M. S., Politzer-Ahles, S., Heyselaar, E., Segaert, K., Darley, E., Kazanina, N., Von Grebmer Zu Wolfsthurn, S., Bartolozzi, F., Kogan, V., Ito, A., Mézière, D., Barr, D. J., Rousselet, G. A., Ferguson, H. J., Busch-Moreno, S., Fu, X., Tuomainen, J., Kulakova, E., Husband, E. M., … Huettig, F. (2018). Large-scale replication study reveals a limit on probabilistic prediction in language comprehension. eLife, 7, 1–24. https://doi.org/10.7554/eLife.33468 O’Seaghdha, P., & Marin, J. (1997). Mediated Semantic-Phonological Priming: Calling Distant Relatives. Journal of Memory and Language, 252(36), 226–252. https://doi.org/10.1006/jmla.1996.2488 Ostrosky-Solís, F., Ardila, A., & Rosselli, M. (1998). Test NEUROPSI. Universidad Nacional Autónoma de México. Otten, M., Nieuwland, M. S., & Van Berkum, J. J. A. (2007). Great expectations: Specific lexical anticipation influences the processing of spoken language. BMC Neuroscience, 8, 1–9. https://doi.org/10.1186/1471-2202-8-89 195 Otten, M., & Van Berkum, J. J. A. (2008). Discourse-based word anticipation during language processing: Prediction or priming? Discourse Processes, 45(6), 464–496. https://doi.org/10.1080/01638530802356463 Pernet, C. R., Latinus, M., Nichols, T. E., & Rousselet, G. A. (2015). Cluster-based computational methods for mass univariate analyses of event-related brain potentials/fields: A simulation study. Journal of Neuroscience Methods, 250, 85–93. https://doi.org/10.1016/j.jneumeth.2014.08.003 Pickering, M. J., & Gambi, C. (2018). Predicting while comprehending language: A theory and review. Psychological Bulletin, 144(10), 1022–1044. https://doi.org/10.1037/bul0000158 Pickering, M. J., & Garrod, S. (2013). An integrated theory of language production and comprehension. Behavioral and Brain Sciences, 36(4), 329–347. https://doi.org/10.1017/S0140525X12001495 Pinheiro, A. P., Galdo-Álvarez, S., Sampaio, A., Niznikiewicz, M., & Gonçalves, Ó. F. (2010). Electrophysiological correlates of semantic processing in Williams syndrome. Research in Developmental Disabilities, 31(6), 1412–1425. https://doi.org/10.1016/J.RIDD.2010.06.017 Plunkett, K., Delle Luche, C., Hills, T., & Floccia, C. (2022). Tracking the associative boost in infancy. Infancy, 27(6), 1179–1196. https://doi.org/10.1111/infa.12502 Polich, J. (2007). Updating P300: Anintegrative theory of P3a and P3b. Clinical Neurophysiology, 118(10), 2128–2148. https://doi.org/10.1016/j.clinph.2007.04.019.Updating Pulvermüller, F. (2001). Brain reflections of words and their meaning. Trends in Cognitive Sciences, 5(12), 517–524. https://doi.org/10.1016/S1364-6613(00)01803-9 196 Pulvermüller, F. (2005). Brain mechanisms linking language and action. Nature Reviews Neuroscience, 6(7), 576–582. https://doi.org/10.1038/nrn1706 Pulvermüller, F., & Fadiga, L. (2010). Active perception sensorimotor circuits as a cortical basis for language. Nature Reviews Neuroscience, 11(5), 351–360. https://doi.org/10.1038/nrn2811 Quiroga, R. Q. (2012). Concept cells: The building blocks of declarative memory functions. Nature Reviews Neuroscience, 13(8), 587–597. https://doi.org/10.1038/nrn3251 R CoreTeam. (2020). R: A language and environment for statistical computing, reference index version [Computer software]. Rao, R., & Ballard, D. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. TL - 2. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580 Ratcliff, R., & McKoon, G. (1988). A retrieval theory of priming in memory. Psychological Review, 95(3), 385–408. https://doi.org/10.1037/0033-295X.95.3.385 Reuter, T., Borovsky, A., & Lew-Williams, C. (2019). Predict and redirect: Prediction errors support children’s word learning. Developmental Psychology, 55(8), 1656–1665. https://doi.org/10.1037/dev0000754 Rodríguez-Camacho, M., Prieto-corona, B., & Bravo, M. (2011). Normas de terminación para la palabra final de oraciones en español para niños mexicanos. Avances En Psicología Latinoamericana, 29(2), 258–275. Rommers, J., Meyer, A. S., Praamstra, P., & Huettig, F. (2013). The contents of predictions in sentence comprehension: Activation of the shape of objects before they are referred to. 197 Neuropsychologia, 51(3), 437–447. https://doi.org/10.1016/j.neuropsychologia.2012.12.002 Ryskin, R., & Nieuwland, M. S. (2023). Prediction during language comprehension: What is next? Trends in Cognitive Sciences, 27(11), 1032–1052. https://doi.org/10.1016/j.tics.2023.08.003 Shannon, C. (1948). A mathematical theory of communication. The Bell System Technical Journal, 27(April 1924), 379–423. Skipper, J. I., Devlin, J. T., & Lametti, D. R. (2017). The hearing ear is always found close to the speaking tongue: Review of the role of the motor system in speech perception. Brain and Language, 164, 77–105. https://doi.org/10.1016/j.bandl.2016.10.004 Slowiaczek, L. M., & Hamburger, M. (1992). Prelexical facilitation and lexical interference in auditory word recognition. Journal of Experimental Psychology. Learning, Memory, and Cognition, 18(6), 1239–1250. https://doi.org/10.1037/0278-7393.18.6.1239 Spratling, M. W. (2017). A review of predictive coding algorithms. Brain and Cognition, 112, 92– 97. https://doi.org/10.1016/j.bandc.2015.11.003 Squire, L. R. (2004). Memory systems of the brain: A brief history and current perspective. Neurobiology of Learning and Memory, 82(3), 171–177. https://doi.org/10.1016/j.nlm.2004.06.005 Taylor, W. L. (1953). “Cloze Procedure”: A New Tool for Measuring Readability. Journalism Quarterly, 30(4), 415–433. https://doi.org/10.1177/107769905303000401 Tulving, E. (1972). Episodic and semantic memory. In E. Tulving & W. Donaldson (Eds.), Organization of Memory. Academic Press. 198 Unger, L., Yim, H., Savic, O., Dennis, S., & Sloutsky, V. M. (2023). No frills: Simple regularities in language can go a long way in the development of word knowledge. Developmental Science, 26(4), e13373. https://doi.org/10.1111/desc.13373 Viviani, P. (1990). Eye movements in visual search: Cognitive, perceptual and motor control aspects. Reviews of Oculomotor Research, 4, 353–393. Walther, D., & Koch, C. (2006). Modeling attention to salient proto-objects. Neural Networks, 19(9), 1395–1407. https://doi.org/10.1016/J.NEUNET.2006.10.001 Wang, L., Brothers, T., Jensen, O., & Kuperberg, G. R. (2024). Dissociating the pre-activation of word meaning and form during sentence comprehension: Evidence from EEG representational similarity analysis. Psychonomic Bulletin & Review, 31(2), 862–873. https://doi.org/10.3758/s13423-023-02385-0 Wang, L., Kuperberg, G., & Jensen, O. (2018). Specific lexico-semantic predictions are associated with unique spatial and temporal patterns of neural activity. eLife, 7, 1–24. https://doi.org/10.7554/eLife.39061 Wang, L., Wlotko, E., Alexander, E., Schoot, L., Kim, M., Warnke, L., & Kuperberg, G. R. (2020). Neural evidence for the prediction of animacy features during language comprehension: Evidence from MEG and EEG representational similarity analysis. Journal of Neuroscience, 40(16), 3278–3291. https://doi.org/10.1523/JNEUROSCI.1733-19.2020 Wechsler, D. (2008). Escala Wechsler de Inteligencia para Adultos IV. Manual de aplicación: WAIS IV. Manual Moderno. Wei, W., Huang, Z., Feng, C., & Qu, Q. (2023). Predicting phonological information in language comprehension: Evidence from ERP representational similarity analysis and Chinese 199 idioms. Cerebral Cortex (New York, N.Y.: 1991), 33(15), 9367–9375. https://doi.org/10.1093/cercor/bhad209 Wicha, N. Y. Y., Moreno, E. M., & Kutas, M. (2004). Anticipating words and their gender: An event-related brain potential study of semantic integration, gender expectancy, and gender agreement in Spanish sentence reading. Journal of Cognitive Neuroscience, 16(7), 1272– 1288. https://doi.org/10.1162/0898929041920487 Wlotko, E. W., & Federmeier, K. D. (2012). So that’s what you meant! Event-related potentials reveal multiple aspects of context use during construction of message-level meaning. NeuroImage, 62(1), 356–366. https://doi.org/10.1016/j.neuroimage.2012.04.054 Wulff, D. U., De Deyne, S., Jones, M. N., Mata, R., Austerweil, J. L., Harald Baayen, R., Balota, D. A., Baronchelli, A., Brysbaert, M., Dennis, S., Hills, T. T., Kenett, Y. N., Keuleers, E., Marelli, M., Pakhomov, S. V., Ramscar, M., Schooler, L. J., Shing, Y. L., da Souza, A. S., … Veríssimo, J. (2019). New Perspectives on the Aging Lexicon. Trends in Cognitive Sciences, 23(8), 686–698. https://doi.org/10.1016/j.tics.2019.05.003 Yan, S., Kuperberg, G., & Jaeger, T. (2017). Prediction (or not) during language processing. bioRxiv, 1–60. http:// dx.doi.org/10.1101/143750 Yon, D., Heyes, C., & Press, C. (2020). Beliefs and desires in the predictive brain. Nature Communications, 11(1), 9–12. https://doi.org/10.1038/s41467-020-18332-9 Yujian, L., & Bo, L. (2007). A normalized Levenshtein distance metric. IEEE Trans Pattern Anal Mach Intell, 29(6), 1091–1095. https://doi.org/10.1109/TPAMI.2007.1078 Zmarz, P., & Keller, G. B. (2016). Mismatch Receptive Fields in Mouse Visual Cortex. Neuron, 92(4), 766–772. https://doi.org/10.1016/j.neuron.2016.09.057 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO PROGRAMA DE MAESTRIA Y DOCTORADO EN PSICOLOGIA NEUROCIENCIAS DE LA CONDUCTA CURSO TEMPORAL DE LA PREACTIVACIÓN DEL SIGNIFICADO Y LA FORMA LÉXICA: UN ESTUDIO DE RASTREO OCULAR Y ELECTROENCEFALOGRAFÍA TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN PSICOLOGIA PRESENTA: ARMANDO QUETZALCÓATL ANGULO CHAVIRA TUTOR PRINCIPAL: DRA. NATALIA ARIAS TREJO FACULTAD DE PSICOLOGÍA, UNAM MIEMBROS DEL COMITÉ TUTOR: DR. MARIO ARTURO RODRÍGUEZ CAMACHO FACULTAD DE ESTUDIOS SUPERIORES IZTACALA, UNAM DR. FRANCISCO ABELARDO ROBLES AGUIRRE CENTRO UNIVERSITARIO DEL NORTE, UNIVERSIDAD DE GUADALAJARA DR. RODOLFO SOLÍS VIVANCO INSTITUTO NACIONAL DE NEUROLOGÍA Y NEUROCIRUGÍA DR. ANUENUE BAKER-KUKONA SCHOOL OF HUMAN SCIENCES, UNIVERSITY OF GREENWICH MÉXICO, D. F. DICIEMBRE 2024 Dedicatoria Para las generaciones que han hecho de la ciencia su camino, y para las futuras mentes inquisitivas que ampliarán aún más los límites del conocimiento. “En algún lugar, algo increíble está esperando ser conocido” Carl Sagan Financiamiento Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) No. IN303221 (Efecto de la restricción oracional y la similitud de palabras en la actividad electroencefalográfica anticipatoria) y PAPIIT No. IG300224 (Predicción lingüística en monolingües y bilingües del español e inglés) otorgado a la Dra. Natalia Arias Trejo. Agradecimientos A mis padres Gracias por su apoyo constante y por inculcarme la importancia de la dedicación y el esfuerzo. Este trabajo es un reflejo del compromiso y los valores que me han transmitido. Aprecio profundamente el respaldo que me han brindado en cada etapa de este proyecto. Gracias por creer en mí siempre. A la Dra. Natalia Arias Trejo Agradezco sinceramente la colaboración y el apoyo brindados a lo largo de este proceso. Más allá de su rol como tutora, su compañerismo y perspectiva han sido clave en el desarrollo de esta tesis. Gracias por compartir su experiencia y por los intercambios que enriquecieron mi trabajo y mi crecimiento profesional. Al comité tutor Agradezco a los doctores Mario Rodríguez Camacho, Francisco Robles Aguirre, Rodolfo Solís y Anue Kukona por formar parte de mi comité y por sus aportes durante el desarrollo de este proyecto. Su presencia y sus observaciones han sido importantes en este proceso. A la Lic. Mitzi Castellón Mi sincero agradecimiento a Mitzi Castellón, cuya compañía y apoyo fueron fundamentales en este proyecto. Su disposición para colaborar en cada etapa, desde las cuestiones prácticas hasta el acompañamiento en los momentos difíciles, le dio a esta tesis un impulso invaluable. Su compromiso y generosidad quedan reflejados en cada página de este trabajo. A mis compañeros del laboratorio de Psicolingüística Agradezco a mis compañeros del laboratorio por su apoyo en distintos momentos de esta tesis. Su disposición para colaborar y sus aportes puntuales enriquecieron este proyecto y facilitaron el camino. Gracias por ser parte de este proceso. A mis amigos Arturo, Julia, Diana, Pedro, Rogelio, Citlalli, Yuri y Lorena A mis amigos, quienes han sido una fuente constante de ánimo y compañía a lo largo de este proceso. Gracias por estar ahí en cada momento, ya sea para celebrar los avances o para darme aliento en los desafíos. Su amistad ha sido invaluable para mantener el equilibrio y seguir adelante. A la Dra. Elia Haydée Carrasco Ortiz y la Dra. Beerelim Corona Dzul Agradezco a la Dra. Elia Haydée Carrasco Ortiz y a la Dra. Beerelim Corona Dzul, de la Universidad Autónoma de Querétaro, por facilitarme el equipo de electroencefalografía necesario para realizar uno de los experimentos de esta tesis. Su generosidad y apoyo fueron fundamentales para el desarrollo de esta investigación. Índice RESUMEN ..................................................................................................................................................... 1 INTRODUCCIÓN ......................................................................................................................................... 2 MARCO TEÓRICO ..................................................................................................................................... 5 PREDICCIÓN DURANTE LA COMPRENSIÓN DEL LENGUAJE ........................................................................... 5 Operacionalización de la predicción en la compresión del lenguaje .................................................... 5 Generación de predicciones a partir del contexto ............................................................................... 10 RECUPERACIÓN PREDICTIVA DE LA REPRESENTACIÓN DE PALABRAS DE LA MEMORIA .............................. 13 Representación semántica y de forma léxica en la memoria semántica .............................................. 14 Organización de las representaciones semánticas y forma léxica ...................................................... 18 Bases cerebrales de las representaciones semánticas y de forma léxica ............................................. 22 ACTIVACIÓN PREDICTIVA DE REPRESENTACIONES .................................................................................... 24 TEORÍAS Y MECANISMOS DEL PROCESAMIENTO PREDICTIVO EN LA COMPRENSIÓN DEL LENGUAJE ........... 29 Mecanismo de predicción por producción ........................................................................................... 31 Mecanismo de predicción por simulación ........................................................................................... 36 Mecanismo de predicción por asociación ........................................................................................... 38 Propuesta de múltiples mecanismos predictivos.................................................................................. 42 Curso temporal de la preactivación del significado y la forma léxica ................................................ 43 PLANTEAMIENTO DEL PROBLEMA .................................................................................................. 48 OBJETIVO .................................................................................................................................................. 50 OBJETIVOS ESPECÍFICOS ............................................................................................................................ 50 HIPÓTESIS DE TRABAJO ............................................................................................................................. 50 HIPÓTESIS ESPECÍFICAS ............................................................................................................................. 50 MÉTODO ..................................................................................................................................................... 51 EXPERIMENTO 1: CORPUS DE FINALIZACIÓN DE ORACIONES ..................................................................... 51 Participantes ........................................................................................................................................ 53 Materiales ............................................................................................................................................ 57 Procedimiento ...................................................................................................................................... 60 Procesamiento de datos ....................................................................................................................... 61 Análisis de datos .................................................................................................................................. 61 Resultados ............................................................................................................................................ 63 Discusión ............................................................................................................................................. 65 EXPERIMENTO 2: RASTREO OCULAR.......................................................................................................... 68 Participantes ........................................................................................................................................ 68 Instrumentos ........................................................................................................................................ 69 Estímulos ............................................................................................................................................. 71 Diseño Experimental............................................................................................................................ 84 Aparatos ............................................................................................................................................... 85 Procedimiento ...................................................................................................................................... 86 Procesamiento de datos ....................................................................................................................... 86 Análisis estadístico .............................................................................................................................. 88 Resultados ............................................................................................................................................ 95 Exploración de efectos relacionados ................................................................................................... 99 Discusión ........................................................................................................................................... 105 EXPERIMENTO 3: ELECTROENCEFALOGRAFÍA ......................................................................................... 116 Participantes ...................................................................................................................................... 118 Instrumentos ...................................................................................................................................... 118 Estimulos ........................................................................................................................................... 119 Diseño experimental .......................................................................................................................... 124 Acquisición de datos .......................................................................................................................... 126 Procedimiento .................................................................................................................................... 126 Procesamiento de datos ..................................................................................................................... 127 Análisis estadístico ............................................................................................................................ 130 Resultados .......................................................................................................................................... 136 Discusión ........................................................................................................................................... 145 DISCUSIÓN GENERAL .......................................................................................................................... 156 SÍNTESIS TEÓRICA Y METODOLÓGICA ...................................................................................................... 156 SÍNTESIS DE RESULTADOS ....................................................................................................................... 159 INTERPRETACIÓN DE LOS RESULTADOS DEL EXPERIMENTO 2 .................................................................. 162 INTERPRETACIÓN DE RESULTADOS DEL EXPERIMENTO 3 ......................................................................... 167 INTEGRACIÓN DE EXPERIMENTOS 2 Y 3 ................................................................................................... 177 PROPUESTA DE MODELO TEÓRICO ........................................................................................................... 180 CONSIDERACIONES Y FUTUROS ESTUDIOS ................................................................................. 186 CONCLUSIÓN .......................................................................................................................................... 189 REFERENCES .......................................................................................................................................... 192 1 Resumen Esta tesis explora el procesamiento predictivo en la comprensión del lenguaje, centrándose en la anticipación de palabras siguientes. Se evaluaron tres mecanismos teóricos de predicción: la predicción por producción, donde las predicciones surgen del sistema de producción y las predicciones semánticas preceden a las de la forma léxica de la palabra; la predicción por simulación, en la que las predicciones semánticas y de forma léxica ocurren simultáneamente mediante la modelación hacia adelante; y la predicción por asociación, donde múltiples candidatos léxicos se activan jerárquicamente a través de una activación distribuida. La investigación tuvo como objetivo diferenciar estos mecanismos examinando el curso temporal de las predicciones semánticas y de la forma de la palabra. Se realizaron tres experimentos. El Experimento 1 creó un corpus con finales de oraciones de alta y baja predictibilidad para hablantes de español mexicano. El Experimento 2, utilizando el paradigma del mundo visual, reveló que las predicciones semánticas preceden a las predicciones fonológicas, con un intervalo de aproximadamente 800 ms entre ambas. Sin embargo, este resultado contrasta con los hallazgos del EEG en el Experimento 3, donde solo se observó un intervalo de 30 ms, lo que indica una transición más rápida entre las predicciones semánticas y de forma léxica. Los resultados, en conjunto, apoyan el mecanismo de predicción por asociación, que plantea una activación rápida, jerárquica y en cascada de múltiples candidatos léxicos basada en principios de activación distribuida. A diferencia de la predicción por producción, que depende de procesos secuenciales más lentos, o de la predicción por simulación, que genera solo una predicción a la vez, la predicción por asociación ofrece una explicación más flexible y biológicamente plausible de la predicción en tiempo real del lenguaje. Palabras clave: Predicción, Forma fonológica y ortográfica, Significado, electroencefalografía, similitud representacional. 2 Introducción El modelo de procesamiento predictivo sugiere que el cerebro opera fundamentalmente haciendo predicciones (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018; Spratling, 2017). A diferencia de la perspectiva tradicional, que considera al cerebro como un “detector de características” pasivo que solo reacciona a la información sensorial (Marr, 1982; K. Martin, 1994), este marco conceptualiza al cerebro como un agente activo en el procesamiento de los estímulos ambientales. Consecuentemente, el cerebro anticipa constantemente las entradas sensoriales futuras, lo cual mejora la eficiencia del procesamiento. La predicción opera de manera jerárquica y está basada en la experiencia (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Lange et al., 2018). Las estructuras cerebrales de orden superior predicen la información que las áreas de orden inferior deberían esperar. Cuando las predicciones son inexactas, se generan señales de error, y solo se procesan las discrepancias entre la entrada esperada y la real. Esto hace que la predicción sea eficiente, ya que las neuronas solo necesitan procesar las discrepancias y no la entrada completa. Las señales de error se envían de regreso a través del sistema para ajustar futuras predicciones, permitiendo así una adaptación flexible a los cambios en el entorno. Esta función predictiva ha recibido un fuerte respaldo de modelos computacionales (Bastos et al., 2012; Rao & Ballard, 1999) y de registros neuronales en áreas sensoriales primarias (Attinger et al., 2017; Fiser et al., 2016; Keller & Mrsic-Flogel, 2018; Leinweber et al., 2017; Zmarz & Keller, 2016). Además, también están implicados procesos de alto nivel, como la percepción y producción del habla en la corteza auditiva humana (Forseth et al., 2020; Leonard et al., 2016). Un creciente conjunto de evidencias indica que los individuos que comprenden el lenguaje predicen activamente la información lingüística mientras leen o escuchan (Dell & Chang, 2014; 3 Huettig, 2015; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013). En los últimos veinte años, la investigación ha demostrado cada vez más que los individuos pueden predecir tanto información semántica general (significado) como representaciones detalladas de la forma de las palabras, incluyendo grafemas y fonemas (Ito, 2024; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). Sin embargo, persisten preguntas sobre los principios computacionales y los mecanismos subyacentes al procesamiento predictivo del lenguaje. La presente tesis tiene como objetivo contribuir a la comprensión del procesamiento predictivo mediante la investigación del curso temporal de la preactivación semántica y de forma léxica, utilizando una combinación de métodos experimentales, incluidos tareas conductuales, seguimiento ocular y electroencefalografía. Se evaluaron tres mecanismos teóricos clave de la predicción, cada uno de los cuales propone principios distintos de predicción y, en consecuencia, hipotetiza diferentes cursos temporales para la recuperación de la información: Los mecanismos de predicción por producción y predicción por asociación proponen que la información semántica se genera antes que los detalles de la forma léxica, con diferencias en la velocidad de recuperación para cada representación (Huettig, 2015; Pickering & Gambi, 2018). En contraste, el mecanismo de predicción por simulación sugiere que las predicciones implican la recuperación simultánea de representaciones tanto semánticas como de forma léxica (Pickering & Garrod, 2013). La estructura de esta tesis es la siguiente: La sección inicial presenta una revisión de la literatura sobre el procesamiento predictivo en la comprensión del lenguaje. La segunda sección describe los métodos experimentales utilizados para responder a la pregunta de investigación. En la sección final, los resultados se examinan en relación con las teorías actuales, enfatizando sus implicaciones para los modelos de procesamiento predictivo. 4 Esta tesis pretende arrojar luz sobre los mecanismos cognitivos y neuronales que respaldan el procesamiento predictivo en el lenguaje, mejorando la comprensión general de cómo el cerebro humano maneja de manera eficiente la información lingüística en tiempo real. 5 Marco Teórico Predicción durante la Comprensión del Lenguaje Pickering y Gambi (2018) definen la predicción en la comprensión del lenguaje como preactivación, un proceso en el cual la información lingüística se activa antes de procesar la entrada que está por venir. Aunque conceptualmente sencillo, operacionalizar este proceso es complejo. La evidencia sugiere que la predicción puede ocurrir en diferentes etapas temporales, anticipándose a ciertos aspectos de la entrada próxima incluso mientras se procesan estímulos léxicos. Estas predicciones se basan en información proveniente tanto de contextos lingüísticos como no lingüísticos. Este capítulo examina tanto los fundamentos teóricos como los enfoques metodológicos relacionados con la predicción en la comprensión del lenguaje. En primer lugar, se presentará la operacionalización de la predicción en este ámbito, seguido de un análisis de cómo el contexto facilita la generación de predicciones. Operacionalización de la predicción en la compresión del lenguaje Para atribuir un efecto a la predicción, este debe ocurrir antes de que se procese el estímulo (Pickering & Gambi, 2018). Por lo tanto, es crucial definir cuándo la información lingüística ya ha sido procesada. Esta discusión se centra en las representaciones semánticas y de la forma léxica, dado que son los temas principales de estudio, aunque otras representaciones de palabras pueden examinarse mediante el mismo método. Investigaciones previas que utilizaron técnicas electrofisiológicas han demostrado que una palabra auditiva o visual es reconocida dentro de los 200 ms (Carreiras et al., 2014; MacGregor et al., 2012). Por ejemplo, MacGregor et al. (2012) registraron potenciales relacionados a eventos (ERPs) en respuesta a palabras y pseudopalabras auditivas para rastrear el momento de acceso léxico, identificando tres etapas de procesamiento separadas. La primera etapa, entre 50 y 80 ms, 6 se caracterizó por un voltaje diferencial e interpretado como procesamiento fonológico. La segunda etapa, entre 110 y 170 ms, probablemente corresponde al acceso léxico. La última etapa, entre 320 y 520 ms, se atribuyó al análisis post-léxico. Con base en esta evidencia, la activación predictiva de una palabra se evalúa mejor alrededor de los 200 ms después del inicio del estímulo que se espera que el participante prediga; de lo contrario, podría reflejar un proceso de integración en lugar de predicción (Pickering & Gambi, 2018). Esta guía se aplica específicamente a la medición de la predicción semántica y de la forma léxica. Las preguntas clave son qué medir y cómo medir la predicción. Abordar estas preguntas requiere comprender los efectos de la predicción en la actividad cerebral y el comportamiento. Un aspecto importante de las predicciones es que son útiles porque aumentan la eficiencia del procesamiento de la información (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic- Flogel, 2018), lo que implica que el procesamiento predictivo debería ser más rápido y requerir menos recursos cognitivos que el procesamiento no predictivo. Así, la predicción léxica se evalúa midiendo la velocidad de procesamiento o el gasto de recursos cognitivos (antes de los 200 ms del inicio del estímulo que se predice). Además, la evidencia de recuperación de palabras antes de los 200 ms, como la activación de regiones cerebrales asociadas con la recuperación léxica, puede interpretarse como procesamiento predictivo (Pickering & Gambi, 2018). Para evaluar la mayor eficiencia del procesamiento, métodos como la medición de tiempos de reacción, el seguimiento ocular y la electroencefalografía proporcionan información valiosa sobre la velocidad de procesamiento durante la predicción del lenguaje (Kuperberg & Jaeger, 2016). Estos métodos permiten a los investigadores medir respuestas a una palabra presentada antes del ítem léxico preactivado. 7 El seguimiento ocular a menudo se combina con el paradigma del mundo visual, que consiste en presentar un conjunto de imágenes junto con un estímulo auditivo (McMurray, 2023). En este paradigma, los movimientos oculares indican el curso temporal del procesamiento del lenguaje, basado en el supuesto de que el procesamiento sigue el orden de fijación (McMurray, 2023). Así, se asume que los objetos fijados primero son procesados primero o priorizados en un entorno visual competitivo (Chow et al., 2022; Huettig et al., 2011; Huettig & McQueen, 2007). Por ejemplo, Huettig et al. (2011) exploraron el curso temporal de la información semántica y fonológica al presentar a los participantes un estímulo auditivo vinculado a objetos en un conjunto visual relacionados semántica o fonológicamente. Sus resultados mostraron un aumento inicial en las fijaciones sobre el competidor fonológico, seguido por el competidor semántico, lo que sugiere que la información fonológica se procesa antes que la semántica en una tarea no predictiva. En esta tesis, se utiliza el paradigma del mundo visual, con la predicción operacionalizada como fijaciones que ocurren antes de la presentación del objetivo auditivo esperado. Para medir cambios en el uso de recursos, se emplean técnicas como la dilatación pupilar, los ERPs y la resonancia magnética funcional (fMRI). Típicamente, un aumento en estas medidas indica un mayor esfuerzo cognitivo o uso de recursos (Beatty, 1958; Hepach & Westermann, 2016; Polich, 2007). Específicamente, en estudios de predicción, se analiza frecuentemente el componente N400, una deflexión negativa que ocurre alrededor de los 400 ms después de la presentación del estímulo en respuesta a incongruencias semánticas (Kutas & Hillyard, 1980). El N400 se mide en respuesta a una palabra presentada antes del ítem léxico preactivado (DeLong et al., 2005; C. D. Martin et al., 2018). Por ejemplo, al analizar la respuesta EEG al determinante “a” en una oración como “The day was breezy, so the boy went outside to fly a kite”, ambos artículos “a” y “an” son continuaciones plausibles. La variación en la respuesta EEG al artículo inesperado 8 indica que el participante anticipaba la palabra esperada (por ejemplo, “kite”); en otras palabras, predijeron la palabra, resultando en un mayor esfuerzo de procesamiento para el artículo incongruente.1 Bornkessel-Schlesewsky y Schlesewsky (2019) argumentan que la respuesta N400 asociada a una palabra esperada refleja detección de error en lugar de preactivación de la palabra próxima, ya que los participantes requieren más recursos para integrar el artículo incongruente. Aunque el N400 podría representar el costo de recursos para procesar un artículo incongruente, los participantes deben predecir el sustantivo para reconocer la incongruencia del artículo. Esta explicación está respaldada por la alta correlación entre la amplitud del N400 y la predictibilidad de la palabra (por ejemplo, r = -.75, DeLong et al., 2005). Así, aunque el N400 puede no reflejar directamente el proceso de predicción, probablemente actúa como una consecuencia de la predicción. Para proporcionar evidencia de las bases neuronales de la preactivación de palabras, estudios previos han medido la actividad en áreas cerebrales asociadas con el acceso léxico, como el lóbulo temporal inferior, la circunvolución de Heschl y el área de la forma visual de las palabras, usando fMRI o electroencefalografía con localización de fuentes (Huettig, 2015; Huettig & Mani, 2016; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). Estas regiones se han vinculado a la recuperación de varias representaciones de palabras (H. Damasio et al., 1996). Si bien estos métodos ofrecen información valiosa sobre la función cerebral, sus hallazgos deben interpretarse cuidadosamente considerando factores temporales y suposiciones sobre los roles funcionales de estas áreas cerebrales. 1 En inglés el determinante “a” se usa cuando la siguiente palabra comienza con un sonido consonántico y “an” cuando comienza con un sonido vocálico. 9 Un enfoque reciente llamado análisis de similitud representacional (RSA) se ha empleado como un indicador de recuperación de palabras a través de diversas técnicas de neuroimagen (Kriegeskorte et al., 2008; Kriegeskorte & Kievit, 2013). RSA se basa en la teoría de la “biding” (A. R. Damasio, 1989), que postula que la recuperación de información en el cerebro depende de la sincronización temporal de redes neuronales. Así, cuando los oyentes recuperan el significado de una palabra, deben activar de manera sincronizada las regiones cerebrales asociadas tanto con el procesamiento de la palabra como con su referente (Pulvermüller, 2001). Esta coordinación espaciotemporal permite la recuperación de representaciones léxicas. En este marco, RSA propone que el estado instantáneo de un registro multicanal captura la recuperación de información mediante la formación de una geometría representacional (Kriegeskorte et al., 2008; Kriegeskorte & Kievit, 2013). En una tarea pasiva de reconocimiento de palabras, por ejemplo, el patrón de activación a través de todos los electrodos en un registro de EEG en un momento específico refleja la recuperación de aspectos particulares de la representación de la palabra. Para verificar esto, se calcula una medida de distancia o correlación entre las respuestas a estímulos idénticos y diferentes. Idealmente, las respuestas a los mismos estímulos deberían ser más similares que aquellas a estímulos diferentes. Además, dado que las correlaciones se calculan en toda la matriz de electrodos, RSA proporciona una serie temporal de similitud, permitiendo investigar el curso temporal del procesamiento. Por ejemplo, los niveles de activación en el tiempo en respuesta a la palabra “perro” deberían diferir de aquellos en respuesta a la palabra “tren”, aunque se mantendrán consistentes en instancias separadas de “perro”. Este patrón surge porque el procesamiento de la misma palabra involucra las mismas áreas cerebrales simultáneamente, mientras que el procesamiento de palabras distintas activa regiones diferentes. Cabe destacar que esta metodología se ha utilizado con éxito 10 para demostrar la predicción al analizar la actividad EEG que precede a la presentación de la palabra preactivada prevista (Hubbard & Federmeier, 2020; Wang et al., 2018, 2020, 2024; Wei et al., 2023). Generación de predicciones a partir del contexto Las predicciones son posibles porque el cerebro infiere la entrada más probable en función del contexto (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018). La investigación ha demostrado que el cerebro puede utilizar tanto información lingüística como no lingüística como contexto para generar predicciones (Altmann & Kamide, 1999; DeLong et al., 2005; Hubbard & Federmeier, 2020; Kamide et al., 2003; Lowder & Ferreira, 2016). Considere la siguiente conversación: - Pareces muy cansado, ¿qué pasó? - Anoche Bills estaba ladrando. Para predecir la palabra “ladrando”, los oyentes deben integrar tanto la información lingüística como la no lingüística. Por ejemplo, saber que la mascota del hablante es un perro llamado Bills hace que “ladrar” sea un candidato plausible para la predicción. Además, la frase adverbial “anoche” y el verbo “estaba” ayudan a anticipar la forma morfológica de la próxima palabra (verbo + ando). En esta breve interacción, los oyentes recurren a su familiaridad con el hablante y el lenguaje para formar una predicción, incluso cuando el contexto es mínimamente informativo. Si el oyente desconoce que el hablante tiene un perro, podría apoyarse en otras pistas ambientales, como una escena visual (por ejemplo, si el perro es visible) o el contexto auditivo (por ejemplo, si se escucha ladrar durante la conversación). Así, dependiendo del grado de incertidumbre que introduce el contexto, el sistema predictivo puede inclinarse hacia ciertos tipos 11 de información o, en casos de alta ambigüedad, enfocarse en procesar la entrada ascendente y descartar la predicción por completo (Yon et al., 2020). En contextos oracionales, la incertidumbre puede medirse mediante el procedimiento de cierre, donde los participantes completan una oración con la palabra que consideren que mejor se ajusta al contexto. La probabilidad de cierre se determina por el porcentaje de participantes que eligen la misma palabra para completar la oración (Taylor, 1953). Por ejemplo, una oración con baja incertidumbre, como “la gallina puso un huevo”, tiene una alta probabilidad de cierre (cierre = .99, Rodríguez-Camacho et al., 2011). En contraste, una oración con alta incertidumbre, como “ayer compré un kilo de huevos”, tiene una baja probabilidad de cierre (cierre = .17, Rodríguez- Camacho et al., 2011). Así, las oraciones con alta probabilidad de cierre crean un contexto semántico restringido que facilita la generación de predicciones. Es importante señalar que las oraciones de baja probabilidad de cierre no impiden la predicción; más bien, generan mayor variabilidad en las respuestas de los participantes (Kuperberg & Jaeger, 2016). Por ejemplo, en la oración “ayer compré un kilo de huevos”, los participantes también sugirieron elementos léxicos alternativos, como “tortillas” (0.27), “azúcar” (0.14), “arroz” (0.10), “frijoles” (0.05), “manzanas” (0.04) y “frijoles” (0.03) (Rodríguez-Camacho et al., 2011). Esta variabilidad plantea al menos tres posibilidades para las oraciones de baja probabilidad de cierre: (1) pueden no generar predicciones (Huettig & Mani, 2016; Pickering & Gambi, 2018), (2) pueden generar predicciones específicas de cada individuo (Becker, 1980; Pickering & Garrod, 2013), o (3) pueden considerar múltiples candidatos léxicos en función de la preactivación de sus representaciones generales (Dell, 2013; Dell & Chang, 2014; Kuperberg & Jaeger, 2016). Aunque el contenido de las predicciones se detalla en la siguiente sección, la primera posibilidad —que la predicción no siempre ocurra— tiene considerable plausibilidad. Algunos 12 sugieren que la predicción mejora la comprensión del lenguaje, pero no es fundamentalmente necesaria para ella (Huettig & Mani, 2016; Pickering & Gambi, 2018). Esta visión se apoya en la evidencia de que la predicción depende de factores como la habilidad lingüística, el tiempo y los recursos cognitivos. Por ejemplo, estudios han encontrado una predicción reducida en bilingües (Ito et al., 2018; C. D. Martin et al., 2013) y en poblaciones con baja alfabetización (Mani & Huettig, 2014). Además, la predicción disminuye cuando los estímulos se presentan rápidamente (Ito et al., 2016; Wlotko & Federmeier, 2012) o cuando los participantes tienen baja memoria de trabajo (Angulo Chavira et al., 2023), velocidades de procesamiento más lentas (Huettig & Janse, 2016) o un vocabulario limitado (Borovsky et al., 2012; Mani & Huettig, 2012). Con base en estos estudios, algunos autores sugieren que las predicciones solo se generan cuando se cumplen condiciones mínimas —información adecuada, tiempo y recursos cognitivos; de lo contrario, la predicción está ausente (Huettig & Mani, 2016; Pickering & Gambi, 2018). Cabe destacar que, en el marco de la codificación predictiva, se considera que el sistema predictivo forma continuamente expectativas sobre la entrada próxima (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). Sin embargo, estas expectativas pueden ser inexactas cuando la incertidumbre es alta —por ejemplo, cuando el receptor carece de experiencia o información contextual suficiente para generar una predicción confiable. En tales casos, la ausencia de un efecto de predicción conductual no implica ausencia de predicción; en cambio, los receptores pueden haber generado una predicción alternativa, lo que lleva a un error que debe ser propagado para refinar futuras predicciones. La naturaleza ubicua de la predicción en el lenguaje presenta desafíos para la prueba empírica, ya que no es fácilmente falsificable. Cuando una predicción es inexacta y no hay evidencia de predicción, resulta difícil diferenciar entre una verdadera ausencia de predicción y un 13 simple error en la predicción. Sin embargo, este tipo de mecanismo predictivo parece funcionar eficazmente en modelos computacionales (Friston, 2018; Rao & Ballard, 1999). Además, incluso si el contenido de las oraciones individuales en el lenguaje natural proporciona información limitada para realizar predicciones, los receptores pueden recurrir a múltiples pistas para generar predicciones. Estas pistas incluyen el contexto temático más amplio (Kamide et al., 2003), objetos en el campo visual (Altmann & Kamide, 1999) y el conocimiento de las intenciones del hablante (Lowder & Ferreira, 2016). En conclusión, este capítulo definió la predicción como la preactivación de la información lingüística que ocurre dentro de los 200 ms antes de la presentación de la palabra anticipada. La predicción depende en gran medida tanto de la información lingüística como de la no lingüística, y el contexto da forma al tipo de información que se puede acceder predictivamente. La posición adoptada aquí es que la predicción sirve como un mecanismo esencial para la comprensión del lenguaje. En consecuencia, esta tesis asume que los receptores generan predicciones de manera consistente; no obstante, responder a nuestra pregunta de investigación pretende arrojar luz sobre este tema. Recuperación predictiva de la representación de palabras de la memoria Como se señaló en la sección anterior, el contexto permite la predicción de palabras, y las características que pueden recuperarse de la memoria semántica dependen de pistas tanto lingüísticas como no lingüísticas. Este capítulo examinará la estructura de la memoria semántica y el rol de la información contextual en la facilitación de la recuperación de representaciones léxicas. Es importante destacar que la mayoría de las investigaciones sobre recuperación de palabras se han derivado de estudios no predictivos; sin embargo, los procesos de recuperación 14 durante la predicción parecen seguir principios similares (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). Representación semántica y de forma léxica en la memoria semántica La memoria semántica, un componente de la memoria a largo plazo, almacena representaciones de conceptos (McRae & Jones, 2012). Comprende el conocimiento sobre las palabras, sus significados, las relaciones entre palabras y las reglas para organizar y manipular esta información (Tulving, 1972). Este tipo de memoria es esencial para reconocer palabras y objetos, utilizar esa información para interpretar eventos, anticipar la información que está por llegar y ejecutar acciones (McRae & Jones, 2012). Según la visión clásica, la memoria semántica es amodal, lo que significa que contiene información abstracta que es independiente del procesamiento sensorimotor involucrado en el procesamiento ascendente de la información (Tulving, 1972). Sin embargo, los resultados experimentales recientes sugieren que la recuperación de información de la memoria semántica activa regiones cerebrales similares a aquellas que se activan durante la percepción real de estos estímulos (Pulvermüller, 2001; Pulvermüller & Fadiga, 2010). Por ejemplo, al procesar la palabra “martillo”, el cerebro activa regiones sensorimotoras relacionadas con el movimiento de la mano, áreas visuales asociadas con la apariencia del objeto y áreas auditivas vinculadas a sus sonidos característicos. Un aspecto clave de la memoria semántica es que la información se organiza según las características de las palabras (McNamara, 2004). Esta organización se examina a menudo a través del efecto de priming, un fenómeno de la memoria en el cual un estímulo previo influye en el procesamiento de uno posterior (Meyer & Schvaneveldt, 1971; Squire, 2004). Por ejemplo, cuando la palabra “perro” se presenta antes de “gato”, los participantes generalmente responden más 15 rápido y con mayor precisión a “gato” que cuando se presenta una palabra no relacionada (por ejemplo, “tren”). El grado de facilitación refleja la distancia semántica entre dos conceptos en la memoria (Jones, 2010). El priming semántico típicamente se refiere al efecto generado por los miembros superordinados dentro de la misma categoría (McNamara, 2004). Sin embargo, una palabra también puede ser facilitada mediante varios tipos de relaciones, incluidas las morfológicas (Bobb & Mani, 2013), de forma léxica de palabra (Dufour, 2008; Slowiaczek & Hamburger, 1992), sintácticas (Chang et al., 2006), perceptuales (Mani et al., 2013) y asociativas (Meyer & Schvaneveldt, 1971). Esta discusión se centrará en los efectos de priming semántico y de forma de palabra, ya que son las representaciones más investigadas en los estudios de predicción léxica (Huettig, 2015; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013). Las relaciones semánticas se definen como conexiones entre palabras que comparten características de significado (McNamara, 2004). Tradicionalmente, estas relaciones incluyen la pertenencia a la misma categoría superordenada (por ejemplo, animal, herramienta, comida). Sin embargo, también abarcan relaciones asociativas, basadas en la coocurrencia estadística de objetos en el mundo o de palabras en el lenguaje (McNamara, 2004). Las relaciones semánticas se miden a menudo mediante normas de palabras, como las normas de características (Buchanan et al., 2019; McRae & Jones, 2012). En estas normas, los participantes enumeran características representativas de un concepto específico. Por ejemplo, para el concepto “perro”, los participantes podrían proporcionar respuestas como “usado para protección”, “ladra”, “tiene nariz mojada”, “tiene cuatro patas”, “tiene pelaje”, “persigue gatos”, “un animal”, “una mascota”, “un mamífero” y “un carnívoro”. Aunque esta tarea no representa completamente cómo se almacena la información en la memoria semántica, estas normas ofrecen 16 una perspectiva estadística sobre qué características son más relevantes para un concepto determinado (Buchanan et al., 2019; McRae & Jones, 2012). Considere la categoría “pájaro”: mientras que ciertos pájaros, como las palomas, están comúnmente asociados con esta categoría, otros, como los pingüinos, pueden no estar tan cercanamente relacionados semánticamente. Las normas de características proporcionan información sobre el grado de relación entre dos conceptos (Buchanan et al., 2019; McRae & Jones, 2012). En este ejemplo, las palomas probablemente compartan más características típicas de los pájaros que los pingüinos, lo que indica una relación semántica más cercana. La similitud del coseno puede calcularse entre dos conceptos para cuantificar la fuerza de su relación basada en características compartidas. Esta medida varía de 0 a 1, donde 0 indica conceptos que no comparten características, y 1 indica conceptos idénticos. La similitud del coseno considera tanto las características compartidas como las características distintas entre conceptos. Alternativamente, la similitud semántica puede medirse utilizando taxonomías como WordNet (Miller, 1995), una base de datos que organiza la información jerárquicamente basada en hipónimos, hiperónimos y categorías coordinadas. Un hiperónimo es un término con un significado amplio que abarca otros; por ejemplo, “animal” es un hiperónimo de “canino” y “felino”. Por el contrario, “gato” es un hipónimo de “felino” pero una categoría coordinada con otros felinos como “tigre” o “león”. En WordNet, la distancia semántica se mide contando el número de conceptos entre dos palabras hasta llegar a un ancestro común. Sin embargo, una limitación de este enfoque es que conceptos como “paloma” se asignan la misma relación con “pingüino” y “águila”, aunque estos pájaros se conceptualicen de manera diferente a nivel psicológico. Así, aunque esta medida es eficaz para capturar características compartidas similares a las normas de características, carece de validez para distinciones psicológicas entre conceptos. 17 Para abordar esta limitación, la distancia semántica puede refinarse utilizando el contenido de información, es decir, los datos sobre el uso de palabras en el discurso para proporcionar una visión más profunda del significado semántico. Los conceptos se etiquetan en corpus como SemCor (Miller et al., 1994), donde están incrustados en contextos lingüísticos, lo que permite considerar las frecuencias de coocurrencia entre conceptos. Esta medida ajustada, conocida como similitud de Lin, varía de 0 (palabras no relacionadas) a 1 (conceptos idénticos). En esta tesis, se prefirió la similitud de Lin sobre la similitud del coseno basada en las normas de características, ya que está disponible en español a través de traducciones de palabras. Las normas de características a menudo se limitan a ciertos conceptos, lo que puede no extrapolarse de manera efectiva al significado en español. En términos de organización de la forma léxica, esta representación parece estar estructurada en torno a las características fonológicas y ortográficas de las palabras (Dufour, 2008). Al igual que con la organización semántica, las palabras pueden ser facilitadas por palabras relacionadas con su forma léxica, ya sea a través de comienzos compartidos o rimas (Dufour, 2008; Dufour & Peereman, 2003; Mani et al., 2012; Mani & Plunkett, 2010, 2011; Slowiaczek & Hamburger, 1992). Por ejemplo, “perro” y “pelota” están relacionadas por el comienzo, mientras que “cana” y “rana” comparten una rima. Algunos modelos computacionales del acceso léxico sugieren que cualquier similitud en la forma entre palabras puede propagar activación entre ellas (Dell, 1986; Duta & Plunkett, 2021; McClelland & Elman, 1986). Cabe destacar que esta activación es incremental y depende del orden temporal de presentación de las unidades de forma; por ejemplo, en el paradigma del mundo visual, los efectos de comienzo se presentan antes que los efectos de rima (Allopenna et al., 1998; Chow et al., 2022). 18 La similitud entre dos formas léxicas puede cuantificarse mediante la “distancia de edición”, que cuenta el número de inserciones, eliminaciones y sustituciones necesarias para convertir una cadena en otra (Yujian & Bo, 2007). Por ejemplo, “gato” y “pato” tienen una distancia de edición de 1, ya que solo se requiere una sustitución, mientras que “gato” y “pala” tienen una distancia de edición de 3 debido a tres cambios necesarios. Esta tesis emplea una variación llamada “similitud de edición normalizada” (Yujian & Bo, 2007), que tiene en cuenta la longitud de la cadena y se escala de 0 a 1, siendo 0 la indicación de que no hay fonemas compartidos y 1 representando palabras idénticas. Este algoritmo puede aplicarse a cadenas ortográficas para similitud ortográfica o a transcripciones fonológicas para evaluar la similitud fonológica. Organización de las representaciones semánticas y forma léxica Para comprender la naturaleza y el tipo de información recuperada durante la predicción, es fundamental examinar primero cómo se almacena y accede a la información en el procesamiento no predictivo. Marslen-Wilson (1987) propuso el modelo de cohortes, un modelo especulativo basado en principios de funcionamiento cerebral. Este modelo postula que la selección de palabras ocurre descartando progresivamente candidatos léxicos a medida que se dispone de nueva información fonológica durante la percepción del habla. Por ejemplo, cuando un hablante comienza a decir “refrigerador”, el oyente descarta cualquier candidato que no comience con /r/, luego reduce aún más descartando candidatos que no comiencen con /re/, y continúa este proceso hasta alcanzar el “punto de unicidad”, donde la palabra es identificable de forma única. Sin embargo, una limitación de este modelo es la falta de un mecanismo de corrección para errores de habla. Si el hablante, por ejemplo, dice “pato” en lugar de “gato”, la palabra “gato” se excluiría prematuramente de la cohorte, lo que impediría su identificación exitosa a pesar del contexto. 19 Otros modelos cognitivos de acceso léxico proponen que las representaciones de palabras están almacenadas dentro de una red multinivel (Anderson, 1983; Collins & Loftus, 1975; Dell, 1986; McClelland & Elman, 1986; Ratcliff & McKoon, 1988). En estos modelos, los conceptos y las características de las palabras se representan como nodos, mientras que las conexiones o relaciones entre ellos se representan como enlaces (Figura 1). Estos modelos sugieren que el acceso léxico ocurre a través de tres niveles de procesamiento: “semántico”, “léxico” y “de forma léxica” (Dell, 1986; Levelt et al., 1999). En el nivel semántico, se interpreta el significado; en el nivel léxico, se incorpora la información sintáctica de la palabra; y en el nivel de forma léxica, se codifican los sonidos del lenguaje hablado o las características visuales del texto escrito. Cada nivel está organizado de acuerdo con la similitud entre características (Figura 1). En el nivel semántico, la organización se basa en el grado de similitud entre conceptos relacionados semánticamente, donde los conceptos con significados más cercanos están posicionados cerca uno del otro, mientras que los conceptos menos similares están más alejados. De manera similar, el nivel de forma se estructura en vecindarios basados en fonemas o grafemas compartidos entre palabras (Caramazza et al., 2001; Jones, 2010; McNamara, 2004; O’Seaghdha & Marin, 1997). Figura 1 Ejemplo de redes semánticas y fonológicas Nota. Estas redes muestran la organización léxica semántica (rojo) y fonológica (azul) de un niño de 21 meses (Arias- Trejo et al., 2022). Cada vértice representa palabras, y cada arista indica la relación entre palabras. El grosor de las aristas y la distancia entre los nodos indican el grado de relación entre las palabras. 20 Esta estructura opera independientemente de si la tarea es producción o comprensión del lenguaje, pero la principal distinción entre estos procesos radica en el curso temporal de la activación a través de los niveles (Dell, 1986; McClelland & Elman, 1986). Durante la producción del lenguaje, el acceso léxico comienza en el nivel semántico, donde se accede al significado de la palabra deseada, y finaliza en el nivel fonológico, donde los fonemas se convierten en planes motores para la articulación. En cambio, el acceso léxico en la comprensión sigue un patrón inverso: los oyentes primero decodifican los fonemas de la secuencia auditiva y luego acceden al significado de la palabra. Fundamentalmente, la información se transmite a través de los niveles y entre conceptos mediante un mecanismo de activación distribuida (Anderson, 1983; Collins & Loftus, 1975; Dell, 1986; McClelland & Elman, 1986). Esta transmisión puede ocurrir en pasos discretos, como se describe en el modelo WEAVER++ (Levelt, 1999). En este modelo, un significado activado en el nivel semántico activa exclusivamente sus correspondientes lemas en el nivel léxico, y solo se recuperan las representaciones fonológicas de esos lemas activados (Figura 2). Figura 2 Fragmento del modelo WEAVER ++ propuesto por Levelt Nota. En una situación normal, la información se propaga de manera discreta, seleccionando solo un lema y una representación fonológica (Levelt et al., 1999). 21 Según los modelos interactivos, la transmisión de información ocurre de manera paralela y en cascada. Aunque el flujo de información tiene una dirección general, el procesamiento puede llevarse a cabo simultáneamente a través de los niveles. En consecuencia, la información progresa al nivel siguiente incluso antes de que el procesamiento esté completamente terminado en el nivel precedente (Angulo-Chavira & Arias-Trejo, 2018; Chow et al., 2017, 2022; Huang & Snedeker, 2011; Mani et al., 2012; O’Seaghdha & Marin, 1997). La activación distribuida es parcialmente automática, pero puede verse influenciada por factores como la expectativa o la atención. La activación puede propagarse de manera directa (por ejemplo, “bosque-madera”) o indirecta (por ejemplo, “bosque-silla”) entre conceptos relacionados dentro de la memoria semántica (Jones, 2010). El alcance de la propagación de la activación depende de la fuerza de las conexiones entre conceptos y disminuye tanto con el tiempo (desde la presentación del prime) como con la distancia (el número de elementos intermedios entre dos conceptos). Figura 3 Modelo de propagación de activación de Dell Nota. Adaptado de Dell (1986). La activación se propaga en forma de cascada de forma paralela. 22 Los modelos de activación distribuida son particularmente compatibles con la predicción, ya que suponen que la activación se propaga de forma prospectiva; así, las representaciones lingüísticas relacionadas se activan incluso antes de que aparezca la palabra. Sin embargo, es importante considerar que los efectos de priming también pueden explicarse mediante modelos retrospectivos, en los cuales la facilitación surge al identificar la relación entre el prime y el objetivo después de que ambos han sido procesados (Jones, 2010; McRae & Jones, 2012; Neely & Keefe, 1989; Ratcliff & McKoon, 1988). Por ejemplo, Neely y Keefe (1989) propusieron que los efectos de priming emergen solo después de que el objetivo es presentado, mientras que Ratcliff y McKoon (1988) argumentaron que la familiaridad de los pares prime-objetivo se evalúa en la memoria de trabajo después de la presentación del objetivo, comparando los pares de palabras con la memoria a largo plazo. Aunque los modelos retrospectivos comparten una organización representacional léxica similar, la diferencia en el tiempo es esencial para esta tesis, dado que “la predicción es una cuestión de tiempo” (DeLong et al., 2021). En consecuencia, se podría argumentar que, en el paradigma del mundo visual, la presencia del objetivo no indica necesariamente predicción; en su lugar, los participantes podrían estar simplemente comparando el contexto de la oración con el elemento más congruente en la pantalla en lugar de realmente preactivar la información del objetivo. Bases cerebrales de las representaciones semánticas y de forma léxica Hasta ahora, la organización léxico-semántica se ha comprendido principalmente a nivel cognitivo, basada en experimentos conductuales realizados desde la década de 1970. Aunque gran parte de nuestro entendimiento sobre la organización del léxico se ha inferido a partir del comportamiento, investigaciones recientes de neuroimagen aportan un respaldo adicional a estas teorías. Áreas clave del cerebro están implicadas en el procesamiento de las representaciones 23 semánticas y de forma. Por ejemplo, los lóbulos temporales mediales posteriores están asociados con el reconocimiento de palabras, mientras que el lóbulo temporal inferior anterior está vinculado a la recuperación de significados (Nobre et al., 1994). El nivel de la forma de la palabra, sin embargo, se asigna a diferentes regiones cerebrales según la modalidad: el surco temporal superior está implicado en el procesamiento fonológico (Hickok & Poeppel, 2007), y el área de la forma visual de la palabra está asociada con la codificación de grafemas (Cohen et al., 2004). Aunque el lóbulo temporal juega un papel clave en el procesamiento de palabras, la información léxica no se almacena únicamente en esta región; en su lugar, las representaciones de palabras están distribuidas por todo el cerebro (A. R. Damasio, 1989; H. Damasio et al., 1996). Estas redes se organizan en función de las similitudes entre las palabras y sus referentes, de modo que los conceptos relacionados activan redes superpuestas en el cerebro (Huth et al., 2016; Quiroga, 2012). Por ejemplo, palabras como “martillo” y “pala” están representadas más cercanamente en el cerebro que palabras como “martillo” y “gato”, ya que comparten amplios atributos sensoriales, semánticos, perceptuales, motores y funcionales (Figura 3). Esto significa que, aunque ambos conceptos activan una representación neural distribuida, ciertas áreas cerebrales se activan comúnmente entre ellos (Quiroga, 2012). Figura 3 Ejemplo de representación de conceptos en el cerebro Nota. Representación hipotética de conceptos en el cerebro. Los conceptos relacionados comparten algunos grupos neuronales (morado), pero no todos (rojo y azul) en su representación, mientras que los objetos no relacionados tienen representaciones distintas (verde). Traducciones: Cat [gato]; Shovel [pala]; Hammer [martillo]. 24 Este tipo de organización se alinea con el concepto de “células conceptuales” en el lóbulo temporal (Quiroga, 2012). Estas células son multimodales y responden a conceptos específicos independientemente de la modalidad de presentación. Por ejemplo, el mismo grupo de células puede responder al concepto de “perro” tanto si se presenta como una imagen visual, una palabra impresa o una señal auditiva. Además, un subconjunto de células relacionadas con un concepto puede responder también a conceptos asociados, como “gato” en relación con “perro”. Este patrón de respuesta se fundamenta teóricamente en los principios Hebbianos: cuando dos conceptos coocurren con frecuencia, los grupos de células correspondientes se activan repetidamente juntos, fortaleciendo los vínculos entre estos grupos neuronales (Messinger et al., 2001). Este mecanismo de vinculación puede atribuirse a procesos neuronales como la potenciación a largo plazo y la depresión a largo plazo, donde los vínculos utilizados frecuentemente se refuerzan, mientras que los vínculos utilizados con poca frecuencia se debilitan (Hagena & Manahan-Vaughan, 2024). Activación predictiva de representaciones Como se ha señalado en secciones anteriores, aquí se asume que la preactivación de representaciones léxicas sigue los mismos principios que la activación no predictiva; sin embargo, este proceso de recuperación depende del contexto, lo que permite que se preactiven diferentes niveles de procesamiento. Ciertos contextos permiten la predicción de información semántica futura, mientras que otros permiten predecir la categoría gramatical o incluso solo la forma léxica de la siguiente palabra (DeLong et al., 2019). La siguiente sección revisa investigaciones previas que demuestran la preactivación léxica en distintos niveles de representación. En el nivel semántico, las investigaciones han mostrado que los oyentes pueden preactivar el significado general de las palabras (Altmann & Kamide, 1999; Angulo-Chavira et al., 2022; Arias-Trejo et al., 2019; Kamide et al., 2003; Kukona et al., 2011). Por ejemplo, en el estudio de 25 Altmann y Kamide (1999), los participantes veían un conjunto complejo de objetos (por ejemplo, niño, pastel, pelota, tren y coche) mientras escuchaban oraciones que dirigían su atención hacia objetos específicos. En una condición, los participantes escuchaban frases como “el niño comerá el…” o “el niño moverá el…”. Al oír el verbo “comer”, pero antes de escuchar la palabra “pastel”, los participantes comenzaban a fijar la mirada en el objeto “pastel” (considerado como fijaciones predichas). Es importante destacar que los participantes no fijaban la mirada predictivamente en “pastel” cuando escuchaban el verbo “mover”. Esto sugiere que la información de la oración, como el verbo, puede restringir la predicción a una categoría general (por ejemplo, comida). Aunque el contexto visual puede amplificar el efecto restrictivo del verbo, no está claro si los participantes específicamente predijeron “pastel” como el ítem objetivo. Además, existe evidencia que respalda la recuperación predictiva de características perceptuales de las palabras. Rommers et al. (2013) presentaron a los participantes oraciones que sugerían fuertemente un final específico, como “En 1969, Neil Armstrong fue el primer hombre en pisar la…”. Junto con estas oraciones, los participantes veían una cuadrícula de 2x2 con imágenes, que incluía tres distractores (por ejemplo, un tazón, fuego, bolsa) y una imagen crítica que era el objetivo anticipado (por ejemplo, “luna”), un competidor que se asemejaba en forma al objetivo (por ejemplo, “tomate”) o un distractor no relacionado (por ejemplo, “arroz”). Los participantes fijaron la vista predictivamente tanto en el objetivo esperado como en el competidor relacionado en su forma visual, pero no en el distractor no relacionado. Esto sugiere que los participantes podrían haber recuperado una representación visual de “luna” y, posteriormente, activado conceptos relacionados en forma, como “tomate”. Aquí, los participantes pudieron acceder a esta información debido a la restricción generada por el conocimiento enciclopédico (por ejemplo, asociaciones aprendidas con “luna”). Así, aunque los elementos lingüísticos no estaban 26 estrictamente limitados, el significado más amplio de la oración restringió la atención al concepto “luna”. Asimismo, ciertas características sintácticas, como el género gramatical, pueden recuperarse mediante claves contextuales (C. D. Martin et al., 2018; Otten et al., 2007; Otten & Van Berkum, 2008; Wicha et al., 2004; Wlotko & Federmeier, 2012). Martin et al. (2018) examinaron el componente N400 antes de la palabra crítica en oraciones en español altamente restrictivas, como “El rey llevaba en la cabeza una corona antigua” y una oración control, “El rey llevaba en la cabeza un sombrero antiguo”. En este caso, el contexto proporcionado por las palabras “rey”, “cabeza” y “llevaba” era lo suficientemente restrictivo como para predecir “corona”, un sustantivo femenino, en lugar de “sombrero”, un sustantivo masculino. Los resultados mostraron una mayor amplitud en el N400 para el artículo gramaticalmente inesperado en comparación con el esperado. Este resultado sugiere que los participantes anticiparon la palabra femenina “corona”, ya que ambos artículos (femenino y masculino) son sintácticamente congruentes con la continuación de la oración, lo que significa que el efecto solo puede deberse a un procesamiento predictivo del sustantivo con género esperado. De igual manera, el contexto puede usarse para predecir las formas fonológicas de las palabras (Ito, 2024). En un estudio pionero, DeLong et al. (2005) investigaron la respuesta N400 a artículos precediendo sustantivos esperados. Los participantes escuchaban oraciones altamente restrictivas como “El día estaba ventoso, así que el niño salió a volar un cometa/avión”. Aunque tanto “cometa” como “avión” se ajustan al contexto, “cometa” era más esperado. Importante es que los sonidos iniciales de estas palabras diferían: “cometa” comienza con una consonante y “avión” con una vocal. En consecuencia, los artículos “un” generaron expectativas fonológicas ya que en inglés tiene dos formas “a” y “an”: “an” implica un sonido vocálico próximo, y “a” implica 27 un sonido consonántico, aunque ambos artículos son sintácticamente apropiados. Los resultados indicaron que la amplitud del N400 aumentaba cuando el artículo era incongruente con el sonido inicial de la palabra esperada, sugiriendo que los oyentes anticipaban aspectos fonológicos de las palabras próximas. Sin embargo, los hallazgos de DeLong no se replicaron en un estudio a gran escala realizado por Nieuwland et al. (2018). Otros investigadores, sin embargo, han demostrado evidencia de predicción de forma de palabra utilizando el paradigma del mundo visual (Ito et al., 2018; Ito & Sakai, 2021; Kukona, 2020; Li et al., 2022). Un meta-análisis reciente de Ito (2024) confirmó que la predicción de forma es un efecto confiable, aunque modesto. Finalmente, la evidencia sugiere que ciertos ítems léxicos específicos pueden preactivarse y recuperarse mediante la sincronización temporal de diferentes regiones cerebrales (Hubbard & Federmeier, 2020; Wang et al., 2018, 2020, 2024; Wei et al., 2023). Wang et al. (2018) emplearon magnetoencefalografía (MEG) junto con análisis de similitud representacional (RSA) en el contexto de oraciones altamente restrictivas. Presentaron pares de oraciones que guiaban a los oyentes hacia la misma palabra objetivo, como “En la cuna está dormido un bebé” y “En el hospital acaba de nacer un bebé”, o “Para mantener la comida fresca, la familia compró un nuevo refrigerador” y “Para evitar que la leche se eche a perder, mamá la puso en el refrigerador”. Luego, se utilizó el RSA para evaluar la similitud entre las oraciones que predecían la misma palabra (pares intra: bebé-bebé, refrigerador-refrigerador) en comparación con palabras diferentes (pares entre: bebé-refrigerador). El enfoque principal fue la actividad MEG en respuesta a la penúltima palabra, antes de la palabra objetivo esperada (por ejemplo, “un”, “nuevo”, “el”). Los resultados mostraron un aumento significativo en la similitud representacional para los pares intra de comparados con los pares entre, lo que indica una preactivación léxica palabra específica esperada. Cabe destacar que este efecto MEG solo se observó para la penúltima palabra y no para la palabra 28 objetivo final. La investigación de Wang (2018) demostró no solo que un ítem léxico específico puede ser predicho, sino también que esta preactivación involucra la sincronización de redes cerebrales distribuidas. Este hallazgo respalda la idea de que la recuperación predictiva depende de mecanismos similares a los del procesamiento léxico no predictivo. En consecuencia, sugiere que la recuperación podría involucrar la preactivación no solo de un solo ítem, sino también de ítems relacionados basados en sus propiedades semánticas y de forma. En apoyo de esto, Wei et al. (2023) examinaron la predicción fonológica usando análisis de similitud representacional y encontraron que, después de presentar una sílaba, los participantes mostraban una mayor similitud en el EEG cuando la sílaba siguiente era idéntica, en comparación con cuando era diferente. Estos resultados indican que los lectores pueden predecir las formas de las palabras con un considerable nivel de detalle. En resumen, este capítulo presentó evidencia sobre la base neural del acceso léxico en procesos tanto predictivos como no predictivos. La preactivación de una palabra implica la recuperación de sus representaciones semánticas y de forma léxica. En las teorías no predictivas de acceso léxico, estas representaciones están almacenadas en distintos niveles de procesamiento y se recuperan en secuencias variables dependiendo de si el proceso es de producción o comprensión, involucrando a menudo la coactivación de múltiples representaciones relacionadas. El próximo capítulo delineará modelos de predicción en la comprensión del lenguaje. 29 Teorías y mecanismos del procesamiento predictivo en la comprensión del lenguaje El marco de procesamiento predictivo en la cognición general explica cómo el cerebro genera y utiliza predicciones en dominios como la percepción y el control motor. En estas áreas, los investigadores pueden evaluar directamente la precisión de las predicciones, ya que los comportamientos y las respuestas neuronales ofrecen resultados medibles de los procesos anticipatorios del cerebro. Por ejemplo, en el control motor, las señales neuronales y las respuestas motoras pueden compararse con las acciones pretendidas, proporcionando evidencia directa de los mecanismos predictivos en tiempo real. Sin embargo, en la comprensión del lenguaje, los mecanismos predictivos son directamente menos observables. Los investigadores deben basarse en datos conductuales y neuronales como evidencia indirecta de los procesos de predicción subyacentes. Medidas como los movimientos oculares o los tiempos de reacción pueden sugerir la anticipación de palabras futuras, pero no revelan claramente las predicciones específicas o los mecanismos de procesamiento en juego. Por ejemplo, si los participantes predicen la palabra “huevos” después del contexto de la oración “La gallina puso…”, sigue sin estar claro qué representaciones léxicas se activaron, cómo se accedió a estas representaciones y si se consideró solo una predicción o múltiples candidatos léxicos simultáneamente. Estas y otras preguntas hacen que sea un desafío establecer una teoría unificada de la predicción en la comprensión del lenguaje. Asumiendo que la predicción es un principio central del cerebro humano, algunos investigadores han extendido este principio general predictivo al procesamiento del lenguaje (Kuperberg & Jaeger, 2016; Ryskin & Nieuwland, 2023). Por ejemplo, Kuperberg y Jaeger (2016), basándose en el marco de la codificación predictiva, propusieron que la predicción en la comprensión del lenguaje es tanto probabilística como jerárquica. En este modelo, los niveles 30 superiores de la jerarquía generan predicciones que se transmiten a los niveles inferiores, mientras que los niveles inferiores envían errores de predicción de vuelta a los niveles superiores para refinar futuras predicciones (Figura 4). Según Kuperberg y Jaeger (2016), estas jerarquías se organizan según el nivel de granularidad del procesamiento del lenguaje: en la cima se encuentran temas o tópicos más amplios, mientras que en los niveles más bajos están las percepciones sensoriales, como características acústicas o visuales. Entre estos extremos se sitúan los niveles intermedios de procesamiento, que incluyen las etapas sintáctica, semántica, léxica y fonológica. Figura 4 Predicción Jerárquica en la Comprensión del Lenguaje Basada en el Marco de Codificación Predictiva Nota. Esta figura fue construida con base en los modelos jerárquicos propuestos por Kuperberg y Jaeger (2016), y Ryskin y Nieuwland (2023). Aunque es biológicamente plausible que el procesamiento del lenguaje siga los mismos principios que otros procesos cerebrales, Kuperberg y Jaeger (2016) no explican los mecanismos subyacentes a la recuperación de estas representaciones, cómo se transmiten las predicciones a través de los niveles de procesamiento o la posibilidad de múltiples predicciones en cada nivel. Según mi conocimiento, solo tres teorías en la comprensión del lenguaje proponen mecanismos específicos para la predicción. El primer modelo, de Dell y Chang (2014), se basa en un algoritmo computacional. El segundo, propuesto por Pickering y Garrod (2013), es completamente teórico, y el tercero, de Pickering y Gambi (2018), es también en gran medida teórico. Estos modelos sugieren la participación de tres mecanismos predictivos: predicción por 31 producción, predicción por simulación y predicción por asociación. Adicionalmente, se ha propuesto el mecanismo combinatorio; sin embargo, se describirá brevemente, ya que es más relevante para la selección de la clase gramatical de la próxima palabra que para la recuperación de información específica sobre la semántica y la forma de las palabras (Chang et al., 2006; Dell & Chang, 2014; Huettig, 2015). Mecanismo de predicción por producción Modelo P-chain La Figura 5 presenta una representación visual del modelo P-Chain propuesto por Dell y Chang (2014). La premisa central de este modelo es que la predicción se basa en el sistema de producción, excluyendo la articulación. Este enfoque se fundamenta en el curso temporal del sistema de producción, donde producir una palabra requiere primero recuperar su significado en el nivel semántico, seguido de la recuperación fonológica, que luego se transforma en comandos motores para la articulación (Dell, 1986). Según el modelo P-Chain, la predicción refleja este camino de procesamiento: el sistema lingüístico utiliza el contexto para acceder al significado previsto en el nivel semántico, integra esta información en una representación léxica y, posteriormente, recupera las propiedades fonológicas de la palabra (Dell & Chang, 2014). En el modelo P-Chain, el error de predicción es esencial no solo para la adquisición de palabras, sino también para el desarrollo de la memoria semántica. Este modelo explica la naturaleza estructurada y no aleatoria de los errores, que típicamente son de tipo semántico o fonológico en el habla (Dell, 1986). Por ejemplo, los errores pueden involucrar la sustitución de una palabra por otra de la misma categoría (por ejemplo, llamar “mamá” a una maestra) o por una palabra de sonido similar (por ejemplo, decir “lechuga” en lugar de “letra”). Dado que estos errores no son aleatorios, podrían representar predicciones futuras válidas y, por lo tanto, se almacenan 32 cerca de conceptos relacionados en la memoria semántica. Este aprendizaje es implícito, generado por el propio sistema en lugar de mediante instrucción, y apoya la adquisición de nuevas palabras (o habilidades lingüísticas) y su integración en la memoria semántica. En consecuencia, los errores de predicción y sus correcciones modelan activamente la organización de la memoria semántica. Por ejemplo, si alguien confunde frecuentemente “gato” y “perro”, estas palabras formarían una conexión en la memoria semántica, convirtiéndose potencialmente en continuaciones plausibles en contextos predictivos. Figura 5 Modelo P-Chain Nota. Figura basada en Dell y Chang (2014). El modelo P-Chain se basa en el modelo computacional de doble vía desarrollado por Chang et al. (2006), diseñado para predecir la siguiente palabra en una secuencia. La arquitectura de este modelo presenta dos rutas distintas: la ruta de secuenciación y la ruta de significado. La ruta de secuenciación funciona como un mecanismo combinatorio, seleccionando la estructura gramatical óptima para la próxima palabra. En contraste, la ruta de significado es responsable de seleccionar el significado correcto en función del contexto previo. Dell y Chang (2014) 33 argumentaron que el modelo de doble vía respalda la predicción tanto en la comprensión como en la producción del lenguaje al utilizar el mismo proceso subyacente: la generación continua de la próxima palabra. En la comprensión del lenguaje, el modelo predice lo que viene a continuación basándose en el contexto, la gramática y el significado, simulando efectivamente el proceso de producción de manera interna. Esta simulación interna permite que el sistema anticipe e interprete las palabras entrantes, haciendo que la comprensión sea más eficiente y esté mejor adaptada al contexto. En la producción del lenguaje, el modelo también se basa en la predicción de la siguiente palabra para construir oraciones coherentes, utilizando las rutas de secuenciación y significado para guiar la elección de palabras y la estructura de manera precisa. Así, el modelo de doble vía crea un mecanismo unificado para la predicción, donde el acto de “producir” la siguiente palabra es fundamental tanto para la comprensión como para la generación del lenguaje, alineando estos procesos dentro de un marco predictivo único. Modelo de Pickering y Gambi El modelo propuesto por Pickering y Gambi (2018) introduce dos mecanismos: predicción por producción y predicción por asociación (Figura 6). Pickering y Gambi amplían el mecanismo de predicción por producción descrito por Dell y Chang (2014), añadiendo detalles sobre cómo este mecanismo procesa el contexto. Según Pickering y Gambi (2018), la predicción por producción es el enfoque más eficaz, ya que incorpora el contexto lingüístico y no lingüístico, experiencias pasadas y las intenciones del hablante para generar predicciones. Sin embargo, este mecanismo también es lento, cognitivamente costoso y opcional, operando solo cuando hay suficiente tiempo y recursos cognitivos disponibles. 34 Skipper et al. (2017) sostienen que la participación del sistema de producción en la comprensión predictiva del lenguaje está vinculada a su flexibilidad para traducir cualquier contexto en unidades de sonido. En la producción, deben seleccionarse palabras específicas para transmitir el significado deseado, y estas palabras seleccionadas se transforman en planes articulatorios. Este proceso de selección y traducción se reutiliza durante la percepción del lenguaje, donde una señal descendente emplea las funciones del sistema de producción para seleccionar significados, palabras y sonidos. Este proceso, en última instancia, facilita la interpretación de la información auditiva que está por venir. Figura 6 Modelo de predicción por producción de Pickering y Gambi Nota. Figura basada en Pickering y Gambi (2018). En contraste, el mecanismo de predicción por asociación es rápido, requiere pocos recursos cognitivos y opera de manera automática. Sin embargo, Pickering y Gambi (2018) argumentaron que la predicción por asociación es menos efectiva porque no considera el contexto, sino que se basa únicamente en las palabras del mensaje del hablante. Este mecanismo se basa en la activación distribuida (como se describió en capítulos anteriores). Por ejemplo, en la oración “la 35 gallina puso un huevo”, la palabra “huevo” podría predecirse debido a la activación distribuida desde “gallina”. Sin embargo, otras palabras relacionadas, como “pollo”, también podrían preactivarse, incluso si no son congruentes con el contexto de la oración. Además, Pickering y Gambi (2018) delinean tres etapas en el proceso predictivo durante la comprensión (Figura 6): imitación encubierta, intención derivada e implementación de la producción. El proceso funciona de la siguiente manera: al recibir un mensaje, el “implementador de comprensión” procesa e integra el contexto lingüístico, donde la predicción por asociación opera preactivando posibles conceptos relacionados. Luego, esta señal de comprensión se convierte en representaciones de producción para activar el mecanismo de predicción por producción (imitación encubierta). En la etapa de intención derivada, la predicción se refina a medida que la información lingüística, extralingüística y el conocimiento compartido restringen la activación para preactivar solo candidatos léxicos coherentes. Finalmente, el implementador de producción preactiva la entrada próxima prevista, recuperando primero la información semántica, seguida de la información sintáctica y fonológica. Todo este proceso toma aproximadamente 600 ms, el mismo tiempo que se requiere para producir una palabra (Indefrey & Levelt, 2004; Levelt, 1999). Esta dinámica se asemeja al modelo de cohortes discutido en el capítulo anterior (Marslen-Wilson, 1987), donde el sistema predictivo descarta de manera incremental representaciones léxicas a medida que recopila evidencia hacia la predicción correcta, priorizando las eliminaciones semánticas primero, seguidas de las fonológicas. Evidencia del mecanismo de predicción por producción Existe una considerable evidencia correlacional e indirecta que respalda el mecanismo de predicción por producción. Federmeier (2007) argumentó que la alta interconectividad entre las 36 áreas de producción y comprensión en el hemisferio izquierdo sugiere una fuerte interacción entre estos procesos. Además, se han encontrado correlaciones entre las habilidades de producción y las capacidades de predicción, como el vocabulario productivo en niños (Mani & Huettig, 2012) y la fluidez verbal en adultos (Huettig & Janse, 2016). Sin embargo, en mi opinión, la evidencia más convincente sobre la participación del sistema de producción en la predicción durante la comprensión del lenguaje proviene de Martin et al. (2018). Ellos midieron la respuesta N400 a determinantes en oraciones altamente restrictivas para evaluar la predicción del género gramatical del sustantivo que sigue al determinante. El aspecto crítico de esta investigación fue que se pidió a los participantes que produjeran una sílaba, emitieran un sonido no lingüístico con la lengua o escucharan una sílaba pregrabada. Los resultados mostraron que los participantes exhibieron un efecto de predicción de género en todas las condiciones, excepto en la de producción de sílaba. Los autores argumentaron que involucrar al sistema de producción exclusivamente para la producción de sílabas impidió que estuviera disponible para el procesamiento predictivo, lo que sugiere que la predicción no pudo implementarse cuando el sistema de producción estaba ocupado. Mecanismo de predicción por simulación Pickering y Garrod (2013) propusieron dos mecanismos: predicción por asociación, similar al descrito por Pickering y Gambi (2018), y predicción por simulación. El mecanismo de predicción por simulación se basa en la experiencia de producción del receptor para anticipar lo que el hablante podría decir a continuación (Figura 7). Esencialmente, cuando el receptor recibe un mensaje, la predicción por simulación anticipa la palabra más probable que el receptor diría en ese contexto. Esto requiere que el receptor imite encubiertamente el mensaje recibido, activando un sistema de producción especializado en predicción. Este sistema predictivo de tipo producción 37 crea un modelo hacia adelante que simula el contexto, incluyendo una predicción del mensaje intencionado. Pickering y Garrod (2013) plantean la necesidad de un sistema adicional porque el sistema de producción estándar es demasiado lento para realizar predicciones oportunas y correcciones en línea. Para lograr la velocidad necesaria, este sistema de tipo producción genera representaciones simplificadas de las entradas próximas. Figura 7 Modelo de predicción por simulación Nota. Simplificado de Pickering y Garrod (2013). Una característica clave del sistema de simulación es que predice toda la información simultáneamente. Debido a que el sistema asume que el receptor produciría la misma información en un contexto similar, genera una predicción completa. Así, cuando se recupera la palabra que sigue, todas sus representaciones asociadas—semántica, sintáctica y fonológica—se activan a la vez. Evidencia del mecanismo de predicción por simulación Evidencia indirecta sugiere que los músculos faciales involucrados en la producción de sonidos se activan cuando los participantes están expuestos a sonidos del habla, pero no cuando escuchan sonidos no lingüísticos (Fadiga et al., 2002). Esta activación indica que el sistema motor podría involucrarse encubiertamente en el procesamiento del habla entrante, reflejando los movimientos articulatorios necesarios para producir esos sonidos. De manera similar, las áreas cerebrales asociadas con la producción de fonemas, especialmente en el hemisferio izquierdo, 38 están activas tanto durante la producción como en la comprensión del habla, lo que indica una base neural compartida entre estos procesos (Pulvermüller & Fadiga, 2010). Kamide et al. (2003) proporcionan evidencia empírica de la predicción por simulación mediante el paradigma del mundo visual. En el Experimento 2, los participantes escucharon oraciones como “El hombre va a montar la motocicleta” o “La niña va a montar el carrusel” mientras observaban una escena con estos y otros objetos irrelevantes. Los resultados mostraron que los participantes dirigían su atención de antemano hacia el objeto más plausible (por ejemplo, la motocicleta para el hombre y el carrusel para la niña) antes de que el objeto fuera mencionado explícitamente en la oración. Esto sugiere que los oyentes utilizan tanto las restricciones semánticas del verbo como el conocimiento del rol contextual para “simular” internamente el evento descrito por el hablante. Al activar mentalmente una representación de la acción probable, los oyentes anticipan el siguiente referente y ajustan su atención visual en consecuencia. Estos hallazgos respaldan la teoría de que el procesamiento del lenguaje implica mecanismos de simulación mental, donde el sistema interno de producción permite a los oyentes prever el contenido próximo en el discurso. Mecanismo de predicción por asociación El mecanismo de predicción por asociación se basa en una extensa investigación sobre el priming y la organización léxica desde la década de 1970 (Figura 2). Aunque ha habido debate sobre si el priming en sí constituye predicción (Kuperberg & Jaeger, 2016), en un sentido amplio, procesar una palabra puede, en efecto, preactivar otras palabras, incluidas las anticipadas (Dell & Chang, 2014; Pickering & Gambi, 2018; Pickering & Garrod, 2013). Como se discutió anteriormente, este tipo de predicción sigue una regla Hebbiana, donde la información que coocurre tiende a activarse mutuamente. Esto se aplica no solo a las relaciones asociativas en el 39 discurso, sino también a las características taxonómicas e incluso basadas en la forma léxica (Dell, 1986; McClelland & Elman, 1986). La idea central de este mecanismo es que cada palabra procesada desencadena una cascada de activación a través de palabras relacionadas, siendo la palabra más probable la que recibe la mayor activación, facilitando su recuperación predictiva. Pickering y Gambi (2018) argumentaron que la predicción por asociación es menos eficiente que la predicción por producción, ya que la activación se extiende libremente a través de la red léxica. Como resultado, al activar un concepto se coactivan todos los conceptos relacionados, incluso si algunos no son congruentes con el contexto de la oración. Evidencia del mecanismo de predicción por asociación El efecto de la coactivación predictiva fue demostrado por Kukona et al. (2011), quienes presentaron oraciones con una estructura de sujeto-verbo-objeto, como “Toby arresta al ladrón”. Los participantes observaron un conjunto de imágenes que incluían al agente (por ejemplo, policía), el paciente (ladrón) y distractores. Notablemente, los participantes fijaron su atención no solo en el “ladrón” sino también en el “policía”, aunque este último ya había sido mencionado como el agente. Kukona et al. (2011) sugirieron que ambos mecanismos—predicción activa y priming temático—operan simultáneamente, con el procesamiento predictivo coactivando conceptos relacionados tanto en función de la predicción como de los roles temáticos. El estudio de Kukona et al. (2011) parecía respaldar la idea de que la predicción por asociación es un mecanismo menos eficiente para la predicción. Sin embargo, Kukona (2020) cuestionó más tarde esta supuesta ineficiencia, argumentando que “la preactivación está necesariamente vinculada a la activación distribuida”, ya que el flujo libre de activación ajusta los niveles de activación de las palabras futuras potenciales. Esta conclusión fue reforzada por dos experimentos utilizando el paradigma del mundo visual. En el Experimento 1, los participantes 40 fueron presentados con oraciones altamente restrictivas, como “Para ver mejor, el dentista le pidió al hombre que abriera la boca”, mientras observaban una matriz visual que contenía el objetivo (“boca”), un competidor fonológico (“bolsa”) y dos distractores no relacionados (hueso, calcetín). Los resultados indicaron un fuerte efecto predictivo: después de escuchar la palabra asociada “dentista”, los participantes fijaron predictivamente su atención en las imágenes, mostrando más fijaciones en el competidor fonológico (“bolsa”) que en los distractores no relacionados. Dado que estas fijaciones ocurrieron antes de escuchar el objetivo auditivo “boca”, Kukona interpretó esto como evidencia de predicción de la forma de palabra, sugiriendo que “dentista” activó “boca”, lo cual luego extendió la activación a la palabra fonológicamente relacionada “bolsa”. En el Experimento 2, se usaron los mismos estímulos visuales, pero sin oraciones completas; los participantes solo escucharon la palabra “dentista” mientras observaban la matriz de imágenes. Los resultados reflejaron los del Experimento 1, con los participantes mostrando un patrón de fijación similar en respuesta a la palabra “dentista” sola. Estos hallazgos sugieren que la predicción por asociación puede apoyar los procesos predictivos generales, incluso dentro del marco de predicción por producción, al mejorar los niveles generales de activación a través de palabras relacionadas y facilitar el procesamiento predictivo. La predicción por asociación también cuenta con respaldo en la modelización computacional. Inspirados por el modelo de Red Simple Recurrente (SRN) de Elman, Altmann y Mirkovic (2009) argumentaron que los oyentes interpretan la entrada lingüística anticipando activamente las palabras y estructuras próximas, mapeando las oraciones en desarrollo en representaciones mentales de eventos del mundo real. En este marco, las conexiones recurrentes permiten que la red retenga información sobre estados previos, posibilitando el procesamiento de la entrada actual en el contexto de pistas lingüísticas y no lingüísticas. A medida que el lenguaje 41 se desarrolla en el tiempo, tanto el contexto lingüístico como el situacional—como escenas visuales o el historial del discurso—interactúan dentro de la red para activar asociaciones aprendidas entre palabras, roles temáticos y eventos probables. Estas asociaciones reflejan patrones lingüísticos comunes, donde las palabras evocan representaciones de entidades y acciones que coocurren con frecuencia (por ejemplo, “comer” evoca elementos comestibles), permitiendo a los oyentes anticipar ítems léxicos y estructuras de eventos basados en la experiencia. Este modelo apoya la idea de que la comprensión del lenguaje se basa en asociaciones predictivas codificadas en redes recurrentes y refinadas a través de la exposición continua al lenguaje y al entorno, en lugar de en mecanismos de predicción simbólicos. De manera similar, Kukona et al. (2014) propusieron un modelo de red neuronal autoorganizada que aborda la integración de la información léxica con el contexto de la oración mediante un equilibrio entre interferencia ascendente y conexiones de retroalimentación. En este modelo, la comprensión de oraciones se desarrolla de manera incremental a través de una red de unidades de procesamiento autónomas que interactúan mediante retroalimentación bidireccional continua, lo que permite al sistema generar fijaciones anticipatorias y manejar activaciones temporales de significados irrelevantes en el contexto. La interferencia ascendente ocurre cuando la entrada léxica inicial activa múltiples significados o asociaciones posibles, incluso aquellos que no son congruentes con el contexto de la oración. Sin embargo, los mecanismos de retroalimentación permiten que la red resuelva gradualmente estos conflictos reforzando los significados apropiados al contexto. Esta estructura autoorganizada sugiere que la predicción se logra mediante una red de activaciones asociativas que reflejan relaciones aprendidas entre palabras y contextos, equilibrada dinámicamente por la interferencia ascendente y la retroalimentación contextual. 42 Propuesta de múltiples mecanismos predictivos Hasta este punto, cada mecanismo predictivo se ha descrito como mutuamente excluyente. Sin embargo, incluso dentro de cada marco, estos mecanismos suelen interactuar hasta cierto grado. Por ejemplo, Dell y Chang (2014) enfatizan que tanto los mecanismos combinatorios como asociativo son necesarios para realizar predicciones. De manera similar, Pickering y Garrod (2013) argumentan que los mecanismos de simulación y asociación operan simultáneamente. En contraste, Pickering y Gambi (2018) proponen un modelo de predicción en dos etapas, donde primero se emplea el mecanismo asociativo, seguido por el mecanismo de predicción por producción. Huettig (2015) argumentó que el cerebro se basa en cuatro mecanismos distintos pero interconectados: predicción basada en producción, predicción basada en asociación, predicción basada en combinatoria y predicción basada en simulación. Cada uno de estos mecanismos ofrece beneficios únicos, lo que permite al cerebro anticipar el lenguaje en una variedad de contextos. El mecanismo de predicción basado en la producción implica el uso del propio sistema de producción del lenguaje del cerebro para anticipar lo que otro hablante podría decir. Este proceso es similar a completar mentalmente la oración de otra persona, permitiendo predicciones altamente específicas y detalladas sobre las palabras próximas. Los oyentes pueden anticipar no solo palabras individuales, sino también la estructura y el estilo de expresión que probablemente seguirá, creando una representación mental detallada de las posibles expresiones del hablante. La predicción basada en asociación permite al cerebro anticipar el lenguaje con rapidez y precisión en contextos familiares, particularmente cuando los elementos lingüísticos están consistentemente vinculados a través de la experiencia repetida. La predicción basada en combinatoria utiliza la estructura sintáctica y semántica para guiar las expectativas sobre el lenguaje próximo. Este 43 mecanismo combinatorio es particularmente útil en oraciones complejas, donde la memoria asociativa por sí sola podría no proporcionar suficiente contexto para anticipar las palabras próximas. Finalmente, la predicción basada en simulación permite al cerebro predecir el lenguaje no solo en función de palabras, sino también de elementos contextuales más amplios, especialmente cuando se hace referencia a escenas visuales compartidas o acciones familiares. El modelo de Huettig (2015) enfatiza que estos mecanismos no están aislados, sino que interactúan de manera dinámica, formando un sistema flexible que se adapta a diferentes contextos lingüísticos. El priming asociativo puede hacer que la recuperación de palabras sea más rápida, apoyando el procesamiento combinatorio, mientras que las simulaciones de eventos pueden activar asociaciones específicas entre eventos y palabras relevantes. Además, el modelo sugiere que el contexto determina qué mecanismos están más activamente involucrados. Por ejemplo, en una conversación espontánea, el cerebro podría depender más de los mecanismos de simulación y producción, mientras que, en entornos estructurados o predecibles, los mecanismos combinatorio y asociativo podrían dominar. En resumen, el modelo de Huettig (2015) ilustra que el procesamiento predictivo del lenguaje es el resultado de múltiples vías interconectadas. Cada mecanismo proporciona ventajas distintas que permiten predicciones ricas y sensibles al contexto, apoyando, en última instancia, un sistema robusto y adaptable para la comprensión del lenguaje. Curso temporal de la preactivación del significado y la forma léxica Cada mecanismo predictivo supone trayectorias diferentes para la recuperación de las representaciones semánticas y de forma léxica. Por ejemplo, el mecanismo de predicción por producción (Pickering & Gambi, 2018) propone una recuperación jerárquica predictiva en la cual las representaciones semánticas se acceden antes que las representaciones de forma. Crucialmente, 44 la predicción de forma depende completamente de la predicción semántica previa. Además, este mecanismo es opcional; si la predicción semántica falla, no se generaría una predicción de la forma léxica. Del mismo modo, si el receptor tiene tiempo o recursos cognitivos limitados, puede que prediga solo la información semántica, omitiendo los detalles de la forma léxica. Así, si los receptores emplean este mecanismo, primero deberían predecir la información semántica, seguida de la información de la forma léxica si el tiempo lo permite. Debido a las demandas de tiempo de la predicción por producción (aproximadamente 600 ms) por su dependencia del sistema de producción, podría haber un retraso de alrededor de 300 ms entre la recuperación de la información semántica y de la forma léxica (Indefrey & Levelt, 2004). En contraste, la predicción por asociación no presupone una secuencia específica para la recuperación de la información, ya que la activación se extiende libremente a través del sistema léxico-semántico (Dell, 1986). Sin embargo, se puede inferir una trayectoria basada en la coherencia semántica de las palabras dentro del contexto de la oración. Incluso si cada palabra en una oración produce predicciones de forma inexactas, estas tienden a converger en el nivel semántico. Por ejemplo, en una oración como “En la granja, la gallina puso huevos”, las palabras individuales pueden inducir diferentes predicciones de forma, pero palabras como “granja” y “gallina” convergen en el concepto “huevo” en el nivel semántico, activando posteriormente su representación fonológica, asumiendo que estas representaciones son distintas (Dell, 1986). Una diferencia clave con la predicción por producción es el tiempo: la activación distribuida es teóricamente un proceso mucho más rápido (Pickering & Gambi, 2018). Por lo tanto, el intervalo temporal entre la activación semántica y de forma debería ser significativamente más corto en la predicción por asociación que en la predicción por producción. 45 Finalmente, la predicción por simulación asume que la información relacionada con la palabra próxima se recupera simultáneamente (Pickering & Garrod, 2013), ya que el modelo hacia adelante predice la palabra exacta que el receptor produciría en el mismo contexto. Esta recuperación simultánea incluye representaciones semánticas, sintácticas y fonológicas, generadas como una predicción cohesiva de la palabra anticipada. Si bien existen teorías sólidas sobre cómo se recuperan las representaciones semánticas y de la forma léxica, hay poca información sobre su curso temporal exacto, la mayoría de la cual proviene de paradigmas no predictivos (DeLong et al., 2019; Heilbron et al., 2022; Ito et al., 2016). Por ejemplo, Heilbron et al. (2022) analizaron respuestas electroencefalográficas a audiolibros utilizando un algoritmo de red neuronal profunda para calcular la “sorpresa” fonológica y semántica de palabras objetivo basadas en el contexto precedente. Sus hallazgos indicaron que la sorpresa fonológica inducía cambios de activación más tempranos que la sorpresa semántica. Además, modelaron la predicción de fonemas calculando probabilidades de ocurrencia usando la frecuencia general de fonemas o probabilidades condicionales restringidas por el contexto. El modelo que mejor predecía fonemas se basaba en probabilidades condicionales, lo que sugiere una estructura de procesamiento jerárquica donde el contexto restringe la predicción fonológica. Este estudio respalda la idea de que el contexto puede limitar los candidatos léxicos potenciales a nivel fonológico. Sin embargo, no queda claro si esta restricción surge de una preactivación semántica inicial que reduce los posibles candidatos. Además, aunque parece que la información fonológica se procesa antes que la semántica, no se sabe si este orden está relacionado con la predicción, dado que ocurre tras la presentación de la palabra objetivo preactivada. Ito et al. (2016) examinaron el componente N400 en respuesta a oraciones altamente restrictivas, como “El estudiante va a la biblioteca a pedir prestado un…”, seguido de una palabra 46 predecible (“libro”), una palabra fonológicamente relacionada (“lirio”), una palabra semánticamente relacionada (“página”) o una palabra no relacionada (“sofá”). Evaluaron diferentes asincronías de inicio de estímulo (SOA) de 500 ms y 700 ms para evaluar el impacto del tiempo en la predicción. Sus hallazgos mostraron una reducción en el componente N400 para palabras semánticamente relacionadas, pero no para palabras fonológicamente relacionadas, en el SOA más corto. Sin embargo, en el SOA más largo, la reducción del N400 apareció en ambas condiciones, semántica y fonológica. Los autores concluyeron que las predicciones fonológicas requieren más tiempo para desarrollarse, sugiriendo que las predicciones fonológicas ocurren más tarde en el procesamiento que las semánticas. En contraste, DeLong et al. (2019), utilizando un SOA de 500 ms, encontraron una reducción del N400 tanto en las condiciones semántica como fonológica, indicando un curso temporal similar para el procesamiento semántico y fonológico. Notablemente, ambos estudios (DeLong et al., 2019; Ito et al., 2016) evaluaron la actividad N400 después de la presentación de los estímulos, lo cual podría reflejar procesos involucrados en el reanálisis de la oración o el procesamiento de errores de predicción, en lugar de una preactivación pura (Bornkessel- Schlesewsky & Schlesewsky, 2019). El único estudio que investiga directamente la recuperación predictiva de la información semántica y de forma es el de Wang et al. (2024), quienes utilizaron el análisis de similitud representacional (RSA) en pares de oraciones que predicen una palabra específica (por ejemplo, banco como institución financiera), una palabra semánticamente relacionada (por ejemplo, préstamo) o un homógrafo (por ejemplo, banco en el sentido de banco de peces). Sus resultados mostraron un aumento temprano en la similitud representacional entre palabras semánticamente relacionadas, seguido de un aumento posterior entre homógrafos. Wang et al. (2024) interpretaron 47 este intervalo de 300 ms entre efectos como un respaldo al mecanismo de predicción por producción. Sin embargo, esta interpretación podría ser prematura, ya que el retraso podría atribuirse a que los homógrafos generalmente requieren más tiempo para procesarse debido a la interferencia semántica (Azuma et al., 2004; Ferrand & Grainger, 2003). Esta interferencia puede ralentizar la recuperación de homógrafos durante la predicción, en lugar de respaldar directamente la predicción por producción. En conclusión, este capítulo describió los mecanismos teóricos para generar predicciones: predicción por producción, predicción por simulación y predicción por asociación. Sin embargo, quedan varias preguntas abiertas, particularmente la necesidad de una comprensión más detallada del curso temporal de la preactivación semántica y fonológica. 48 Planteamiento del problema Un aspecto desafiante de la comprensión del lenguaje es el procesamiento del habla en tiempo real, que requiere la integración incremental de diferentes tipos de información. Para abordar este desafío, se ha planteado la hipótesis de que las personas crean continuamente predicciones sobre la información lingüística que está por venir (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). Estudios que utilizan el rastreador ocular y la electroencefalografía han proporcionado evidencia que respalda la predicción del lenguaje en múltiples niveles de representación (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). A nivel semántico, los individuos han sido capaces de predecir información relacionada temáticamente o de la categoría superordinada (Altmann & Kamide, 1999; Grisoni et al., 2017, 2021; Hubbard & Federmeier, 2020; Van Petten & Luka, 2012; Wang et al., 2018, 2020); a nivel de la forma de la palabra, pueden predecir los fonemas o grafemas de la palabra (DeLong et al., 2005; Dikker et al., 2010; Ito et al., 2018; Ito & Sakai, 2021; Kukona, 2020). Se han teorizado tres mecanismos para la predicción: predicción por producción, predicción por simulación y predicción por asociación (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013). El mecanismo de predicción por producción asume que la predicción durante la comprensión del lenguaje se genera mediante el uso del sistema de producción (Dell & Chang, 2014; Pickering & Gambi, 2018). Así, la predicción sigue un acceso léxico similar al de la producción, desde las representaciones semánticas hasta las de forma léxica, pero a un ritmo lento. El mecanismo de predicción por simulación asume que las predicciones se crean mediante modelos hacia adelante que contienen la información sobre lo que el receptor predeciría en la misma situación a través de un proceso de imitación encubierta (Pickering & Garrod, 2013). En este mecanismo, las representaciones semánticas y de forma se 49 recuperan simultáneamente. Por el contrario, la predicción por asociación se basa en el mecanismo de activación distribuida (Dell & Chang, 2014; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018), que consiste en la propagación de la activación entre representaciones de palabras relacionadas (Collins & Loftus, 1975; Dell, 1986). En este mecanismo, la activación no tiene una dirección específica, pero es razonable suponer una recuperación rápida desde las representaciones semánticas hasta las de forma (Kukona, 2020). Cabe destacar que existe escasa evidencia sobre la preactivación de representaciones semánticas y de palabras (Ito et al., 2016; Heilbron et al., 2022; DeLong et al., 2019; Wang et al., 2024). Por lo tanto, esta tesis tiene como objetivo arrojar luz sobre la direccionalidad de los mecanismos de predicción durante la comprensión del lenguaje. Utilizando el paradigma del mundo visual y el análisis de similitud representacional aplicado a datos de electroencefalografía, buscamos desentrañar la dinámica temporal del procesamiento predictivo. Postulamos que, mediante este enfoque, podemos trazar eficazmente el flujo de información entre los niveles semántico y de forma léxica, delineando la trayectoria de activación involucrada en cada mecanismo de predicción. Los hallazgos de esta investigación tienen el potencial de contribuir significativamente a nuestra comprensión de los mecanismos cognitivos subyacentes a la predicción en el lenguaje. 50 Objetivo Explorar la recuperación temporal de las representaciones tanto semánticas como de la forma léxica en oraciones de alta restricción. Objetivos específicos 1. Construir un corpus de oraciones que varíen en su nivel de restricción hacia la palabra final. 2. Examinar la progresión de la activación predictiva tanto de la información semántica como fonológica utilizando el paradigma del mundo visual en un estudio de seguimiento ocular. 3. Explorar la progresión de la activación predictiva de la información semántica y ortográfica durante tareas de lectura de oraciones mediante el análisis de similitud representacional en registros electroencefalográficos. Hipótesis de trabajo La representación semántica exhibirá una activación predictiva más temprana en comparación con la representación de la forma léxica. Hipótesis específicas 1. Antes de escuchar la palabra esperada incrustada en oraciones de alta restricción, los participantes dirigirán inicialmente su mirada hacia una imagen relacionada semánticamente con la palabra esperada; luego, cambiarán hacia la imagen relacionada fonológicamente con la palabra esperada. 2. Antes de encontrar la palabra esperada en una oración de alta restricción presentada de forma discreta, habrá un aumento en la similitud de las señales electroencefalográficas para las palabras esperadas altamente relacionadas semánticamente; posteriormente, habrá un aumento en la similitud de las señales electroencefalográficas para las palabras esperadas altamente relacionadas ortográficamente. 51 Método Consideraciones éticas Todos los procedimientos descritos en esta tesis se realizaron de acuerdo con la Norma Oficial Mexicana NOM-012-SSA3-2012 y la Declaración de Helsinki para investigación en seres humanos. Fueron aprobados por el Comité de Ética de la Facultad de Psicología de la Universidad Nacional Autónoma de México con el número de aprobación: FPCE_21012021_H_AC. Los experimentos presenciales se llevaron a cabo cuando el Gobierno y la Universidad consideraron que el riesgo de contagio del virus SARS-CoV-2 era mínimo. En consecuencia, todos los participantes aceptaron los términos de la investigación antes de que comenzaran los procedimientos experimentales, los cuales incluían información sobre cualquier riesgo para su salud física o psicológica y el uso de sus datos con fines de investigación. Además, se siguió un estricto protocolo sanitario. Experimento 1: Corpus de finalización de oraciones Varios estudios previos han compilado corpus de finales de oraciones restringidas en idiomas distintos al español mexicano (Block & Baldwin, 2010; Bloom & Fischler, 1980; Brothers & Kuperberg, 2021; Lahar et al., 2004); sin embargo, las probabilidades de cierre no pueden transferirse directamente entre idiomas y culturas. Incluso oraciones simples pueden introducir complicaciones. Por ejemplo, considere la oración: “El bombero notó que salía humo de la chimenea de la casa”. En México, las casas típicamente no tienen chimeneas, por lo que la predictibilidad de “chimenea” probablemente sería menor que en regiones donde las chimeneas son comunes. Además, en español, “chimenea” está marcada por género y número, por lo que el artículo precedente “la” transmite información gramatical sobre el género y la singularidad. Esto aumenta la predictibilidad de “chimenea” en español, ya que el sistema predictivo puede excluir 52 ciertos candidatos léxicos basados en género o número. Así, en este ejemplo, la traducción altera la predictibilidad de la palabra. Hasta donde sé, solo un estudio normativo en México ha utilizado una tarea de finalización de oraciones con niños en edad escolar (Rodríguez-Camacho et al., 2011). Aunque este corpus es valioso para investigaciones con niños, presenta ciertas limitaciones para el estudio actual. Primero, dado que la predicción depende de la experiencia, no puede asumirse que los finales de oraciones sean similares entre niños y adultos. El vocabulario típicamente se expande con la edad (Wulff et al., 2019), lo que significa que los adultos podrían completar las oraciones con palabras diferentes a las de los niños. En segundo lugar, el corpus anterior incluyó solo 278 oraciones, de las cuales solo 47 tenían una probabilidad de cierre superior a .90. Este número limitado de oraciones altamente restringidas restringe la variabilidad al seleccionar suficientes palabras que estén relacionadas semánticamente y por la forma léxica. Otro estudio de normas de finalización de oraciones en español fue desarrollado por McDonald y Tamariz (2002), que incluye 112 oraciones con niveles variables de probabilidad de cierre. Sin embargo, este corpus también presenta desafíos debido a diferencias culturales y dialectales. Por ejemplo, existen variaciones léxicas, como la moneda nacional: “euro” en España versus “peso” en México. En una oración como “En mi cartera, no tengo ni un solo _”, los participantes de diferentes países la completarían de manera distinta. Además, las diferencias de pronunciación afectan el procesamiento fonológico; por ejemplo, palabras como “zapato” y “salón” se pronuncian de manera distinta en España (con /θ/ y /s/ para los sonidos iniciales, respectivamente), mientras que en México ambas palabras comienzan con el fonema /s/. Esta variación fonológica permite que los hablantes mexicanos incluyan ambas palabras en las predicciones fonológicas, mientras que los hablantes de España podrían excluir una de ellas según 53 la pronunciación. Además, solo 23 oraciones en este corpus tienen una probabilidad de cierre superior al 75%, lo que limita la selección de estímulos para estudios electrofisiológicos que requieren altas probabilidades de cierre para investigar el procesamiento predictivo. Dadas estas brechas en la literatura existente, el Experimento 1 tiene como objetivo desarrollar un corpus completo de finales de oraciones específico para el español mexicano. Al centrarse en poblaciones adultas e incluir un mayor número de oraciones altamente restringidas, este estudio normativo busca abordar las limitaciones de los corpus previos. Además, las oraciones fueron cuidadosamente elaboradas para reflejar los matices culturales y dialectales del español mexicano, asegurando la relevancia cultural del corpus para los objetivos principales de esta tesis en los Experimentos 2 y 3. Más allá de las necesidades inmediatas de esta tesis, el Experimento 1 está diseñado para proporcionar una herramienta más confiable y válida para futuras investigaciones en predicción del lenguaje, extendiendo su aplicabilidad a otros idiomas o dialectos con particularidades culturales y lingüísticas similares. Se espera que los hallazgos de este estudio profundicen nuestra comprensión de los procesos de predicción en la comprensión del lenguaje y respalden el desarrollo de herramientas más precisas y efectivas para la investigación en predicción lingüística. Participantes Para el Experimento 1, los participantes fueron adultos jóvenes mexicanos hablantes nativos de español, estudiantes de licenciatura o posgrado. La selección se realizó mediante anuncios publicados en redes sociales universitarias de todo México, que incluían un código QR que dirigía a los participantes a la tarea experimental. Inicialmente, participaron 1524 personas en el estudio. Sin embargo, 54 participantes fueron excluidos del análisis final por las siguientes razones: seis fueron excluidos por no tener el español como lengua materna o por no ser de México, 54 cinco por ser menores de 18 años, diez por dar respuestas sin sentido o aleatorias y 34 por completar solo la información básica sin avanzar a la tarea principal. Después de las exclusiones, nuestra muestra final incluyó a 1470 adultos, con una edad promedio de 25.78 años (DE = 5.38), y un rango de 18 a 57 años. De estos participantes, aproximadamente el 76% (1111) eran mujeres, el 23% (342) eran hombres y cerca del 1% (17) se identificaron como no binarios. Los participantes que no proporcionaron consentimiento informado, no dieron respuestas válidas, tenían un idioma nativo distinto al español o tenían un nivel educativo inferior a preparatoria fueron excluidos (n = 5620). No se aplicaron criterios adicionales de exclusión, ya que el objetivo principal de este corpus era caracterizar de manera amplia a los hablantes de español mexicano. Descripción demográfica Los participantes representaron a los 32 estados de México (Figura 8), con la mayor proporción—69.18% (n = 1017)—residiendo en la Región Centro-Sur. Proporciones menores provinieron de otras regiones: 7.34% (n = 108) del Noroeste, 7.14% (n = 105) del Este, 6.93% (n = 102) del Oeste, 3.60% (n = 53) del Centro-Norte, 2.38% (n = 35) del Sureste, 1.76% (n = 26) del Suroeste y 1.63% (n = 24) del Noreste. La mayoría de los participantes habían vivido en su estado de residencia actual desde su nacimiento, con una duración promedio de residencia de 21.30 años (DE = 8.27, rango = 0.02 - 54). En cuanto al nivel educativo alcanzado, la distribución de títulos completados entre los participantes fue la siguiente: 44.76% tenía un título de licenciatura (n = 658), mientras que 47.27% había completado estudios de posgrado (n = 695). Un porcentaje menor, 6.87%, tenía una maestría (n = 101), y solo 1.08% poseía un doctorado (n = 16). En lo que respecta a las disciplinas académicas, casi la mitad de los participantes (44.89%, n = 660) estaban involucrados en ciencias 55 sociales y humanidades. Las ciencias biológicas y médicas eran estudiadas por el 25.64% (n = 377). Las ciencias físico-matemáticas o la ingeniería representaban al 9.37% de los participantes (n = 137), mientras que el 5.37% (n = 79) estaba en ciencias económicas y administrativas. Cabe señalar que la pregunta sobre el campo de estudio era opcional, y algunos participantes optaron por no revelar esta información. Figura 8 Distribución de estados de residencia Nuestra encuesta demográfica evaluó la presencia de trastornos del desarrollo, psiquiátricos y neurológicos entre los participantes. La mayoría de los participantes no reportó un diagnóstico de trastornos del desarrollo; sin embargo, un pequeño subconjunto sí reveló tales diagnósticos. Específicamente, el 4.69% (n = 69) informó tener trastorno por déficit de atención e hiperactividad, mientras que el 2.72% (n = 40) indicó un diagnóstico de dislexia. El espectro autista y el retraso en el lenguaje fueron reportados por el 0.7% de los participantes (n = 11). El retraso motor y la discapacidad intelectual fueron reportados por el 0.6% (n = 9), y la discalculia fue mencionada por el 0.2% (n = 4). 56 Los datos demográficos también destacaron la presencia de trastornos psiquiátricos entre los participantes. Una proporción notable, el 24.48% (n = 360), informó un diagnóstico de ansiedad, mientras que el 19.11% (n = 281) reportó depresión. Proporciones menores de participantes indicaron diagnósticos de trastorno obsesivo-compulsivo (2.99%, n = 44) y trastorno de estrés postraumático (2.44%, n = 36). Otros trastornos menos comunes incluyeron trastornos alimenticios (1.83%, n = 27), dependencia de drogas (1.49%, n = 22), trastorno bipolar (0.68%, n = 10), trastornos disociativos (0.54%, n = 8) y esquizofrenia (0.27%, n = 4). Además, algunos participantes reportaron condiciones neurológicas: el 0.95% (n = 14) mencionó epilepsia, mientras que trauma cerebral y accidente cerebrovascular fueron señalados por el 0.47% (n = 10) y el 0.34% (n = 5), respectivamente. La encuesta también recopiló información sobre el uso de sustancias específicas por parte de los participantes. El 6.53% de los participantes (n = 96) informó el uso de antidepresivos, mientras que un porcentaje menor, el 3.40% (n = 50), reportó el uso de ansiolíticos. Pocos participantes indicaron el uso de opiáceos (1.83%, n = 27), antipsicóticos (0.68%, n = 10) y estabilizadores del ánimo (0.40%, n = 6). En una categoría separada, el 2.78% de los participantes (n = 41) informó haber consumido una droga ilegal dentro de las 24 horas previas a su participación en la tarea. Otra área de interés en nuestro estudio fue la competencia de los participantes en idiomas distintos al español. Cabe señalar que todos los participantes, excepto dos, identificaron el español como su lengua materna; las dos excepciones, hablantes nativos de náhuatl y tsotsil (lenguas indígenas mexicanas), fueron excluidos según los criterios del estudio. Entre los participantes restantes, el 48.50% reportó fluidez en al menos un idioma adicional, con un total de 12 idiomas diferentes mencionados. De estos participantes multilingües, el 90% identificó el inglés como su 57 segundo idioma, mientras que el 10% restante reportó diversos idiomas, incluyendo alemán, catalán, coreano, francés, italiano, japonés, lengua de señas mexicana, latín, maya, náhuatl, portugués, purépecha, rumano y ruso. La edad promedio de adquisición del segundo idioma fue de 11.13 años (DE = 5.96, rango = 1–35), lo que clasifica a estos individuos como aprendices tardíos de un segundo idioma. Además, estos participantes reportaron una exposición promedio a su segundo idioma de 5.43 horas por semana (DE = 11.50, rango = 0–150). Su autoevaluación de competencia en el segundo idioma, en una escala de 0 a 4, fue generalmente de moderada a baja. Específicamente, las puntuaciones promedio de competencia para hablar, escuchar, escribir y leer fueron de 1.54 (DE = 0.80), 1.09 (DE = 0.82), 1.30 (DE = 0.79) y 0.77 (DE = 0.77), respectivamente. Finalmente, una pequeña fracción, precisamente el 0.01% (n = 21), demostró habilidades multilingües, reportando competencia en más de dos idiomas. Materiales El Experimento 1 utilizó un conjunto de 2925 contextos oracionales. De estos, 1253 fueron adaptados de normas establecidas en estudios previos en inglés y chino (Block & Baldwin, 2010; Bloom & Fischler, 1980; Brothers & Kuperberg, 2021; Lahar et al., 2004; Nieuwland et al., 2020; Wang et al., 2018); sin embargo, también incluimos las dos normas existentes en español (McDonald & Tamariz, 2002; Rodríguez-Camacho et al., 2011). Las normas en inglés y chino fueron traducidas al español y adaptadas para alinearse con el contexto cultural mexicano. Cabe señalar que solo se incluyeron aquellos contextos que eran fácilmente traducibles y adaptables culturalmente al contexto mexicano en el conjunto de 1253 oraciones. A partir de los finales más frecuentes dentro de los 1253 contextos oracionales (n = 670), se creó un conjunto adicional de oraciones (n = 1672). El objetivo principal de este enfoque fue 58 asegurar una representación diversa de cada sustantivo único en diferentes niveles de restricción. Específicamente, para cada sustantivo único, se incluyó al menos una oración para representar cada nivel de restricción: alta (cierre > .70), media (cierre = .40 – .70) y baja (cierre < .40). En la elaboración del corpus, se seleccionaron 670 sustantivos, que representan una amplia gama de frecuencia por millón (M = 118, DE = 206.84, rango = 1–1879). Esta variabilidad se incluyó intencionalmente, ya que se anticipa que será valiosa en estudios futuros que exploren los efectos de la frecuencia en oraciones restringidas. En promedio, estos sustantivos consistieron en tres sílabas (DE = 0.84, rango = 1–6) y seis letras (DE = 1.87, rango = 2–14). En cuanto al género gramatical, el corpus incluyó 380 sustantivos masculinos y 290 femeninos. Es notable que, en muchos casos, el género gramatical podía modificarse alterando el morfema final; por ejemplo, “perro” puede cambiarse a “perra”. En términos de tipos de sustantivos, 465 fueron categorizados como concretos, mientras que 205 fueron abstractos. Figura 9 Relaciones Semánticas de todos los sustantivos finales del corpus Nota. Los ejes X e Y indican las palabras del corpus ordenadas por categoría. Así, la diagonal representa palabras dentro de la misma categoría. El color indica la similitud de coseno; los colores más rojos muestran palabras más relacionadas semánticamente. 59 Los sustantivos seleccionados exhibieron una amplia gama de propiedades semánticas, con notable variabilidad en las relaciones entre ellos, como se muestra en la Figura 9. La similitud semántica, calculada utilizando normas de características de Buchanan et al. (2019), mostró una distribución sesgada hacia la izquierda (M = 0.09, DE = 0.08, rango = 0.003–0.84). La mayoría de los sustantivos (81%) no compartieron ninguna característica entre sí; sin embargo, el 19% restante representó 25534 relaciones. Aunque esto es una minoría, proporciona un número suficiente de relaciones para los objetivos experimentales de nuestro estudio. Figura 10 Relaciones fonológicas de todos los sustantivos finales del corpus Nota. Los ejes X e Y indican las palabras del corpus ordenadas alfabéticamente. Así, la diagonal representa palabras con el mismo fonema inicial. El color indica la distancia de edición normalizada; los colores más azules muestran palabras más relacionadas fonológicamente. Las relaciones fonológicas entre los sustantivos (Figura 10), calculadas usando la distancia de edición normalizada, también mostraron un alto grado de variabilidad y una distribución sesgada hacia la izquierda (M = 0.12, DE = 0.07, rango = 0.03 – 0.75). Sin embargo, en contraste con las relaciones semánticas, solo el 26% de las palabras no estaban relacionadas fonológicamente en absoluto. Esto es esperado dado que las características morfológicas del 60 español a menudo producen relaciones fonológicas menores entre palabras. Por ejemplo, “perro” y “gato” son fonológicamente distintos, excepto por el fonema final “o”, que funciona como marcador de género masculino en español. Procedimiento La tarea experimental se alojó en Cognition (https://www.cognition.run/), una plataforma en línea que utiliza JavaScript para crear experimentos conductuales compatibles con varios dispositivos, incluidos computadoras, tabletas y teléfonos móviles. Los participantes accedieron al experimento escaneando un código QR o haciendo clic en un enlace (https://nlabvnm8td.cognition.run). Al ingresar a la plataforma, los participantes primero recibieron un formulario de consentimiento informado. Aquellos que no aceptaron los términos fueron redirigidos automáticamente a la página principal de Cognition. Una vez que los participantes aceptaron los términos, el experimento comenzó con una serie de preguntas de información personal no confidencial, capturando detalles demográficos como género, edad, nivel educativo y lugar de nacimiento. El cuestionario también indagó sobre la presencia de problemas neurodesarrollo, neuropsiquiátricos, neurológicos o de consumo de sustancias. A los participantes también se les pidió que autoevaluaran su competencia en idiomas distintos al español. A continuación, se llevó a cabo el procedimiento de cierre. Los participantes fueron presentados con oraciones incompletas en su última palabra y se les instruyó que proporcionaran rápidamente una palabra que completara mejor cada oración. Si una oración quedaba incompleta durante 15 segundos, era reemplazada por una nueva oración. Las 2924 oraciones se dividieron en 25 listas, cada una con 117 oraciones. Para minimizar posibles efectos de memoria, cada lista contenía sustantivos distintos (Figura 11). 61 Figura 11 Ejemplo del ensayo experimental Nota. Se pidió a los participantes que escribieran la palabra que mejor continuara las oraciones. Los ensayos cambiaban cuando el participante presionaba el botón “continuar” o después de 10 segundos. Procesamiento de datos Antes de comenzar el análisis formal, se aplicó un proceso de corrección manual a las respuestas. Este proceso incluyó la corrección de errores ortográficos, la conversión de todas las palabras a minúsculas y la eliminación de espacios superfluos. Los términos sinónimos (por ejemplo, “puerco” y “cerdo”, ambos significando “cerdo”) y las variaciones de género o número fueron estandarizados, seleccionando el término más representativo según la frecuencia y el ajuste sintáctico dentro del contexto de la oración. Las respuestas en blanco, con palabras irreconocibles o términos inexistentes se marcaron como errores. Análisis de datos Todos los análisis descriptivos se realizaron en Matlab (Matlab, 2020). Las respuestas de la tarea experimental se evaluaron utilizando tres métricas: probabilidad de cierre, sorpresa bayesiana y entropía. La probabilidad de cierre indica la probabilidad de que una palabra específica siga a una oración dada. Esta se calcula de la siguiente manera: 𝑝(𝑐𝑖𝑒𝑟𝑟𝑒)𝑖 = 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 62 Aquí, f representa la frecuencia absoluta de la i-ésima palabra, x. La probabilidad de cierre para cada palabra única se calcula dividiendo la frecuencia de esa palabra entre el número total de respuestas para la oración. La sorpresa bayesiana se define como el logaritmo negativo de la probabilidad condicional de que una palabra ocurra dentro de un contexto oracional dado (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018). En este contexto, la probabilidad condicional es equivalente a la probabilidad de cierre. Por lo tanto, las palabras con baja sorpresa tienen altas probabilidades de cierre, lo que indica predictibilidad, mientras que las palabras con alta sorpresa son menos esperadas. Aunque la probabilidad de cierre y la sorpresa están altamente correlacionadas, investigaciones previas han demostrado que la sorpresa a menudo sirve como un predictor más fuerte de la dificultad de procesamiento cognitivo que la probabilidad de cierre (Kuperberg & Jaeger, 2016). La transformación logarítmica también amplifica el efecto de las probabilidades de cierre más bajas en relación con las más altas. La sorpresa bayesiana se calcula de la siguiente manera: 𝑠𝑜𝑟𝑝𝑟𝑒𝑠𝑎 = −𝑙𝑜𝑔2 ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 ) Para facilitar la interpretación, se utilizaron logaritmos en base 2, alineados con la teoría de la información de Shannon (Shannon, 1948). Esto permite que la sorpresa se interprete como la cantidad de información, medida en bits, obtenida al encontrar la palabra final de una oración (Kuperberg & Jaeger, 2016). Así, la sorpresa cuantifica cuánta información nueva proporciona la palabra en el contexto dado, con valores más altos indicando mayor imprevisibilidad. La entropía es la tercera medida calculada para las respuestas y captura el grado de incertidumbre o imprevisibilidad en la finalización de la oración (Pickering & Gambi, 2018). A diferencia de la probabilidad de cierre y la sorpresa, la entropía proporciona un solo valor que 63 refleja tanto la diversidad de finales posibles como la distribución de sus probabilidades de cierre. Un valor alto de entropía indica una oración con una amplia variedad de posibles finales y una distribución relativamente uniforme de probabilidades de cierre, lo que sugiere menor predictibilidad. En contraste, un valor bajo de entropía refleja una oración con opciones de finalización limitadas y una distribución más sesgada, donde unos pocos finales tienen probabilidades de cierre mucho más altas que otros, lo cual indica mayor predictibilidad. La entropía se calcula de la siguiente manera: 𝑒𝑛𝑡𝑟𝑜𝑝í𝑎 = − ∑ ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 )𝑁 𝑖=1 (𝑙𝑜𝑔2 ( 𝑓(𝑥𝑖)∑ 𝑓(𝑥𝑖)𝑁𝑖=1 )) Al igual que con la sorpresa, en el cálculo de la entropía se utilizan logaritmos en base 2, lo que permite interpretar los valores de entropía dentro del marco de la teoría de la información de Shannon (Shannon, 1948). Esto significa que la entropía, expresada en bits, cuantifica la cantidad promedio de incertidumbre o “contenido informativo” asociada con la predicción de la palabra final de una oración en función de la variabilidad de las respuestas. Resultados La Figura 12 presenta las distribuciones de las probabilidades de cierre, los valores de sorpresa para la respuesta más frecuentemente dada y la entropía para cada una de las 2925 oraciones. En promedio, cada oración fue completada por 55.06 participantes (DE = 6.18, rango = 39-67 participantes), lo cual es notablemente mayor que el número de participantes reportado en estudios previos (por ejemplo, n = 30; DeLong et al., 2005; Wang et al., 2018). El número relativamente alto de participantes por oración garantiza que las probabilidades de cierre derivadas de este conjunto de datos sean confiables para su uso experimental. La distribución de la probabilidad de cierre en todo el corpus es aproximadamente uniforme, lo que indica que las oraciones están distribuidas de manera equitativa en distintos rangos de probabilidad de cierre. En 64 contraste, la distribución de la sorpresa está sesgada hacia la izquierda, sugiriendo que un mayor número de oraciones produce valores de sorpresa bajos en comparación con los valores altos. Este patrón es consistente con la transformación logarítmica aplicada, que penaliza con mayor fuerza las respuestas con probabilidades de cierre más bajas. Por último, la distribución de la entropía es generalmente plana, lo que implica un número aproximadamente igual de oraciones en diferentes niveles de incertidumbre, excepto en los niveles más altos de entropía. Figura 12 Distribuciones de medidas de predictibilidad Los análisis estadísticos revelan que la probabilidad de cierre, la sorpresa y la entropía están significativamente correlacionadas (p < 0.001; Figura 13). Esta fuerte correlación indica que 65 estas medidas están estrechamente relacionadas, compartiendo gran parte de la misma variabilidad y capturando en gran medida el mismo constructo subyacente. Sin embargo, investigaciones previas han demostrado que estas medidas pueden tener asociaciones diferenciales con el desempeño en tareas predictivas (Lowder et al., 2018; Yan et al., 2017). Esto resalta la importancia de considerar las tres medidas en estudios sobre el procesamiento predictivo del lenguaje, ya que cada una podría capturar aspectos únicos de este complejo proceso. Figura 13 Correlaciones entre medidas del corpus Nota. Para mayor claridad, las celdas de la diagonal se colorearon en gris. La intensidad del color azul y morado indica la fuerza de las correlaciones positivas y negativas, respectivamente. Discusión El Experimento 1 tuvo como objetivo crear un corpus de finalización de oraciones específicamente diseñado para hablantes de español mexicano. Si bien estudios previos han desarrollado normas de finalización de oraciones, estas normas no son necesariamente aplicables en todos los contextos de investigación, especialmente en el campo de la predicción (McDonald & Tamariz, 2002; Rodríguez-Camacho et al., 2011). Por ejemplo, McDonald y Tamariz (2002) reportaron probabilidades de cierre para hablantes de español de España, pero estas probabilidades pueden diferir entre poblaciones y culturas (Arcuri et al., 2001). Por lo tanto, no es adecuado 66 asumir que los hablantes de español mexicano responderían de manera idéntica a las mismas oraciones. De manera similar, Rodríguez-Camacho et al. (2011) validaron oraciones con escolares mexicanos, pero las habilidades predictivas pueden evolucionar con la edad debido a experiencias y etapas de desarrollo diferentes (Lahar et al., 2004; Pinheiro et al., 2010), lo que hace que sus datos sean menos aplicables a una población adulta. Además, estos corpus previos se centran principalmente en presentar una variedad de palabras finales para cada oración, lo cual dificulta encontrar oraciones que concluyan con la misma palabra. Esto limita su idoneidad para estudios que buscan examinar el efecto del contexto oracional en la predictibilidad de una palabra específica, una pregunta común en la investigación sobre predicción. Por lo tanto, existe una necesidad clara de un corpus como el desarrollado en el Experimento 1, que permita el estudio controlado de la predicción específicamente entre hablantes de español mexicano. El nuevo corpus de finales de oraciones constituye un recurso valioso para llevar a cabo investigaciones basadas en la predicción. Desarrollado específicamente para hablantes de español mexicano, proporciona valores de probabilidad de cierre para una amplia gama de finales de oraciones anticipados, cada uno asociado con diferentes niveles de probabilidad de cierre. Además, el corpus incluye métricas clave relevantes para estudios de predicción, tales como probabilidad de cierre, sorpresa y entropía, lo que lo convierte en una herramienta integral para examinar la predictibilidad del lenguaje en esta población. Participantes de diversas regiones de México, con perfiles demográficos variados que incluyen género, edad, nivel educativo, ocupación, habilidades bilingües y neurodiversidad, contribuyeron al corpus. Es importante reconocer que esta variabilidad no está perfectamente balanceada, ya que cada participante contribuyó solo a un pequeño subconjunto de oraciones, lo 67 cual podría minimizar el impacto de influencias demográficas específicas. Por ejemplo, una proporción significativa de los participantes proviene del centro de México (alrededor del 70%), lo que plantea interrogantes sobre la generalización de los resultados a otras regiones. Además, la mayoría de los participantes eran estudiantes universitarios (92%) o se identificaron como neurotípicos (92%), lo que podría limitar aún más la aplicabilidad de los hallazgos a diferentes antecedentes educativos y poblaciones neurodiversas. Si bien el corpus está diseñado principalmente para apoyar esta tesis, también está pensado para servir como un recurso valioso para investigaciones psicolingüísticas en español mexicano. Las investigaciones futuras deberían considerar la relevancia de este corpus para sus propios estudios. Todos los materiales utilizados en este experimento están disponibles de forma gratuita en el material complementario de la publicación (Angulo-Chavira et al., 2023). Los investigadores pueden utilizar estos materiales para calcular probabilidades de cierre, aplicando diferentes procesos de unificación o criterios de inclusión para adaptar la medida a sus necesidades específicas de investigación. 68 Experimento 2: Rastreo ocular El Experimento 2 tuvo como objetivo examinar el curso temporal del acceso léxico predictivo a la información semántica y fonológica utilizando el paradigma del mundo visual. Este enfoque crea un entorno visual competitivo, que requiere que los participantes se enfoquen en una pieza de información a la vez. Opera bajo el supuesto de que la secuencia de fijaciones oculares refleja el acceso temporal a la información correspondiente (Chow et al., 2017, 2022; Huettig & McQueen, 2007). Así, cuando los participantes escuchan oraciones restringidas, pueden mostrar fijaciones predictivas hacia competidores relacionados semánticamente o fonológicamente, pero no a ambos simultáneamente. Si las fijaciones oculares se desplazan hacia el competidor semánticamente relacionado antes que hacia el fonológicamente relacionado, esto indicaría que la activación predictiva ocurre en ese orden. Este experimento pretende aportar información valiosa sobre el orden del procesamiento semántico y fonológico durante la predicción. Participantes En el Experimento 2, estudiamos una muestra final de 43 estudiantes de licenciatura (edad promedio = 19.63 años, DE = 1.23; 12 hombres) de la Universidad Nacional Autónoma de México (UNAM). Todos los participantes eran hablantes nativos de español y reportaron tener visión y audición normales o corregidas. Se evaluaron tres participantes adicionales, pero fueron excluidos debido a un bajo desempeño conductual (n = 2) o a una alta proporción de ensayos no atendidos (n = 1). Nuestro tamaño de muestra (n = 43) superó el número derivado de nuestro análisis de poder (n = 21), basado en un tamaño de efecto medio para una comparación pareada (δ = 0.66, α = 0.05, β = 0.80). Este análisis fue basado en estudios con diseños similares en el paradigma del mundo visual (VWP, por sus siglas en inglés), como los de Chow et al. (2022) y Huettig et al. (2011). Además, nuestro tamaño de muestra fue mayor que en estudios previos que identificaron 69 exitosamente un efecto fonológico predictivo en VWP. Por ejemplo, Ito et al. (2018) incluyeron 24 participantes, y Kukona (2020) tuvo 30 participantes. Por lo tanto, el tamaño de muestra de nuestro estudio fue suficientemente robusto para investigar de manera efectiva la influencia de los competidores semánticos y fonológicos en el procesamiento predictivo del lenguaje. Instrumentos Para cuantificar las variaciones en las habilidades predictivas entre individuos, se realizó una serie de evaluaciones cognitivas. El enfoque principal de estas evaluaciones fue medir la velocidad de procesamiento y la capacidad de memoria de trabajo, dada su relación bien documentada con las habilidades predictivas generales (Huettig & Janse, 2016). Específicamente, las evaluaciones se centraron en habilidades verbales y no verbales para comprender mejor la naturaleza de las habilidades predictivas durante la comprensión del lenguaje. El objetivo fue determinar si estas habilidades están más estrechamente asociadas con capacidades específicas del lenguaje o si se extienden a dominios cognitivos más amplios. Este enfoque pretende ofrecer una comprensión más matizada de los factores que modelan las habilidades predictivas. La tarea de Fluidez Verbal Semántica (Ostrosky-Solís et al., 1998) está diseñada para evaluar la velocidad de procesamiento verbal, particularmente en relación con la organización de la memoria semántica. En esta tarea, se instruye a los participantes para que enumeren la mayor cantidad posible de nombres únicos de animales en un lapso de 60 segundos. La métrica principal de rendimiento es el número total de nombres de animales distintos producidos en este tiempo, lo cual sirve como un indicador de la fluidez verbal del participante, reflejando tanto su velocidad de procesamiento verbal como la eficiencia de su organización de memoria semántica. La tarea de Fluidez Verbal Fonológica (Ostrosky-Solís et al., 1998) está diseñada para evaluar la velocidad de procesamiento verbal, con un enfoque particular en la función ejecutiva y 70 la coactivación fonológica. A los participantes se les instruye generar la mayor cantidad posible de palabras únicas que contengan el fonema /f/, sin repetición, en un período de 60 segundos. La puntuación final, que representa una medida de la velocidad de procesamiento verbal y la función ejecutiva de los participantes, se calcula en función del número total de palabras distintas generadas dentro del tiempo asignado. La tarea de Codificación (Wechsler, 2008) está diseñada para evaluar la velocidad de procesamiento no verbal. En esta prueba, cada número se empareja con un símbolo específico, y se desafía a los participantes a escribir el símbolo correspondiente debajo de una serie de números en un límite de tiempo de 120 segundos. La puntuación final, que mide la velocidad de procesamiento no verbal del participante, se calcula contando el número total de asociaciones correctas entre símbolos y números realizadas en el tiempo asignado. Esta tarea ofrece una visión valiosa sobre la agilidad cognitiva del participante en el procesamiento de información no verbal. La tarea de Retención de Dígitos (Wechsler, 2008) está diseñada para evaluar la memoria de trabajo verbal. En esta prueba, los participantes escuchan una secuencia de números pronunciada por el evaluador, que deben repetir en el mismo orden (hacia adelante) o en orden inverso (hacia atrás). La puntuación final del orden inverso, que refleja la memoria de trabajo verbal del participante, se basa en la longitud de la secuencia más larga que pueden reproducir con precisión. Por lo tanto, aquí se utilizó el orden inverso. La tarea de Cubos de Corsi (Ostrosky-Solís et al., 1998) está diseñada para medir la memoria de trabajo no verbal. En esta tarea, el evaluador indica una secuencia de cubos, y el participante debe replicar la secuencia de posiciones de los cubos, ya sea en el mismo orden o en orden inverso. La puntuación final del orden inverso, que sirve como medida de la memoria de trabajo no verbal del participante, se determina por la longitud de la secuencia más larga de 71 posiciones de cubos que el participante puede recordar con precisión. Por lo tanto, aquí se utilizó el orden inverso. Estímulos Selección de oraciones Se seleccionaron 32 oraciones con alta probabilidad de cierre (M = 0.88, DE = 0.08, rango = 0.70 - 1.00), baja sorpresa y baja entropía a partir de los resultados del Experimento 1. Estas oraciones fueron elegidas por la fuerte relación semántica entre el verbo y el objetivo (por ejemplo, humo-cigarrillo) y el alto grado de representatividad y concreción de la palabra final. Esta cuidadosa selección asegura que las oraciones sean adecuadas para examinar el procesamiento predictivo del lenguaje, ya que la naturaleza predecible de las palabras objetivo facilita el análisis de los efectos semánticos y contextuales. En 21 de estas oraciones, las tres últimas palabras seguían una estructura de verbo + determinante + palabra esperada. Las 11 oraciones restantes tenían una estructura diferente, pero siempre concluían con la palabra crítica esperada. La mitad de estas oraciones fueron diseñadas para que el contexto general estuviera semánticamente relacionado con la palabra esperada, como en “Durante la luna llena aulló el lobo”. Estas oraciones se dividieron equitativamente en categorías experimentales y de relleno, asegurando un diseño balanceado para examinar los efectos del contexto semántico en el procesamiento predictivo. Para estandarizar la longitud de todas las oraciones, se homogeneizaron a siete palabras. Algunas oraciones fueron reestructuradas para seguir un formato de verbo + determinante + palabra crítica. En la mayoría de los casos, se introdujo una frase adverbial para ajustar la longitud. Ocasionalmente, se modificó la estructura sintáctica, pero siempre se preservó el contenido semántico de las oraciones para mantener el significado y contexto intencionados. 72 Tabla 1 Oraciones experimentales del Experimento 2 ID Tipo Oración O1 E En el aeropuerto, Susana abordó el avión O2 E El vaquero disparó y enfundó su pistola O3 E Por su aliento necesitaba masticar un chicle O4 E Juan se preparó para montar a caballo O5 E Ayer, compré harina para hornear un pastel O6 E Durante la luna llena, aulló el lobo O7 E Después de comer, se cepilló los dientes O8 E Está oscuro porque se fundió el foco O9 E Estaba triste porque le lloraban los ojos O10 E El sartén se calentó en la estufa O11 E Para hacer jugo, Ana exprimió una naranja O12 E Con delicadeza, el carpintero lija la madera O13 E En la regadera, me lavé con jabón O14 E Al comer, Mario se mordió la lengua O15 E Óscar se despertó y tendió su cama O16 E Al comer debo mantener cerrada la boca O17 F Al carro se le ponchó la llanta O18 F En la cena brindé con una copa O19 F El pasto se regó con una manguera O20 F El capitán se hundió con su barco O21 F Antonio nunca olvidó cómo andar en bicicleta O22 F Para cubrirme del frío, tejí un suéter O23 F En la biblioteca, Lupita lee un libro O24 F Corrió rápido para hacer volar su papalote O25 F Ayer, Luis se afeitó con un rastrillo O26 F Con fuerza, mi papá martilló un clavo O27 F La blusa se quemó con la plancha O28 F El carnicero del mercado afiló un cuchillo O29 F En el patio, Miguel fuma un cigarro O30 F Antes de salir, Ignacio boleó sus zapatos O31 F Sin miedo, el soldado disparó una bala O32 F El tocino se frio en el sartén Nota. La posición del determinante del verbo y del sustantivo esperado puede variar según la traducción. El verbo está en cursiva y el sustantivo esperado en negrita para facilitar su identificación. E, experimental; F, relleno. El sustantivo esperado se incorporó en una oración altamente restringida, como “compré una nueva correa para sacar a pasear a mi perro”. Todas las oraciones fueron grabadas por un 73 hablante nativo de español con entonación neutral para asegurar que ninguna parte de la oración se enfatizara. Las grabaciones se realizaron en una sala insonorizada utilizando un micrófono Shure MV51. Después de la grabación, los archivos de audio fueron amplificados y normalizados utilizando Adobe Audition para garantizar niveles de sonido consistentes en todas las oraciones. Para un control más preciso sobre los estímulos, se realizaron dos estudios piloto para evaluar la plausibilidad y la probabilidad de cierre de las oraciones. Además, se llevaron a cabo dos estudios descriptivos para examinar la relación semántica entre la palabra objetivo, el verbo y el contexto general. Estudio piloto 1: plausibilidad El Estudio Piloto 1 se diseñó principalmente para medir la plausibilidad de las oraciones en hablantes de español mexicano, evaluando específicamente si las oraciones eran percibidas como naturalmente posibles o probables de escucharse en un contexto dado. Esta evaluación fue crucial, ya que cualquier irregularidad en la estructura semántica o sintáctica podría inducir una señal de predicción errónea, afectando así las predicciones semánticas y fonológicas asociadas con la palabra crítica. El estudio involucró a 60 estudiantes de licenciatura (29 hombres, 31 mujeres), con una edad promedio de 23.13 años (DE = 3.50, rango = 18–29). La tarea experimental se administró en línea mediante la plataforma Cognition (https://www.cognition.run/). Antes de comenzar la tarea, los participantes debían aceptar el consentimiento informado; de lo contrario, no podían continuar. Se pidió a los participantes que evaluaran la plausibilidad de las oraciones en una escala analógica de 0 a 1, donde 0 representaba oraciones no naturales y 1 indicaba oraciones naturales. 74 También se les proporcionaron tres ensayos de familiarización para asegurar que comprendieran la tarea. Figura 14 Plausibilidad de oraciones Nota. El ID de la oración es el mismo que en la Tabla 1. La línea vertical indica el nivel de probabilidad. Los resultados descriptivos indicaron una puntuación promedio de plausibilidad de 0.77 (DE = 0.52, rango = 0.65–0.87). No hubo diferencias estadísticamente significativas entre las 75 oraciones experimentales (M = 0.76, DE = 0.05) y las oraciones de relleno (M = 0.78, DE = 0.04) (t(30) = 1.55, p = 0.132). Ambos tipos de oraciones obtuvieron puntuaciones significativamente superiores al nivel de probabilidad de 0.5 (Experimental: t(15) = 19.81, p < 0.001; Relleno: t(15) = 23.23, p < 0.001). Estos resultados sugieren un nivel aceptable de plausibilidad (máximo = 1). Cada oración se comparó individualmente con el nivel de probabilidad para excluir aquellas oraciones consideradas implausibles (ver Figura 14 y Tabla 1). Las pruebas de rango con signo de Wilcoxon de una muestra contra el nivel de probabilidad (0.5) mostraron que todas las oraciones obtuvieron puntuaciones significativamente superiores al nivel de probabilidad (todos las p-valores < 0.001), lo que indica que los participantes consideraron las oraciones como plausibles. En resumen, todas las oraciones se consideraron plausibles dentro de una muestra que compartía características similares a nuestro grupo experimental. Estudio piloto 2: Probabilidad de cierre Aunque se obtuvieron probabilidades de cierre en el Experimento 1, las modificaciones en la longitud y la estructura sintáctica de las oraciones podrían afectar su predictibilidad. En consecuencia, las 32 oraciones fueron re-evaluadas utilizando una tarea similar a la del Experimento 1. La única modificación fue que se pidió a los 60 participantes que proporcionaran información demográfica limitada a su edad (M = 23.21, DE = 3.41, rango = 18–28) y género (25 hombres, 35 mujeres). La Tabla 2 presenta los valores de cierre, sorpresa y entropía de las oraciones utilizadas en el Experimento 2. El análisis descriptivo reveló que ambos tipos de oraciones mostraron una alta probabilidad de cierre (Experimentales: M = 0.97, DE = 0.02, rango = 0.90–1.00; Relleno: M = 0.95, DE = 0.03, rango = 0.88–1.00), baja sorpresa (Experimentales: M = 0.04, DE = 0.04, rango 76 = 0.00–0.15; Relleno: M = 0.06, DE = 0.05, rango = 0.00–0.18) y baja entropía (Experimentales: M = 0.20, DE = 0.18, rango = 0.00–0.51; Relleno: M = 0.29, DE = 0.25, rango = 0.00–0.85). Tabla 2 Predictibilidad del target respecto a la oración ID Tipo Objetivo P(cierre) Sorpresa Entropía O1 Experimental Avión 0.97 0.044 0.242 O2 Experimental Pistola 0.9 0.152 0.516 O3 Experimental Chicle 1 0 0 O4 Experimental Caballo 0.99 0.014 0.081 O5 Experimental Pastel 0.94 0.089 0.483 O6 Experimental Lobo 1 0 0 O7 Experimental Dientes 1 0 0 O8 Experimental Bombilla 1 0 0 O9 Experimental Ojos 0.96 0.059 0.322 O10 Experimental Estufa 0.96 0.059 0.282 O11 Experimental Naranja 0.93 0.105 0.482 O12 Experimental Madera 0.96 0.059 0.302 O13 Experimental Jabón 0.97 0.044 0.242 O14 Experimental Lengua 1 0 0 O15 Experimental Cama 0.96 0.059 0.302 O16 Experimental Boca 0.99 0.014 0.081 O17 Relleno Llanta 1 0 0 O18 Relleno Vaso 1 0 0 O19 Relleno Manguera 0.97 0.044 0.222 O20 Relleno Barco 0.97 0.044 0.222 O21 Relleno Bicicleta 0.95 0.074 0.382 O22 Relleno Suéter 0.9 0.152 0.599 O23 Relleno Libro 0.99 0.014 0.081 O24 Relleno Cometa 0.93 0.105 0.462 O25 Relleno Navaja 0.99 0.014 0.081 O26 Relleno Clavo 0.97 0.044 0.222 O27 Relleno Plancha 0.93 0.105 0.562 O28 Relleno Cuchillo 0.98 0.029 0.161 O29 Relleno Puro 0.97 0.044 0.242 O30 Relleno Zapatos 0.99 0.014 0.081 O31 Relleno Bala 0.88 0.184 0.852 O32 Relleno Sartén 0.91 0.136 0.586 Nota. El ID corresponde a las oraciones presentadas en la Tabla 1. 77 Según la prueba de Mann-Whitney U, no se observaron diferencias significativas entre las oraciones experimentales y las de relleno en términos de probabilidad de cierre (Z = 0.85, p = 0.40), sorpresa (Z = 0.85, p = 0.40) y entropía (Z = 0.79, p = 0.42). El alto valor de probabilidad de cierre (0.96) indica que estas oraciones están altamente restringidas, lo que significa que la palabra objetivo crítica era altamente predecible dentro de su contexto. La palabra objetivo también mostró valores bajos de sorpresa (0.058), lo que sugiere que aportó una mínima cantidad de información adicional al contexto de la oración debido a su alta predictibilidad. Finalmente, el contexto de las oraciones produjo un bajo nivel de entropía (0.24), indicando que el contexto generó una mínima incertidumbre respecto a las posibles continuaciones de la oración. Es importante destacar que todas las oraciones generaron una alta restricción hacia la palabra objetivo crítica, superando ligeramente la restricción observada en el corpus del Experimento 1. Esta diferencia podría atribuirse a los cambios en la longitud y estructura sintáctica de las oraciones o, posiblemente, al tamaño de muestra más grande y menos variable en el estudio actual. Selección de competidores Se seleccionaron un total de treinta y dos grupos de palabras competidoras, cada uno basado en la palabra predicha de cada oración (Tablas 3 y 4). Por ejemplo, en la oración experimental “Delicadamente, el carpintero lija la madera”, cada conjunto incluía el sustantivo final esperado, como “madera”, junto con cuatro palabras competidoras. Estas incluían dos sustantivos relacionados con la palabra predicha: un competidor semántico, como “ladrillo”, y un competidor fonológico, como “maleta”. Además, se incluyeron tres palabras que no estaban relacionadas ni semántica, ni fonológica, ni asociativamente con la palabra objetivo, tales como “reloj”, “botón” y “coyote”. 78 Para las oraciones de relleno, se eligieron tres palabras que no tenían relación semántica, fonológica ni asociativa con la palabra objetivo común, con el fin de asegurar un diseño experimental balanceado. Tabla 3 Target and competidores ID Objetivo Fonológico Semántico No relacionados O01 avión abrigo cohete rata sierra enchufe O02 pistola pizza arco cucharón gorro recogedor O03 chicle chimenea dulce raqueta espejo gato O04 caballo candado rinoceronte toalla flauta tren O05 pastel pantera gelatina regla falda cuerda O06 lobo lodo tigre taza radio arete O07 dientes diamante nariz rifle patineta faro O08 foco foca vela guante brújula pan O09 ojos oso dedo escoba taladro camisa O10 estufa estrella refrigerador árbol periódico violín O11 naranja navaja melón burro helicóptero peine O12 madera maleta paja reloj botón zanahoria O13 jabón jaula pasta ancla pera guitarra O14 lengua lentes mano collar nave balcón O15 cama camarón sillón globo fuente buitre O16 boca bolsa pie dados pingüino televisión O17 llanta - - cordero muñeca brócoli O18 copa - - antorcha tiburón flor O19 manguera - - autobús durazno frasco O20 barco - - aguacate flecha cebra O21 bicicleta - - zapatillas rábano calendario O22 suéter - - barril submarino ballena O23 libro - - cerillo delfín buzón O24 papalote - - almohada hormiga rosquilla O25 rastrillo - - pluma cartera elefante O26 clavo - - nutria popote mochila O27 plancha - - tenis caja acordeón O28 cuchillo - - trompeta paloma lavadora O29 cigarro - - tortuga maíz casco O30 zapatos - - leche edificio botella O31 bala - - cisne bufanda arpa O32 sartén - - puma regalo bocina Nota. Las palabras se presentaron en español. Así, la similitud fonológica se calculó utilizando transcripciones fonémicas en español. Los ID corresponden a las oraciones en la Tabla 1. 79 El grado de relación semántica se midió utilizando el índice de similitud de Lin, el cual considera dos factores principales al calcular la similitud: la distancia entre dos conceptos y la frecuencia de uso de las palabras. La distancia entre conceptos se determina identificando el “ancestro común más cerano” en WordNet (Miller, 1995); esto se refiere a la categoría más profunda que comparten dos conceptos dentro de una taxonomía jerárquica. Por ejemplo, las palabras “perro” y “gato” están vinculadas a “canino” y “felino”, respectivamente, ambos bajo la categoría más amplia de “animales”. Así, la distancia del ancestro común es 2. El índice de similitud de Lin ajusta esta distancia en función de la probabilidad de que las palabras aparezcan juntas en un corpus, utilizando el corpus SemCor (Landes et al., 1998) para los cálculos en este estudio. El índice de similitud varía de 0 a 1, donde un valor de 1 indica que los dos conceptos son idénticos, mientras que un valor de 0 sugiere una separación semántica significativa entre ellos. La relación fonológica se evaluó mediante la similitud de edición normalizada (Yujian & Bo, 2007), calculada a partir de las transcripciones fonológicas del español mexicano. Los valores de similitud de edición normalizada oscilan entre 0 y 1, donde 1 indica que dos palabras comparten todos sus fonemas, y 0 significa que no hay superposición fonética. Esta métrica se basa en la distancia de Levenshtein, que mide el número de cambios (adiciones, eliminaciones o sustituciones) necesarios para transformar una cadena de caracteres en otra (Yujian & Bo, 2007). Por ejemplo, la distancia entre “pato” y “gato” es uno, ya que solo se necesita una modificación (sustitución de ‘p’ por ‘g’) para convertir una palabra en la otra. Además, para cuantificar la correlación entre la palabra anticipada y sus competidores, así como el contexto de las oraciones, se implementó un método basado en el Análisis Semántico Latente (LSA, por sus siglas en inglés). LSA es una técnica de procesamiento del lenguaje natural 80 y recuperación de información que detecta patrones en las relaciones entre términos y conceptos dentro de un conjunto de texto no estructurado. Opera bajo el principio de que las palabras utilizadas en contextos similares tienden a tener significados similares. El objetivo principal de LSA es reducir la dimensionalidad de los datos transformándolos en un conjunto más pequeño de variables latentes, lo que ayuda a descubrir relaciones ocultas o “latentes” entre palabras y sus contextos. Esta técnica asume que existen conexiones significativas entre palabras que aparecen frecuentemente en entornos textuales similares (Landauer & Dumais, 1997). Los valores referenciados anteriormente se calcularon utilizando una herramienta desarrollada y alojada por la Universidad de Colorado, accesible en: http://wordvec.colorado.edu/index.html. Tabla 4 Medidas de similitud semántica y fonológica ID Similitud semántica Similitud fonológica Similitud contextual F S N1 N2 N3 F S N1 N2 N3 O F S N1 N2 N3 O01 .31 .67 .15 .00 .12 .33 .00 .00 .00 .00 .60 .31 .28 .13 .38 .11 O02 .06 .63 .40 .31 .00 .27 .07 .00 .07 .00 .53 .14 .45 .18 .36 .01 O03 .06 .86 .05 .05 .06 .27 .11 .09 .00 .00 .24 .24 .33 .27 .13 .21 O04 .16 .77 .16 .14 .18 .40 .04 .20 .00 .00 .36 .26 .12 .25 .16 .16 O05 .00 .30 .05 .05 .06 .40 .06 .00 .09 .00 .43 .22 .10 .10 .34 .03 O06 .06 .63 .13 .13 .00 .60 .00 .00 .11 .00 .10 .16 .06 .08 .07 .06 O07 .06 .45 .07 .00 .06 .33 .07 .16 .06 .00 .17 .13 .37 .39 .21 .17 O08 .00 .81 .00 .42 .06 .60 .00 .00 .00 .00 .42 .24 .50 .17 .08 .26 O09 .06 .54 .07 .00 .08 .33 .00 .09 .00 .09 .48 .12 .35 .47 .07 .37 O10 .00 .81 .16 .27 .24 .40 .09 .00 .05 .00 .48 .11 .47 .14 .16 .10 O11 .00 .75 .00 .00 .13 .55 .07 .00 .00 .07 .41 .07 .27 .11 .18 .15 O12 .07 .83 .07 .06 .00 .50 .20 .00 .00 .23 .48 .13 .33 .12 .14 .07 O13 .06 .82 .06 .34 .06 .25 .11 .00 .00 .00 .16 .30 .15 .11 .13 .12 O14 .06 .48 .06 .07 .00 .33 .09 .00 .09 .00 .33 .43 .48 .24 .18 .28 O15 .00 .70 .37 .27 .15 .40 .00 .00 .00 .00 .49 .12 .39 .15 .38 .14 O16 .07 .49 .07 .00 .06 .42 .00 .00 .00 .05 .28 .46 .34 .36 .12 .11 Nota. O: Objetivo, F: Competidor fonológico, S: Competidor semántico, N: Competidor no relacionado. Similitud semántica: similitud de Lin basada en WordNet. Similitud fonológica: similitud de edición normalizada. Similitud de contexto: análisis semántico latente. Según la medida de similitud de Lin, el competidor semántico mostró un mayor grado de relación semántica con la palabra esperada (mediana = 0.68, rango = 0.30–0.86) en comparación con los competidores no relacionados (mediana = 0.07, rango = 0.04–0.27). Esta diferencia fue 81 estadísticamente significativa (Z = 3.51, p < 0.001), lo que refuerza la conclusión de que existe una vinculación semántica más fuerte entre el competidor semántico y la palabra esperada. Por el contrario, no se detectó una diferencia estadísticamente significativa entre el competidor semántico (mediana = 0.07, rango = 0.00–0.20) y los competidores no relacionados (mediana = 0.02, rango = 0.00–0.08) en términos de distancia de edición normalizada (Z = 1.81, p = 0.06). Esta métrica mide la similitud fonológica y los resultados indican que no hubo una similitud fonológica significativa entre el competidor semántico y el objetivo esperado. Por lo tanto, aunque se encontró que el competidor semántico tenía una fuerte conexión semántica con la palabra objetivo, también fue evidente la falta de similitud fonológica entre ambos. Los resultados del Análisis Semántico Latente (LSA) no revelaron una diferencia significativa entre el objetivo esperado y el competidor semántico (Z = 1.39, p = 0.16). Sin embargo, el competidor semántico mostró valores significativamente más altos en comparación con los competidores no relacionados (Z = 2.99, p = 0.003). Estos resultados coinciden con la idea de que parte de las relaciones semánticas se basan inherentemente en la co-ocurrencia de conceptos y referentes. Por lo tanto, aunque el competidor semántico puede no haber sido una continuación plausible en el contexto específico de la oración, su significado inherente aún se encontró conectado con el objetivo esperado cuando se analizó mediante el enfoque de LSA. En contraste, el competidor fonológico (mediana = 0.40, rango = 0.25–0.60) demostró un valor significativamente mayor de similitud de edición normalizada en comparación con el promedio de los competidores no relacionados (mediana = 0.03, rango = 0.00–0.08) (Z = 3.51, p < 0.001). Este resultado indica que el competidor fonológico no solo compartía fonemas iniciales con el objetivo, sino que también exhibía una mayor semejanza fonológica en comparación con los competidores no relacionados. 82 El análisis de similitud de Lin no reveló diferencias significativas (Z = 1.29, p = 0.196) entre el competidor fonológico (mediana = 0.06, rango = 0.00–0.31) y el promedio de los competidores no relacionados (mediana = 0.07, rango = 0.04–0.27). Estos resultados sugieren que las palabras competidoras, incluyendo el competidor fonológico, no comparten una relación semántica sustancial. Adicionalmente, el LSA indicó que la palabra esperada mostró una asociación más fuerte con el contexto de la oración en comparación con el competidor fonológico (Z = 2.44, p = 0.01) y el promedio de los competidores no relacionados (Z = 3.25, p = 0.001). Sin embargo, al comparar el competidor fonológico con los competidores no relacionados, no se detectaron diferencias significativas (Z = 0.90, p = 0.35). Esto indica que, dentro del contexto de las oraciones utilizadas en este estudio, la palabra esperada mantuvo una conexión contextual más fuerte. En contraste, el competidor fonológico y los competidores no relacionados no mostraron diferencias sustanciales en sus asociaciones contextuales. Estímulos visuales Los estímulos visuales utilizados en el estudio consistieron en fotografías reales que representaban al objetivo, al competidor semántico, al competidor fonológico y a los competidores no relacionados. Estas imágenes de competidores fueron fotografías auténticas a color obtenidas de bibliotecas de imágenes públicas disponibles en internet. Para asegurar que las imágenes fueran reconocidas y nombradas como se esperaba, se solicitó a 140 estudiantes de licenciatura (edad promedio = 24.27 años, DE = 3.61, incluyendo 66 hombres) que proporcionaran nombres para las fotografías. Cada fotografía fue evaluada por 70 participantes, ya que las imágenes se dividieron en dos conjuntos. La tasa general de reconocimiento correcto de los estímulos visuales fue excepcionalmente alta, con un 98.43% (DE = 0.05, rango = 53–100). Solo una imagen obtuvo 83 una tasa de reconocimiento inferior al 70%, en la que los participantes respondieron con un sinónimo (dona-rosquilla). Dado que esta palabra correspondía a una imagen distractora, se decidió conservar la imagen en el estudio. Cada fotografía se redimensionó a 300x300 píxeles y se dispuso equidistantemente en una cuadrícula de 2x2 sobre un fondo gris de 1440x1080 píxeles (RGB: 158, 158, 158). Si bien la evidencia empírica sugiere que las fotografías provocan efectos similares en el Paradigma del Mundo Visual (VWP) que los dibujos (Chow et al., 2017), muchos estudios han utilizado tradicionalmente dibujos en blanco y negro para controlar la saliencia visual, a pesar del alto reconocimiento de las fotografías. Para cuantificar la saliencia de las imágenes utilizadas en este estudio, se empleó una caja de herramientas de saliencia diseñada para MATLAB (Walther & Koch, 2006). Esta herramienta genera mapas de saliencia basados en la ubicación, el color y la intensidad de los objetos en una imagen, simulando cómo la atención podría ser atraída mediante procesamiento ascendente. Estos mapas de saliencia ayudan a identificar las regiones dentro de cada imagen que probablemente atraerán más atención, permitiendo una evaluación más controlada de los estímulos visuales en el estudio. Los mapas de saliencia se generaron para la disposición 2x2 de las imágenes tal como se presentaron en el estudio (Figura 15). Los cálculos para estos mapas incorporaron las dimensiones de color e intensidad para evaluar la saliencia de cada imagen, mientras que la dimensión de ubicación fue excluida, dado que la posición de las imágenes permaneció constante a lo largo del experimento. Los valores de saliencia se promediaron independientemente para cada competidor, revelando que ni el competidor semántico (mediana = 0.39, rango = 0.19) ni el competidor fonológico (mediana = 0.35, rango = 0.19–0.60) exhibieron una saliencia mayor que el promedio 84 de saliencia de los competidores no relacionados (mediana = 0.33, rango = 0.25–0.39) en las imágenes experimentales (semántico: Z = 0.26, p = 0.79; fonológico: Z = 0.26, p = 0.79). Estos análisis confirman que los competidores tienen niveles de saliencia similares. Figura 15 Ejemplo de relevancia saliencia de un ensayo Nota. Los colores brillantes indican mayor saliencia. Diseño Experimental Cada prueba experimental tuvo una duración total de 8500 ms, con el inicio de la palabra esperada designado como 0 ms para diferenciar entre los períodos de predicción e integración (Figura 16). La secuencia de la prueba comenzaba con los participantes fijando su atención en un punto de fijación durante 1000 ms, desde -6500 hasta -5500 ms. A continuación, se presentaban cuatro imágenes durante 6500 ms, de -5500 a 1000 ms. Para concluir la prueba, se mostraba un signo de interrogación durante 1000 ms, desde 1000 hasta 2000 ms, señalando a los participantes que debían generar sus respuestas conductuales. Las oraciones auditivas se iniciaron, en promedio, 1700 ms antes del comienzo de la palabra objetivo esperada, con los verbos presentados aproximadamente en -500 ms. Cabe destacar que las imágenes se previsualizaron durante un promedio de 3300 ms. Este tiempo de 85 previsualización extendido se incluyó intencionalmente en el diseño del estudio para aumentar la probabilidad de detectar un efecto fonológico, como lo sugieren investigaciones previas (Chow et al., 2022; Huettig & McQueen, 2007). Además, esta estrategia tenía como objetivo reducir cualquier sesgo inicial hacia objetos específicos que los participantes pudieran haber tenido, promoviendo así un entorno experimental más equilibrado y controlado. Figura 16 Ejemplo de un ensayo experimental en la tarea de rastreo visual Aparatos El estudio empleó un rastreador visual Tobii TX-300 para registrar los movimientos oculares de los participantes. Este dispositivo, colocado justo debajo de la pantalla, registraba datos de la mirada binocular a una frecuencia de muestreo de 300 Hz, con un nivel de precisión de 0.5° de ángulo visual. Las respuestas de los participantes se capturaron mediante una plataforma de respuesta personalizada, diseñada con un Arduino Mega 2560. La plataforma de respuesta contaba con dos botones, uno verde y uno rojo, permitiendo a los participantes brindar sus respuestas durante las pruebas. 86 Procedimiento Los participantes se posicionaron aproximadamente a 60 cm de la pantalla de un rastreador visual Tobii TX300, que tenía 23 pulgadas y una resolución de 1920x1080. El rastreador visual se colocó justo debajo de la pantalla, mientras que los altavoces estaban ubicados en el centro. Antes de comenzar el experimento, los participantes recibieron instrucciones en pantalla y completaron tres pruebas de familiarización. Luego se realizó una calibración de cinco puntos y una validación de cuatro puntos, ambas llevadas a cabo con el software Tobii Pro Lab. Se realizó una recalibración si era necesario. Se les indicó a los participantes que mantuvieran la vista en la pantalla durante todo el experimento y que permanecieran en silencio hasta que éste concluyera. También recibieron instrucciones específicas sobre el uso de la plataforma de respuesta: debían presionar el botón verde si una de las imágenes mostradas coincidía con el contenido de la oración que escuchaban y el botón rojo si ninguna imagen correspondía a la oración. El experimento consistió en 32 pruebas, todas completadas en una única sesión. Después del experimento, los participantes se sometieron a una serie de evaluaciones neuropsicológicas en un orden específico: primero, la tarea de fluidez verbal, seguida de la retención de dígitos, luego los cubos de Corsi y, finalmente, la tarea de codificación. Al finalizar la sesión, los investigadores explicaron los objetivos principales de la tarea a los participantes y respondieron a cualquier pregunta que tuvieran. Procesamiento de datos El análisis de los datos conductuales incluyó la comparación entre el porcentaje de respuestas correctas y los tiempos de reacción en las pruebas experimentales y de relleno, utilizando la prueba de Wilcoxon. Los movimientos oculares, específicamente las fijaciones en cada cuadrante de la matriz 2x2, se registraron y analizaron utilizando el filtro de fijación I-VT de 87 Tobii. Este filtro maneja los datos faltantes, que pueden ocurrir debido a parpadeos, movimientos oculares rápidos o pérdida de calibración, mediante interpolación. Además, se aplica una reducción de ruido usando un filtro de mediana para minimizar las discrepancias provocadas por micro- sácadas o el ruido del equipo. Finalmente, el filtro valida los datos para asegurar que los puntos de mirada registrados cumplan con los parámetros de precisión esperados, descartando los puntos irrelevantes cuando es necesario. Tobii realiza esta validación usando una escala de cero a cuatro, donde los valores más bajos indican una mejor adquisición de datos basada en la calidad de la calibración, y cualquier valor por encima de dos es excluido por el filtro. Se llevó a cabo también un análisis de pérdida de datos utilizando el paquete eyetrackingR en R v4.1.1 (R CoreTeam, 2020). Las pruebas con menos del 50% de fijación durante la presentación de los estímulos auditivos (de -1700 a 1000 ms) fueron excluidas del conjunto de datos. Además, cualquier participante cuya información incluyera menos del 50% de las pruebas experimentales o menos del 75% de la tarea conductual fue eliminado del estudio. Los datos procesados se dividieron en intervalos de 50 ms y se agregaron entre sujetos. Se calculó una puntuación de diferencia entre los competidores relacionados (semántico o fonológico) y los no relacionados para asegurar la independencia en las pruebas estadísticas y obtener una variable dependiente lineal y sin límites, adecuada para pruebas paramétricas. La puntuación de diferencia se calculó con la fórmula: p(relacionado) - p(no relacionado), donde p(relacionado) es la probabilidad de fijación en el competidor semántico o fonológico y p(no relacionado) representa la probabilidad de fijación en el promedio de los tres competidores no relacionados. Esta medida es simétrica alrededor de cero, produciendo valores positivos cuando los participantes fijan más su atención en los competidores relacionados y valores negativos cuando hay mayor fijación en 88 los competidores no relacionados. Una puntuación de cero indica que no hay una preferencia discernible entre los competidores. Análisis estadístico El estudio empleó dos análisis de datos distintos para dilucidar la naturaleza temporal de los efectos semánticos y fonológicos: un análisis de permutación por clúster y un análisis de punto de divergencia. Tradicionalmente, en el Paradigma del Mundo Visual, el curso temporal de las fijaciones hacia las imágenes en respuesta a estímulos lingüísticos se analiza considerando la frecuencia de muestreo de 300 Hz, lo que genera 600 puntos de comparación en una ventana temporal de 2000 ms. Dado un nivel de significancia estadística (alfa) de 0.05, esta serie temporal podría arrojar hasta 30 valores (~100 ms) susceptibles a errores Tipo I. Para minimizar la probabilidad de errores Tipo I al realizar múltiples comparaciones, se pueden utilizar varios métodos. Una opción es la corrección de Bonferroni, que ajusta el nivel alfa dividiéndolo por el número de comparaciones. Sin embargo, este método es demasiado conservador. Por ejemplo, en este estudio, aplicar una corrección de Bonferroni resultaría en un alfa ajustado de 0.00016, lo cual significaría que solo efectos muy grandes podrían considerarse significativos. Esto surge porque la corrección de Bonferroni asume que todas las comparaciones son independientes, aunque en una serie temporal, los puntos no son independientes entre sí. Maris y Oostenveld (2007) proponen un método estadístico alternativo para abordar este problema: la prueba no paramétrica basada en clústeres. Esta prueba utiliza pruebas de permutación para verificar la hipótesis nula de intercambiabilidad de datos y se adapta para trabajar a nivel de clúster. Los pasos para calcular este método son los siguientes: 89 1. Se calcula una estadística para cada muestra de tiempo entre dos tipos de ensayos. La estadística utilizada es irrelevante; puede ser t, W, U, F o incluso el tamaño del efecto. Sin embargo, debe medir la magnitud de la diferencia entre dos condiciones. Comúnmente, se usa la estadística t. 2. Se seleccionan todos los valores por encima de un cierto umbral. Este umbral puede basarse en la distribución de la estadística. La elección del umbral afectará la sensibilidad de la prueba, pero no el control del error Tipo I. 3. Se forman clústeres de valores supra-umbral que son adyacentes en el tiempo. Si la prueba es de dos colas, se forman clústeres de valores positivos o negativos por separado. 4. Se calcula la estadística de cada clúster. Esto puede hacerse sumando, promediando los valores de la estadística, o tomando el valor máximo del clúster. Generalmente se utiliza la suma de las estadísticas, ya que es sensible tanto a la extensión como a la intensidad del efecto dentro del clúster. 5. Se toma y almacena el valor del clúster más grande. Este es el valor observado. 6. Los datos entre condiciones o sujetos se permutan o se obtienen a través de bootstrapping para cada muestra de tiempo por separado. 7. Los pasos del 1 al 5 se repiten un número determinado de veces. Una vez completadas las iteraciones, se genera una distribución nula para compararla con el clúster observado. Para una prueba de dos colas, se calcula la proporción de valores absolutos en la distribución nula que superan el valor observado, obteniendo así el valor p. Este valor p indica la probabilidad de formar clústeres de un tamaño dado dentro de una distribución permutada que incluye los clústeres más grandes de cada permutación. La tasa de error de Tipo I se controla reduciendo el número de comparaciones, ya que solo se compara el clúster máximo observado con 90 los clústeres máximos de cada permutación. Este método disminuye la probabilidad de que clústeres observados más pequeños se consideren significativos, aunque a costa de una sensibilidad reducida para detectar clústeres menores. Este método plantea varios desafíos, como se detalla a continuación. El número de iteraciones es crucial porque determina el valor p mínimo alcanzable y el costo computacional. Por ejemplo, con solo cuatro permutaciones, el valor p mínimo es 0.33. Aunque teóricamente deberían realizarse todas las permutaciones posibles, esto suele ser computacionalmente prohibitivo, lo que lleva al uso de la aproximación Monte Carlo, que implica repetir el proceso un gran número de veces. Pernet et al. (2015) sugieren que se requieren al menos 500 iteraciones para obtener valores p estables. En este estudio, el análisis de permutación de clústeres fue diseñado para detectar y describir las características temporales de los efectos fonológicos y semánticos, incluyendo su inicio, duración y finalización aproximados. Este análisis abarcó el intervalo de tiempo desde el inicio promedio de la oración hasta el final de la presentación de la imagen, abarcando de -1700 a 1000 ms en relación con el inicio esperado de la palabra. La variable dependiente fue la puntuación de diferencia, que se comparó contra cero mediante una prueba t de una muestra. Los clústeres se formaron sumando valores t adyacentes que superaban el valor crítico t (t = 2.04) para un nivel alfa de 0.05 (dos colas), dado un grado de libertad de 30. La distribución nula se construyó a partir de los clústeres máximos de 100000 permutaciones, con los signos de la serie temporal aleatorizados y comparados contra cero. Un clúster observado se consideró significativo si se ubicaba dentro del 5% superior o inferior de los clústeres en la distribución nula. Es importante señalar que, si bien el análisis de permutación de clústeres puede determinar si existe un efecto, no proporciona información precisa sobre los tiempos de inicio y finalización 91 del efecto. El análisis ofrece un valor de probabilidad para el clúster completo en lugar de para puntos temporales específicos, lo que lo hace inadecuado para sacar conclusiones sobre tiempos específicos. Además, dado que los datos de seguimiento ocular tienden a cambiar gradualmente, el inicio y el final de los efectos son más propensos a falsos positivos. Así, aunque la prueba de permutación de clústeres no paramétrica es útil para identificar la existencia de un efecto, no aborda directamente la pregunta de investigación de esta tesis. Para abordar esta limitación, también implementamos un análisis de punto de divergencia. A diferencia del enfoque no paramétrico, el análisis de punto de divergencia permite hacer inferencias sobre las diferencias en el inicio de los efectos, proporcionando una evaluación más precisa del momento de los efectos fonológicos y semánticos. Sin embargo, no determina si existe un efecto, que fue el objetivo del análisis de permutación de clústeres. Este enfoque dual proporcionó una comprensión más completa de la dinámica temporal del procesamiento predictivo en el estudio. El análisis de punto de divergencia es un método estadístico no paramétrico diseñado específicamente para estimar el punto en que dos curvas de fijación comienzan a divergir. Este método es particularmente útil para identificar el inicio de las diferencias en los datos de seguimiento ocular. Los pasos para llevar a cabo un análisis de punto de divergencia son los siguientes: 1. Prueba estadística inicial: El análisis comienza dividiendo los datos de fijación en intervalos de tiempo pequeños. Se realiza una prueba estadística, como pruebas t o modelos de efectos mixtos lineales, en cada intervalo de tiempo. Dado que el análisis de punto de divergencia es no paramétrico, a menudo se prefieren las pruebas t sobre los modelos de 92 efectos mixtos debido a su menor demanda computacional y a la ausencia de problemas de convergencia. 2. Identificación del punto de divergencia: Se determina un punto de divergencia identificando el primer intervalo de tiempo entre múltiples intervalos consecutivos donde el efecto se vuelve significativo. El número mínimo requerido de intervalos consecutivos se define en función de la pregunta de investigación específica, asegurando que la divergencia identificada no sea resultado de variación aleatoria. 3. Bootstrap para distribución: Para estimar un rango plausible para el inicio del efecto, se emplea el método de bootstrap. Esto implica realizar remuestreo del conjunto de datos con reemplazo para crear un nuevo conjunto de datos. Los pasos 1 y 2 se repiten en estos datos remuestreados, lo que permite calcular un punto de divergencia para cada remuestreo. Este proceso genera una distribución de bootstrap de los puntos de divergencia. 4. Cálculo de la media e intervalo de confianza: Tras obtener la distribución bootstrap, se calculan la media y el intervalo de confianza del punto de divergencia. Esto proporciona una estimación del tiempo promedio de inicio del efecto y el rango dentro del cual es probable que se encuentre este inicio. Una de las principales ventajas del análisis de punto de divergencia es su capacidad para estimar tanto el inicio de un efecto como su intervalo de confianza, lo cual permite pruebas estadísticas de diferencias en el momento de los efectos (puntos de divergencia) entre diferentes condiciones o grupos. Este método evita problemas relacionados con comparaciones múltiples y controla la autocorrelación que a menudo está presente en los datos de movimientos oculares. 93 Además, debido a que no requiere que los datos cumplan con los supuestos de las pruebas paramétricas, es altamente versátil y aplicable a una amplia variedad de conjuntos de datos. A pesar de sus fortalezas, el análisis de punto de divergencia tiene varias limitaciones. Aunque puede estimar el inicio de un efecto, no puede evaluar su duración. Además, no es capaz de identificar múltiples puntos de divergencia, ya que se enfoca únicamente en el punto de divergencia inicial. Otra limitación importante es que este análisis asume la presencia de un efecto. Durante el proceso de bootstrap, existe la posibilidad de que un conjunto de datos remuestreados muestre a los participantes mirando el objetivo más que el punto de referencia puramente por azar, y estos valores se incluirían en la distribución de inicio. Por lo tanto, para determinar tanto la presencia como el inicio de un efecto, se debe realizar un análisis separado, como un análisis de permutación basado en clústeres, para verificar primero la significancia del efecto. En este estudio, el análisis de punto de divergencia tuvo como objetivo probar estadísticamente el inicio de los efectos semánticos y fonológicos comparando la puntuación de diferencia contra cero mediante una prueba t de una muestra. El punto de divergencia se definió como los primeros tres valores t consecutivos que superaban 2.04 (el valor crítico de dos colas para 30 grados de libertad). Estos tres intervalos (cada uno representando 50 ms) coincidían con el tamaño del efecto inicial identificado en el análisis de clústeres. Se generó una distribución de puntos de divergencia utilizando 100000 muestras bootstrap, a partir de las cuales se calcularon la media y el intervalo de confianza del punto de divergencia. Para medir las diferencias individuales en la predicción de información semántica y fonológica, se realizaron una serie de modelos mixtos binomiales. Se estableció un modelo de referencia para captar el efecto base del competidor, y este modelo se comparó con modelos que incluían una de las medidas psicométricas: fluidez semántica, fluidez fonológica, memoria de 94 trabajo verbal, memoria de trabajo visuoespacial y velocidad de procesamiento. Las comparaciones de modelos se realizaron mediante la prueba de razón de verosimilitud. Si la inclusión de una medida psicométrica mejoraba significativamente el ajuste del modelo, se consideraba que la variable era relevante para explicar los datos. De lo contrario, el modelo de referencia se consideraba una mejor representación de la variable dependiente. Para minimizar el riesgo de errores de Tipo I, solo se analizaron más a fondo los modelos que demostraron el mejor ajuste. Este análisis se centró en la ventana de predicción, definida como el período desde el inicio promedio del verbo (-500 ms) hasta el inicio del objetivo (0 ms). La variable dependiente fueron las fijaciones en cada ventana de tiempo. Los factores fijos en los modelos incluyeron el Competidor (No relacionado, Fonológico, Semántico) y su interacción con una de las medidas psicométricas. El factor Competidor fue codificado de forma binaria, utilizando el competidor no relacionado como referencia. Todas las medidas psicométricas fueron normalizadas y centradas para garantizar la consistencia en el análisis. Los efectos aleatorios incluyeron la pendiente del Competidor dentro de los sujetos y el intercepto para los ítems, lo que permitió variaciones individuales en los patrones de respuesta entre sujetos y variabilidad entre ítems. Así, las fórmulas generales fueron las siguientes: Modelo de referencia: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖,𝑗 = 𝛽0 + 𝛽1 ∙ 𝐶𝑖,𝑗 + (𝑆0𝑖 + 𝑆1𝑖 ∙ 𝐶𝑖,𝑗) + 𝐼0𝑖 Modelo de diferencias individuales: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖,𝑗 = 𝛽0 + (𝛽1 ∙ 𝐶𝑖,𝑗) + (𝛽2 ∙ 𝑃𝑖,𝑗) + (𝛽3 ∙ [𝐶 ∙ 𝑃]𝑖,𝑗) + (𝑆0𝑖 + 𝑆1𝑖 ∙ 𝐶𝑖,𝑗) + 𝐼0𝑖 Donde: • p es la probabilidad de éxito para el i-ésimo individuo y el j-ésimo ítem. • β0 es la intersección fija. • β1 es la pendiente fija para el efecto de Competidor (C). 95 • β2 es la pendiente fija para el efecto psicométrico (P). • β3 es la pendiente fija para la interacción entre C y P. • S0 es la intersección aleatoria para el i-ésimo individuo. • S1 es la pendiente aleatoria del efecto C para el i-ésimo individuo. • I0 es la intersección aleatoria para el j-ésimo elemento. Resultados Conductuales En el Experimento 2, los resultados conductuales indicaron que los participantes lograron un alto nivel de precisión, con un promedio del 92.7% de respuestas correctas (DE = 4.13, rango = 84–100) y un tiempo de reacción promedio de 549.57 ms (DE = 101.62, rango = 343.24– 769.96). Al comparar los ensayos experimentales y los de relleno, no se encontraron diferencias significativas en el porcentaje de respuestas correctas entre las condiciones (Z = 0.814, p = 0.416; Experimental: mediana = 94, Q1–Q3 = 88–94; Relleno: mediana = 94, Q1–Q3 = 88–100). Sin embargo, se observó un aumento significativo en los tiempos de reacción para los ensayos experimentales (Z = 4.770, p < 0.001; mediana = 575.99, Q1–Q3 = 484.13–668.23) en comparación con los ensayos de relleno (mediana = 514.33, Q1–Q3 = 455.74–576.91). Estos hallazgos sugieren que, aunque los participantes mantuvieron una precisión constante en los ensayos experimentales y de relleno, la presencia de competidores semánticos y fonológicos en los ensayos experimentales condujo a tiempos de respuesta más largos. Esto indica que el procesamiento cognitivo adicional necesario para manejar la información competidora pudo haber ralentizado las respuestas de los participantes. Rastreo ocular En el Experimento 2, de un total de 688 ensayos experimentales realizados por los 43 participantes, se excluyeron 54 ensayos (7.84%) porque los participantes no mantuvieron la mirada 96 durante más del 50% del tiempo en la ventana de análisis (-1700 a 1000 ms en relación con el inicio esperado de la palabra). El análisis de clúster no paramétrico reveló que los participantes fijaron significativamente más en el competidor semántico que al nivel de probabilidad desde -600 hasta 550 ms en relación con la presentación esperada del objetivo (tcluster = 107.66, tmax = 6.199, p < 0.001). En contraste, los participantes fijaron más en el competidor fonológico que al nivel de probabilidad solo durante el periodo de 250 ms posterior a la presentación de la palabra esperada (tcluster = 2.164, tmax = 2.164, p = 0.018). Además, los participantes fijaron más en el competidor semántico que en el fonológico desde -400 hasta 600 ms en relación con el inicio esperado de la palabra (tcluster = 82.244, tmax = 5.211, p < 0.001). El análisis de punto de divergencia indicó que el inicio del efecto de predicción semántica ocurrió en promedio a -578.37 ms (IC95% = -700 a -450 ms). Este intervalo sugiere que el efecto de predicción semántica comenzó antes del inicio de la palabra esperada, indicando que los participantes estaban activamente anticipando información semántica de antemano. Curiosamente, el análisis de punto de divergencia también reveló el inicio de un efecto fonológico, con un promedio de -506.8 ms (IC95% = -600 a -450 ms). Este resultado implica que, inesperadamente, las muestras generadas por bootstrap mostraron evidencia de un efecto fonológico predictivo también (Figura 17). Estos hallazgos sugieren que los participantes no solo predijeron el contenido semántico antes de la presentación de la palabra esperada, sino que también, en menor medida, involucraron predicciones fonológicas durante el mismo marco temporal. El inicio temprano de ambos efectos resalta la naturaleza anticipatoria del procesamiento del lenguaje, con la predicción semántica apareciendo ligeramente antes que la predicción fonológica. 97 Figura 17 Experimento 2: Curso temporal de la predicción fonológica y semántica Nota: Las líneas representan la proporción promedio de la dirección de la mirada hacia el competidor fonológico (rojo), el competidor semántico (azul) y las tres imágenes no relacionadas (negro). Las áreas sombreadas que acompañan a estas líneas indican el error estándar. La línea discontinua vertical en el gráfico marca el inicio de la palabra anticipada. Las barras horizontales ubicadas en la parte superior del gráfico indican los intervalos temporales durante los cuales la mirada de los participantes se dirigió predominantemente hacia los competidores fonológico (rojo) y semántico (azul). La diferencia en la mirada de los participantes hacia ambos competidores se representa en negro. La sección inferior del gráfico abarca la distribución de los efectos de inicio. Aquí se presentan tanto el valor medio como el intervalo de confianza asociado con esta distribución. Diferencias individuales La Tabla 5 presenta las estadísticas completas para las comparaciones de modelos. Entre las diversas medidas psicométricas evaluadas, solo la inclusión de la velocidad de procesamiento mejoró el ajuste del modelo de referencia (p = 0.04), lo que sugiere que la velocidad de procesamiento de información general desempeña un papel en la predicción de información semántica o fonológica. Un análisis adicional de este modelo reveló una interacción significativa entre el competidor semántico y la velocidad de procesamiento (p = 0.02). Esta interacción indica que la diferencia entre las fijaciones en el competidor semántico y los competidores no relacionados 98 aumenta en los participantes con velocidades de procesamiento más rápidas (Figura 18). Es notable que la velocidad de procesamiento no interactuó con el competidor fonológico, lo que sugiere que este efecto es específico de la predicción semántica (Tabla 6). Tabla 5 Comparación de modelos de diferencias individuales Modelo Parámetros AIC logLik X2 df p Referencia 10 150107 -75043 Fluencia semántica 13 150112 -75043 0.427 3 0.934 Fluencia fonológica 13 150113 -75043 0.052 3 0.996 Memoria de trabajo verbal 13 150111 -75042 1.922 3 0.588 Memoria de trabajo viso-espacial 13 150111 -75042 1.873 3 0.599 Velocidad de procesamiento 13 150105 -75039 8.013 3 0.045 Los valores en negritas indican significancia estadística. Tabla 6 Modelo de velocidad de procesamiento y efecto de predicción Factores fijos Β SE z p Intercepto -1.309 0.04 -32.183 <0.001 Fonológico -0.02 0.086 -0.233 0.816 Semántico 0.662 0.105 6.254 <0.001 Velocidad de procesamiento -0.045 0.04 -1.127 0.26 Fonológico: Velocidad de procesamiento -0.119 0.086 -1.384 0.166 Semántico:Velocidad de procesamiento 0.239 0.105 2.274 0.023 Los valores en negritas indican significancia estadística. Figura 18 Diferencias individuales en velocidad de procesamiento Nota. Las líneas sólidas muestran los valores predichos de fijación para cada competidor en la ventana de predicción. Las áreas sombreadas indican el intervalo de confianza del 95%. Los valores de velocidad de procesamiento están escalados y centrados; por lo tanto, los valores más altos corresponden a los participantes más rápidos. 99 Exploración de efectos relacionados Dado que los resultados del Experimento 2 son inesperados, realizamos una serie de estudios exploratorios para describir el curso temporal de los efectos fonológicos y semánticos independientes, así como la forma en que ambos efectos interactúan entre sí en un diseño de abajo hacia arriba. Todos estos estudios, junto con los resultados del Experimento 2, proporcionarían una visión completa para explicar la interacción entre ambos tipos de información durante la predicción. Efecto fonológico En este experimento, el objetivo principal fue confirmar que las oraciones experimentales utilizadas en el estudio generaran predicción fonológica. Se utilizó el mismo conjunto de oraciones del Experimento 2, pero se modificaron los estímulos visuales. En lugar de incluir competidores fonológicos y semánticos en la matriz visual, solo se incluyó el competidor fonológicamente relacionado junto con tres competidores no relacionados. Este cambio nos permitió observar si los participantes mostraban una preferencia por el elemento fonológicamente relacionado sobre los competidores no relacionados, indicando así una anticipación fonológica de la palabra esperada basada en el contexto de la oración. La muestra final para este estudio fonológico incluyó a 30 estudiantes de pregrado (edad media = 21.57 años, DE = 2.08, 10 hombres) de la Universidad Nacional Autónoma de México (UNAM). Todos los participantes eran hablantes nativos de español, reportando visión y audición normales o corregidas. De acuerdo con los criterios de exclusión del estudio, se excluyeron dos participantes adicionales del análisis final. El estudio involucró un total de 480 ensayos experimentales, de los cuales se excluyeron 20 ensayos (4.16%) porque los participantes no mantuvieron el enfoque visual durante al menos 100 el 50% del tiempo en la ventana de análisis. No fueron necesarias más exclusiones, y el análisis final incluyó los datos de los 30 participantes restantes. Figura 19 Curso temporal de la predicción fonológica Nota: El gráfico de líneas visualiza la proporción promedio de miradas hacia el competidor fonológico (en rojo) y las tres imágenes no relacionadas (en negro). Las regiones sombreadas representan el error estándar de la media. El inicio de la palabra esperada está marcado por una línea discontinua vertical. Las barras horizontales en la parte superior del gráfico indican los intervalos de tiempo durante los cuales los participantes tendieron a mirar al competidor fonológico. La distribución de los inicios del efecto, junto con su media e intervalo de confianza, se representan en la sección inferior del gráfico. Esta representación permite una comprensión clara de cómo cambia el comportamiento de la mirada a lo largo del tiempo y en qué momento exactamente los participantes comienzan a enfocarse más en el competidor fonológico en comparación con las imágenes no relacionadas. El análisis de clúster no paramétrico reveló dos clústeres significativos. El primer clúster ocurrió desde -650 hasta -550 ms antes de la presentación esperada del objetivo (tcluster = 8.107, tmax = 2.934, p < 0.001). El segundo clúster apareció desde -50 ms hasta 150 ms en relación con la presentación de la palabra esperada (tcluster = 15.90, tmax = 3.830, p < 0.001). En ambos clústeres, los participantes prestaron más atención al competidor fonológico de lo que se esperaría por azar (nivel cero). Según el análisis de punto de divergencia, el inicio del efecto fonológico anticipado ocurrió en promedio a -566.37 ms, aunque hubo una considerable variabilidad, con un intervalo de 101 confianza que osciló entre -800 y -150 ms. A pesar de esta variabilidad, el límite superior del inicio del efecto se ubicó antes de la presentación de la palabra esperada. En conclusión, los resultados de ambos análisis indican que los participantes activaron la forma fonológica de la palabra esperada antes de su presentación (Figura 19). Este hallazgo respalda la idea de que la información fonológica se anticipa antes de escuchar la palabra objetivo, subrayando el papel de la predicción fonológica en el procesamiento del lenguaje. Efecto semántico Este estudio semántico fue diseñado para confirmar la elicitación de predicción semántica mediante las oraciones experimentales utilizadas en el estudio y para contrastar indirectamente el momento de la predicción semántica con la preactivación fonológica. Para lograr esto, se emplearon las mismas oraciones experimentales del Experimento 2, pero se realizaron modificaciones en los estímulos visuales. En lugar de incluir tanto competidores fonológicos como semánticos en la matriz de imágenes, solo se presentó un competidor semántico, acompañado del mismo conjunto de tres competidores no relacionados. Este cambio nos permitió observar si los participantes mostraban una preferencia por el elemento relacionado semánticamente sobre los competidores no relacionados, lo que sugeriría que anticipaban el contenido semántico de la palabra esperada en función del contexto de la oración. Al llevar a cabo este experimento semántico, buscamos validar las oraciones experimentales en términos de su capacidad para elicitar preactivación semántica. La muestra para este estudio semántico consistió en 32 estudiantes de pregrado (edad media = 21.27 años, DE = 1.48, 14 hombres) de la Universidad Nacional Autónoma de México (UNAM). Todos los participantes eran hablantes nativos de español y reportaron tener visión y audición normales o corregidas a niveles normales. 102 Figura 20 Curso temporal de la predicción semántica Nota: Las líneas representadas en el gráfico corresponden a la proporción promedio de miradas, con la línea azul representando al competidor fonológico y la línea negra representando las tres imágenes no relacionadas. Las áreas sombreadas ilustran el error estándar. El inicio de la palabra esperada está indicado por la línea discontinua vertical. En la sección superior del gráfico, la barra horizontal denota el intervalo de tiempo durante el cual los participantes mostraron una tendencia a mirar al competidor semántico. La sección inferior del gráfico muestra la distribución de los inicios del efecto, junto con la media y el intervalo de confianza. De un total de 512 ensayos experimentales, se excluyeron 13 ensayos (2.53%) porque la mirada de los participantes no se mantuvo dentro de la ventana de análisis durante más del 50% del tiempo. El análisis de clúster no paramétrico reveló un patrón significativo: los participantes miraron con mayor frecuencia al competidor semántico de lo que se esperaría por azar. Este patrón ocurrió desde -900 ms hasta 650 ms en relación con la presentación anticipada del objetivo (tcluster = 132.011, tmax = 6.201, p < 0.001). Estos resultados indican que durante esta ventana de tiempo, los participantes estaban activamente conscientes de la relación semántica entre la palabra esperada y su competidor semántico. El análisis de punto de divergencia estableció que el inicio del efecto de predicción semántica ocurrió en promedio a -847.51 ms (IC95% = -950 a -700 ms). Dado que este intervalo 103 de confianza indica que el inicio del efecto comenzó antes de la presentación de la palabra esperada, se puede concluir que los participantes realmente estaban anticipando información semántica (Figura 20). Este hallazgo respalda la presencia de un procesamiento anticipatorio de contenido semántico, demostrando que los participantes utilizaron las pistas contextuales de la oración para anticipar el significado de la palabra esperada antes de escucharla. Efecto de integración El objetivo del estudio de procesamiento de abajo hacia arriba fue investigar si la presencia de la palabra esperada desencadenaría el procesamiento fonológico y semántico de abajo hacia arriba cuando ambos tipos de imágenes competidoras estuvieran presentes en la misma matriz. Este estudio utilizó los mismos estímulos visuales que en el Experimento 2, pero la diferencia clave fue que solo se presentó la palabra esperada, sin ningún contexto oracional acompañante. La palabra esperada se ajustó para presentarse 1100 ms antes, permitiendo tiempo suficiente para evaluar el de integración. La muestra final de participantes para el estudio de integración consistió en 32 estudiantes de pregrado (edad media = 22.65 años, DE = 2.75, 11 hombres) de la Universidad Nacional Autónoma de México (UNAM). Todos los participantes eran hablantes nativos de español con visión y audición normales o corregidas a niveles normales. Debido a problemas de calibración, no se pudieron registrar los datos de mirada para siete participantes. Además, se excluyeron tres participantes del análisis debido a bajo rendimiento conductual (n = 2) o a una alta proporción de ensayos sin atención (n = 1). En este estudio de integración, 491 de los 512 ensayos experimentales (96.09%) cumplieron con los criterios de inclusión, que requerían que los participantes mantuvieran más del 50% de las fijaciones durante la ventana de tiempo de 0 a 2100 ms (Figura 21). El análisis de 104 clúster no paramétrico reveló dos clústeres significativos en los que los participantes fijaron significativamente más en el competidor semántico de lo que se esperaría por azar. El primer clúster ocurrió entre 650 y 1450 ms después del inicio de la palabra esperada (tcluster = 94.765, tmax = 9.334, p < 0.001), y el segundo clúster apareció hacia el final de los ensayos, entre 1800 y 1950 ms (tcluster = 9.861, tmax = 2.659, p = 0.002). Además, los participantes fijaron significativamente más en el competidor fonológico de lo que se esperaría por azar desde 650 hasta 950 ms en relación con el inicio del objetivo (tcluster = 18.808, tmax = 3.870, p < 0.001). Figura 21 Curso temporal del procesamiento ascendente fonológico y semántico. Nota: Las líneas del gráfico representan la proporción promedio de miradas hacia el competidor fonológico (rojo), el competidor semántico (azul) y las tres imágenes no relacionadas (negro). Las áreas sombreadas indican el error estándar. Las barras horizontales en la sección superior del gráfico denotan los intervalos de tiempo en los cuales los participantes tendieron a fijarse en los competidores fonológico (rojo) y semántico (azul), con la diferencia entre ambos competidores representada en negro. En la sección inferior del gráfico, se ilustra la distribución de los inicios del efecto, así como la media y el intervalo de confianza. En dos periodos, los participantes mostraron significativamente más fijaciones hacia el competidor semántico en comparación con el competidor fonológico: de 800 a 1350 ms (tcluster = 57.879, tmax = 7.205, p < 0.001) y de 1750 a 1900 ms (tcluster = 10.524, tmax = 2.710, p = 0.004). 105 El análisis de punto de divergencia indicó que el inicio del efecto semántico de abajo hacia arriba ocurrió en un promedio de 601.20 ms (IC95% = 550 a 650 ms). De manera similar, el análisis reveló que el inicio del efecto para el competidor fonológico fue de 637.93 ms (IC95% = 550 a 750 ms). Estos resultados sugieren que, al presentar solo la palabra esperada, los participantes procesaron inicialmente tanto la información semántica como la fonológica de manera ascendente (bottom-up), pero con un inicio ligeramente más temprano para la información semántica. Los hallazgos indican que, incluso sin el contexto oracional, los participantes pueden acceder a ambos tipos de información, mostrando con el tiempo una preferencia más fuerte por las pistas semánticas. Esta distinción entre el procesamiento de los competidores semánticos y fonológicos ofrece perspectivas sobre cómo los mecanismos de abajo hacia arriba contribuyen a la comprensión del lenguaje. Discusión El Experimento 2 investigó el curso temporal de la preactivación fonológica y semántica durante la comprensión del lenguaje utilizando un paradigma de mundo visual combinado con seguimiento ocular. Se empleó un paradigma de mundo visual sin el objetivo en pantalla, en el cual los participantes escuchaban oraciones altamente restrictivas mientras observaban cuatro imágenes competidoras: un competidor semántico, un competidor fonológico y dos imágenes no relacionadas. Además, se evaluaron la velocidad de procesamiento verbal y no verbal, así como tareas de memoria de trabajo de los participantes. Los resultados destacaron un fuerte efecto de predicción semántica, mostrando que los participantes anticipaban el contenido semántico de la palabra esperada antes de su presentación. En contraste, no se encontró evidencia de preactivación fonológica durante esta fase anticipatoria. 106 Tras la presentación de la palabra esperada, la influencia semántica persistió y surgió un efecto fonológico, pero este último parecía estar impulsado por procesos de integración en lugar de por predicción. Además, se encontró que el efecto de predicción semántica estaba positivamente correlacionado con la velocidad de procesamiento no verbal, sugiriendo que los participantes con velocidades de procesamiento general más rápidas eran mejores en utilizar el contexto semántico para la predicción. Estos hallazgos enfatizan el papel dominante de la información semántica en el procesamiento predictivo y sugieren que la activación fonológica ocurre principalmente después de la presentación de la palabra. El efecto de predicción semántica observado se alinea con estudios previos (Altmann & Kamide, 1999; Angulo-Chavira et al., 2022; Arias-Trejo et al., 2019; Li et al., 2022; Mani & Huettig, 2012), los cuales muestran que la anticipación semántica persiste hasta el inicio de la palabra esperada. Este efecto robusto puede atribuirse al objetivo principal de la comunicación: comprender el significado del mensaje transmitido. En consecuencia, es plausible que los significados incorporados en las oraciones preactiven la información semántica en mayor medida, permitiendo a los oyentes anticipar el contenido próximo en función del contexto general (Li et al., 2022). Esto sugiere que, durante la comprensión del lenguaje, los oyentes priorizan el procesamiento semántico para predecir posibles continuaciones, facilitando una interpretación más fluida del lenguaje hablado. En contraste con los hallazgos consistentes sobre la predicción semántica, estudios previos han mostrado resultados mixtos sobre la predicción de la forma de las palabras. Mientras que algunos estudios han reportado un fuerte efecto predictivo de la forma de las palabras (DeLong et al., 2005; Ito et al., 2018; Kukona, 2020), otros no han podido replicar estos efectos (C. D. Martin et al., 2013; Nieuwland et al., 2018). De manera similar, nuestro estudio reveló resultados mixtos 107 e inesperados. Por un lado, cuando el competidor fonológico se presentó en aislamiento, se observó un fuerte efecto predictivo, lo que sugiere que la predicción de la palabra objetivo también puede implicar la anticipación de sus características fonológicas. Esto indica que los participantes pueden anticipar aspectos fonológicos del objetivo cuando no hay otra información semántica competidora presente. Sin embargo, cuando el competidor fonológico se presentó junto al competidor semántico, los participantes no fijaron en el competidor fonológico antes de la presentación de la palabra esperada. En cambio, su atención se dirigió al competidor fonológico solo después de la presentación de la palabra, lo que indica un efecto de integración. Esto sugiere que, en presencia de señales tanto semánticas como fonológicas, la información semántica toma prioridad durante la predicción, mientras que las características fonológicas se vuelven relevantes principalmente después de encontrar la forma real de la palabra. Estos resultados pueden interpretarse como una preferencia por el procesamiento de la información semántica sobre la información fonológica durante la predicción (Pickering & Gambi, 2018). Alternativamente, la información fonológica podría ser más adaptable, activándose su predicción solo cuando se considera necesaria (Huettig, 2015; Huettig & Mani, 2016; Pickering & Gambi, 2018). Otra posibilidad es que la predicción fonológica sea sensible a las restricciones temporales; así, los participantes pueden no haber fijado en el competidor fonológico porque, aunque recuperaron la información fonológica, no contaron con tiempo suficiente para dirigir su mirada hacia este competidor durante la ventana de predicción, lo que los llevó a fijar su atención en este competidor solo después de la presentación del objetivo. En los párrafos siguientes, exploraremos estas tres alternativas no excluyentes con el fin de aclarar si hubo predicción fonológica. No obstante, la discusión más amplia sobre los mecanismos subyacentes se abordará en la Discusión General, donde integraremos los hallazgos 108 del Experimento 2 y del Experimento 3 para proporcionar una comprensión más completa de los efectos observados. Cuando se presentó en aislamiento, la predicción semántica pareció preceder a la predicción fonológica; sin embargo, debido a la alta variabilidad en la predicción fonológica, esta diferencia no alcanzó significancia estadística. El efecto fonológico exhibió un patrón bifásico, con un pico inicial que ocurrió casi simultáneamente con el pico semántico, seguido de un segundo pico más tardío justo antes de la presentación de la palabra objetivo. Un examen más detallado de este efecto predictivo bifásico reveló que el 80% de los participantes mostró este patrón, aunque solo estuvo presente en el 60% de los ensayos. La variabilidad en el efecto fonológico se destacó aún más por las diferencias entre ensayos: algunos mostraron una predicción fonológica monofásica prolongada y fuerte, otros mostraron predicción solo hacia el final del ensayo, y solo un ensayo no mostró ningún efecto predictivo. En contraste, el efecto semántico fue consistentemente fuerte y sostenido tanto entre participantes como entre ensayos, lo que indica un patrón de preactivación semántica más estable y robusto. Las observaciones descriptivas sugirieron que la predicción fonológica es más sensible a las variaciones en el contexto de la oración en comparación con la predicción semántica. Esta sensibilidad podría explicar la variabilidad observada en el efecto fonológico, ya que los cambios en el contexto podrían influir en la magnitud y el momento de la activación fonológica más que en la activación semántica. La relativa estabilidad de la predicción semántica, en contraste, subraya su papel principal en guiar el procesamiento anticipatorio del lenguaje en diferentes condiciones. Esta interpretación está respaldada por hallazgos de estudios no predictivos previos que demuestran variabilidad en los efectos fonológicos bajo diferentes condiciones. Por ejemplo, 109 Huettig y McQueen (2007) encontraron que la activación fonológica se veía influenciada por la duración de previsualización de las imágenes. Los efectos de cohorte fonológica surgieron cuando las imágenes se presentaron con un tiempo de previsualización más largo (1000 ms), pero estos efectos estuvieron ausentes cuando las imágenes se mostraron con un tiempo de previsualización más corto (200 ms). Esto sugiere que la disponibilidad de tiempo puede impactar significativamente la probabilidad de activación fonológica, permitiendo un procesamiento fonológico más robusto con una exposición más prolongada. Estos resultados se alinean con la variabilidad observada en la predicción fonológica en el presente estudio, indicando que las limitaciones de tiempo pueden desempeñar un papel crucial en determinar cuándo y cómo se accede a la información fonológica. También es posible que la competencia entre los competidores semántico y fonológico influya en el procesamiento del competidor fonológico. Chow et al. (2022) encontraron que la presencia de un competidor semántico podría explicar la ausencia de un efecto fonológico en la condición de previsualización corta observada en Huettig y McQueen (2007). Propusieron que el competidor semántico ejerce una inhibición de arriba hacia abajo sobre el competidor fonológico cuando la duración de previsualización es limitada, suprimiendo efectivamente la activación fonológica. Esta interpretación es consistente con los hallazgos de Apfelbaum et al. (2021), quienes informaron un efecto fonológico no predictivo incluso cuando no había un competidor semántico presente, a pesar de usar condiciones sin previsualización. Estos hallazgos sugieren que la presencia de un competidor semántico podría interferir con las fijaciones de los participantes en el competidor fonológico, incluso si anticiparon la información fonológica. Por lo tanto, es posible que los participantes en el presente estudio estuvieran prediciendo información fonológica, pero sus fijaciones en el competidor fonológico 110 fueron suprimidas o ensombrecidas por las demandas de procesamiento asociadas con el competidor semántico. Esta hipótesis implica que la competencia entre diferentes tipos de información —semántica y fonológica— afecta la asignación de recursos atencionales, con el procesamiento semántico dominante potencialmente inhibiendo la expresión de la anticipación fonológica en los movimientos oculares de los participantes. Finalmente, la hipótesis de que los participantes no tuvieron suficiente tiempo para la predicción fonológica parece menos probable. En primer lugar, investigaciones previas indican que el tiempo requerido para realizar una fijación después de un estímulo lingüístico es de aproximadamente 200 ms (Viviani, 1990). En nuestro estudio, el análisis de punto de divergencia mostró que los inicios de la predicción ocurrieron alrededor de -600 ms, lo cual proporciona tiempo suficiente para que los participantes realicen al menos dos fijaciones antes de que se presente la palabra esperada. Evidencia adicional proviene del efecto fonológico observado cuando el competidor fonológico se presentó en aislamiento. En esta condición, los participantes exhibieron dos picos de predicción fonológica en el mismo intervalo de tiempo, sugiriendo que, efectivamente, había tiempo suficiente para que ocurriera el procesamiento fonológico antes de la presentación de la palabra objetivo. Además, el patrón de resultados en nuestro experimento indicó que tanto los efectos semánticos como fonológicos podían observarse simultáneamente. Tras la presentación de la palabra objetivo, los participantes fijaron tanto en el competidor fonológico como en el semántico en el experimento de abajo hacia arriba, lo que sugiere que fueron capaces de alternar su atención entre estos competidores. Esta alternancia de atención sugiere que ambos tipos de información eran accesibles para los participantes y que las restricciones de tiempo no impidieron la aparición de la predicción fonológica. En cambio, la interacción entre los 111 competidores semántico y fonológico, más que la falta de tiempo, probablemente influyó en los patrones de fijación observados durante la fase de predicción. La pregunta que surge es si, aun cuando los participantes no muestran una preferencia por el competidor fonológico antes de la presentación de la palabra objetivo, el contexto de la oración influye en el procesamiento fonológico durante el proceso de integración. En otras palabras, ¿modula el contexto de la oración cómo los participantes procesan la información fonológica una vez presentada la palabra objetivo? Con base en un análisis temporal, argumentamos que hubo una facilitación en el procesamiento de las características fonológicas durante el proceso de integración. Específicamente, nuestro efecto fonológico de integración emergió alrededor de 250 ms después de la presentación de la palabra objetivo. Esto es notablemente más temprano que el inicio típico de tales efectos, que generalmente se observa alrededor de 300 ms (Chow et al., 2017, 2022; Huettig et al., 2011; Huettig & McQueen, 2007). Además, los resultados de nuestro estudio de integración, en el que el competidor fonológico se presentó sin el contexto oracional, indicaron que el efecto fonológico con nuestros estímulos ocurrió más tarde, aproximadamente entre 550 y 750 ms. El inicio más temprano del efecto fonológico en el contexto de la presentación de la oración sugiere que la presencia de un contexto oracional facilitó la integración de la información fonológica después de que se encontró la palabra objetivo. Este cambio temporal implica que, aunque la preactivación fonológica puede no haber sido prominente antes de la aparición de la palabra objetivo, el contexto preparó el sistema para integrar detalles fonológicos de manera más eficiente una vez presentada la palabra. Así, el contexto probablemente actuó como un mecanismo de priming, permitiendo una respuesta más rápida a la información fonológica durante la fase de integración. 112 Esta explicación resulta convincente, ya que contrasta con hallazgos previos en los que los efectos de integración fonológica antes de oraciones altamente restrictivas mostraron una supresión en lugar de una facilitación fonológica (Dahan & Tanenhaus, 2004). Esta discrepancia sugiere una distinción importante entre los escenarios en los que la información fonológica ya ha sido preactivada y aquellos en los que no ha ocurrido. Cuando el procesamiento fonológico ocurre antes de la presentación de la palabra objetivo, debido a una fuerte preactivación predictiva, el procesamiento de abajo hacia arriba de la información fonológica puede no ocurrir porque dicha información ya ha sido accedida e integrada. Esto es consistente con los resultados tanto de nuestro experimento piloto fonológico como con los de Dahan y Tanenhaus (2004), donde la preactivación fonológica condujo a una respuesta disminuida o suprimida ante la información fonológica durante la integración. Por el contrario, cuando no hay una preactivación fonológica fuerte, como se observó en nuestro diseño experimental, la presentación de la palabra objetivo facilita el procesamiento fonológico durante la fase de integración. En este escenario, la falta de activación previa permite que las características fonológicas de la palabra objetivo se procesen de manera más rápida una vez que se encuentra la palabra, lo que resulta en un efecto de integración más robusto. Esta perspectiva se alinea con las teorías de codificación predictiva, que sugieren que las predicciones desempeñan un papel crucial en la reducción de la carga cognitiva asociada con el procesamiento de información entrante al preactivar características probables de los estímulos próximos (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). Cuando las predicciones preactivan exitosamente características como la fonología, hay menos necesidad de procesamiento de integración adicional al escuchar la palabra predicha, ya que la información ya ha sido considerada. Sin embargo, en ausencia de tal preactivación, el 113 sistema responde con un efecto de integración más pronunciado al procesar la información recién encontrada. En última instancia, esta teoría enfatiza la naturaleza adaptativa de los mecanismos predictivos en la comprensión del lenguaje: las predicciones ayudan a optimizar los recursos cognitivos al preparar el sistema para la entrada esperada, al tiempo que permiten un procesamiento rápido cuando surgen características nuevas o inesperadas. Esta visión matizada ayuda a explicar la variabilidad en los efectos fonológicos según la presencia o ausencia de procesamiento predictivo previo, así como el equilibrio entre las influencias de arriba hacia abajo y de abajo hacia arriba en el procesamiento del lenguaje. Esta interpretación concuerda bien con nuestra hipótesis sobre la interferencia creada por el competidor semántico (Chow et al., 2022). Sugiere que los participantes efectivamente predicen información fonológica, pero sus fijaciones en el competidor fonológico están ensombrecidas por la presencia del competidor semántico durante la fase predictiva. En esencia, la atención dirigida hacia el competidor semántico interfiere con la capacidad de fijarse en el competidor fonológico antes de la presentación de la palabra objetivo. Sin embargo, cuando los participantes escuchan la palabra objetivo, el competidor fonológico recibe un impulso adicional en su activación. Este impulso resulta en la facilitación observada, con el procesamiento fonológico ocurriendo aproximadamente 300 ms antes de lo que ocurriría bajo condiciones sin interferencia. En otras palabras, la interferencia del competidor semántico retrasa la atención manifiesta de los participantes hacia el competidor fonológico, pero el procesamiento fonológico en sí no se suprime completamente; simplemente se vuelve más evidente como un efecto de integración cuando se presenta la palabra objetivo, permitiendo una integración más rápida. Esta interpretación también arroja luz sobre el efecto fonológico observado en el análisis de punto de divergencia del Experimento 2. Específicamente, sugiere que algunos participantes en 114 ciertos ensayos exhibieron un efecto fonológico porque la interferencia del competidor semántico no fue lo suficientemente fuerte como para suprimir completamente la predicción fonológica. Esta explicación apunta a diferencias individuales en la capacidad para procesar información fonológica, aunque estas diferencias no fueron capturadas directamente por nuestras medidas. Nuestros resultados sobre diferencias individuales revelaron que los participantes más rápidos mostraron efectos de predicción semántica más fuertes, aunque no se encontró una relación significativa entre la velocidad de procesamiento y la predicción fonológica. Esto sugiere que la predicción semántica está más vinculada a un dominio general de la velocidad de procesamiento en lugar de a un proceso específico del lenguaje. Esto implica que los participantes que son generalmente más rápidos en procesar información podrían también ser más rápidos en realizar predicciones en varios dominios cognitivos, no solo en la comprensión del lenguaje. Sin embargo, otras habilidades podrían influir en las diferencias individuales en la predicción fonológica. Por ejemplo, las habilidades de lectura podrían desempeñar un papel importante en esta área, ya que se sabe que mejoran y refinan las representaciones fonológicas (Huettig & Pickering, 2019). Los individuos con habilidades de lectura más fuertes pueden desarrollar representaciones fonológicas más precisas, lo que les permite mantener predicciones fonológicas incluso cuando enfrentan interferencia de información semántica. Estudios futuros podrían explorar si las medidas de habilidades de lectura o conciencia fonológica explican mejor la variabilidad en los efectos de predicción fonológica observados en este estudio. Esto proporcionaría una comprensión más completa de cómo las diferencias individuales moldean el equilibrio entre el procesamiento semántico y fonológico durante la comprensión predictiva del lenguaje. 115 En resumen, el Experimento 2 demostró que, durante la comprensión del lenguaje, la información semántica se preactiva de manera fuerte y consistente, configurando las predicciones sobre las palabras próximas. En contraste, la información fonológica muestra más variabilidad en su predicción. Interpretamos esta variabilidad como evidencia de que los participantes predicen la forma fonológica de las palabras objetivo, como lo indica la facilitación observada en el efecto de integración. Sin embargo, la predicción fonológica parece estar influenciada por varios moduladores, incluyendo la competencia de información semántica y las diferencias individuales entre los participantes. 116 Experimento 3: Electroencefalografía Una limitación conocida del paradigma de mundo visual es el problema de conjunto cerrado (Apfelbaum et al., 2021). Este problema surge cuando la presentación visual de elementos competidores facilita artificialmente la recuperación de un competidor, lo cual podría no ocurrir típicamente, transformando efectivamente el paradigma de mundo visual en una tarea de elección forzada entre cuatro alternativas. En el presente experimento, los participantes pueden haber predicho la información semántica no porque estuviera inherentemente activada en sus lexicones, sino porque el competidor visual estaba explícitamente mostrado. Además, una característica intrínseca de la tecnología de seguimiento ocular es que selecciona una pieza de información a la vez. Aunque la información visual se procesa en paralelo, abarcando tanto el punto focal como la visión periférica (Kandel, 2012), este procesamiento paralelo puede afectar la interpretación de los elementos competidores dentro de una escena visual. Como resultado, el fenómeno observado de supresión fonológica predictiva podría estar influenciado más por esta limitación metodológica que por un proceso cognitivo natural. Es importante reconocer que el paradigma de mundo visual es intrínsecamente un método multimodal, lo que presenta un desafío al intentar separar la influencia de la información visual y lingüística en el momento del procesamiento predictivo. Sin embargo, esta multimodalidad, aunque complica la diferenciación de procesos cognitivos distintos, también contribuye a la validez ecológica del paradigma (McMurray, 2023). En situaciones reales, el procesamiento del lenguaje a menudo implica la integración de información multimodal (Pickering & Gambi, 2018). Por lo tanto, aunque el paradigma de mundo visual puede oscurecer los límites entre diferentes procesos cognitivos, captura eficazmente la complejidad y riqueza de las experiencias cognitivas y lingüísticas cotidianas. 117 Además, el paradigma de mundo visual se basa en el supuesto de muestreo de alta frecuencia (McMurray, 2023), que sugiere que cada punto de datos en la señal de fijación representa una muestra de la curva de activación subyacente. Si bien los estudios han demostrado similitudes entre los patrones de activación en modelos computacionales y los derivados de los datos del paradigma de mundo visual (por ejemplo, Duta & Plunkett, 2021), este supuesto no explica completamente el ruido introducido por el tiempo requerido para iniciar un movimiento ocular (Viviani, 1990). Aunque una fijación individual podría reflejar la curva de activación subyacente, el ojo debe permanecer fijado durante al menos 200 ms antes de cambiar a otro objeto. En consecuencia, el paradigma de mundo visual podría tener dificultades para detectar procesos rápidos o paralelos, como aquellos propuestos por los mecanismos de predicción por asociación o predicción por simulación. Por ejemplo, nuestro análisis de punto de divergencia reveló que el inicio promedio de la predicción semántica ocurrió antes que el de la predicción fonológica; sin embargo, la diferencia fue mínima, y la variabilidad relativamente alta hizo que esta distinción no fuera confiable. A la luz de estas consideraciones, el objetivo del Experimento 3 fue investigar la línea temporal del acceso léxico predictivo a la información tanto semántica como de forma léxica utilizando EEG. Esta técnica, conocida por su alta resolución temporal, permite capturar datos en el dominio de los milisegundos, proporcionando así una visión detallada de la dinámica temporal subyacente al procesamiento cognitivo. El EEG ofrece información valiosa sobre los mecanismos involucrados en la recuperación de la información semántica y de forma. Esta investigación se basa en la premisa de que la recuperación de la representación de palabras depende de la sincronización temporal de las redes neuronales asociadas con palabras específicas (A. R. Damasio, 1989; Kriegeskorte et al., 2008; 118 Kriegeskorte & Kievit, 2013; Wang et al., 2018). Para explorar esto, se utilizó RSA para evaluar si la sincronización temporal difiere entre palabras relacionadas semántica y ortográficamente. Estudios previos han demostrado la activación de conjuntos neuronales similares cuando se predicen palabras relacionadas semántica y fonológicamente (Wang et al., 2018, 2020, 2024; Wei et al., 2023). Basándose en este fundamento, el Experimento 3 tiene como objetivo comparar las características temporales de los efectos semánticos y ortográficos, proporcionando una comprensión más profunda de sus respectivas líneas temporales. Participantes En el Experimento 3, la muestra final consistió en 24 estudiantes de pregrado (edad media = 19.63 años, DE = 1.23, 12 hombres) de la Universidad Autónoma de Querétaro (UAQ). Todos los participantes eran hablantes nativos de español, predominantemente diestros, con visión normal o corregida a normal y audición normal. Se evaluaron 10 participantes adicionales, pero fueron excluidos debido a errores experimentales (n = 2) o artefactos excesivos (n = 8). El tamaño de muestra final (n = 24) superó el número determinado mediante nuestro análisis de potencia (n = 17). Este análisis de potencia se basó en un tamaño de efecto medio para una única comparación pareada (δ = 0.73, α = 0.05, β = 0.80), utilizando datos de Wang et al. (2018). Por lo tanto, el estudio tuvo un tamaño de muestra suficiente para examinar eficazmente la activación predictiva de la información semántica y fonológica durante la comprensión del lenguaje. Instrumentos Para cuantificar las variaciones en las habilidades predictivas entre individuos, se llevaron a cabo dos evaluaciones cognitivas: razonamiento verbal y memoria de trabajo verbal. Debido a limitaciones de tiempo, espacio y materiales disponibles en el lugar del experimento 119 electrofisiológico, la evaluación fue más breve que la utilizada en el Experimento 2. Estas habilidades cognitivas han sido previamente vinculadas a la capacidad de predicción en estudios anteriores (Ryskin & Nieuwland, 2023). La tarea de Semejanzas (Wechsler, 2008) se utilizó para evaluar la abstracción verbal. En esta tarea, los participantes identifican la relación entre dos conceptos (por ejemplo, “números: siete-uno”). Las respuestas se puntúan de 0 a 2, siendo 2 el puntaje que indica un nivel más profundo de abstracción. La puntuación final es la suma de las puntuaciones individuales en todos los ítems. La tarea de Retención de Dígitos (Wechsler, 2008) se empleó para medir la memoria de trabajo verbal. En esta tarea, se presenta a los participantes una secuencia de números, que deben repetir en el mismo orden (recuerdo directo) o en orden inverso (recuerdo inverso). La puntuación final, que representa la capacidad de memoria de trabajo verbal del participante, se determina por la longitud de la secuencia más larga que puede reproducir correctamente. Estímulos En este estudio, se seleccionaron 94 oraciones altamente restrictivas del Experimento 1, utilizando la última palabra de cada oración como criterio principal de selección. Se eligieron cuarenta y siete sustantivos concretos y altamente imaginables, emparejando cada sustantivo con dos oraciones distintas que proporcionaban contextos semánticos diferentes (por ejemplo, “Como tenía mucho sueño me lloraban mis ojos”; “Antes de besarla, él miró sus lindos ojos”). Para garantizar la consistencia en la longitud de las oraciones a lo largo del experimento, todas fueron estandarizadas a ocho palabras. Esta estandarización se logró principalmente mediante la introducción de frases adverbiales. En algunos casos, se modificó la estructura sintáctica, pero se preservó el contenido semántico central de cada oración. Además, se realizaron ajustes en la 120 palabra anterior a la final de cada oración, reemplazándola por una alternativa semántica y sintácticamente plausible, pero inesperada. Este ajuste tenía como objetivo crear una variación controlada sin alterar el significado general. Para mantener el interés de los participantes a lo largo del experimento, se desarrollaron 47 preguntas de sí/no relacionadas con estas oraciones. Estas preguntas fueron diseñadas para ser directas, requiriendo la plena atención de los participantes. Por ejemplo, si la oración experimental era, “La vaca en el establo produjo poca leche,” la pregunta correspondiente podría ser, “¿La vaca en el establo produjo mucha leche?” Este diseño aseguró que los participantes prestaran atención a cada palabra de la oración para responder con precisión, ayudando así a mantener su enfoque en la tarea durante todo el experimento. Estudio piloto 1: plausibilidad El Estudio Piloto 1 fue diseñado para evaluar la plausibilidad de las oraciones según la percepción de hablantes de español mexicano. El objetivo principal era determinar si las oraciones eran consideradas enunciados naturales o afirmaciones plausibles que podrían encontrarse en un contexto específico. Esta evaluación era crucial, ya que cualquier anomalía semántica o sintáctica podría potencialmente interrumpir los procesos de predicción, afectando así las predicciones semánticas y fonológicas asociadas con la palabra crítica. El estudio involucró a 100 estudiantes de pregrado (51 hombres, 49 mujeres), con una edad promedio de 23.13 años (DE = 3.50, rango = 18–29). La tarea experimental se realizó en línea utilizando la plataforma Cognition (https://www.cognition.run/). Los participantes debían aceptar el consentimiento informado antes de comenzar la tarea; aquellos que no otorgaron su consentimiento no pudieron realizarla. 121 Los participantes calificaron la plausibilidad de las oraciones en una escala continua de 0 a 1, donde cero indicaba que la oración era percibida como no natural y uno que era percibida como natural. Para asegurar la familiaridad con el proceso de calificación, los participantes completaron tres pruebas de familiarización antes de la tarea principal. Los resultados descriptivos indicaron una calificación promedio de plausibilidad de 0.90 (DE = 0.60, rango = 0.62–0.93). Pruebas de rango con signo de Wilcoxon para una muestra, comparando las calificaciones contra el nivel de azar de 0.5, revelaron que todas las oraciones fueron calificadas significativamente por encima del azar (todos los valores p < 0.001). Estos hallazgos sugieren que las oraciones fueron generalmente percibidas como plausibles por los participantes, validando su uso en fases experimentales subsecuentes. Estudio piloto 2: Probabilidad de cierre de la palabra final Aunque las probabilidades de cierre se obtuvieron inicialmente del Experimento 1, las modificaciones realizadas en la longitud y estructura sintáctica de las oraciones podrían afectar su predictibilidad. Por lo tanto, el conjunto de 94 oraciones fue re-evaluado mediante una tarea similar a la del Experimento 1. La única diferencia fue que los 101 participantes de este estudio proporcionaron información demográfica sobre su edad (M = 23.21, DE = 3.41, rango = 18–28) y género (25 hombres, 35 mujeres). El análisis descriptivo reveló que las oraciones mantuvieron una alta probabilidad de cierre (M = 0.93, DE = 0.09, rango = 0.71–1), junto con baja sorpresa (M = 0.10, DE = 0.15, rango = 0.00–0.48) y entropía baja (M = 0.27, DE = 0.38, rango = 0.00–1.16). La alta probabilidad de cierre (0.93) indica que las oraciones son altamente restrictivas, con los participantes anticipando fuertemente las palabras objetivo. Los valores bajos de sorpresa de las palabras críticas objetivo (0.09) sugieren que estas palabras aportaron poca información nueva al contexto de la oración 122 debido a su predictibilidad. Además, la baja entropía (0.27) implica que el contexto generó una mínima incertidumbre, reforzando la probabilidad de que los participantes predijeran con precisión la palabra objetivo. Dada la naturaleza altamente restrictiva de las oraciones, que facilita la anticipación de la palabra esperada, es probable que los participantes activen tanto la información semántica como la fonológica de la palabra crítica durante el procesamiento. Esto respalda la idoneidad de estas oraciones para investigar los mecanismos predictivos en los experimentos posteriores. Estudio Piloto 3: Probabilidad de cierre de la penúltima palabra Si bien la predictibilidad de la palabra final es crucial, es posible que las diferencias observadas en el procesamiento de la palabra previa a la final puedan estar influenciadas por su grado de predictibilidad. Por ejemplo, en la oración “La comida se sirvió en la mesa,” no solo es altamente predecible la palabra final “mesa,” sino que también se espera el determinante “la” como penúltima palabra. Para abordar esto, el conjunto de 94 oraciones fue sometido a una tarea de evaluación similar a la del Experimento 1, con una modificación clave: los contextos de las oraciones se presentaron sin las palabras final y penúltima, lo que llevó a los participantes a proporcionar la continuación más adecuada. Cada contexto de oración fue evaluado por 70 estudiantes universitarios, cuya edad promedio fue de 23.21 años (DE = 3.41, rango = 18–28 años, 25 hombres y 35 mujeres). El análisis descriptivo reveló que estos contextos de oración tenían una baja probabilidad de cierre (M = 0.04, DE = 0.07, rango = 0.00–0.30), indicando que presentaban una baja restricción en relación con la penúltima palabra. Esto sugiere que, en general, los participantes no podían predecir de manera confiable la penúltima palabra. 123 Sin embargo, es importante señalar que, aunque la penúltima palabra tenía una baja restricción, no era completamente inesperada. Esta interpretación está respaldada por los hallazgos del Estudio Piloto 1, donde, aunque la penúltima palabra no era altamente predecible, los participantes aún calificaron las oraciones completas como altamente plausibles. Esto sugiere que, a pesar de la variabilidad en la predicción de la penúltima palabra, el contexto general de la oración se mantiene coherente y natural, preservando así la integridad de los estímulos experimentales. Estudio piloto 4: Preguntas El Estudio Piloto 4 tuvo como objetivo determinar un tiempo de respuesta adecuado para los participantes y evaluar si las preguntas eran lo suficientemente fáciles de responder con precisión. El estudio se llevó a cabo en línea utilizando la plataforma Cognition, donde los participantes vieron oraciones completas durante 4 segundos, seguidas de una pregunta correspondiente mostrada por 4 segundos. Se instruyó a los participantes para decidir si la pregunta era coherente con la oración presentada anteriormente. El estudio piloto involucró a 70 estudiantes universitarios con una edad promedio de 23.21 años (DE = 3.41, rango = 18–28), incluyendo 25 hombres y 35 mujeres. El análisis descriptivo indicó un alto porcentaje de respuestas correctas (M = 98.38%, DE = 2.15, rango = 95.71– 100.00%), lo que sugiere que las preguntas fueron bien comprendidas y que la tarea era lo suficientemente fácil para que los participantes respondieran con precisión. En cuanto a los tiempos de reacción, los participantes tardaron un promedio de 1558.16 ms en responder (DE = 57.70, rango = 1457.82–1668.77 ms). Este rango inicial sugería que 1700 ms serían suficientes para que la mayoría de los participantes leyeran la oración y respondieran a la pregunta. Sin embargo, un examen más detallado de los tiempos de respuesta individuales reveló que algunos participantes requerían hasta 2200 ms para completar sus respuestas. Dada esta 124 variabilidad y la diversidad dentro del grupo de participantes, decidimos extender la ventana de tiempo de respuesta a 2400 ms. Este ajuste asegura que todos los participantes tengan tiempo suficiente para responder con precisión, acomodando a aquellos que puedan necesitar más tiempo sin comprometer el flujo del experimento. Diseño experimental En el experimento principal, las 94 oraciones se presentaron en un solo bloque, con cada palabra mostrada individualmente en el centro de la pantalla en una fuente negra sobre un fondo gris. La altura de las palabras se ajustó a 1.5° de ángulo visual para garantizar una visibilidad uniforme para todos los participantes. Antes de que apareciera la primera palabra de cada oración (Figura 22), se mostró un punto de fijación durante 1400 ms, seguido de un intervalo entre estímulos (ISI) de 100 ms. Las primeras cinco palabras de cada oración se presentaron durante 400 ms cada una, con un ISI de 100 ms entre ellas. Para permitir más tiempo de procesamiento, la velocidad de presentación se redujo para las últimas tres palabras, que se mostraron durante 600 ms cada una con un ISI de 200 ms. Después de la presentación de la oración, los participantes veían una cadena de símbolos numéricos (#####) o una pregunta de sí/no relacionada con el contenido de la oración. Los símbolos numéricos se mostraban durante 900 ms con un ISI de 100 ms, mientras que las preguntas se presentaban durante 2400 ms, seguidas de un ISI de 100 ms. Este tiempo extendido para la presentación de preguntas se eligió en base a los resultados del Estudio Piloto 4, asegurando que los participantes tuvieran tiempo suficiente para leer y responder con precisión. La decisión de variar la velocidad de presentación de palabras en las oraciones fue basada en los hallazgos de Wang et al. (2018), quienes utilizaron una velocidad de presentación de una palabra por segundo. En su estudio, la similitud representacional entre palabras aumentó 150 ms 125 después del inicio de cada palabra, alcanzando un pico alrededor de 550 ms. Este efecto rápido sugería que los participantes procesaban las palabras más rápido de lo anticipado a esa velocidad de presentación. Por lo tanto, el ajuste de tiempos en el presente experimento buscó equilibrar la necesidad de una velocidad de lectura natural con un tiempo adecuado para el procesamiento cognitivo, en particular para las palabras críticas, penúltima y final. Este enfoque ayuda a capturar una representación más precisa de cómo los participantes procesan predictivamente la información semántica y fonológica mientras leen. En el experimento actual, se plantea la hipótesis de que podrían surgir desajustes entre la información semántica y fonológica en la predicción de palabras. Esta complejidad nos llevó a proporcionar a los participantes tiempo adicional para procesar e integrar adecuadamente tanto las pistas semánticas como las ortográficas para la predicción. A pesar de esto, la velocidad de presentación de palabras en nuestro experimento aún fue más rápida que la utilizada por Wang et al. (2018). Sin embargo, fue necesario hacer un ajuste considerando la duración total de la tarea, ya que las tareas extensas representan un desafío en términos de mantener la atención y el compromiso de los participantes. Figura 22 Ejemplo de un ensayo del experimento de encefalograma Nota. Los estímulos se mostraron de izquierda a derecha y de arriba hacia abajo. El rectángulo rojo indica el período de tiempo del cual se extrajeron las épocas, mientras que el rectángulo azul muestra el momento en que se esperaba un efecto predictivo. El signo de interrogación simboliza la pregunta presentada en algunos ensayos; sin embargo, en la mitad de los ensayos, se mostró una secuencia de símbolos numéricos (######) durante 1000 ms. 126 Adquisición de datos La señal electroencefalográfica (EEG) se registró utilizando un amplificador NuAmps (Neuroscan Inc.), con un conjunto de 34 electrodos de plata/cloruro de plata dispuestos según el sistema internacional 10-10. Las posiciones de los electrodos incluyeron: Fp1, Fp2, F7, F3, Fz, F4, F8, FT7, FC5, FC3, FCz, FC4, FC6, FT8, T7, C3, Cz, C4, T8, TP7, CP5, CP3, CPz, CP4, CP6, TP8, P7, P3, Pz, P4, P8, O1, Oz y O2. Además, se colocaron cinco electrodos adicionales: uno para la conexión a tierra, dos en los lóbulos de las orejas para re-referencia, y dos para monitorear los movimientos oculares verticales y horizontales. Para garantizar datos de alta calidad, los niveles de impedancia de los electrodos se mantuvieron por debajo de 10 kΩ. Las señales EEG sin procesar se registraron a una tasa de muestreo de 1000 Hz y con un ancho de banda de 0.1 a 50 Hz, lo que proporciona una resolución temporal detallada para capturar procesos neuronales rápidos. La recopilación de datos se realizó utilizando el software Curry 7 (Neuroscan Inc.), mientras que la tarea conductual fue entregada a través del software Stim2. La sincronización entre estas plataformas se logró con un Cedrus Stim Tracker Quad (Neuroscan Inc.), que enviaba marcadores para indicar el momento y la naturaleza de cada estímulo presentado. Las respuestas de los participantes se registraron con un dispositivo de respuesta Cedrus RB-740 (Neuroscan Inc.), asegurando un registro preciso de sus entradas. Procedimiento Al llegar al laboratorio, cada participante siguió un protocolo sanitario estándar para asegurar un ambiente limpio y seguro para los procedimientos. Luego se les solicitó firmar un formulario de consentimiento informado y proporcionar información demográfica como parte de la preparación para el registro de EEG. Los participantes se sentaron aproximadamente a 60 cm 127 de distancia de la pantalla y se les indicó que utilizaran el índice y el dedo medio de la mano derecha para presionar los botones durante las tareas experimentales. También se les aconsejó permanecer tranquilos, relajados y minimizar el parpadeo en la medida de lo posible, aunque se les permitió parpadear durante la aparición del punto de fijación cuando fuera necesario. Antes de iniciar la tarea experimental, los participantes recibieron instrucciones claras. Se les indicó presionar el botón verde si la pregunta coincidía con la oración que habían leído y presionar el botón rojo si no coincidía. Para los ensayos en los que se presentaban símbolos numéricos, se les indicó no responder. Para asegurar la comprensión de las instrucciones, se realizó una breve fase de familiarización con tres ensayos. Si un participante cometía un error durante esta fase, el experimentador ofrecía retroalimentación y se repetían los ensayos de familiarización hasta que el participante demostrara una comprensión precisa. Durante todo el experimento, los participantes fueron monitoreados a través de una cámara Gesell, permitiendo al experimentador asegurar la adherencia a las instrucciones y corregir cualquier problema de ser necesario. Al finalizar la tarea experimental, se proporcionaron materiales de limpieza a los participantes para eliminar el gel utilizado en los registros de EEG. Además, se les ofreció una explicación detallada de los objetivos principales del proyecto de investigación, fomentando su comprensión y aprecio por el estudio. Procesamiento de datos El preprocesamiento de los datos se realizó utilizando EEGLAB (Delorme & Makeig, 2004), una herramienta versátil para el procesamiento de señales electrofisiológicas. Inicialmente, la señal de EEG se re-referenció al promedio de los lóbulos de las orejas, y se eliminó el componente de corriente continua (DC) restando la media de toda la serie temporal para cada electrodo. 128 El tratamiento de artefactos incluyó un proceso de cuatro etapas. En la primera etapa, se extrajo el ruido de línea a 60 Hz de la señal para reducir la interferencia eléctrica. La segunda etapa aplicó un filtro Butterworth de cuarto orden con un rango de paso de 0.5 a 30 Hz, aislando efectivamente las frecuencias de interés y filtrando el ruido de baja y alta frecuencia. La tercera etapa implicó una inspección visual de los datos, permitiendo la eliminación de ruido prominente y no coherente que no se pudo gestionar de forma automática. Posteriormente, se realizó una corrección automática de artefactos utilizando el algoritmo ‘runica’ y la extensión ICAlabels dentro de EEGLAB. Esta etapa incluyó la eliminación de componentes independientes asociados con actividad muscular, movimientos oculares, señales cardíacas, ruido de línea y ruido en otros canales. Después de esto, se empleó un procedimiento de reconstrucción de subespacios de artefactos para corregir o rechazar cualquier residuo de artefacto. Finalmente, se llevó a cabo una segunda inspección visual para identificar y eliminar cualquier artefacto remanente, asegurando la integridad de la señal limpia. Luego, la señal se segmentó en épocas que abarcaban desde -800 hasta 0 ms en relación con el inicio anticipado de la palabra. Dada la tasa de presentación de palabras de 800 ms, cada época capturó la actividad neuronal asociada con la palabra inmediatamente anterior a la palabra crítica esperada. Con estas épocas, se realizó un Análisis de Similitud Representacional (RSA) calculando correlaciones de Pearson entre los vectores espaciales de todas las posibles combinaciones de épocas en cada punto de muestreo dentro de la época. En términos simples, el conjunto de electrodos para una oración se correlacionó con el de otra oración en cada milisegundo, produciendo una serie temporal de correlación única para cada par de oraciones. Con un total de 94 oraciones en el experimento, esto resultó en 4371 combinaciones potenciales para el análisis RSA. Este enfoque permitió un examen detallado de 129 los patrones representacionales y de cómo la actividad neuronal se alineaba en diferentes contextos de oración. El cálculo del RSA puede resumirse en la siguiente ecuación: 𝑅𝑆𝐴[𝑒1,𝑒2,𝑡] = ∑ (𝑥[𝑒1,𝑖,𝑡] − ?̅?[𝑒1,𝑡])(𝑥[𝑒2,𝑖,𝑡] − ?̅?[𝑒2,𝑡])𝐶𝑖=1√∑ (𝑥[𝑒1,𝑖,𝑡] − ?̅?[𝑒1,𝑡])2𝐶𝑖=1 √∑ (𝑥[𝑒2,𝑖,𝑡] − ?̅?[𝑒2,𝑡])2𝐶𝑖=1 En esta fórmula, los datos de EEG se representan en una matriz tridimensional, denotada como x, que representa épocas, electrodos y puntos de tiempo. En nuestros datos, esta matriz tiene un tamaño de 94 x 34 x 800, lo que representa 94 épocas, 34 electrodos (C = {i1, i2…, i34}) y 800 puntos de tiempo (t = {t1, t2…, t800}). El RSA se calcula para todos los pares posibles de épocas, excluyendo las auto-comparaciones. Para cada par de épocas (e1, e2 ∈ {1, 2..., 94}; e1≠e2), se calcula la correlación de Pearson en todos los electrodos en cada punto de tiempo, lo que da como resultado un valor de correlación que indica el grado de similitud entre los dos patrones de EEG en ese momento específico. Tras el cálculo de la serie temporal de similitud representacional, cada serie que representa la similitud electroencefalográfica entre los pares predichos de palabras se categorizó en tres grupos: palabra específica, semántico y de forma léxica. En la categoría palabra específica, las señales de RSA se clasificaron en dos grupos: intra palabras y entre palabras. Los pares de señales correspondientes a oraciones que predecían la misma palabra (por ejemplo, “piano-piano”) se asignaron al grupo intra palabras, mientras que los pares que involucraban palabras predichas diferentes (por ejemplo, “piano-reloj”) se categorizaron en el grupo entre palabras. Para las categorías semántica y de forma, los emparejamientos se determinaron utilizando los valores de similitud semántica y ortográfica calculados a partir de todas las combinaciones de palabras esperadas. La similitud semántica se calculó mediante la medida de similitud de Lin 130 (Miller et al., 1994), mientras que la similitud ortográfica (Yujian & Bo, 2007) se evaluó utilizando la similitud de edición normalizada (como se describe en la sección de estímulos del Experimento 2). Luego se aplicó una división por la mediana a los datos, dividiendo los 4371 pares de señales de similitud representacional en condiciones de alta y baja relación semántica, así como de alta y baja relación ortográfica. Tras esta clasificación, los datos se agregaron entre los participantes. Además, se realizó RSA en las señales de EEG filtradas en bandas de frecuencia tradicionales para explorar los mecanismos de sincronización en el cerebro. Teóricamente, las frecuencias más bajas están asociadas con sincronización global, mientras que las frecuencias más altas reflejan procesos de sincronización más localizados (Basar et al., 1999). Específicamente, los datos de EEG de banda ancha se filtraron en las siguientes bandas de frecuencia utilizando un filtro Butterworth de sexto orden con una banda de paso: delta (0.5–3.5 Hz), theta (3.5–7.5 Hz), alfa (7.5–12.5 Hz), beta 1 (12.5–25.5 Hz) y beta 2 (25.5–30 Hz). Este análisis permitió una comprensión más profunda de cómo diferentes frecuencias contribuyen al procesamiento de las predicciones semánticas y fonológicas durante la comprensión del lenguaje. Análisis estadístico Las variables dependientes para el próximo análisis son las series temporales de similitud representacional agregadas por sujeto, específicamente en el periodo de -800 a 0 ms. Este intervalo de tiempo, que coincide con la presentación de la penúltima palabra, fue seleccionado con base en hallazgos de investigaciones previas (Wang et al., 2018). Esta elección permitió un enfoque basado en los datos para el análisis, asegurando que la ventana capturara procesos predictivos relevantes. La ventana de análisis se determinó mediante una prueba estadística no paramétrica (detallada en la Sección de Análisis Estadístico del Experimento 2). Un nivel de chance estadístico de 0.02, derivado de la mediana de la serie temporal de similitud representacional, se utilizó como 131 punto de referencia para evaluar los valores de la serie, independiente de cualquier condición específica. Para identificar clústeres significativos, se sumaron los valores t que superaban un umbral crítico (t = 2.06) en puntos de tiempo adyacentes, con un nivel alfa establecido en 0.05 (dos colas). Se generó una distribución nula mediante 100000 permutaciones, en las cuales se aleatorizó el signo de la serie temporal para comparaciones de una muestra. Un clúster se consideró significativo si su valor superaba el percentil 95 de los clústeres en la distribución nula. Este proceso identificó tres clústeres significativos donde los valores de similitud representacional superaron significativamente el nivel de chance predefinido (Figura 23): dos clústeres al inicio de la ventana (-738 a -676 ms, tcluster = 271.25, tmax = 5.39, p < 0.001; -671 a -498 ms, tcluster = 610.20, tmax = 4.51, p < 0.001) y un clúster cerca del final de la ventana (-69 a -45 ms, tcluster = 59.71, tmax = 3.14, p < 0.001). Sin embargo, solo los dos primeros clústeres, que abarcan de -738 a -498 ms, se consideraron para las comparaciones subsiguientes de condiciones experimentales. Esta decisión se tomó para mantener la coherencia con los hallazgos de investigaciones previas (Wang et al., 2018), que resaltaron la importancia de esta ventana temprana para examinar la dinámica del procesamiento predictivo. La ventaja de este enfoque analítico radica en su enfoque imparcial, que identifica puntos de tiempo en los que la similitud representacional aumenta significativamente, independientemente de la condición específica. Este método establece una base sólida para comparaciones posteriores entre diferentes condiciones. La ventana de análisis identificada se aplica de manera uniforme a todas las divisiones de datos, incluidas las categorías palaba específica, semánticas y de forma léxica. Para el análisis formal, utilizamos el análisis de permutación de clústeres junto con el análisis de punto de divergencia para comparar condiciones: intra vs. entre palabras, alta vs. baja 132 similitud semántica, y alta vs. baja similitud ortográfica. La suposición subyacente es que, si se están activando representaciones palabras específicas, semánticas o basadas en la forma, entonces la similitud representacional derivada de las señales de EEG de los pares de penúltimas palabras debería arrojar valores más altos en las condiciones relevantes. Figura 23 Similitud representacional sin considerar condiciones Nota. La línea graficada muestra el promedio de la señal de similitud representacional de todos los pares posibles de estímulos. La línea discontinua horizontal representa el nivel de probabilidad (0.02). La línea discontinua vertical marca el inicio de cada una de las palabras finales esperadas. La región sombreada en gris resalta las diferencias significativas con respecto al nivel de probabilidad. Durante el análisis, se formaron clústeres sumando valores t adyacentes que excedían un umbral crítico de 2.06, correspondiente a un nivel alfa de 0.05 (dos colas). La distribución nula se generó mediante 100000 permutaciones, en las que las señales se reorganizaron aleatoriamente entre condiciones para comparaciones pareadas. Un clúster se consideró significativo si su valor excedía el 95% de los clústeres en la distribución nula, indicando una diferencia estadísticamente confiable entre las condiciones comparadas. 133 El Análisis de Punto de Divergencia se realizó para determinar estadísticamente el inicio de los efectos predictivos comparando condiciones (intra vs. entre, alta vs. baja) mediante pruebas t pareadas. El punto de divergencia se definió como la primera instancia en la que tres valores t consecutivos superaron 2.06, el umbral crítico para 23 grados de libertad. Para evaluar la confiabilidad de estos puntos de divergencia, se generó una distribución de probabilidades a partir de 100000 muestras bootstrap. Esto permitió calcular la media y los intervalos de confianza de los puntos de divergencia, facilitando una comparación entre las tres distribuciones de inicios de efecto: palabra específica, semántico y de forma. El análisis se restringió a una ventana de tiempo más estrecha, que abarcaba de -600 a -500 ms. Esta ventana fue seleccionada en base al análisis de permutación inicial imparcial y aseguraba que los efectos distintivos de cada condición se midieran con precisión durante el procedimiento de bootstrap. Al centrarse en esta ventana, el análisis apuntó a capturar los primeros puntos de tiempo donde surgieron diferencias predictivas entre condiciones, proporcionando una comprensión más clara de cuándo comienzan a influir diferentes tipos de información (palabra específica, semántica o de forma) en el procesamiento de la penúltima palabra. Para evaluar las diferencias individuales en la predicción de los tres contrastes —palabra específica, semántico y de forma— se realizaron una serie de modelos lineales de efectos mixtos. Para cada contraste, se creó un modelo de referencia inicial para capturar el efecto base de la condición. Este modelo de referencia luego se comparó con modelos que incluían una de las medidas psicométricas: razonamiento verbal o memoria de trabajo verbal. Las comparaciones de modelos se realizaron evaluando la log-likelihood de cada modelo, tomando en cuenta los grados de libertad. Una mejora significativa en el ajuste del modelo indicó que la variable psicométrica agregada contribuía de manera significativa a explicar la varianza en 134 los datos. Si no se encontraba una mejora significativa, se consideraba más adecuado el modelo de referencia sin la medida psicométrica. Para prevenir errores de Tipo I, solo se consideraron para análisis posterior los modelos que demostraron el mejor ajuste. Este análisis se centró en los periodos de tiempo donde cada contraste mostró una diferencia significativa entre condiciones, según lo determinado por el análisis de permutación de clústeres (palabra específica: -528 a -514 ms; semántico: -593 a -574 ms; forma: -562 a -535 ms). La variable dependiente en estos análisis fue la serie temporal de similitud representacional escalada y centrada usando puntajes Z en el rango de banda ancha. Los factores fijos en los modelos incluyeron la Condición (palabra específica: intra vs. entre; semántico: alta vs. baja; forma: alta vs. baja) y su interacción con una de las medidas psicométricas. La variable Condición fue codificada de forma binaria, usando las condiciones “entre” y “baja” como referencia. Todas las medidas psicométricas fueron escaladas y centradas usando puntajes Z para asegurar la comparabilidad. El efecto aleatorio fue el intercepto para los sujetos, dado que el análisis de similitud representacional es una medida agregada que incorpora todas las combinaciones posibles de ítems. Este enfoque permitió evaluar cómo las diferencias individuales en el razonamiento verbal y la memoria de trabajo pueden influir en el procesamiento predictivo de la información semántica y fonológica durante la comprensión del lenguaje. Así, las fórmulas generales fueron las siguientes: Modelo de referencia: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖 = 𝛽0 + 𝛽1 ∙ 𝐶𝑖 + (𝑆0𝑖) Modelo de diferencias individuales: 𝑙𝑜𝑔 ( 𝑝1 − 𝑝)𝑖 = 𝛽0 + (𝛽1 ∙ 𝐶𝑖) + (𝛽2 ∙ 𝑃𝑖) + (𝛽3 ∙ [𝐶 ∙ 𝑃]𝑖) + (𝑆0𝑖) 135 Donde: • p es la probabilidad de éxito para el i-ésimo individuo. • β0 es la intersección fija. • β1 es la pendiente fija para el efecto Condición (C). • β2 es la pendiente fija para el efecto psicométrico (P). • β3 es la pendiente fija para la interacción entre C y P. • S0 es la intersección aleatoria para el i-ésimo individuo. Finalmente, el análisis de las bandas de frecuencia del EEG se realizó utilizando un enfoque de permutación basado en clústeres, similar al utilizado en el análisis de banda ancha, pero aplicado a lo largo de toda la ventana temporal de -800 a 0 ms en relación con el inicio de la palabra esperada. A diferencia del análisis planificado de banda ancha, esta exploración basada en frecuencia fue solicitada por los revisores de la tesis y no surgió de hipótesis específicas sobre la dinámica de RSA. Como resultado, el análisis fue exploratorio, centrado en comparaciones semánticas y de forma para identificar posibles diferencias temporales y basadas en frecuencia en la recuperación de estas representaciones. El objetivo principal de este análisis fue describir si los efectos predictivos en los datos de EEG estaban impulsados por sincronización local (reflejada en bandas de alta frecuencia) o sincronización global (reflejada en bandas de baja frecuencia). Al examinar cómo varían estos patrones de sincronización en diferentes condiciones, el estudio buscó entender mejor los mecanismos neuronales subyacentes al procesamiento predictivo de la información semántica y fonológica. Dada la necesidad de medir cambios en la dinámica de sincronización, especialmente en las bandas de frecuencia más lentas, el análisis RSA se extendió a lo largo de toda la ventana de 800 ms. Este enfoque aseguraba un tiempo adecuado para capturar los patrones de sincronización en bandas de baja frecuencia, como delta (0.5–3.5 Hz). Por ejemplo, con un límite inferior de frecuencia de 0.5 Hz, 800 ms cubrirían solo la mitad de un ciclo de onda, requiriendo una ventana 136 más amplia para observar actividad oscilatoria significativa. Al analizar toda la ventana de -800 a 0 ms, el estudio apuntó a obtener una visión completa de cómo tanto las oscilaciones lentas como las rápidas contribuyen al procesamiento predictivo de la información semántica y basada en la forma durante la comprensión del lenguaje. Resultados Conductuales Los participantes demostraron un rendimiento sólido en la tarea, alcanzando una precisión promedio de 93.97% (DE = 1.72, rango = 84.80–94.89). Es notable que todos los participantes, excepto uno, obtuvieron más del 90% de respuestas correctas. Este alto nivel de precisión es particularmente significativo en comparación con el nivel de azar del 50%, lo que indica que los participantes estuvieron atentos y comprometidos activamente durante la tarea conductual. Estos resultados sugieren que los participantes comprendieron efectivamente las instrucciones y mantuvieron su enfoque, lo que contribuye a la fiabilidad de los datos recopilados durante el experimento. EEG Banda ancha Después del proceso de rechazo de artefactos, los participantes retuvieron un promedio de 85.15 épocas (DE = 14.83, rango = 42–94). Aunque algunos participantes tenían menos del 50% de sus ensayos con épocas libres de artefactos, aún contaban con 861 combinaciones posibles de épocas para el cálculo de la similitud representacional. Es importante destacar que el 85% de los participantes retuvo más del 75% de sus épocas libres de artefactos, lo cual asegura un conjunto de datos robusto para el análisis. 137 Con base en el análisis de permutación de clústeres, se identificó un clúster significativo (Figura 24, panel izquierdo), que muestra una diferencia entre pares de oraciones que predicen la misma palabra (intra) frente a aquellas que predicen palabras diferentes (entre) durante la ventana temporal de -529 a -515 ms (tcluster = 36.12, tmax = 3.24, p < 0.001). Este resultado sugiere que los participantes pudieron recuperar la palabra específica predicha por el contexto de la oración durante este intervalo de tiempo. Figura 24 Similitud representaciones en los contrastes de banda ancha Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. De manera similar, las relaciones semánticas altas mostraron un incremento en la similitud representacional durante la ventana de la palabra prefinal (Figura 24, panel central). Este aumento se observó de -595 a -574 ms (tcluster = 42.28, tmax = 2.47, p < 0.001), lo que sugiere que el proceso de recuperación predictiva implica inherentemente la recuperación de información relacionada semánticamente. En paralelo, la comparación de forma reveló un clúster significativo a través del análisis de permutación de clústeres, donde los pares de oraciones con altas relaciones ortográficas exhibieron un incremento en la similitud representacional durante la ventana de la penúltima palabra (Figura 24, panel derecho). Este aumento se detectó entre -563 y -536 ms (tcluster = 77.96, 138 tmax = 3.77, p < 0.001). Estos hallazgos sugieren firmemente que el proceso de recuperación predictiva también incluye la recuperación de información relacionada ortográficamente. Además, el análisis de punto de divergencia reveló que el inicio del efecto palabra específica ocurrió en -521 ms (IC95% = -527 a -517), el efecto semántico comenzó en -579 ms (IC95% = -590 a -568), y el efecto de forma léxica se observó en -548 ms (IC95% = -564 a -552). El inicio más temprano del efecto semántico, como lo indican los límites de su intervalo de confianza, precedió significativamente a los efectos de forma y palabra específica. Sin embargo, no se encontraron diferencias significativas entre el inicio de los efectos ortográfico y de forma. Estos hallazgos sugieren que el cerebro inicialmente recupera información relacionada semánticamente antes de acceder a la información relacionada con la forma y, posteriormente, se involucra en la predicción de la palabra específica en sí (Figura 25). Figura 25 Comparación de inicios de efectos con análisis de divergencia Nota. Los gráficos de densidad muestran la distribución de los tiempos de inicio para las diferencias entre las señales de similitud representacional asociadas con pares de palabras esperadas. La distribución azul representa el análisis semántico, la distribución roja representa el efecto de forma y la distribución verde muestra el efecto palabra específica. En la sección inferior, se presentan la media y el intervalo de confianza para cada efecto, cada uno correspondiente a sus respectivos colores. 139 Diferencias individuales Según las comparaciones de modelos de efectos mixtos lineales (Tabla 7), la inclusión de la memoria de trabajo verbal no mejoró significativamente el ajuste de los modelos para los contrastes palabra específica y semántico (p > 0.05). De manera similar, el razonamiento verbal no mejoró el ajuste del modelo para los contrastes palabra específica y semántico (p > 0.05). Sin embargo, la adición de razonamiento verbal al modelo de forma de palabra mejoró significativamente el ajuste del modelo (p = 0.04). Este resultado sugiere que, aunque la memoria de trabajo y las habilidades de razonamiento verbal no parecen influir en la recuperación de información palabra específica o semántica, el razonamiento verbal podría desempeñar un papel en el procesamiento de la información relacionada con la forma durante las tareas de predicción en el lenguaje. Tabla 7 Comparación de modelos para el efecto de la variable individual sobre la similitud representacional. Contraste Modelo Parámetros AIC logLik X2 df p Palabra específica Referencia 4 111.730 -51.863 Razonamiento verbal 6 114.850 -51.425 0.875 2 0.645 Memoria de trabajo 6 115.590 -51.794 0.137 2 0.933 Semántico Referencia 4 92.105 -42.053 Razonamiento verbal 6 91.995 -39.997 4.110 2 0.128 Memoria de trabajo 6 93.336 -40.668 2.769 2 0.250 Forma léxica Referencia 4 67.477 -29.738 Razonamiento verbal 6 65.350 -26.675 6.126 2 0.0467 Memoria de trabajo 6 68.691 -28.345 2.786 2 0.248 Los valores en negritas indican significancia estadística. La exploración del modelo de forma de palabra, que incluyó la variable de razonamiento verbal (Tabla 8, Figura 26), reveló una interacción significativa entre el factor Condición y el razonamiento verbal (p = 0.04). Esta interacción sugiere que la diferencia en la similitud representacional entre las condiciones de baja y alta similitud de forma de palabra se vuelve más pronunciada en los participantes con mayores habilidades de razonamiento verbal. En otras palabras, los individuos con mayor capacidad de razonamiento verbal parecen ser más capaces de diferenciar entre similitudes bajas y altas relacionadas con la forma, lo que indica que el 140 razonamiento verbal podría mejorar la sensibilidad a las pistas ortográficas durante el procesamiento predictivo. Figura 26 Efecto de razonamiento verbal en la predicción de la forma léxica Nota. Las líneas sólidas muestran los valores predichos de fijación para cada condición en la ventana de predicción de la forma de la palabra. Las áreas sombreadas indican el intervalo de confianza del 95%. Los valores de razonamiento verbal y de similitud representacional (RSA) están escalados y centrados. Por lo tanto, los valores más altos corresponden a magnitudes mayores. Tabla 8 Efecto del razonamiento verbal sobre el efecto de predicción de la forma de la palabra. Efectos fijos β SE df t p Intercepto -0.113 0.222 18.578 -0.511 0.615 Condición 0.227 0.055 18 4.064 <0.001 Razonamiento verbal -0.325 0.225 18.578 -1.446 0.164 Condición:Razonamiento verbal 0.122 0.056 18 2.165 0.044 Los valores en negritas indican significancia estadística. Análisis espectral En cuanto al análisis de frecuencia en la banda delta (Figura 27), se observó un aumento significativo en la similitud representacional para la alta similitud semántica en comparación con la baja similitud semántica, entre -527 y -482 ms (tcluster = 91.47, tmax = 2.25, p < 0.001). En contraste, la comparación de forma reveló dos clústeres significativos donde la alta similitud ortográfica se asoció con un aumento en la similitud representacional. El primer clúster apareció 141 temprano, de -733 a -649 ms (tcluster = 192.26, tmax = 2.64, p < 0.001), mientras que el segundo clúster se identificó más tarde, entre -465 y -410 ms (tcluster = 139.35, tmax = 2.89, p < 0.001). Figura 27 Similitud representacional en banda delta Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. En la banda theta (Figura 28), la similitud representacional fue significativamente mayor para la condición de alta similitud semántica en comparación con la condición de baja similitud semántica durante la ventana temporal de -593 a -574 ms (tcluster = 42.28, tmax = 2.49, p < 0.001). En el contraste de forma lexica, la condición de alta similitud ortográfica mostró una mayor similitud representacional que la condición de baja similitud en tres periodos distintos: de -562 a - 535 ms (tcluster = 77.96, tmax = 3.77, p < 0.001), de -286 a -279 ms (tcluster = 13.71, tmax = 2.43, p = 0.001) y de -122 a 116 ms (tcluster = 11.07, tmax = 2.27, p = 0.005). En la banda alfa (Figura 29), se identificaron tres clústeres significativos con un aumento en la similitud representacional para la condición de alta similitud semántica en comparación con la condición de baja. Dos de estos clústeres aparecieron tempranamente: uno de -798 a -791 ms (tcluster = 14.09, tmax = 2.59, p = 0.0002) y otro de -756 a -740 ms (tcluster = 32.007, tmax = 2.19, p < 0.001). Un clúster posterior se observó de -400 a -393 ms (tcluster = 10.79, tmax = 2.21, 142 p = 0.002). Para el contraste de forma léxica, se identificó un clúster significativo de -216 a 202 ms (tcluster = 30.05, tmax = 2.87, p < 0.001), indicando que una alta similitud ortográfica se asoció con un aumento en la similitud representacional durante esta ventana temporal. Figura 28 Similitud representacional en banda theta Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. Figura 29 Similitud representacional en banda alpha Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. 143 En la banda beta 1 (Figura 30), se identificaron dos clústeres significativos donde la similitud representacional fue mayor en la condición de alta similitud semántica, apareciendo tanto al inicio como al final de la ventana de análisis. El primer clúster abarcó de -633 a -624 ms (tcluster = 17.75, tmax = 2.32, p < 0.001), y el segundo se observó de -20 a -11 ms (tcluster = 20.71, tmax = 2.86, p < 0.001). Para el contraste de forma, se encontraron dos clústeres significativos hacia el final de la ventana de análisis. El primero ocurrió de -126 a -120 ms (tcluster = 12.15, tmax = 2.60, p = 0.0003), y el segundo de -84 a -80 ms (tcluster = 6.47, tmax = 2.19, p = 0.02). Figura 30 Similitud representacional en banda beta 1 Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. En la banda beta 2 (Figura 31), el análisis del contraste semántico reveló cuatro clústeres tempranos en los que la similitud representacional fue mayor en la condición de alta similitud semántica: -674 a -667 ms (tcluster = 15.20, tmax = 2.80, p = 0.0006), -655 a -648 ms (tcluster = 13.98, tmax = 2.52, p = 0.001), -628 a -621 ms (tcluster = 13.29, tmax = 2.35, p = 0.002) y -606 a -598 ms (tcluster = 16.66, tmax = 2.60, p = 0.0002). Además, se observaron dos clústeres tardíos con un efecto similar: -201 a -195 ms (tcluster = 12.00, tmax = 2.66, p = 0.0005) y -182 a -177 ms (tcluster = 10.80, tmax = 3.06, p = 0.0009). Para el contraste de forma, la similitud representacional 144 fue mayor en la condición de alta similitud ortográfica que en la condición de baja similitud en tres clústeres hacia el final de la ventana de análisis: -127 a -122 ms (tcluster = 9.20, tmax = 2.41, p = 0.011), -111 a -102 ms (tcluster = 22.44, tmax = 3.13, p < 0.001) y -91 a -82 ms (tcluster = 21.71, tmax = 2.92, p < 0.001). Figura 31 Similitud representacional en banda beta 2 Nota. Las líneas graficadas muestran el promedio de la señal de similitud representacional. La línea azul indica pares de palabras esperadas que están relacionadas, mientras que la línea roja representa pares de palabras no relacionadas. La región sombreada en gris resalta las diferencias significativas entre las condiciones. En resumen, los resultados de banda ancha proporcionaron evidencia de que la información semántica se recupera antes que la información de forma léxica durante el procesamiento predictivo. El análisis de frecuencia resaltó además que los fenómenos de coactivación semántica y de forma se distribuyen en todas las bandas de EEG, pero con una distinción clave: los efectos de forma tendieron a aparecer tempranamente en las bandas de frecuencia más lentas (por ejemplo, delta y theta) y más tarde en las bandas rápidas (por ejemplo, beta 1 y beta 2). En contraste, los efectos semánticos se observaron tanto en periodos tempranos como tardíos a lo largo de todo el rango de frecuencias, lo que sugiere un compromiso más continuo con la información semántica a lo largo de la ventana de procesamiento predictivo. Este patrón sugiere que el procesamiento semántico podría ser más sostenido y omnipresente, mientras que el procesamiento de forma 145 podría implicar una transición de una sincronización global temprana a una actividad neural más localizada en periodos posteriores. Discusión El Experimento 3 tuvo como objetivo investigar la secuencia temporal de la predicción semántica y de la forma léxica durante la comprensión del lenguaje utilizando EEG combinado con Análisis de Similitud Representacional (RSA). Los participantes realizaron una tarea de lectura en la que se presentaron oraciones altamente restrictivas palabra por palabra. Se calculó el RSA para todos los pares posibles de oraciones tanto en la señal de EEG de banda ancha como en bandas de frecuencia específicas (delta, theta, alfa, beta 1, beta 2). Además, se evaluaron las habilidades verbales de los participantes, incluyendo razonamiento verbal y memoria de trabajo, para explorar cómo estas diferencias individuales podrían relacionarse con el procesamiento predictivo durante la tarea. Inicialmente, las señales de similitud representacional se categorizaron según si provenían de pares de oraciones que predecían la misma palabra (intra) o palabras diferentes (entre). La hipótesis central de este contraste era que la similitud representacional sería mayor en la condición “intra” en comparación con la condición “entre,” dado que el patrón de actividad neural asociado con la recuperación de la misma palabra debería ser más similar que el de palabras distintas. Como se anticipaba, se observó un aumento en la similitud representacional aproximadamente 550 ms antes de la presentación de las palabras esperadas. Este hallazgo no solo replicó los resultados de Wang et al. (2018), quienes observaron un efecto similar entre -800 y -485 ms, sino que también refuerza la conclusión de que los participantes recuperaban predictivamente representaciones específicas de palabras antes de encontrar la palabra esperada. Esto respalda la idea de que el procesamiento predictivo desempeña un papel fundamental en la comprensión del lenguaje. 146 Posteriormente, las señales de similitud representacional se dividieron en categorías de alta y baja relación basadas en la similitud semántica y ortográfica de los pares de palabras esperadas. El análisis reveló que la similitud representacional aumentaba cuando había alta similitud semántica u ortográfica entre las palabras predichas, notablemente antes de la presentación de la palabra anticipada. De manera crucial, el inicio del efecto semántico precedió al efecto ortográfico. Estos hallazgos están en línea con investigaciones previas que sugieren que la información semántica se accede antes que la información relacionada con la forma durante el procesamiento predictivo. Esta diferencia temporal apoya la idea de que el cerebro prioriza la recuperación del significado antes de acceder a detalles más específicos, como la forma de la palabra. Si bien estos resultados contribuyen a nuestra comprensión de la predicción en la comprensión del lenguaje, se proporcionará una exploración más profunda de los mecanismos subyacentes a la predicción en la sección de Discusión General. Estos hallazgos corroboran estudios previos, como el de Wang et al. (2020), que demostraron que el RSA puede identificar amplias categorías semánticas, como las distinciones entre entidades animadas e inanimadas. Sin embargo, nuestros resultados amplían esta comprensión al capturar la similitud semántica en un espectro más amplio de significados. Por ejemplo, aunque una abeja y un árbol pertenecen a diferentes categorías en términos de animación (una es animada y el otro inanimado), están relacionados temáticamente. Nuestros resultados sugieren que los mecanismos de procesamiento predictivo en el cerebro pueden reconocer e integrar estas relaciones temáticas más sutiles, yendo más allá de las simples distinciones categóricas. Esta sensibilidad más amplia a diferentes grados de relación semántica ilustra un enfoque más refinado y flexible en la predicción durante la comprensión del lenguaje, donde el 147 cerebro considera tanto dimensiones categóricas como temáticas al anticipar las palabras próximas. Los resultados también están alineados con investigaciones recientes que indican que la similitud representacional es sensible a la activación predictiva de la forma de palabra (Wang et al., 2024; Wei et al., 2023). Por ejemplo, Wei et al. (2023) demostraron que la similitud representacional responde a la información subléxica fonológica, mostrando una mayor similitud en EEG cuando dos palabras comparten la misma sílaba final. De manera similar, Wang et al. (2024) observaron un aumento en la similitud representacional cuando se predijeron homógrafos, destacando la sensibilidad del cerebro a características ortográficas compartidas. Los hallazgos del Experimento 3 amplían esta comprensión al mostrar que el aumento en la similitud es más interactivo, ya que refleja la similitud de edición normalizada calculada a lo largo de toda la cadena de caracteres, sin énfasis en la posición de las similitudes. Por ejemplo, “car” y “cat” se consideran igualmente similares a “car” y “bar,” así como “cat” y “cut” bajo este enfoque. Este patrón es consistente con los modelos interactivos de acceso léxico (Dell, 1986; Duta & Plunkett, 2021; McClelland & Elman, 1986), que proponen que cada unidad en el nivel de forma produce una cascada de activación que es modulada por la activación de las unidades precedentes y siguientes. En tales modelos, la predicción de forma no se limita a posiciones fijas, sino que implica una interacción dinámica entre varios elementos de la palabra, permitiendo un procesamiento más flexible e integrado de la similitud ortográfica. Así, nuestra comparación utilizando RSA ofrece una metodología alternativa valiosa para investigar la predicción de la forma de palabra, contribuyendo significativamente al debate actual en la literatura electroencefalográfica sobre este fenómeno. El estudio seminal de DeLong et al. (2005) proporcionó evidencia inicial sobre la predicción de la forma fonológica de las palabras, 148 utilizando el paradigma “a/an” para sugerir que los lectores anticipan la forma fonológica de las palabras próximas. Sin embargo, los intentos de replicación posteriores han arrojado resultados mixtos (Gambi et al., 2018; C. D. Martin et al., 2013; Nieuwland et al., 2018; Yan et al., 2017). Una posible limitación del paradigma “a/an” es que podría presentar desafíos para poblaciones con menor competencia lingüística, como los aprendices de un segundo idioma (C. D. Martin et al., 2013) y los niños (Gambi et al., 2018), quienes podrían tener dificultades para utilizar las sutiles pistas fonológicas necesarias para una predicción exitosa. Estas poblaciones podrían no emplear consistentemente tales señales sutiles en su procesamiento predictivo, lo que genera variabilidad en los hallazgos. En contraste, la predicción de la forma de palabra se ha demostrado de manera más consistente en estudios que emplean RSA (Wang et al., 2024; Wei et al., 2023) y el paradigma de mundo visual (Ito, 2024). El RSA, en particular, permite una medición más matizada de las similitudes en los patrones neuronales, capturando la acumulación gradual de procesos predictivos en diversos tipos de similitudes de forma de palabra. Este enfoque no depende de construcciones sintácticas específicas, como la distinción “a/an”, lo que lo hace aplicable a diferentes poblaciones. Al proporcionar un método más flexible y robusto para evaluar la predicción de la forma de palabra, el RSA puede contribuir a una comprensión más profunda de cómo el cerebro anticipa y procesa características fonológicas y ortográficas durante la comprensión del lenguaje. Más allá de replicar hallazgos previos y ofrecer contribuciones metodológicas, nuestro estudio proporciona evidencia de un procesamiento más rápido de la información semántica en comparación con la predicción de forma léxica. Notablemente, tanto las representaciones ortográficas como las de palabras específicas se recuperaron casi en paralelo. El aspecto más destacado de nuestros resultados es la diferencia de tiempo relativamente pequeña entre el inicio 149 de la predicción semántica y de forma léxica, que fue de aproximadamente 30 ms. Esto sugiere que las transiciones entre estos tipos de predicciones son excepcionalmente rápidas, aproximadamente 10 veces más rápidas que las reportadas en estudios previos. Por ejemplo, Wang et al. (2024) también observaron una transición de la información semántica a la de forma léxica, pero con una diferencia de alrededor de 300 ms entre ambos efectos. El intervalo sustancialmente más corto observado en nuestro estudio podría indicar un proceso de integración altamente eficiente durante la comprensión del lenguaje, en el cual la información semántica rápidamente activa o prepara la información relacionada con la forma léxica. Esta rápida transición podría reflejar un mecanismo predictivo más dinámico y flexible de lo que se pensaba anteriormente, permitiendo que el cerebro se adapte rápidamente a diferentes tipos de información lingüística mientras procesa palabras entrantes. La pregunta que surge es por qué ambos estudios arrojan hallazgos similares pero muestran diferencias significativas en el tiempo de los procesos predictivos. Una ventaja del diseño experimental en el Experimento 3 es la inclusión de una comparación palabra específicas, que proporciona una indicación más clara de cuándo se predice la palabra específica en promedio. Esta característica del diseño permitió que el Experimento 3 mostrara que tanto la información semántica como, en menor medida, la de forma léxica se procesan antes de la predicción de la palabra específica. Como resultado, el Experimento 3 ofrece una visión más detallada de la secuencia temporal del proceso predictivo, sugiriendo una construcción estructurada donde las claves semánticas y fonológicas generales preceden la activación final de la palabra específica. En contraste, Wang et al. (2024) no incluyeron una condición palabra específica, lo cual dificulta sacar conclusiones sobre la temporalidad general de las predicciones más allá de la información semántica y de forma léxica. Esta limitación es especialmente relevante dado el uso 150 de homógrafos como proxis de la predicción de forma. Los homógrafos, por naturaleza, introducen complejidades debido a que representan palabras con la misma ortografía, pero diferentes significados, lo que a menudo conlleva exclusividad mutua y competencia entre interpretaciones posibles, lo cual puede generar efectos de interferencia (Azuma et al., 2004; Ferrand & Grainger, 2003). Por lo tanto, no queda claro si los efectos reportados por Wang et al. (2024) reflejan realmente el proceso de construcción de predicciones, si el retraso observado es un subproducto de la competencia entre los significados homográficos, o si el efecto de forma que detectaron es realmente un efecto predictivo posléxico en lugar de uno anticipatorio. Dados estos puntos de incertidumbre, es difícil determinar las razones precisas de la diferencia en la dinámica temporal entre sus resultados y los del Experimento 3. Sin embargo, dos de estas tres posibilidades sugieren que el procesamiento de la información de forma léxica es intrínsecamente más rápido de lo que Wang et al. (2024) reportaron. Los hallazgos del Experimento 3 implican que, cuando se elimina la posible interferencia de los homógrafos, la predicción de forma léxica puede desplegarse mucho más rápidamente, acercándose en tiempo a la predicción semántica. Nuestros resultados también revelaron que las dinámicas de frecuencia en la recuperación de representaciones no son un proceso singular sino multifacético. Se observaron diferencias significativas entre condiciones de alta y baja relación en todas las bandas de frecuencia, lo cual indica que tanto los procesos de sincronización global como local desempeñan un papel en la recuperación léxica. Estos procesos implican diferentes mecanismos específicos en frecuencia y tiempo, reflejando la complejidad de las capacidades predictivas del cerebro. Sin embargo, surgió una distinción clave entre los contrastes semántico y de forma léxica. Los efectos semánticos se observaron en dos periodos distintos a lo largo de todas las bandas de frecuencia: un periodo 151 temprano, aproximadamente entre -800 y -500 ms, y un periodo posterior en la segunda mitad de la ventana de análisis. Esto sugiere que el cerebro se involucra en una recuperación continua y sostenida de información semántica a lo largo del proceso predictivo. En contraste, el efecto de forma léxica mostró un patrón temporal diferente. Estuvo presente temprano en las bandas de frecuencia más lentas (delta, theta y alfa), indicando que el procesamiento inicial de la forma puede implicar procesos de sincronización más amplios y de menor frecuencia. Sin embargo, los efectos relacionados con la forma aparecieron solo durante el periodo tardío en las bandas de frecuencia más rápidas (beta 1 y beta 2), sugiriendo un cambio hacia procesos más localizados y de mayor frecuencia a medida que el cerebro refina su predicción de detalles ortográficos específicos cerca de la presentación de la palabra anticipada. Estos hallazgos se alinean con la naturaleza inherente de la recuperación léxica. Investigaciones previas han demostrado que recuperar una palabra implica la activación de múltiples regiones cerebrales, cada una asociada con diferentes facetas del significado de la palabra (Grisoni et al., 2021; Pulvermüller, 2001, 2005; Pulvermüller & Fadiga, 2010). Las palabras semánticamente relacionadas, en particular, tienden a activar regiones superpuestas en el cerebro, incluyendo redes generales para el procesamiento semántico y áreas más específicas como el lóbulo temporal anterior (Huth et al., 2016). Nuestros hallazgos sobre el procesamiento semántico apoyan esta visión, ya que reflejan patrones de activación generalizados en diferentes frecuencias durante las etapas de procesamiento tanto tempranas como tardías. Por el contrario, el procesamiento de la forma de palabra sigue un patrón temporal y espacial distinto, comenzando con la sincronización global en bandas de frecuencia bajas y transitando hacia la sincronización local en frecuencias más altas. Este patrón se alinea con investigaciones previas que indican que la codificación fonológica y el procesamiento acústico son 152 modulados principalmente por oscilaciones lentas en las bandas delta y theta. Estas bandas de frecuencia bajas están bien adaptadas a la dinámica temporal del habla, ya que coinciden con el ritmo y las características prosódicas de las señales auditivas (Di Liberto et al., 2023; Mai et al., 2024). A medida que la información fonológica se vuelve más refinada y específica, el procesamiento cambia a bandas de frecuencia más rápidas, como beta 1 y beta 2, reflejando una actividad neuronal más localizada involucrada en el análisis fonológico detallado. Además, se ha identificado el compromiso de regiones específicas, como la circunvolución de Heschl, en la selección fonológica durante la comprensión del lenguaje (Hickok & Poeppel, 2007). Esta transición de la sincronización global a la local probablemente refleja el cambio de un procesamiento más amplio y rítmico de la información auditiva a una activación más focalizada y específica a medida que el cerebro se centra en detalles fonológicos particulares. La combinación de sincronización global para captar la estructura rítmica del habla y la sincronización local para el procesamiento fonológico detallado subraya la complejidad de los mecanismos del cerebro para predecir y procesar la forma de la palabra durante la comprensión del lenguaje. Otro aspecto revelador de nuestro análisis de frecuencia es la relación observada entre el número de clústeres significativos y la frecuencia: las frecuencias más altas exhibieron más clústeres que las frecuencias bajas. Esto sugiere que la recuperación de representaciones durante la comprensión del lenguaje implica múltiples instancias de sincronización a través de redes cerebrales. En este contexto, los patrones oscilatorios en frecuencias altas podrían reflejar interacciones complejas dentro de las redes neuronales involucradas en el procesamiento de claves predictivas. Según las teorías no predictivas de la recuperación léxica, dicha actividad oscilatoria podría estar asociada con procesos de retroalimentación y de avance que ayudan a refinar y asegurar la 153 selección correcta de candidatos léxicos (Dell, 1986). Estos procesos probablemente implican interacciones iterativas entre la información semántica de nivel superior y la información fonológica o de forma de nivel inferior, ajustando la selección de palabras en función de la entrada continua y las claves contextuales. Otra posible interpretación es el concepto de reverberación de la activación (Anderson, 1983), que tradicionalmente se asocia con la exposición prolongada al estímulo. En un marco predictivo, esta reverberación podría interpretarse como el mecanismo del cerebro para mantener el significado profundo de una oración en la memoria de trabajo mientras anticipa palabras futuras. Sin embargo, nuestro análisis mostró que la capacidad de memoria de trabajo no estaba significativamente relacionada con ninguno de los contrastes predictivos, lo que indica que no existe un vínculo directo entre la memoria de trabajo y los efectos observados de similitud representacional. Dada esta falta de asociación con la memoria de trabajo, los procesos de retroalimentación y avance proporcionan una explicación más plausible. Estos procesos probablemente juegan un papel crucial en ajustar las predicciones en función de la recuperación léxica en curso e integrando nueva información a medida que está disponible. Permiten que el cerebro refine sus predicciones y realice correcciones necesarias, contribuyendo a la precisión y eficiencia general en la comprensión del lenguaje. Esta interpretación enfatiza la naturaleza dinámica del procesamiento predictivo, donde el cerebro ajusta continuamente sus expectativas a través de ciclos rápidos de intercambio de información entre diferentes redes neuronales. En contraste, se encontró que el razonamiento verbal estaba asociado con la predicción de forma de palabra, pero no con la predicción semántica. Normalmente, la predicción semántica depende de la comprensión del tema general o el mensaje principal, permitiendo que el cerebro 154 anticipe significados conceptuales más amplios. Por otro lado, las predicciones de forma de palabra requieren representaciones más detalladas y específicas de palabras individuales (Gambi et al., 2018). Estas representaciones detalladas a menudo se fortalecen mediante el desarrollo de habilidades lingüísticas avanzadas (Huettig & Pickering, 2019; Ryskin & Nieuwland, 2023). Por ejemplo, la alfabetización mejora significativamente la representación de la forma de palabra al aumentar la conciencia de la estructura fono-ortográfica de las palabras, es decir, cómo su forma fonológica se relaciona con su representación escrita. A medida que los individuos se vuelven lectores más hábiles, desarrollan una capacidad más refinada para reconocer y anticipar las formas específicas de palabras en función de sus características ortográficas y fonológicas. Por lo tanto, el razonamiento verbal podría actuar como un proxy de la competencia lingüística general de un individuo, abarcando no solo la comprensión de los significados de las palabras sino también una capacidad para manipular y predecir otros aspectos del lenguaje, como las formas de las palabras. Esta competencia lingüística más amplia podría permitir que los individuos con habilidades de razonamiento verbal más altas se involucren de manera más efectiva en predicciones detalladas de forma de palabra durante la comprensión del lenguaje, ya que su conocimiento lingüístico mejorado permite una anticipación más precisa de los detalles fonológicos y ortográficos. En resumen, el estudio encontró evidencia de una transición rápida de las predicciones semánticas a las de forma léxica durante la comprensión del lenguaje. Este hallazgo sugiere que el cerebro inicialmente prioriza la comprensión del significado de una oración antes de cambiar el enfoque a los detalles ortográficos específicos de las palabras. Estos procesos predictivos parecen estar respaldados por patrones distintos de sincronización local y global, los cuales facilitan el ajuste fino tanto de las representaciones semánticas como de las de forma de palabra. La 155 interacción entre estos procesos de sincronización permite que el cerebro integre de manera eficiente la información contextual general con la estructura fonológica detallada, lo que posibilita una comprensión precisa y adaptativa del lenguaje. 156 Discusión General Síntesis teórica y metodológica El marco del procesamiento predictivo postula que la predicción es un principio fundamental de la función cerebral, sugiriendo que el cerebro anticipa activamente eventos futuros en lugar de recibir información sensorial de manera pasiva (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic-Flogel, 2018; Spratling, 2017). Esta visión está respaldada por evidencia amplia tanto de modelos computacionales (Bastos et al., 2012; Rao & Ballard, 1999) como de registros neuronales (Attinger et al., 2017; Fiser et al., 2016; Keller et al., 2012; Leinweber et al., 2017; Zmarz & Keller, 2016), que demuestran cómo el cerebro genera predicciones basadas en el conocimiento previo y ajusta estas predicciones con base en los datos sensoriales entrantes. En el contexto de la comprensión del lenguaje, el procesamiento predictivo es particularmente vital, ya que permite a los oyentes y lectores anticipar el contenido semántico y la forma de las palabras siguientes mientras procesan las oraciones (Huettig, 2015; Huettig & Mani, 2016; Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). Este mecanismo anticipatorio facilita un procesamiento más eficiente del lenguaje al reducir la incertidumbre y permitir un reconocimiento más rápido de palabras y significados a medida que se presentan. Así, el marco del procesamiento predictivo proporciona una explicación poderosa de cómo el cerebro integra información contextual y experiencias previas para interpretar y responder a estímulos lingüísticos complejos. Esta tesis se propuso explorar la dinámica temporal de la predicción durante la comprensión del lenguaje. Específicamente, se evaluaron tres mecanismos teóricos de predicción, cada uno con suposiciones distintas sobre la secuencia temporal de la información semántica y de 157 la forma de palabra: predicción por producción (Pickering & Gambi, 2018), predicción por simulación (Pickering & Garrod, 2013) y predicción por asociación (Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013). El mecanismo de predicción por producción propone que la preactivación semántica ocurre antes que la preactivación de la forma, ya que las predicciones se implementan a través del sistema de producción. Este proceso refleja la secuencia natural de la producción lingüística, donde el contenido semántico se formula típicamente antes de los aspectos fonológicos del habla. Como resultado, la recuperación predictiva de estas representaciones sigue el ritmo relativamente lento del proceso de producción, con estimaciones que sugieren un intervalo de ~600 ms para generar predicciones (Pickering & Gambi, 2018). Este ritmo más lento significa que el proceso de predicción puede no tener siempre suficiente tiempo para generar una predicción completa de la representación de una palabra, incluidas su significado y forma fonológica. Así, el mecanismo de predicción por producción permite la posibilidad de que las predicciones sean incompletas o incluso ausentes si el tiempo o los recursos cognitivos son limitados, lo cual puede dar lugar a predicciones parciales (por ejemplo, preactivación semántica sin progresar al nivel de la forma de palabra). El mecanismo de predicción por simulación argumenta que las representaciones semánticas y de forma de palabra se recuperan simultáneamente, ya que las predicciones se generan mediante un modelo de avance. Este modelo crea una predicción de la próxima palabra simulando lo que el receptor diría en la misma situación, reflejando los procesos internos de producción del habla (Pickering & Garrod, 2013). En este enfoque, el modelo genera una predicción completa de una palabra esperada, abarcando tanto su significado como su forma léxica como una representación integrada. Esta predicción no es parcial sino que anticipa todas las 158 características de la palabra, aplicándose de manera continua incluso en contextos con pocas claves predictivas o información limitada. Además, facilita el aprendizaje a través de ajustes por error de predicción; cuando la palabra predicha difiere de la entrada real, las señales de error proporcionan retroalimentación que ayuda a refinar el modelo de avance, mejorando así las predicciones futuras. El mecanismo de predicción por asociación se respalda en el sistema de comprensión, que depende de cambios en los niveles de activación inducidos tanto por el contexto lingüístico como por el no lingüístico en el léxico (Dell, 1986, 2013). En este marco, cada palabra procesada en el contexto de una oración activa múltiples representaciones de información semántica y de forma léxica. Inicialmente, esta activación ocurre a nivel de forma léxica y es seguida por la activación a nivel semántico (Chow et al., 2017, 2022; Huettig et al., 2011; Huettig & McQueen, 2007). Por ejemplo, al procesar la oración “La maestra escribió la lección en el pizarrón,” la palabra “lección” podría activar otras palabras a nivel de forma, como “leona” (por similitud en el inicio) o “lección” (por rima), impulsadas por la similitud fonológica. Posteriormente, se activaría una red semántica de palabras relacionadas, incluyendo “profesor” o “tarea,” basadas en su significado de “lección.” Notablemente, la activación inicial a nivel de forma no necesariamente facilita la predicción de la palabra “pizarrón.” En cambio, la predicción de “pizarrón” se considera resultado de una acumulación de activación a través de múltiples palabras en el contexto de la oración, implicando un proceso adicional de propagación de activación a lo largo del sistema léxico. Esto sugiere que mientras que una predicción semántica probablemente ocurra antes de la activación de la información de forma, la transición entre estas etapas es rápida debido a la propagación continua y automática de la activación a través del sistema léxico interconectado. Para diferenciar entre estos mecanismos de predicción, se llevaron a cabo tres experimentos en esta investigación. El Experimento 1 se centró en desarrollar un corpus de finales de oraciones 159 con niveles de predictibilidad variados, adaptado al español mexicano. El Experimento 2 utilizó el paradigma de mundo visual combinado con rastreo visual para explorar la secuencia temporal de la activación predictiva de la información semántica y fonológica. El Experimento 3 empleó EEG y RSA para investigar los procesos neuronales subyacentes a la predicción de la información semántica y de forma ortográfica durante la lectura de oraciones. Los hallazgos de estos experimentos proporcionan información crítica sobre la naturaleza del procesamiento predictivo en la comprensión del lenguaje. En las siguientes secciones, exploraremos las diferencias temporales observadas en la recuperación de la información semántica y de la forma de palabra. Luego abordaremos e integraremos estos resultados con los modelos teóricos, incluyendo la predicción por simulación, la predicción por producción y la predicción por asociación. Al hacerlo, buscamos clarificar los mecanismos cognitivos que subyacen a la predicción en el lenguaje y ofrecer una comprensión más completa de cómo opera el procesamiento predictivo durante la comprensión del lenguaje. Síntesis de resultados Experimento 1: La creación de un corpus de finales de oraciones adaptado al español mexicano proporcionó un conjunto sólido de oraciones con alta y baja predictibilidad, cruciales tanto para el desarrollo de esta investigación como para futuras investigaciones. Este corpus aborda la necesidad de estímulos cultural y lingüísticamente relevantes, fundamentales para investigar con precisión el procesamiento predictivo en hablantes de español mexicano. El uso de materiales contextualmente adecuados garantizó que las predicciones hechas por los participantes reflejaran su uso natural del lenguaje. El corpus resultante mostró un amplio espectro de probabilidades de cierre, desde finales altamente predecibles hasta menos predecibles. Esta variación validó el corpus como una herramienta adecuada para los experimentos posteriores, que se propusieron explorar la 160 dinámica temporal de la predicción. La diversidad en las probabilidades de cierre permitió un análisis matizado de cómo la predictibilidad influye en el procesamiento de palabras futuras, estableciendo una base para investigaciones más precisas en los Experimentos 2 y 3. Experimento 2: Utilizando el paradigma de mundo visual combinado con seguimiento ocular, observamos patrones temporales distintos en la activación predictiva de la información semántica y fonológica. Los participantes inicialmente dirigieron su mirada hacia imágenes relacionadas semánticamente con la palabra esperada, antes de desplazarla hacia imágenes relacionadas fonológicamente. Esta secuencia sugiere una clara diferenciación en el tiempo de los procesos predictivos, con la información semántica siendo activada antes que la información fonológica. Es importante destacar que la naturaleza de estos efectos fue diferente: el efecto semántico fue plenamente predictivo, indicando que los participantes anticipaban activamente el significado de la próxima palabra en función del contexto proporcionado por la oración. En contraste, el efecto fonológico apareció más como una facilitación durante la integración ascendente de la palabra objetivo a medida que se procesaba. Experimento 3: El análisis de EEG y RSA reveló que los correlatos neuronales del procesamiento predictivo siguen una secuencia temporal clara. Específicamente, observamos una mayor similitud en las señales de EEG para palabras altamente relacionadas semánticamente antes de que surgieran efectos similares para palabras relacionadas ortográficamente. Este patrón sugiere que el cerebro se involucra en un proceso secuencial de preactivación, en el que las representaciones semánticas se acceden antes que las representaciones de forma de palabra durante el procesamiento predictivo. Además, el análisis espectral mostró diferencias: el contraste semántico exhibió una mayor similitud en todo el rango temporal y de frecuencias, mientras que 161 el contraste de forma provocó aumentos tempranos en las frecuencias lentas y aumentos tardíos en las frecuencias rápidas. Estos resultados, tomados en conjunto, apoyan la hipótesis principal de que las representaciones semánticas exhiben una activación predictiva anterior en comparación con las representaciones de forma de palabra. Este curso temporal se alinea con los mecanismos de predicción por producción y predicción por asociación. Sin embargo, la distinción clave entre estos dos modelos radica en el tiempo esperado de la transición de la predicción semántica a la predicción de forma. Según el mecanismo de predicción por producción, se anticipa una transición más lenta, con una brecha de aproximadamente 300 ms entre la activación de la información semántica y de forma léxica (Gambi et al., 2018). En contraste, el mecanismo de predicción por asociación sugiere una transición mucho más rápida, en un rango que va de 30 a 120 ms, acorde con las capacidades de procesamiento del cerebro (MacGregor et al., 2012). Curiosamente, los hallazgos de nuestros dos enfoques experimentales revelaron patrones temporales contradictorios. En el Experimento 2, que utilizó el paradigma de mundo visual, observamos una gran brecha de aproximadamente 800 ms entre la activación predictiva de la información semántica y fonológica. Esto sugiere un proceso más prolongado, posiblemente indicativo del tiempo necesario para que los participantes cambien su atención visual de objetos relacionados semánticamente a objetos relacionados fonológicamente. Por otro lado, el Experimento 3, que empleó EEG y análisis de similitud representacional, reveló una brecha mucho menor de alrededor de 30 ms entre la activación de las representaciones semánticas y de forma de palabra. Esta transición rápida apunta a un mecanismo neural altamente eficiente que rápidamente pasa del procesamiento del significado de las palabras a su forma fonológica. 162 Para reconciliar estos hallazgos, se necesita una explicación unificadora que pueda dar cuenta de los diferentes cursos temporales observados en cada contexto experimental. En las siguientes secciones, exploraremos posibles interpretaciones que integren los resultados de ambos experimentos, considerando factores como las diferencias metodológicas, el papel de la atención consciente en el paradigma de mundo visual y la medición directa del procesamiento neuronal en el EEG. Interpretación de los resultados del Experimento 2 Experimento 2 parece alinearse con el mecanismo de predicción por producción por dos razones clave. Primero, existe una brecha sustancial entre la activación de los efectos semántico y fonológico, consistente con el ritmo más lento de las predicciones propuesto por este mecanismo. El modelo de predicción por producción sugiere que las predicciones siguen la dinámica temporal del sistema de producción, donde las representaciones semánticas se activan antes que las fonológicas, con un retraso típico de alrededor de 300 ms (Indefrey & Levelt, 2004). En el Experimento 2, sin embargo, esta brecha fue aún mayor, alrededor de 800 ms, lo que sugiere que el proceso de predicción podría ser más lento cuando el sistema de producción está comprometido en el contexto del paradigma de mundo visual. Segundo, el efecto fonológico observado en el Experimento 2 se caracterizó como una facilitación durante la integración en lugar de un efecto predictivo. Esto indica que los participantes podrían no haber estado anticipando activamente las formas fonológicas, sino que usaban la información fonológica para integrar de manera más eficiente la entrada sensorial cuando esta estaba disponible. Este resultado es consistente con el mecanismo de predicción por producción, que sugiere que, si no hay tiempo suficiente para completar el proceso de predicción antes de la aparición de la palabra, es posible que solo se generen predicciones parciales (por ejemplo, solo preactivación semántica sin forma fonológica). 163 Es importante considerar que la facilitación de la información fonológica durante el período de integración parece originarse antes de la presentación real de la palabra auditiva esperada. Esto sugiere que los participantes pueden estar usando el contexto de la oración para anticipar ciertos aspectos de la forma fonológica de las palabras futuras, lo que facilita su procesamiento una vez que son encontradas. Esta interpretación se ve respaldada por hallazgos de un experimento exploratorio que examinó por separado las predicciones semánticas y fonológicas. En ese experimento, surgió evidencia de procesamiento predictivo tanto para la información semántica como para la fonológica y, crucialmente, no hubo una diferencia significativa en su tiempo: los intervalos de confianza de los efectos para ambos tipos de predicción se superpusieron, lo que sugiere que estas predicciones ocurrieron de forma concurrente. Además, el análisis del punto de divergencia del Experimento 2 indicó que, en algunos participantes y ensayos, las fijaciones se desplazaron hacia el competidor fonológico incluso antes de la presentación auditiva de la palabra esperada. Este comportamiento sugiere que, al menos en ciertos casos, los participantes estaban generando activamente predicciones fonológicas en anticipación de la próxima palabra, en lugar de depender únicamente de la información de abajo hacia arriba durante la integración de la palabra. Al considerar el momento de estas pruebas predictivas, no hay una diferencia clara entre la dinámica temporal de las predicciones semánticas y fonológicas. Esto indica que, contrariamente a las predicciones estrictas del mecanismo de predicción por producción, los participantes fueron capaces de generar ambos tipos de predicciones casi simultáneamente bajo ciertas condiciones. Esta interpretación se alinea más estrechamente con el mecanismo de predicción por simulación, ya que sugiere que no hay una diferencia estadísticamente significativa entre el tiempo de las predicciones para las representaciones semánticas y fonológicas. El marco de predicción 164 por simulación sostiene que ambos tipos de predicciones se generan en paralelo usando un modelo hacia delante que simula lo que el receptor podría decir en un contexto dado. Sin embargo, esta interpretación se basa en la idea de una “predicción enmascarada”, en la cual el proceso predictivo ocurre pero podría no siempre ser observable directamente en medidas como el rastreo visual, a menos que condiciones específicas lo revelen. Esto plantea una pregunta importante: ¿cuál mecanismo explica mejor este tipo de predicción enmascarada? Según la evidencia previa, la explicación más plausible es que el competidor semántico ejerce cierta influencia sobre las fijaciones de los participantes, reduciendo la probabilidad de fijarse en el competidor fonológico (Chow et al., 2022). Esta influencia podría ocurrir de manera pasiva, donde los participantes fijan principalmente su atención en el competidor semántico, enmascarando efectivamente la relación fonológica. Alternativamente, podría involucrar un proceso más directo, como la inhibición, donde la presencia del competidor semántico suprime activamente la tendencia a fijarse en el competidor fonológico. Dado que nuestra línea de razonamiento asume la presencia de una predicción fonológica, la explicación más parsimoniosa es que existe un proceso inhibitorio de arriba hacia abajo, que dirige la atención lejos del competidor fonológico. Esta inhibición probablemente ocurre porque los participantes perciben al competidor semántico como un objetivo más relevante o potencial en el contexto de la tarea. Como resultado, su procesamiento predictivo puede favorecer al competidor semántico, lo que lleva a una influencia disminuida del competidor fonológico en sus fijaciones. Esta explicación resalta el papel del control cognitivo de arriba hacia abajo en la modulación de las predicciones, donde la anticipación de ciertos objetivos puede suprimir predicciones alternativas, dando forma a los patrones de fijación observados. 165 Esta explicación recibe apoyo adicional al considerar que el competidor semántico a menudo tiene un valor más alto en las medidas de LSA, lo que sugiere una mayor similitud semántica con el contexto de la oración. Además, las fijaciones en el competidor semántico tienden a persistir incluso después de la presentación de la palabra auditiva esperada, indicando que el competidor semántico sigue ejerciendo influencia sobre la atención de los participantes. Esto sugiere que los participantes no solo están haciendo fijaciones predictivas iniciales, sino que también están reevaluando el competidor semántico a medida que surge nueva información. Incluso cuando el competidor semántico es contextualmente implausible en la oración, ciertas características del competidor pueden alinearse con elementos del contexto previo, como el verbo. Por ejemplo, en la oración “En el aeropuerto, Susana abordó el avión,” el competidor “cohete” no es un objeto plausible en el contexto de un aeropuerto, pero comparte una característica relevante con el verbo “abordar”, específicamente su “capacidad de abordaje”. En tales casos, los participantes podrían inhibir parcialmente la predicción primaria de “avión” y comenzar a considerar “cohete” como una alternativa potencial basada en esta característica compartida. Esta inhibición es probablemente parcial, permitiendo una cierta flexibilidad en el proceso predictivo. Una inhibición completa de “avión” impediría cualquier facilitación del competidor fonológico, lo cual no es consistente con los datos observados. En su lugar, la inhibición parcial permite que el competidor semántico se considere una opción viable y que el competidor fonológico mantenga algún nivel de activación predictiva. Esta interpretación sugiere que los participantes estaban haciendo predicciones en paralelo, una característica que es fundamentalmente incompatible con el mecanismo de predicción por simulación. En la predicción por simulación, cada modelo de avance genera una única predicción unificada a la vez, que integra las características semánticas y fonológicas más probables de la 166 próxima palabra. Sin embargo, esta explicación encaja bien con el mecanismo de predicción por asociación. Según este modelo, la activación se propaga a través de la red de palabras relacionadas, permitiendo que múltiples candidatos léxicos se activen en paralelo. Como describen Dell (1986, 2013), la naturaleza asociativa de este mecanismo significa que las palabras que comparten relaciones semánticas o fonológicas con el contexto se activan simultáneamente. La falta de diferencias estadísticamente significativas en el inicio de las predicciones semántica y fonológica, como se observó en el análisis de puntos de divergencia en el Experimento 2, puede entenderse más claramente al examinar la sincronización matizada de estos efectos. Si bien el análisis estadístico no encontró una separación significativa entre los dos tipos de predicciones, es importante reconocer que el efecto semántico precedió de manera consistente al fonológico. Por ejemplo, al observar los efectos de forma aislada, el efecto semántico comenzó alrededor de -850 ms en relación con la presentación de la palabra crítica, mientras que el primer pico del efecto fonológico emergió alrededor de -650 ms. Esto da como resultado una brecha de aproximadamente 200 ms entre los dos efectos. Este tiempo de 200 ms se alinea con el tiempo mínimo necesario para que los ojos realicen un movimiento en respuesta a un estímulo lingüístico (Viviani, 1990). Aunque el tiempo real necesario para fijarse en los objetivos a menudo puede ser mayor (McMurray, 2023), esta diferencia de 200 ms sugiere que el efecto fonológico realmente sigue ligeramente al efecto semántico, aunque esta brecha no fue lo suficientemente grande como para alcanzar significación estadística en el análisis. De manera similar, en el Experimento 2, cuando se presentaron juntos los competidores semántico y fonológico, el efecto semántico se observó alrededor de -578 ms, mientras que el efecto fonológico surgió aproximadamente a -506 ms, creando una brecha de unos 70 ms. Esta diferencia de tiempo más corta respalda la interpretación de que las predicciones semánticas 167 tienden a iniciarse antes, pero las predicciones fonológicas las siguen de cerca, lo que lleva a activaciones superpuestas. La brecha es pequeña pero consistente, reflejando la rápida transición entre el procesamiento semántico y fonológico. El problema clave aquí parece ser el término “significativo”. Si bien la diferencia en los tiempos de inicio entre los efectos semánticos y fonológicos no fue estadísticamente significativa en un sentido estricto, los datos aún muestran una secuencia temporal en la que la información semántica se activa ligeramente antes. En este escenario, la metodología de rastreo visual puede no haber sido lo suficientemente detallada para capturar la transición rápida entre los efectos semántico y fonológico. La verdadera brecha entre estos efectos probablemente se encuentra dentro del rango de 70 a 200 ms. Este rango es consistente con el tiempo estimado necesario para la recuperación léxica (MacGregor et al., 2012), lo que sugiere que la transición entre la predicción del contenido semántico y la forma fonológica ocurre muy rápidamente, aunque no de manera instantánea. Este cambio rápido se alinea bien con el mecanismo de predicción por asociación, que postula que la activación se propaga dinámicamente a través de la red de palabras relacionadas. En este modelo, múltiples candidatos léxicos pueden activarse en paralelo, con la activación más fuerte típicamente correspondiente al contenido semánticamente relacionado. A medida que la activación continúa propagándose, se involucran representaciones fonológicas cercanas a la palabra anticipada, lo que da lugar a la activación rápida pero secuencial de los detalles fonológicos después de la preactivación semántica. Interpretación de resultados del Experimento 3 La rápida transición entre la activación de información semántica y de forma observada en el Experimento 3 (30 ms) sugiere que el mecanismo de predicción por asociación es la explicación 168 más plausible. La metodología utilizada en este experimento permitió medir efectos independientes mediante la comparación de todas las señales neuronales, lo que permitió una observación más directa de los efectos de forma que no dependen necesariamente de la presencia de efectos semánticos. Esto implica que la activación predictiva de la información fonológica u ortográfica no es simplemente un subproducto de la activación semántica previa, sino que dicha información está inherentemente integrada en el procesamiento de una sola oración. Sin embargo, es importante reconocer que en el procesamiento del lenguaje natural existe probablemente una interdependencia inherente entre las representaciones semánticas y de forma léxica (Kuperberg & Jaeger, 2016; Ryskin & Nieuwland, 2023). El significado semántico y los detalles de forma léxica interactúan estrechamente como parte de la comprensión integral del lenguaje en el cerebro, influyéndose mutuamente en la recuperación y predicción de uno u otro. Aunque el análisis de similitud representacional (RSA) empleado en el Experimento 3 es efectivo para identificar patrones de activación neuronal asociados con diferentes tipos de predicciones, podría no ser la herramienta ideal para explorar las interdependencias sutiles entre la información semántica y de forma léxica. El RSA proporciona información sobre los puntos temporales en los que el procesamiento de dos estímulos exhibe patrones neuronales similares. En el Experimento 3, esta metodología mostró un aumento en la similitud de los elementos semánticamente relacionados aproximadamente 230 ms después de la presentación de la penúltima palabra (alrededor de -570 ms). Esto sugiere que, cuando los participantes procesan un contexto de oración como “el gato persigue al ratón,” se activa un conjunto neuronal particular. Parte de esta activación se superpone con el conjunto neuronal desencadenado por otro contexto de oración que predice una palabra semánticamente relacionada, como “compré un hueso para mi perro”. El RSA indica que estos 169 contextos comparten una similitud en cómo el cerebro procesa significados relacionados, reflejando la activación de patrones neuronales superpuestos. Un patrón similar fue observado para pares de oraciones que predecían palabras relacionadas ortográficamente. Este solapamiento en la activación sugiere que el cerebro utiliza aspectos compartidos de estas representaciones al procesar palabras relacionadas, incluso cuando estas no son idénticas, pero comparten características semánticas u ortográficas. Este comportamiento recuerda el fenómeno de las células conceptuales, que se refiere a neuronas que responden a la información conceptual independientemente de la modalidad a través de la cual se presenta (Quiroga, 2012). Las células conceptuales pueden reaccionar a la identidad de un estímulo particular, ya sea que se presente visual, auditiva o textualmente. Un ejemplo clásico es el grupo de neuronas que respondía a la identidad de Jennifer Aniston, pero también a otros personajes del programa de televisión “Friends”, debido a la conexión compartida en la memoria del participante. Estas conexiones asociativas probablemente se forman a través de mecanismos hebbianos, resumidos como “células que se activan juntas, se conectan juntas” (Messinger et al., 2001). Este principio subyace a la capacidad de las células conceptuales para capturar relaciones entre conceptos diferentes pero relacionados, como personajes del mismo programa o palabras que comparten una relación temática o funcional. Según Dell y Chang (2014), el aprendizaje asociativo implícito se basa en la predicción y la corrección de errores. Durante las primeras etapas de aprendizaje, las predicciones suelen ser aleatorias e incorrectas debido a la falta de experiencia previa, pero estos errores sirven como un mecanismo de ajuste crítico, fomentando cambios en la organización de la memoria para mejorar futuras predicciones. Este proceso construye gradualmente un repertorio de opciones para las 170 predicciones, formando la base de la memoria semántica y dando lugar al fenómeno de la activación distribuida, que subyace a los efectos de priming o facilitación. Este mecanismo es evidente en el desarrollo temprano del lenguaje. Investigaciones muestran que los niños pequeños pueden comenzar a hacer predicciones sobre palabras a los 15 meses de edad (Reuter et al., 2019), pero se vuelven particularmente sensibles a este tipo de relaciones semánticas entre los 18 y 21 meses (Arias-Trejo et al., 2022; Arias-Trejo & Plunkett, 2009). Durante este período, los niños se vuelven cada vez más hábiles en usar el contexto para anticipar palabras futuras, reflejando una habilidad creciente para utilizar vínculos semánticos entre conceptos. Hacia la segunda mitad del segundo año de vida, los niños desarrollan una organización más robusta de su red léxico-semántica, permitiéndoles hacer predicciones más sofisticadas y precisas basadas en el aprendizaje previo (Angulo-Chavira & Arias-Trejo, 2018). Este proceso de predicción y corrección de errores no solo moldea el desarrollo temprano del lenguaje, sino que también subyace en cómo los adultos continúan refinando sus redes semánticas a lo largo de la vida. Cada experiencia con predicciones y su posterior retroalimentación ayuda a fortalecer los vínculos asociativos entre conceptos relacionados. Este mecanismo de aprendizaje dinámico crea una red en la que las palabras, conceptos y características relacionadas se activan en conjunto, facilitando predicciones más precisas durante la comprensión del lenguaje. El modelo de activación distribuida ayuda a explicar cómo se establecen estas conexiones y cómo la memoria semántica del aprendiz se organiza progresivamente, llevando a un uso del lenguaje más efectivo y sensible al contexto. Una vez establecidos estos vínculos asociativos, la predicción durante el procesamiento del lenguaje implica la recuperación de representaciones léxicas mediante la activación de conjuntos neuronales que corresponden a palabras embebidas en el contexto de la oración. Según los 171 resultados del Experimento 3, esta recuperación de la información semántica y de forma léxica depende de la sincronización temporal de los conjuntos neuronales a diferentes escalas cerebrales. Notablemente, la predicción semántica requiere la coordinación de procesos tanto globales como locales, lo que sugiere una integración profunda de diferentes tipos de representaciones para lograr una comprensión lingüística eficiente. Este hallazgo se alinea con la evidencia existente de que la información semántica está ampliamente distribuida en el cerebro (Hickok & Poeppel, 2007; Huth et al., 2016). Además, respalda la idea de que el procesamiento semántico depende de centros corticales que integran diversas fuentes de información multimodal dispersas a lo largo del cerebro (Garagnani & Pulvermüller, 2016). Estos centros actúan como puntos de convergencia que permiten una comprensión cohesionada del significado al reunir distintos tipos de información sensorial y conceptual. En este marco, los procesos neuronales globales estarían involucrados en la extracción de información multimodal, simulando efectivamente un concepto en el cerebro (Pulvermüller, 2001, 2005). Por ejemplo, al procesar una palabra o concepto, el cerebro podría activar áreas asociadas con la imaginería visual, los sonidos o las funciones motoras vinculadas a ese concepto, reflejando la naturaleza distribuida del procesamiento semántico. Por otro lado, el procesamiento local probablemente esté relacionado con la integración y refinamiento de esta información distribuida dentro de centros específicos, como los lóbulos temporal y frontal. Estos centros de procesamiento sirven como puntos focales donde se sintetizan los diversos elementos de un concepto en una representación coherente. Por ejemplo, en el procesamiento de una oración como “Golpeé el clavo con el martillo,” diferentes áreas del cerebro se activarían para recuperar la información relevante: áreas visuales 172 podrían activar la imagen del martillo, las regiones somatosensoriales podrían participar en la sensación táctil de sostener la herramienta, áreas auditivas podrían recordar el sonido de un martillo golpeando un clavo y la corteza motora podría simular el acto de balancear el martillo. Sin embargo, para comprender completamente la oración, toda esta información necesita integrarse en una comprensión unificada del evento. Esta integración ocurre dentro de centros de procesamiento cortical, como los lóbulos temporal y frontal, que son capaces de combinar estas dimensiones sensoriales y conceptuales en una interpretación semántica coherente. En contraste con el procesamiento de la información semántica, la predicción fonológica parece seguir un patrón diferente, comenzando con una activación más global que se vuelve más localizada a medida que el proceso de predicción se desarrolla. Este patrón es coherente con el procesamiento jerárquico propuesto por el marco de codificación predictiva. Según este modelo, las predicciones se generan de manera descendente, donde las regiones cerebrales de orden superior proporcionan restricciones contextuales que moldean y refinan la actividad de las áreas sensoriales de orden inferior (Bastos et al., 2012; Clark, 2013; Friston, 2018; Keller & Mrsic- Flogel, 2018; Ryskin & Nieuwland, 2023). En el contexto del lenguaje, este modelo sugiere que el cerebro utiliza el contexto semántico para filtrar y reducir los candidatos fonológicos potenciales, haciendo el proceso de predicción más eficiente (Kuperberg & Jaeger, 2016; Pickering & Gambi, 2018; Pickering & Garrod, 2013; Ryskin & Nieuwland, 2023). Así, el contexto semántico guía las expectativas del cerebro sobre las palabras que vendrán, enfocando la atención en formas fonológicas que son más probables dadas las condiciones del contexto. Por ejemplo, en una oración como “El perro persiguió al...”, el contexto proporcionado por “perro” y “persiguió” prepara al cerebro para anticipar formas fonológicas compatibles con palabras como “gato” o “ratón”. 173 Sin embargo, la teoría predictiva de la comprensión del lenguaje no especifica exactamente qué niveles de información fonológica están involucrados en este tipo de predicción. En lenguas con ortografía transparente como el español, donde existe una correspondencia cercana entre fonemas y grafemas, la predicción de la forma de la palabra podría abarcar tanto información léxica como subléxica. Esto implica que el cerebro podría predecir no solo la forma léxica más amplia de una palabra, sino también detalles más finos, como fonemas específicos, grafemas e incluso características visuales/acústicas esperadas de la palabra (Arnal & Giraud, 2012; Kuperberg & Jaeger, 2016). Dado esto, es razonable que los procesos globales dominen las etapas iniciales de la predicción de la forma. Inicialmente, estos procesos pueden estar impulsados por la activación de la red semántica distribuida, donde las pistas contextuales más amplias guían las expectativas del cerebro sobre la estructura fonológica de las palabras futuras. Esta actividad distribuida sirve para reducir las posibles formas fonológicas que se ajustan al significado predicho. A medida que el proceso avanza, la predicción fonológica se vuelve más localizada, enfocándose en detalles específicos de la palabra esperada. Este procesamiento fino probablemente involucra áreas más estrechamente asociadas con el procesamiento sensorial, como la corteza visual primaria, donde el cerebro puede simular las características visuales y ortográficas de la palabra predicha. Además, esta actividad localizada podría extenderse a áreas de procesamiento visual subcorticales, como el tálamo y las células ganglionares, que desempeñan un papel en el refinamiento de la entrada visual antes de que llegue a las etapas de procesamiento cortical. Esta interpretación se alinea con los resultados de banda ancha, que, aunque no estadísticamente significativos, muestran diferencias en el contraste semántico temprano en la ventana de análisis, pero no en el contraste de forma. Hacia el final de la ventana de análisis, sin 174 embargo, las diferencias en el contraste de forma se vuelven incluso más pronunciadas que en el contraste semántico. Este patrón sugiere que la recuperación predictiva semántica comienza con una predicción general y amplia de las características semánticas, que se va afinando a medida que la oración se desarrolla. En contraste, la predicción de la forma se vuelve precisa solo cuando se ha transmitido suficiente activación desde los niveles semánticos. De hecho, la predicción de la forma es tan específica en este punto que no hay diferencias temporales entre el contraste de forma y el contraste de palabra específica, lo que indica que este puede representar la etapa final de la recuperación predictiva. Una interpretación alternativa de los resultados espectrales, basada en el marco de la codificación predictiva, sugiere que las oscilaciones lentas están más estrechamente asociadas con la generación de predicciones, mientras que las frecuencias rápidas están relacionadas con el procesamiento de errores de predicción y los ajustes posteriores en esas predicciones (Arnal & Giraud, 2012). Esta perspectiva cambia el enfoque de una distinción entre niveles de procesamiento semántico y fonológico a una distinción entre los tipos de actividad neuronal involucrados en la generación y ajuste de predicciones. Según esta visión, tanto las predicciones semánticas como las de forma dependen de las oscilaciones lentas en bandas como delta y theta, que facilitan la propagación de señales predictivas a lo largo del cerebro. Estas oscilaciones lentas ayudan a establecer las expectativas del cerebro sobre la entrada lingüística próxima, independientemente de si el foco está en el significado general (semántico) o en las características fonológicas/ortográficas específicas (forma) de una palabra. Esto implica que los procesos que impulsan las predicciones en ambos niveles están sustentados por mecanismos similares de sincronización en ondas lentas. 175 Sin embargo, una vez formuladas las predicciones, el cerebro debe ajustarlas y corregirlas continuamente con base en la información sensorial entrante. Aquí es donde las oscilaciones rápidas (en bandas beta 1 y beta 2) entran en juego. Estas actividades de mayor frecuencia se asocian con el procesamiento de errores de predicción, es decir, instancias en las que la información entrante no coincide con la predicción. Las oscilaciones rápidas, entonces, están involucradas en actualizar el modelo predictivo, ajustando las expectativas del cerebro para que se alineen mejor con la nueva evidencia sensorial. Desde esta perspectiva, el momento de la actividad oscilatoria rápida correspondería a los puntos en los que se requieren ajustes en respuesta a errores de predicción. Dado que las predicciones semánticas se generan generalmente antes que las fonológicas, los ajustes y correcciones de errores relacionados con la información semántica ocurrirían antes también. Esto explicaría por qué las oscilaciones rápidas, que reflejan correcciones de error, podrían observarse antes para la información semántica que para la información de forma léxica, aunque ambas predicciones se apoyen inicialmente en la actividad oscilatoria lenta. Con la metodología actual, resulta difícil distinguir entre estas dos interpretaciones; sin embargo, no son excluyentes y podrían coexistir. Es plausible que los ajustes en las predicciones semánticas dependan de la actividad dentro de centros semánticos, como los del lóbulo temporal y frontal, los cuales integran información multimodal. Al mismo tiempo, las correcciones de error relacionadas con las predicciones de forma podrían darse en áreas involucradas en el procesamiento temprano de la información fonológica y ortográfica, como las cortezas auditiva y visual. Por ejemplo, Leonard et al. (2016) demostraron que la corteza auditiva puede restaurar información fonética-acústica faltante, un proceso que probablemente implica a regiones frontales. Este hallazgo respalda la idea de que las áreas de orden superior pueden enviar señales 176 descendentes a las regiones sensoriales, ajustando su procesamiento en línea con las expectativas predictivas. Esta interacción se alinea con ambas interpretaciones del papel de las diferentes bandas oscilatorias en el procesamiento predictivo. Por un lado, las oscilaciones lentas podrían facilitar el establecimiento inicial de predicciones en áreas de procesamiento temprano, como aquellas que procesan detalles fonéticos o gráficos. Por otro lado, las oscilaciones rápidas pueden reflejar los mecanismos de retroalimentación desde regiones de orden superior que corrigen y afinan estas predicciones cuando se detectan discrepancias. Este enfoque dual sugiere una interacción dinámica entre procesos descendentes y ascendentes en la predicción y corrección de errores. Las predicciones, sean semánticas o de forma léxica, se forman inicialmente en respuesta al contexto y la entrada sensorial, involucrando tanto redes distribuidas como áreas más localizadas para el procesamiento. Cuando la información sensorial entrante no coincide con el patrón predicho, las señales descendentes de áreas como la corteza frontal podrían guiar los ajustes, refinando el procesamiento sensorial en regiones como la corteza auditiva (para ajustes fonológicos) o las áreas visuales (para correcciones ortográficas). Por tanto, aunque los datos actuales no puedan separar de manera definitiva estas explicaciones, es probable que ambos procesos estén en juego. Las predicciones pueden originarse en áreas de procesamiento temprano, pero su refinamiento y ajuste dependen de interacciones con áreas cognitivas de orden superior. Este enfoque combinado proporciona una comprensión más matizada de cómo el cerebro gestiona dinámicamente las predicciones y corrige los errores durante la comprensión del lenguaje. Sugiere que tanto la organización jerárquica de la codificación predictiva como la integración de redes semánticas distribuidas desempeñan roles cruciales en este proceso complejo. 177 Integración de Experimentos 2 y 3 Después de un examen exhaustivo de los resultados de esta tesis, las interpretaciones de los Experimentos 2 y 3 se alinean estrechamente con el mecanismo de predicción por asociación, ya que es coherente no solo desde una perspectiva cognitiva, sino también desde una perspectiva biológica. Este mecanismo implica la activación propagada de conceptos relacionados dentro de las redes asociativas del cerebro, permitiendo hacer predicciones basadas en relaciones aprendidas y el contexto. A diferencia de algunos modelos más estructurados, como la predicción por simulación o la predicción por producción, la predicción por asociación se caracteriza por su capacidad para activar múltiples representaciones relacionadas de manera simultánea. Trabajos previos han descrito este mecanismo como “ineficiente” (Pickering & Gambi, 2018) o incluso “simple” (Huettig, 2015), sugiriendo que su amplia activación de conceptos relacionados carece de la precisión de sistemas predictivos más específicos. No obstante, los resultados presentados en esta tesis proporcionan evidencia de un mecanismo que es tanto rápido como flexible, capaz de adaptarse rápidamente a nueva información. Lejos de ser un proceso lento o rudimentario, la predicción por asociación demuestra una habilidad para considerar múltiples posibles resultados en paralelo, lo que permite una comprensión más rica y matizada del contexto lingüístico. Por un lado, mecanismos como la predicción por producción suelen considerarse más eficientes porque generan predicciones que son altamente precisas y congruentes con el contexto (Pickering & Gambi, 2018). Este modelo se basa en el sistema de producción interno para simular palabras próximas, lo que resulta en predicciones estrechamente alineadas con el significado y contexto previstos en la comunicación. Sin embargo, a pesar de su precisión, la predicción por producción parece menos adecuada para el procesamiento en tiempo real del lenguaje debido a su 178 ritmo más lento—típicamente alrededor de 600 ms. Esta velocidad de procesamiento más lenta reduce su efectividad en situaciones donde el cerebro necesita anticiparse o adaptarse rápidamente a nueva información, como durante conversaciones rápidas o en contextos de lectura dinámica. Las limitaciones de la predicción por producción se vuelven especialmente evidentes al considerar la necesidad de predecir unidades lingüísticas más pequeñas, como fonemas o sílabas, que a menudo requieren predicciones en cuestión de milisegundos. La escala temporal más lenta del modelo dificulta el manejo de estas predicciones más detalladas, que son esenciales para la comprensión fluida del lenguaje y el reconocimiento rápido de palabras. Además, la velocidad de procesamiento más lenta de la predicción por producción puede obstaculizar la detección y el ajuste de errores de predicción. Para que un mecanismo predictivo sea verdaderamente efectivo, debe ser capaz de detectar discrepancias entre la entrada esperada y la real y ajustar sus expectativas con rapidez. Estas correcciones deben ocurrir rápidamente, a menudo antes o durante la presentación de la siguiente palabra, para garantizar que el cerebro pueda revisar sus predicciones en función de la nueva información. Sin la capacidad de corrección rápida de errores, el proceso predictivo corre el riesgo de volverse rígido y menos adaptativo, perdiendo oportunidades para ajustar finamente las predicciones a medida que evoluciona la entrada lingüística. Por otro lado, el mecanismo de predicción por simulación se describe a menudo como rápido, aunque carece de flexibilidad porque genera solo una predicción a la vez, basándose en gran medida en las experiencias pasadas del perceptor (Pickering & Garrod, 2013). Este enfoque sugiere que el cerebro simula lo que diría o escucharía en un contexto dado, produciendo una predicción única y detallada de la próxima entrada lingüística. Sin embargo, este enfoque en 179 generar una sola predicción específica limita la capacidad de adaptarse rápidamente a variaciones inesperadas, ya que no considera múltiples posibles resultados de manera simultánea. Además, la predicción por simulación carece de plausibilidad biológica, ya que no tiene en cuenta la estructura jerárquica del cerebro en la generación de predicciones. El cerebro generalmente crea predicciones de arriba hacia abajo, pasando de información semántica general a detalles más específicos como fonología o elementos subléxicos (Ryskin & Nieuwland, 2023). Este procesamiento jerárquico permite el refinamiento gradual de las expectativas basadas en el contexto, lo cual es fundamental para integrar diversos niveles de representación lingüística durante la comprensión del lenguaje. En contraste, la predicción por simulación trata las representaciones semánticas y formales como equivalentes, sin reconocer la interacción matizada entre estos niveles durante la recuperación léxica. Esta omisión implica que el modelo no capta completamente cómo interactúan los diferentes aspectos del procesamiento del lenguaje, como el significado y la fonología, para guiar las predicciones en tiempo real. No obstante, se debe admitir que Pickering et al. (2018) se alejaron del mecanismo de predicción por simulación a medida que refinaron el marco de predicción por producción, ya que inicialmente habían descrito las implicaciones del sistema de producción para las predicciones durante la comprensión del lenguaje de manera vaga (Pickering & Garrod, 2013). En muchos aspectos, la predicción por producción puede verse como una evolución de la predicción por simulación, incorporando algunos de sus conceptos centrales, pero refinando el modelo para tener en cuenta los procesos involucrados en la producción del habla. El mecanismo de predicción por producción mantuvo el énfasis en el uso del sistema de producción para generar predicciones, pero reconoció la naturaleza más lenta y deliberada de este proceso, así como la posibilidad de realizar predicciones parciales. Este cambio permitió que el modelo abordara algunas de las limitaciones 180 de la predicción por simulación, como su falta de flexibilidad y la incapacidad de considerar múltiples posibles resultados. Propuesta de modelo teórico Una de las ideas centrales en varias teorías sobre el procesamiento predictivo, incluida la predicción por producción y la predicción por simulación, así como en otras propuestas (Dell & Chang, 2014; Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013), es el papel del sistema de producción en la generación de predicciones. Una abundancia de evidencia proveniente de estudios experimentales, modelado computacional e investigación neuropsicológica vincula directamente el proceso de predicción con los mecanismos subyacentes a la producción del lenguaje (Chang et al., 2006; Federmeier et al., 2002; C. D. Martin et al., 2018). Esta evidencia sugiere que los mismos circuitos neuronales involucrados en la producción del habla también se activan al anticipar la entrada lingüística. Por ejemplo, Martin et al. (2018) demostraron que, cuando a los participantes se les requería producir unidades lingüísticas mientras simultáneamente realizaban predicciones sobre las palabras próximas, no mostraban los efectos predictivos esperados. Los autores sugirieron que esta falta de efectos predictivos se debió a que el sistema de producción, que se cree que juega un rol crucial en la generación de predicciones, ya estaba ocupado con la tarea de producción del habla, y por lo tanto, no podía implementar predicciones de manera concurrente. Esta interpretación implica que el sistema de producción tiene un doble rol: no solo se utiliza para producir habla, sino también para anticipar lo que podría ser escuchado o leído a continuación, y enfrenta dificultades para realizar ambas funciones al mismo tiempo. Sin embargo, esta propuesta ha sido objeto de críticas, especialmente en relación con su plausibilidad biológica (Hickok, 2013). Un desafío clave es que esta visión asume que la 181 implicación del sistema de producción en la predicción le impide realizar múltiples tareas simultáneamente, lo cual parece inconsistente con la capacidad del cerebro para manejar procesos simultáneos. Además, los efectos observados por Martin et al. (2018) también podrían explicarse mediante un fenómeno alternativo conocido como “atenuación predictiva”. Estudios han demostrado que, cuando las personas producen habla, hay una respuesta reducida en la corteza auditiva al sonido de su propia voz (Forseth et al., 2020). Se cree que esta reducción ocurre porque el cerebro atenúa activamente la respuesta auditiva al habla autogenerada, posiblemente para minimizar la interferencia entre la producción del habla y la percepción del habla externa. Este mecanismo de atenuación predictiva podría explicar por qué las predicciones se ven interrumpidas durante la producción simultánea del habla—no necesariamente porque el sistema de producción esté directamente involucrado en la implementación de predicciones, sino porque el acto de hablar interfiere con el procesamiento auditivo del lenguaje. Cuando el cerebro está ocupado produciendo habla, la atenuación de las señales auditivas podría reducir su sensibilidad a los tipos de señales sutiles necesarias para realizar predicciones precisas sobre la entrada lingüística externa. Teóricamente, el mecanismo de predicción por asociación no requiere inherentemente la participación del sistema de producción, mientras que otras teorías, como la predicción por producción y la predicción por simulación, enfatizan el rol central del sistema de producción en la generación de predicciones. Una forma sencilla de abordar esta discrepancia es asumir que estos mecanismos son sistemas separados o que la producción no es esencial para la predicción durante la comprensión del lenguaje (Huettig, 2015; Pickering & Gambi, 2018; Pickering & Garrod, 2013). Sin embargo, también es posible integrar estas perspectivas en un mecanismo unificado en el cual 182 las predicciones durante la comprensión del lenguaje involucran al sistema de producción, pero siguen los principios asociativos de activación propagada. En esta propuesta integrada, el proceso de predicción podría implicar dos pasos interconectados que, juntos, forman un solo mecanismo predictivo (Figura 32). Esta propuesta sugiere que, aunque el sistema de producción juega un rol en las predicciones, lo hace siguiendo las mismas reglas de activación propagada que subyacen a las redes asociativas. Notablemente, algunos modelos de propagación de activación se han centrado principalmente en la producción del habla (Dell, 1986), enfatizando cómo la activación fluye a través de redes semánticas y fonológicas. Al extender este enfoque, la predicción podría verse como una función de los procesos de recuperación léxica que ocurren tanto durante la comprensión como en la producción. En este marco, la información semántica se comparte entre los sistemas de comprensión y producción, permitiendo que las predicciones fluyan sin interrupciones entre ambos. Durante la comprensión, el sistema procesa la información entrante de manera jerárquica: primero se activan las características de la forma (como los rasgos fonológicos u ortográficos), seguidas por representaciones semánticas más amplias (Figura 32). Esta secuencia conduce a la activación de palabras relacionadas tanto semántica como formalmente mediante mecanismos de activación propagada. Sin embargo, a medida que se activa la información semántica, esta se extiende al sistema de producción, el cual contribuye a activar otra información relacionada con la forma léxica, pero ahora basada en el contexto semántico. Esta interacción sugiere que el sistema de comprensión sienta las bases para las predicciones, mientras que el sistema de producción las refina añadiendo capas de especificidad basadas en claves semánticas. En última instancia, esta propuesta integrada concibe la predicción como un proceso de recuperación léxica que depende de la organización estable de la memoria semántica y de ajustes 183 dinámicos en los niveles de activación según la entrada lingüística recibida. Al tratar las predicciones como parte de un proceso en cascada, este modelo permite el procesamiento simultáneo de distintos tipos de información. No es necesario que el procesamiento se complete completamente en un nivel antes de comenzar a influir en los niveles subsiguientes. En cambio, la información puede propagarse a través del sistema tan pronto como comienza a procesarse, de manera similar a cómo Huettig y McQueen (2007) describen los efectos en cascada en el procesamiento del habla. Figura 32 Ejemplo de Recuperación de Conceptos y Mecanismos de Predicción en el Marco Teórico Nota. La figura ilustra las vías de activación y los mecanismos de predicción dentro de un sistema de representación jerárquico basado en la activación propagada. El grosor de cada línea refleja la fuerza de activación de una representación dada, con líneas más gruesas que indican niveles más altos de activación. Las líneas discontinuas representan flujos de activación que alcanzan niveles posteriores, pero no se muestran visualmente para evitar sobrecargar la figura. Las líneas moradas indican una recuperación exitosa del concepto asociado con la palabra que se está procesando. Las líneas verdes representan predicciones correctas alineadas con las expectativas contextuales, mientras que las líneas rojas señalan posibles predicciones incorrectas. Traducciones: In its mouth, the cat caught the [En su boca el gato capture al]; mouse [ratón]; mouth [boca]; moose [alce]; tooth [muela]; car [carro]; cheese [queso]. 184 Esta cualidad de procesamiento en cascada acelera el proceso de predicción al permitir la transmisión rápida de información parcial a través del sistema, lo cual resulta especialmente valioso cuando hay un alto grado de incertidumbre o cuando el tiempo es limitado. Además, introduce flexibilidad, permitiendo que el sistema ajuste las predicciones de manera dinámica a medida que se encuentra con nueva información. La corrección de predicciones en este modelo se logra mediante conexiones de retroalimentación y conexiones progresivas entre distintos niveles de representación, similares a las descritas en modelos de recuperación léxica (Dell, 2013) y en modelos computacionales de predicción (Altmann & Mirković, 2009; Kukona et al., 2014). Estas conexiones permiten al cerebro refinar sus predicciones de forma continua, de acuerdo con los principios de codificación predictiva (Bastos et al., 2012; Friston, 2018; Keller & Mrsic-Flogel, 2018; Ryskin & Nieuwland, 2023). Los errores en las predicciones se identifican y ajustan a través de interacciones entre las predicciones de arriba hacia abajo (informadas por conocimientos semánticos o contextuales más amplios) y la entrada sensorial de abajo hacia arriba (el habla o texto efectivamente percibidos). Este bucle continuo de ajuste asegura que el sistema se mantenga receptivo y preciso, refinando sus expectativas a medida que procesa el lenguaje en tiempo real. En resumen, esta propuesta concibe un mecanismo predictivo unificado en el cual el sistema de producción participa en la generación de predicciones, pero de una manera que es coherente con los principios de activación propagada. La información semántica y de forma léxica interactúan y se transmiten en cascada a través de los sistemas de comprensión y producción, permitiendo el procesamiento paralelo y ajustes rápidos y flexibles. Esta propuesta retiene la velocidad y adaptabilidad de la predicción por asociación, al tiempo que incorpora el control 185 detallado y la especificidad que sugiere la participación del sistema de producción, ofreciendo una comprensión más integral de cómo el cerebro anticipa la entrada lingüística. 186 Consideraciones y Futuros Estudios Si bien nuestros hallazgos proporcionan un sólido apoyo para el procesamiento predictivo jerárquico en la comprensión del lenguaje mediante un mecanismo de predicción por asociación, es necesario abordar varias consideraciones metodológicas para contextualizar estos resultados. Una consideración clave es el uso del paradigma del mundo visual y las técnicas de EEG. Estos métodos ofrecen información valiosa sobre la temporalidad de los procesos predictivos, pero presentan limitaciones inherentes. El paradigma del mundo visual se basa en datos de seguimiento ocular, los cuales pueden verse influenciados por diferencias individuales en la atención visual y los patrones de mirada, introduciendo potencialmente variabilidad en los resultados (McMurray, 2023). Por ejemplo, algunos participantes pueden asignar naturalmente más atención a ciertas áreas visuales o mostrar comportamientos idiosincrásicos de mirada que podrían afectar la observación de los efectos predictivos. El EEG, por su parte, proporciona una alta resolución temporal, lo que lo hace ideal para rastrear cambios rápidos en la actividad cerebral durante la comprensión del lenguaje. Sin embargo, su limitada resolución espacial dificulta la identificación precisa de las fuentes neuronales de la actividad predictiva, lo que restringe nuestra capacidad para ubicar las regiones cerebrales exactas involucradas en la predicción. La investigación futura podría beneficiarse de la combinación del EEG con otras técnicas de neuroimagen, como la fMRI, para proporcionar una imagen más completa de las dinámicas espaciales y temporales del procesamiento predictivo. Otra consideración es el enfoque de nuestro estudio en oraciones de alta restricción para investigar los mecanismos predictivos. Este enfoque aísla eficazmente los procesos predictivos al garantizar que el contexto favorezca fuertemente la expectativa de ciertas palabras. Sin embargo, es posible que no capture completamente la riqueza y variabilidad de la comprensión del lenguaje 187 en situaciones naturales, las cuales a menudo implican navegar por un espectro de contextos que va desde lo altamente predecible hasta lo ambiguo. La comprensión del lenguaje en el mundo real rara vez ofrece expectativas tan claras (Levy, 2008), y es fundamental comprender cómo el cerebro ajusta sus predicciones cuando enfrenta diferentes niveles de restricción contextual. Además, aunque nuestros resultados apoyan el modelo de predicción por asociación, el rol preciso de otros mecanismos predictivos sigue sin resolverse. Algunos hallazgos del Experimento 2 podrían interpretarse en el marco de la predicción por producción o la predicción por simulación. Asimismo, nuestros resultados se centran específicamente en la predicción a nivel de palabras sin considerar el contexto sintáctico más amplio, que podría relacionarse más estrechamente con un mecanismo combinatorio. En consecuencia, si bien los hallazgos actuales respaldan una teoría unificada de la predicción del lenguaje durante la comprensión, esta propuesta se limita a la preactivación predictiva de palabras. Requiere una mayor refinación para abordar otros fenómenos predictivos, como la predicción de estructuras sintácticas o inferencias sobre las creencias de los interlocutores. En última instancia, cada uno de estos mecanismos ha sido propuesto porque la evidencia apoya su existencia, y aunque un mecanismo predictivo único y unificado resulta tentador, es probable que múltiples mecanismos interactúen—o incluso compitan—para generar las predicciones más precisas (Huettig, 2015). Finalmente, una dirección prometedora para futuras investigaciones radica en explorar más a fondo el potencial de procesos predictivos paralelos y sus fundamentos biológicos. Comprender cómo el cerebro gestiona múltiples predicciones en competencia y las resuelve en tiempo real podría ofrecer información clave sobre la flexibilidad y adaptabilidad del sistema predictivo. Por ejemplo, estudios podrían investigar los mecanismos que permiten al cerebro equilibrar predicciones en diferentes niveles lingüísticos—como semántica, sintaxis y fonología—y cómo 188 estas predicciones interactúan cuando convergen o entran en conflicto. Dicha investigación ayudaría a iluminar las dinámicas neuronales que subyacen a la capacidad del cerebro para anticipar la entrada lingüística en contextos diversos, agregando profundidad a nuestra comprensión del procesamiento predictivo en la comprensión del lenguaje. 189 Conclusión En la presente tesis se investigó las dinámicas temporales del procesamiento predictivo en la comprensión del lenguaje, centrándose en cómo se activan la información semántica y de forma léxica durante el procesamiento de oraciones. El marco de procesamiento predictivo plantea que el cerebro genera continuamente predicciones sobre eventos futuros, incluyendo la entrada de lenguaje, en lugar de recibir información de manera pasiva. Esta capacidad predictiva es crucial para un funcionamiento cognitivo eficiente, ya que permite un procesamiento más rápido y la capacidad de corregir errores durante la comprensión. Se examinaron tres mecanismos teóricos de predicción: predicción por producción, predicción por simulación y predicción por asociación. Cada una de estas teorías ofrece una perspectiva única sobre cómo y cuándo se forman las predicciones en el cerebro. La predicción por producción sugiere que el sistema de producción es central en la generación de predicciones, con la activación de información semántica antes de los detalles de la forma léxica, siguiendo la secuencia natural de la producción del habla. La predicción por simulación propone que se predicen representaciones completas de palabras, incluyendo aspectos semánticos y fonológicos de manera simultánea, simulando lo que el oyente podría decir en el mismo contexto. La predicción por asociación, por otro lado, plantea que las predicciones surgen de la activación de palabras relacionadas en el léxico mental. En este modelo, la información semántica se activa antes que la información de forma, aunque el intervalo temporal entre estas activaciones es mínimo, lo que permite cambios rápidos entre distintos niveles lingüísticos. Para poner a prueba estos modelos, se realizaron tres experimentos. El Experimento 1 se centró en desarrollar un corpus culturalmente relevante de finales de oraciones con distintos niveles de predictibilidad para hablantes de español mexicano, proporcionando una base para los 190 experimentos subsecuentes. El Experimento 2 empleó el paradigma del mundo visual combinado con seguimiento ocular para evaluar cómo los oyentes anticipan palabras próximas en base a claves contextuales en tiempo real. El Experimento 3 utilizó EEG y RSA para investigar los correlatos neuronales de la activación predictiva, centrándose en las dinámicas temporales de cómo las predicciones se desarrollan a nivel neuronal. A lo largo de estos experimentos, surgió un patrón consistente: la información semántica se activaba antes que la información fonológica durante la comprensión del lenguaje. Esta jerarquía fue particularmente evidente en contextos con alta predictibilidad, donde los participantes anticipaban inicialmente el significado general de la palabra próxima antes de procesar su forma fonológica. Los datos de EEG del Experimento 3 revelaron además una rápida transición (~30 ms) de las predicciones semánticas a las fonológicas, lo que sugiere que el cerebro es capaz de cambiar rápidamente entre estos niveles de representación durante la comprensión. Es notable que el paradigma del mundo visual en el Experimento 2 mostró un retraso mayor (~800 ms) entre el inicio de las predicciones semánticas y fonológicas, indicando un procesamiento más lento en ciertas condiciones. En contraste, los resultados de EEG del Experimento 3 sugirieron un retraso mucho más corto. Estas diferencias pueden atribuirse a las distintas metodologías empleadas en cada experimento. Mientras que el seguimiento ocular captura los cambios de atención visibles, el EEG proporciona una medida más directa de la activación neuronal a lo largo del tiempo. A pesar de estas variaciones metodológicas, los hallazgos generales indican que el procesamiento predictivo es un sistema flexible que se adapta a las demandas de la tarea y a la complejidad de la entrada lingüística. La evidencia apoya el mecanismo de predicción por asociación, que plantea que las predicciones se forman mediante la activación propagada a través de elementos léxicos 191 relacionados. Este mecanismo permite la activación paralela de múltiples candidatos léxicos, proporcionando la flexibilidad para ajustar las predicciones a medida que se encuentra nueva información. A diferencia del modelo de predicción por producción, que puede tener dificultades con los ajustes rápidos necesarios para la comprensión en tiempo real, la predicción por asociación permite un procesamiento rápido y adaptable, lo cual lo hace más adecuado para la comprensión dinámica del lenguaje. En conclusión, esta tesis demuestra que el procesamiento predictivo en el lenguaje es tanto rápido como adaptable, con un orden temporal claro en el cual las representaciones semánticas se activan antes que los detalles fonológicos. Estos hallazgos desafían la noción de que la predicción depende exclusivamente del sistema de producción, sugiriendo en su lugar que la predicción está impulsada por procesos asociativos dentro de una red léxica jerárquica. Esta perspectiva contribuye a nuestra comprensión de cómo el cerebro procesa el lenguaje. 192 References Allopenna, P. D., Magnuson, J. S., & Tanenhaus, M. K. (1998). Tracking the Time Course of Spoken Word Recognition Using Eye Movements: Evidence for Continuous Mapping Models. Journal of Memory and Language, 38(4), 419–439. https://doi.org/10.1006/jmla.1997.2558 Altmann, G. T. M., & Kamide, Y. (1999). Incremental interpretation at verbs: Restricting the domain of subsequent reference. Cognition, 73(3), 247–264. https://doi.org/10.1016/S0010-0277(99)00059-1 Altmann, G. T. M., & Mirković, J. (2009). Incrementality and Prediction in Human Sentence Processing. Cognitive Science, 33(4), 583–609. https://doi.org/10.1111/j.1551- 6709.2009.01022.x Anderson, J. R. (1983). A Spreading Activation Theory of Memory. Journal of Verbal Learning and Verbal Behavior, 22, 261–295. https://doi.org/10.1016/S0022-5371(83)90201-3 Angulo Chavira, A. Q., Castellón-Flores, A. M., López-Santillán, H., & Arias-Trejo, N. (2023). Phono-semantic prediction during language comprehension: Effects of working memory. Proceedings of the Annual Meeting of the Cognitive Science Society, 45(45). https://escholarship.org/uc/item/61b2t22v Angulo-Chavira, A. Q., & Arias-Trejo, N. (2018). Development of bidirectional phonosemantic activation in toddlers. Quarterly Journal of Experimental Psychology, 71(9), 1968–1979. https://doi.org/10.1177/1747021817737214 Angulo-Chavira, A. Q., Castellón-Flores, A. M., Barrón-Martínez, J. B., & Arias-Trejo, N. (2022). Word prediction using closely and moderately related verbs in Down syndrome. Frontiers in Psychology, 13. https://www.frontiersin.org/articles/10.3389/fpsyg.2022.934826 193 Angulo-Chavira, A. Q., Castellón-Flores, A. M., Ciria, A., & Arias-Trejo, N. (2023). Sentence- final completion norms for 2925 Mexican Spanish sentence contexts. Behavior Research Methods. https://doi.org/10.3758/s13428-023-02160-y Apfelbaum, K. S., Klein-Packard, J., & McMurray, B. (2021). The pictures who shall not be named: Empirical support for benefits of preview in the Visual World Paradigm. Journal of Memory and Language, 121(September 2020), 104279. https://doi.org/10.1016/j.jml.2021.104279 Arcuri, S., Rabe-Hesketh, S., Morris, R., & McGuire, P. (2001). Regional variation of cierre probabilities for sentences context. Behavior and Research Methods, Instruments & Computers, 33(1), 80–90. https://doi.org/Regional variation of cierre probabilities for sentences context Arias-Trejo, N., Angulo-Chavira, A. Q., Avila-Varela, D. S., Chua-Rodriguez, F., & Mani, N. (2022). Developmental Changes in Phonological and Semantic Priming Effects in Spanish- Speaking Toddlers. Developmental Psychology, 58(2), 236–251. https://doi.org/10.1037/dev0001290 Arias-Trejo, N., Angulo-Chavira, A. Q., & Barrón-Martínez, J. B. (2019). Verb-mediated anticipatory eye movements in people with Down syndrome. International Journal of Language and Communication Disorders, 54(5), 756–766. https://doi.org/10.1111/1460- 6984.12473 Arias-Trejo, N., & Plunkett, K. (2009). Lexical-semantic priming effects during infancy. Philosophical Transactions of the Royal Society B: Biological Sciences, 364(1536), 3633– 3647. https://doi.org/10.1098/rstb.2009.0146 194 Arnal, L. H., & Giraud, A.-L. (2012). Cortical oscillations and sensory predictions. Trends in Cognitive Sciences, 16(7), 390–398. https://doi.org/10.1016/j.tics.2012.05.003 Attinger, A., Wang, B., & Keller, G. B. (2017). Visuomotor Coupling Shapes the Functional Development of Mouse Visual Cortex. Cell, 169(7), 1291-1302.e14. https://doi.org/10.1016/j.cell.2017.05.023 Azuma, T., Williams, E. J., & Davie, J. E. (2004). Paws + cause = pause? Memory load and memory blends in homophone recognition. Psychonomic Bulletin & Review, 11(4), 723– 728. Basar, E., Basar-Eroglu, C., Karakas, S., & Schurmann, M. (1999). Oscillatory brain theory: A new trend in neuroscience. IEEE Engineering in Medicine and Biology Magazine : The Quarterly Magazine of the Engineering in Medicine & Biology Society, 18(3), 56–66. Bastos, A. M., Usrey, W. M., Adams, R. A., Mangun, G. R., Fries, P., & Friston, K. J. (2012). Perspective Canonical Microcircuits for Predictive Coding. Neuron, 76(4), 695–711. https://doi.org/10.1016/j.neuron.2012.10.038 Beatty, J. (1958). Task-evoked pupillary responses, processing load, and the structure of processing resources. Psychological Bulletin, 91(2), 276–292. Becker, C. (1980). Semantic context effects in visual word recognition: An analysis of semantic strategies. Memory & Cognition, 8(6), 493–512. Block, C. K., & Baldwin, C. L. (2010). Cierre probability and completion norms for 498 sentences: Behavioral and neural validation using event-related potentials. Behavior Research Methods, 42(3), 665–670. https://doi.org/10.3758/BRM.42.3.665 Bloom, P. A., & Fischler, I. (1980). Completion norms for 329 sentence contexts. Memory & Cognition, 8(6), 631–642. https://doi.org/10.3758/BF03213783 195 Bobb, S. C., & Mani, N. (2013). Categorizing with gender: Does implicit grammatical gender affect semantic processing in 24-month-old toddlers? Journal of Experimental Child Psychology, 115(2), 297–308. https://doi.org/10.1016/j.jecp.2013.02.006 Bornkessel-Schlesewsky, I., & Schlesewsky, M. (2019). Toward a neurobiologically plausible model of language-related, negative event-related potentials. Frontiers in Psychology, 10(FEB), 1–17. https://doi.org/10.3389/fpsyg.2019.00298 Borovsky, A., Elman, J. L., & Fernald, A. (2012). Knowing a lot for one’s age: Vocabulary skill and not age is associated with anticipatory incremental sentence interpretation in children and adults. Journal of Experimental Child Psychology, 112(4), 417–436. https://doi.org/10.1016/j.jecp.2012.01.005 Brothers, T., & Kuperberg, G. R. (2021). Word predictability effects are linear, not logarithmic: Implications for probabilistic models of sentence comprehension. Journal of Memory and Language, 116(January 2020), 104174. https://doi.org/10.1016/j.jml.2020.104174 Buchanan, E. M., Valentine, K. D., & Maxwell, N. P. (2019). English semantic feature production norms: An extended database of 4436 concepts. Behavior Research Methods, 51(4), 1849– 1863. https://doi.org/10.3758/s13428-019-01243-z Caramazza, A., Costa, A., Miozzo, M., & Bi, Y. (2001). The specific-word frequency effect: Implications for the representation of homophones in speech production. Journal of Experimental Psychology: Learning, Memory, and Cognition, 27(6), 1430–1450. https://doi.org/10.1037//0278-7393.27.6.1430 Carreiras, M., Armstrong, B. C., Perea, M., & Frost, R. (2014). The what, when, where, and how of visual word recognition. Trends in Cognitive Sciences, 18(2), 90–98. https://doi.org/10.1016/j.tics.2013.11.005 196 Chang, F., Dell, G., & Bock, K. (2006). Becoming syntactic. Psychological Review, 113(2), 234– 272. https://doi.org/10.1037/0033-295X.113.2.234 Chow, J., Aimola, A., & Plunkett, K. (2017). Spoken-word recognition in 2-year-olds: The tug of war between phonological and semantic activation. Journal of Memory and Language, 93, 104–134. https://doi.org/10.1016/j.jml.2016.08.004 Chow, J., Angulo-Chavira, A. Q., Spangenberg, M., Hentrup, L., & Plunkett, K. (2022). Bottom- up processes dominate early word recognition in toddlers. Cognition, 228, 105214. https://doi.org/10.1016/j.cognition.2022.105214 Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181–204. https://doi.org/10.1017/S0140525X12000477 Collins, A. M., & Loftus, E. F. (1975). A Spreading-Activation Theory of Semantic Processing. Psychological Review, 82(6), 407–428. http://dx.doi.org/10.1037/0033-295X.82.6.407 Dahan, D., & Tanenhaus, M. K. (2004). Continuous Mapping From Sound to Meaning in Spoken- Language Comprehension: Immediate Effects of Verb-Based Thematic Constraints. Journal of Experimental Psychology: Learning Memory and Cognition, 30(2), 498–513. https://doi.org/10.1037/0278-7393.30.2.498 Damasio, A. R. (1989). The Brain Binds Entities and Events by Multiregional Activation from Convergence Zones. Neural Computation, 1(1), 123–132. https://doi.org/10.1162/neco.1989.1.1.123 Damasio, H., Grabowski, T. J., Tranel, D., Hichwa, R. D., & Damasio, A. R. (1996). A neural basis for lexical retrieval Lexical retrieval in subjects with lesions. Nature, 11, 499–505. 197 Dell, G. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93(3), 283–321. https://doi.org/10.1037/0033-295X.93.3.283 Dell, G. (2013). Cascading and feedback in interactive models of production: A reflection of forward modeling? Behavioral and Brain Sciences, 36(4), 351–352. https://doi.org/10.1017/S0140525X12002531 Dell, G., & Chang, F. (2014). The P-chain: Relating sentence production and its disorders to comprehension and acquisition. Philosophical Transactions of the Royal Society B: Biological Sciences, 369(20120394), 2–9. http://dx.doi.org/10.1098/rstb.2012.0394 Delle Luche, C., Durrant, S., Floccia, C., & Plunkett, K. (2014). Implicit meaning in 18-month- old toddlers. Developmental Science, 6, 948–955. https://doi.org/10.1111/desc.12164 DeLong, K. A., Chan, W. hsuan, & Kutas, M. (2019). Similar time courses for word form and meaning preactivation during sentence comprehension. Psychophysiology, 56(4). https://doi.org/10.1111/psyp.13312 DeLong, K. A., Chan, W. hsuan, & Kutas, M. (2021). Testing limits: ERP evidence for word form preactivation during speeded sentence reading. Psychophysiology, 58(2), 1–8. https://doi.org/10.1111/psyp.13720 DeLong, K. A., Urbach, T. P., & Kutas, M. (2005). Probabilistic word pre-activation during language comprehension inferred from electrical brain activity. Nature Neuroscience, 8(8), 1117–1121. https://doi.org/10.1038/nn1504 Delorme, A., & Makeig, S. (2004). EEGLAB: An open source toolbox for analysis of single-trial EEG dynamics including independent component analysis. Journal of Neuroscience Methods, 134(1), 9–21. https://doi.org/10.1016/j.jneumeth.2003.10.009 198 Di Liberto, G. M., Attaheri, A., Cantisani, G., Reilly, R. B., Ní Choisdealbha, Á., Rocha, S., Brusini, P., & Goswami, U. (2023). Emergence of the cortical encoding of phonetic features in the first year of life. Nature Communications, 14(1), 7789. https://doi.org/10.1038/s41467-023-43490-x Dufour, S. (2008). Phonological priming in auditory word recognition: When both controlled and automatic processes are responsible for the effects. Canadian Journal of Experimental Psychology, 62(1), 33–41. https://doi.org/10.1037/1196-1961.62.1.33 Dufour, S., & Peereman, R. (2003). Lexical competition in phonological priming: Assessing the role of phonological match and mismatch lengths between primes and targets. Memory and Cognition, 31(8), 1271–1283. https://doi.org/10.3758/BF03195810 Duta, M., & Plunkett, K. (2021). A Neural Network Model of Lexical-Semantic Competition During Spoken Word Recognition. Frontiers in Human Neuroscience, 15. https://www.frontiersin.org/articles/10.3389/fnhum.2021.700281 Fadiga, L., Craighero, L., Buccino, G., & Rizzolatti, G. (2002). Speech listening specifically modulates the excitability of tongue muscles: A TMS study. European Journal of Neuroscience, 15(2), 399–402. https://doi.org/10.1046/j.0953-816x.2001.01874.x Federmeier, K. D., McLennan, D. B., de Ochoa, E., & Kutas, M. (2002). The impact of semantic memory organization and sentence context information on spoken language processing by younger and older adults: An ERP study. Psychophysiology, 39(2), 133–146. https://doi.org/10.1017/S0048577202001373 Federmeier, K. D., Wlotko, E. W., De Ochoa-Dewald, E., & Kutas, M. (2007). Multiple effects of sentential constraint on word processing. Brain Research, 1146(1), 75–84. https://doi.org/10.1016/j.brainres.2006.06.101 199 Ferrand, L., & Grainger, J. (2003). Homophone interference effects in visual word recognition. The Quarterly Journal of Experimental Psychology. A, Human Experimental Psychology, 56(3), 403–419. https://doi.org/10.1080/02724980244000422 Fiser, A., Mahringer, D., Oyibo, H. K., Petersen, A. V., Leinweber, M., & Keller, G. B. (2016). Experience-dependent spatial expectations in mouse visual cortex. Nature Neuroscience, 19(12). https://doi.org/10.1038/nn.4385 Forseth, K. J., Hickok, G., Rollo, P. S., & Tandon, N. (2020). Language prediction mechanisms in human auditory cortex. Nature Communications, 11(1), 1–14. https://doi.org/10.1038/s41467-020-19010-6 Friston, K. (2018). Does predictive coding have a future? Nature Neuroscience, 21(8), 1019–1021. Gambi, C., Gorrie, F., Pickering, M. J., & Rabagliati, H. (2018). The development of linguistic prediction: Predictions of sound and meaning in 2- to 5-year-olds. Journal of Experimental Child Psychology, 173, 351–370. https://doi.org/10.1016/j.jecp.2018.04.012 Garagnani, M., & Pulvermüller, F. (2016). Conceptual grounding of language in action and perception: A neurocomputational model of the emergence of category specificity and semantic hubs. European Journal of Neuroscience, 43(6), 721–737. https://doi.org/10.1111/ejn.13145 Grisoni, L., Tomasello, R., & Pulvermüller, F. (2021). Correlated Brain Indexes of Semantic Prediction and Prediction Error: Brain Localization and Category Specificity. Cerebral Cortex, 31(3), 1553–1568. https://doi.org/10.1093/cercor/bhaa308 Hagena, H., & Manahan-Vaughan, D. (2024). Interplay of hippocampal long-term potentiation and long-term depression in enabling memory representations. Philosophical Transactions 200 of the Royal Society B: Biological Sciences, 379(1906), 20230229. https://doi.org/10.1098/rstb.2023.0229 Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P., & de Lange, F. P. (2022). A hierarchy of linguistic predictions during natural language comprehension. Proceedings of the National Academy of Sciences, 119(32), e2201968119. https://doi.org/10.1073/pnas.2201968119 Hepach, R., & Westermann, G. (2016). Pupillometry in infancy research. Journal of Cognition and Development, 17(3), 359–377. https://doi.org/10.1080/15248372.2015.1135801 Hickok, G. (2013). Predictive coding? Yes, but from what source? Behavioral and Brain Sciences, 36(4), 358–358. https://doi.org/10.1017/S0140525X12002750 Hickok, G., & Poeppel, D. (2007). The cortical organization of speech understanding. Nature, 8(May), 393–402. Huang, Y. T., & Snedeker, J. (2011). Cascading activation across levels of representation in children’s lexical processing. Journal of Child Language, 38(3), 644–661. https://doi.org/10.1017/S0305000910000206 Hubbard, R. J., & Federmeier, K. D. (2020). Representational pattern similarity of electrical brain activity reveals rapid and specific prediction during language comprehension. bioRxiv, 2020.04.23.058552. https://doi.org/10.1101/2020.04.23.058552 Huettig, F. (2015). Four central questions about prediction in language processing. Brain Research, 1626, 118–135. https://doi.org/10.1016/j.brainres.2015.02.014 Huettig, F., & Janse, E. (2016). Individual differences in working memory and processing speed predict anticipatory spoken language processing in the visual world. Language, Cognition and Neuroscience, 31(1), 80–93. https://doi.org/10.1080/23273798.2015.1047459 201 Huettig, F., & Mani, N. (2016). Is prediction necessary to understand language? Probably not. Language, Cognition and Neuroscience, 31(1), 19–31. https://doi.org/10.1080/23273798.2015.1072223 Huettig, F., & McQueen, J. M. (2007). The tug of war between phonological , semantic and shape information in language-mediated visual search. Journal of Memory and Language, 57, 460–482. https://doi.org/10.1016/j.jml.2007.02.001 Huettig, F., & Pickering, M. J. (2019). Literacy Advantages Beyond Reading: Prediction of Spoken Language. Trends in Cognitive Sciences, 23(6), 464–475. https://doi.org/10.1016/j.tics.2019.03.008 Huettig, F., Singh, N., & Mishra, R. K. (2011). Language-mediated visual orienting behavior in low and high literates. Frontiers in Psychology, 2(October), 285. https://doi.org/10.3389/fpsyg.2011.00285 Huth, A. G., De Heer, W. A., Griffiths, T. L., Theunissen, F. E., & Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532(7600), 453– 458. https://doi.org/10.1038/nature17637 Indefrey, P., & Levelt, W. J. M. (2004). The spatial and temporal signatures of word production components. Cognition, 92(1), 101–144. https://doi.org/10.1016/j.cognition.2002.06.001 Ito, A. (2024). Phonological prediction during comprehension: A review and meta-analysis of visual-world rastreo visual studies. Journal of Memory and Language, 139, 104553. https://doi.org/10.1016/j.jml.2024.104553 Ito, A., Corley, M., Pickering, M. J., Martin, A. E., & Nieuwland, M. S. (2016). Predicting form and meaning: Evidence from brain potentials. Journal of Memory and Language, 86, 157– 171. https://doi.org/10.1016/j.jml.2015.10.007 202 Ito, A., Pickering, M. J., & Corley, M. (2018). Investigating the time-course of phonological prediction in native and non-native speakers of English: A visual world rastreo visual study. Journal of Memory and Language, 98, 1–11. https://doi.org/10.1016/j.jml.2017.09.002 Ito, A., & Sakai, H. (2021). Everyday Language Exposure Shapes Prediction of Specific Words in Listening Comprehension: A Visual World Rastreo visual Study. Frontiers in Psychology, 12(February), 1–16. https://doi.org/10.3389/fpsyg.2021.607474 Jones, L. L. (2010). Pure mediated priming: A retrospective semantic matching model. Journal of Experimental Psychology. Learning, Memory, and Cognition, 36(1), 135–146. https://doi.org/10.1037/a0017517 Kamide, Y., Altmann, G. T. M., & Haywood, S. L. (2003). The time-course of prediction in incremental sentence processing: Evidence from anticipatory eye movements. Journal of Memory and Language, 49(1), 133–156. https://doi.org/10.1016/S0749-596X(03)00023-8 Kandel, E. (2012). Intermediate-level visual processing and visual primitives. In 602-619 (Ed.), Principles of neural science. Mc Graw Hill Medical. Keller, G. B., Bonhoeffer, T., & Hübener, M. (2012). Sensorimotor Mismatch Signals in Primary Visual Cortex of the Behaving Mouse. Neuron, 74(5), 809–815. https://doi.org/10.1016/j.neuron.2012.03.040 Keller, G. B., & Mrsic-Flogel, T. D. (2018). Perspective Predictive Processing: A canonical cortical computation. Neuron, 100(2), 424–435. https://doi.org/10.1016/j.neuron.2018.10.003 203 Kriegeskorte, N., & Kievit, R. A. (2013). Representational geometry: Integrating cognition, computation , and the brain. Trends in Cognitive Sciences, 17(8), 401–412. https://doi.org/10.1016/j.tics.2013.06.007 Kriegeskorte, N., Mur, M., & Bandettini, P. (2008). Representational similarity analysis – connecting the branches of systems neuroscience. Frontiers in Human Neuroscience, 2(November), 1–28. https://doi.org/10.3389/neuro.06.004.2008 Kukona, A. (2020). Lexical constraints on the prediction of form: Insights from the visual world paradigm. Journal of Experimental Psychology: Learning Memory and Cognition, 46(11), 2153–2162. https://doi.org/10.1037/xlm0000935 Kukona, A., Cho, P. W., Magnuson, J. S., & Tabor, W. (2014). Lexical interference effects in sentence processing: Evidence from the visual world paradigm and self-organizing models. Journal of Experimental Psychology: Learning Memory and Cognition, 40(2), 326–347. https://doi.org/10.1037/A0034903 Kukona, A., Fang, S. Y., Aicher, K. A., Chen, H., & Magnuson, J. S. (2011). The time course of anticipatory constraint integration. Cognition, 119(1), 23–42. https://doi.org/10.1016/J.COGNITION.2010.12.002 Kuperberg, G., & Jaeger, T. (2016). What do we mean by prediction in language comprehension? Language, Cognition and Neuroscience, 31(1), 32–59. https://doi.org/10.1080/23273798.2015.1102299 Kutas, M., & Hillyard, S. A. (1980). Reading senseless sentences: Brain potentials reflect semantic incongruity. Science, 207(4427), 203–205. http://dx.doi.org/10.1126/science.7350657 204 Lahar, C. J., Tun, P. A., & Wingfield, A. (2004). Sentence-Final Word Completion Norms for Young, Middle-Aged, and Older Adults. Journals of Gerontology - Series B Psychological Sciences and Social Sciences, 59(1), 7–10. https://doi.org/10.1093/geronb/59.1.P7 Landes, S., Leacock, C., & Tengi, R. I. (1998). Building Semantic Concordances. In C. Fellbaum (Ed.), WordNet: An Electronic Lexical Database. The MIT Press. Lange, F. P. D., Heilbron, M., & Kok, P. (2018). How Do Expectations Shape Perception ? Trends in Cognitive Sciences, xx, 1–16. https://doi.org/10.1016/j.tics.2018.06.002 Leinweber, M., Ward, D. R., Sobczak, J. M., Attinger, A., & Keller, G. B. (2017). A Sensorimotor Circuit in Mouse Cortex for Visual Flow Predictions. Neuron, 95(6), 1420-1432.e5. https://doi.org/10.1016/j.neuron.2017.08.036 Leonard, M. K., Baud, M. O., Sjerps, M. J., & Chang, E. F. (2016). Perceptual restoration of masked speech in human cortex. Nature Communications, 7(1), 13619. https://doi.org/10.1038/ncomms13619 Levelt. (1999). Models of word production. Trends in Cognitive Sciences, 3(6), 223–232. https://doi.org/10.1016/S1364-6613(99)01319-4 Levelt, Roelofs, A., & Meyer, a S. (1999). A theory of lexical access in speech production. The Behavioral and Brain Sciences, 22(1), 1–38; discussion 38-75. https://doi.org/10.1017/S0140525X99001776 Levy, R. (2008). Expectation-based syntactic comprehension. Cognition, 106(3), 1126–1177. https://doi.org/10.1016/j.cognition.2007.05.006 Li, X., Li, X., & Qu, Q. (2022). Predicting Phonology in Language Comprehension: Evidence From the Visual World Rastreo visual Task in Mandarin Chinese. Journal of Experimental 205 Psychology: Human Perception and Performance, 48(5), 531–547. https://doi.org/10.1037/xhp0000999 Lowder, M. W., Choi, W., Ferreira, F., & Henderson, J. M. (2018). Lexical Predictability During Natural Reading: Effects of Surprisal and Entropy Reduction. Cognitive Science, 42, 1166– 1183. https://doi.org/10.1111/cogs.12597 Lowder, M. W., & Ferreira, F. (2016). Prediction in the processing of repair disfluencies. Language, Cognition and Neuroscience, 31(1), 73–79. https://doi.org/10.1080/23273798.2015.1036089 MacGregor, L. J., Casteren, M. V., & Shtyrov, Y. (2012). Ultra-rapid access to words in the brain. Nature Communications, 3(711), 1–7. https://doi.org/10.1038/ncomms1715 Mai, A., Riès, S., Ben-Haim, S., Shih, J. J., & Gentner, T. Q. (2024). Acoustic and language- specific sources for phonemic abstraction from speech. Nature Communications, 15(1), 677. https://doi.org/10.1038/s41467-024-44844-9 Mani, N., Durrant, S., & Floccia, C. (2012). Activation of phonological and semantic codes in toddlers. Journal of Memory and Language, 66, 612–622. https://doi.org/10.1016/j.jml.2012.03.003 Mani, N., & Huettig, F. (2012). Prediction during language processing is a piece of cake-But only for skilled producers. Journal of Experimental Psychology: Human Perception and Performance, 38(4), 843–847. https://doi.org/10.1037/a0029284 Mani, N., & Huettig, F. (2014). Word reading skill predicts anticipation of upcoming spoken language input: A study of children developing proficiency in reading. Journal of Experimental Child, 126, 264–279. http://dx.doi.org/10.1016/j.jecp.2014.05.004 206 Mani, N., Johnson, E., McQueen, J., & Huettig, F. (2013). How yellow is your banana? Toddlers’ language-mediated visual search in referent-present tasks. Developmental Psychology, 49(6), 1036–1044. https://doi.org/10.1037/a0029382 Mani, N., & Plunkett, K. (2010). In the infant’s mind’s ear: Evidence for implicit naming in 18- month-olds. Psychological Science, 21(7), 908–913. https://doi.org/10.1177/0956797610373371 Mani, N., & Plunkett, K. (2011). Phonological priming and cohort effects in toddlers. Cognition, 121, 196–206. https://doi.org/10.1016/j.cognition.2011.06.013 Maris, E., & Oostenveld, R. (2007). Nonparametric statistical testing of EEG- and MEG-data. Journal of Neuroscience Methods, 164, 177–190. https://doi.org/10.1016/j.jneumeth.2007.03.024 Marr, D. (1982). David Marr. Mit Press. Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word-recognition. Cognition, 25(1–2), 71–102. https://doi.org/10.1016/0010-0277(87)90005-9 Martin, C. D., Branzi, F. M., & Bar, M. (2018). Prediction is Production: The missing link between language production and comprehension. Scientific Reports, 8(1), 1–9. https://doi.org/10.1038/s41598-018-19499-4 Martin, C. D., Thierry, G., Kuipers, J. R., Boutonnet, B., Foucart, A., & Costa, A. (2013). Bilinguals reading in their second language do not predict upcoming words as native readers do. Journal of Memory and Language, 69(4), 574–588. https://doi.org/10.1016/j.jml.2013.08.001 Martin, K. (1994). A Brief History of the “ Feature Detector “. Cerebral Cortex, 94, 1047–3211. http://cercor.oxfordjournals.org/ 207 Matlab. (2020). 9.8.0.1451342 (R2020a) Update 5 [Computer software]. The MathWorks Inc. McClelland, J. L., & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18(1), 1–86. https://doi.org/10.1016/0010-0285(86)90015-0 McDonald, S., & Tamariz, M. (2002). Completion norms for 112 Spanish sentences. Behavior Research Methods, Instruments, and Computers, 34(1), 128–137. https://doi.org/10.3758/bf03195431 McMurray, B. (2023). I’m not sure that curve means what you think it means: Toward a [more] realistic understanding of the role of eye-movement generation in the Visual World Paradigm. Psychonomic Bulletin & Review, 30(1), 102–146. https://doi.org/10.3758/s13423-022-02143-8 McNamara, T. (2004). Semantic priming perspectives from memory and word recognition. Psychology Press. McRae, K., & Jones, M. (2012). Semantic Memory. In D. Reisberg (Ed.), The Oxford Handbook of Cognitive Psychology. https://doi.org/10.1093/oxfordhb/9780195376746.001.0001 Messinger, A., Squire, L. R., Zola, S. M., & Albright, T. D. (2001). Neuronal representations of stimulus associations develop in the temporal lobe during learning. Proceedings of the National Academy of Sciences, 98(21), 12239–12244. https://doi.org/10.1073/pnas.211431098 Meyer, D. E., & Schvaneveldt, R. W. (1971). Facilitation in recognizing pairs of words: Evidence of a dependence between retrieval operations. Journal of Experimental Psychology, 90(2), 227–234. https://doi.org/10.1037/h0031564 Miller, G. A. (1995). WordNet: A Lexical Database for English. Communications of the ACM, 38(11), 39–41. https://doi.org/10.1145/219717.219748 208 Miller, G. A., Chodorow, M., Landes, S., Leacock, C., & Thomas, R. G. (1994). Using a Semantic Concordance for Sense Identification. Human Language Technology: Proceedings of a Workshop Held at Plainsboro, New Jersey, March 8-11, 1994. HLT 1994. https://aclanthology.org/H94-1046 Neely, J. H., & Keefe, D. E. (1989). Semantic Context Effects on Visual Word Processing: A Hybrid Prospective-Retrospective Processing Theory. Psychology of Learning and Motivation - Advances in Research and Theory, 24(C), 207–248. https://doi.org/10.1016/S0079-7421(08)60538-1 Nieuwland, M. S., Barr, D. J., Bartolozzi, F., Busch-Moreno, S., Darley, E., Donaldson, D. I., Ferguson, H. J., Fu, X., Heyselaar, E., Huettig, F., Husband, E. M., Ito, A., Kazanina, N., Kogan, V., Kohút, Z., Kulakova, E., Mézière, D., Politzer-Ahles, S., Rousselet, G., … Von Grebmer Zu Wolfsthurn, S. (2020). Dissociable effects of prediction and integration during language comprehension: Evidence from a largescale study using brain potentials. Philosophical Transactions of the Royal Society B: Biological Sciences, 375(1791). https://doi.org/10.1098/rstb.2018.0522 Nieuwland, M. S., Politzer-Ahles, S., Heyselaar, E., Segaert, K., Darley, E., Kazanina, N., Von Grebmer Zu Wolfsthurn, S., Bartolozzi, F., Kogan, V., Ito, A., Mézière, D., Barr, D. J., Rousselet, G. A., Ferguson, H. J., Busch-Moreno, S., Fu, X., Tuomainen, J., Kulakova, E., Husband, E. M., … Huettig, F. (2018). Large-scale replication study reveals a limit on probabilistic prediction in language comprehension. eLife, 7, 1–24. https://doi.org/10.7554/eLife.33468 209 O’Seaghdha, P., & Marin, J. (1997). Mediated Semantic-Phonological Priming: Calling Distant Relatives. Journal of Memory and Language, 252(36), 226–252. https://doi.org/10.1006/jmla.1996.2488 Ostrosky-Solís, F., Ardila, A., & Rosselli, M. (1998). Test NEUROPSI. Universidad Nacional Autónoma de México. Otten, M., Nieuwland, M. S., & Van Berkum, J. J. A. (2007). Great expectations: Specific lexical anticipation influences the processing of spoken language. BMC Neuroscience, 8, 1–9. https://doi.org/10.1186/1471-2202-8-89 Otten, M., & Van Berkum, J. J. A. (2008). Discourse-based word anticipation during language processing: Prediction or priming? Discourse Processes, 45(6), 464–496. https://doi.org/10.1080/01638530802356463 Pernet, C. R., Latinus, M., Nichols, T. E., & Rousselet, G. A. (2015). Cluster-based computational methods for mass univariate analyses of event-related brain potentials/fields: A simulation study. Journal of Neuroscience Methods, 250, 85–93. https://doi.org/10.1016/j.jneumeth.2014.08.003 Pickering, M. J., & Gambi, C. (2018). Predicting while comprehending language: A theory and review. Psychological Bulletin, 144(10), 1022–1044. https://doi.org/10.1037/bul0000158 Pickering, M. J., & Garrod, S. (2013). An integrated theory of language production and comprehension. Behavioral and Brain Sciences, 36(4), 329–347. https://doi.org/10.1017/S0140525X12001495 Pinheiro, A. P., Galdo-Álvarez, S., Sampaio, A., Niznikiewicz, M., & Gonçalves, Ó. F. (2010). Electrophysiological correlates of semantic processing in Williams syndrome. Research in 210 Developmental Disabilities, 31(6), 1412–1425. https://doi.org/10.1016/J.RIDD.2010.06.017 Plunkett, K., Delle Luche, C., Hills, T., & Floccia, C. (2022). Tracking the associative boost in infancy. Infancy, 27(6), 1179–1196. https://doi.org/10.1111/infa.12502 Polich, J. (2007). Updating P300: Anintegrative theory of P3a and P3b. Clinical Neurophysiology, 118(10), 2128–2148. https://doi.org/10.1016/j.clinph.2007.04.019.Updating Pulvermüller, F. (2001). Brain reflections of words and their meaning. Trends in Cognitive Sciences, 5(12), 517–524. https://doi.org/10.1016/S1364-6613(00)01803-9 Pulvermüller, F. (2005). Brain mechanisms linking language and action. Nature Reviews Neuroscience, 6(7), 576–582. https://doi.org/10.1038/nrn1706 Pulvermüller, F., & Fadiga, L. (2010). Active perception sensorimotor circuits as a cortical basis for language. Nature Reviews Neuroscience, 11(5), 351–360. https://doi.org/10.1038/nrn2811 Quiroga, R. Q. (2012). Concept cells: The building blocks of declarative memory functions. Nature Reviews Neuroscience, 13(8), 587–597. https://doi.org/10.1038/nrn3251 R CoreTeam. (2020). R: A language and environment for statistical computing, reference index version [Computer software]. Rao, R., & Ballard, D. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. TL - 2. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580 Ratcliff, R., & McKoon, G. (1988). A retrieval theory of priming in memory. Psychological Review, 95(3), 385–408. https://doi.org/10.1037/0033-295X.95.3.385 211 Reuter, T., Borovsky, A., & Lew-Williams, C. (2019). Predict and redirect: Prediction errors support children’s word learning. Developmental Psychology, 55(8), 1656–1665. https://doi.org/10.1037/dev0000754 Rodríguez-Camacho, M., Prieto-corona, B., & Bravo, M. (2011). Normas de terminación para la palabra final de oraciones en español para niños mexicanos. Avances En Psicología Latinoamericana, 29(2), 258–275. Rommers, J., Meyer, A. S., Praamstra, P., & Huettig, F. (2013). The contents of predictions in sentence comprehension: Activation of the shape of objects before they are referred to. Neuropsychologia, 51(3), 437–447. https://doi.org/10.1016/j.neuropsychologia.2012.12.002 Ryskin, R., & Nieuwland, M. S. (2023). Prediction during language comprehension: What is next? Trends in Cognitive Sciences, 27(11), 1032–1052. https://doi.org/10.1016/j.tics.2023.08.003 Shannon, C. (1948). A mathematical theory of communication. The Bell System Technical Journal, 27(April 1924), 379–423. Skipper, J. I., Devlin, J. T., & Lametti, D. R. (2017). The hearing ear is always found close to the speaking tongue: Review of the role of the motor system in speech perception. Brain and Language, 164, 77–105. https://doi.org/10.1016/j.bandl.2016.10.004 Slowiaczek, L. M., & Hamburger, M. (1992). Prelexical facilitation and lexical interference in auditory word recognition. Journal of Experimental Psychology. Learning, Memory, and Cognition, 18(6), 1239–1250. https://doi.org/10.1037/0278-7393.18.6.1239 Spratling, M. W. (2017). A review of predictive coding algorithms. Brain and Cognition, 112, 92– 97. https://doi.org/10.1016/j.bandc.2015.11.003 212 Squire, L. R. (2004). Memory systems of the brain: A brief history and current perspective. Neurobiology of Learning and Memory, 82(3), 171–177. https://doi.org/10.1016/j.nlm.2004.06.005 Taylor, W. L. (1953). “Cierre Procedure”: A New Tool for Measuring Readability. Journalism Quarterly, 30(4), 415–433. https://doi.org/10.1177/107769905303000401 Tulving, E. (1972). Episodic and semantic memory. In E. Tulving & W. Donaldson (Eds.), Organization of Memory. Academic Press. Unger, L., Yim, H., Savic, O., Dennis, S., & Sloutsky, V. M. (2023). No frills: Simple regularities in language can go a long way in the development of word knowledge. Developmental Science, 26(4), e13373. https://doi.org/10.1111/desc.13373 Viviani, P. (1990). Eye movements in visual search: Cognitive, perceptual and motor control aspects. Reviews of Oculomotor Research, 4, 353–393. Walther, D., & Koch, C. (2006). Modeling attention to salient proto-objects. Neural Networks, 19(9), 1395–1407. https://doi.org/10.1016/J.NEUNET.2006.10.001 Wang, L., Brothers, T., Jensen, O., & Kuperberg, G. R. (2024). Dissociating the pre-activation of word meaning and form during sentence comprehension: Evidence from EEG representational similarity analysis. Psychonomic Bulletin & Review, 31(2), 862–873. https://doi.org/10.3758/s13423-023-02385-0 Wang, L., Kuperberg, G., & Jensen, O. (2018). Specific lexico-semantic predictions are associated with unique spatial and temporal patterns of neural activity. eLife, 7, 1–24. https://doi.org/10.7554/eLife.39061 Wang, L., Wlotko, E., Alexander, E., Schoot, L., Kim, M., Warnke, L., & Kuperberg, G. R. (2020). Neural evidence for the prediction of animacy features during language comprehension: 213 Evidence from MEG and EEG representational similarity analysis. Journal of Neuroscience, 40(16), 3278–3291. https://doi.org/10.1523/JNEUROSCI.1733-19.2020 Wechsler, D. (2008). Escala Wechsler de Inteligencia para Adultos IV. Manual de aplicación: WAIS IV. Manual Moderno. Wei, W., Huang, Z., Feng, C., & Qu, Q. (2023). Predicting phonological information in language comprehension: Evidence from ERP representational similarity analysis and Chinese idioms. Cerebral Cortex (New York, N.Y.: 1991), 33(15), 9367–9375. https://doi.org/10.1093/cercor/bhad209 Wicha, N. Y. Y., Moreno, E. M., & Kutas, M. (2004). Anticipating words and their gender: An event-related brain potential study of semantic integration, gender expectancy, and gender agreement in Spanish sentence reading. Journal of Cognitive Neuroscience, 16(7), 1272– 1288. https://doi.org/10.1162/0898929041920487 Wlotko, E. W., & Federmeier, K. D. (2012). So that’s what you meant! Event-related potentials reveal multiple aspects of context use during construction of message-level meaning. NeuroImage, 62(1), 356–366. https://doi.org/10.1016/j.neuroimage.2012.04.054 Wulff, D. U., De Deyne, S., Jones, M. N., Mata, R., Austerweil, J. L., Harald Baayen, R., Balota, D. A., Baronchelli, A., Brysbaert, M., Dennis, S., Hills, T. T., Kenett, Y. N., Keuleers, E., Marelli, M., Pakhomov, S. V., Ramscar, M., Schooler, L. J., Shing, Y. L., da Souza, A. S., … Veríssimo, J. (2019). New Perspectives on the Aging Lexicon. Trends in Cognitive Sciences, 23(8), 686–698. https://doi.org/10.1016/j.tics.2019.05.003 Yan, S., Kuperberg, G., & Jaeger, T. (2017). Prediction (or not) during language processing. bioRxiv, 1–60. http:// dx.doi.org/10.1101/143750 214 Yon, D., Heyes, C., & Press, C. (2020). Beliefs and desires in the predictive brain. Nature Communications, 11(1), 9–12. https://doi.org/10.1038/s41467-020-18332-9 Yujian, L., & Bo, L. (2007). A normalized Levenshtein distance metric. IEEE Trans Pattern Anal Mach Intell, 29(6), 1091–1095. https://doi.org/10.1109/TPAMI.2007.1078 Zmarz, P., & Keller, G. B. (2016). Mismatch Receptive Fields in Mouse Visual Cortex. Neuron, 92(4), 766–772. https://doi.org/10.1016/j.neuron.2016.09.057