![]() ![]() Inostroza Fernandez, Pamela Isabel ![]() ![]() ![]() Scientific Conference (2023, April 14) Today’s educational field has a tremendous hunger for valid and psychometrically sound items to reliably track and model students’ learning processes. Educational large-scale assessments, formative ... [more ▼] Today’s educational field has a tremendous hunger for valid and psychometrically sound items to reliably track and model students’ learning processes. Educational large-scale assessments, formative classroom assessment, and lately, digital learning platforms require a constant stream of high-quality, and unbiased items. However, traditional development of test items ties up a significant amount of time from subject matter experts, pedagogues and psychometricians and might not be suited anymore to nowadays demands. Salvation is sought in automatic item generation (AIG) which provides the possibility of generating multiple items within a short period of time based on the development of cognitively sound item templates by using algorithms (Gierl, Lay & Tanygin, 2021). Using images or other pictorial elements in math assessment – e.g. TIMSS (Trends in International Mathematics and Science (TIMSS, Mullis et al 2009) and Programme for International Student Assessment (PISA, OECD 2013) – is a prominent way to present mathematical tasks. Research on using images in text items show ambiguous results depending on their function and perception (Hoogland et al., 2018; Lindner et al. 2018; Lindner 2020). Thus, despite the high importance, effects of image-based semantic embeddings and their potential interplay with cognitive characteristics of items are hardly studied. The use of image-based semantic embeddings instead of mainly text-based items will increase though, especially in contexts with highly heterogeneous student language backgrounds. The present study psychometrically analyses cognitive item models that were developed by a team of national subject matter experts and psychometricians and then used for algorithmically producing items for the mathematical domain of numbers & operations for Grades 1, 3, and 5 of the Luxembourgish school system. Each item model was administered in 6 experimentally varied versions to investigate the impact of a) the context the mathematical problem was presented in, and b) problem characteristics which cognitive psychology identified to influence the problem solving process. Based on samples from Grade 1 (n = 5963), Grade 3 (n = 5527), and Grade 5 (n = 5291) collected within the annual Épreuves standardisées, this design allows for evaluating whether psychometric characteristics of produced items per model are a) stable, b) can be predicted by problem characteristics, and c) are unbiased towards subgroups of students (known to be disadvantaged in the Luxembourgish school system). The developed cognitive models worked flawlessly as base for generating item instances. Out of 348 generated items, all passed ÉpStan quality criteria which correspond to standard IRT quality criteria (rit > .25; outfit >1.2). All 24 cognitive models could be fully identified either by cognitive aspects alone, or a mixture of cognitive aspects and semantic embeddings. One model could be fully described by different embeddings used. Approximately half of the cognitive models could fully explain all generated and administered items from these models, i.e. no outliers were identified. This remained constant over all grades. With the exemption of one cognitive model, we could identify those cognitive factors that determined item difficulty. These factors included well known aspects, such as, inverse ordering, tie or order effects in additions, number range, odd or even numbers, borrowing/ carry over effects or number of elements to be added. Especially in Grade 1, the chosen semantic embedding the problem was presented in impacted item difficulty in most models (80%). This clearly decreased in Grades 3, and 5 pointing to older students’ higher ability to focus on the content of mathematical problems. Each identified factor was analyzed in terms of subgroup differences and about half of the models were affected by such effects. Gender had the most impact, followed by self-concept and socioeconomic status. Interestingly those differences were mostly found for cognitive factors (23) and less for factors related to the embedding (6). In sum, results are truly promising and show that item development based on cognitive models not only provides the opportunity to apply automatic item generation but to also create item pools with at least approximately known item difficulty. Thus, the majority of developed cognitive models in this study could be used to generate a huge number of items (> 10.000.000) for the domain of numbers & operations without the need for expensive field-trials. A necessary precondition for this is the consideration of the semantic embedding the problems are presented in, especially in lower Grades. It also has to be stated that modeling in Grade 1 was more challenging due to unforeseen interactions and transfer effects between items. We will end our presentation by discussing lessons learned from models where prediction was less successful and highlighting differences between the Grades. [less ▲] Detailed reference viewed: 44 (9 UL)![]() ![]() Sonnleitner, Philipp ![]() ![]() ![]() Scientific Conference (2023, April 13) For several decades, researchers have suggested cognitive models as superior basis for item development (Hornke & Habon, 1986; Leighton & Gierl, 2011). Such models would make item writing decisions ... [more ▼] For several decades, researchers have suggested cognitive models as superior basis for item development (Hornke & Habon, 1986; Leighton & Gierl, 2011). Such models would make item writing decisions explicit and therefore more valid. By further formalizing such models, even automated item generation with its manifold advantages for economic test construction, and increased test security is possible. If item characteristics are stable, test equating would be rendered unnecessary allowing for individual but equal tests, or even adaptive or multistage testing without extensive pre-calibration. Finally, validated cognitive models would allow for applying Diagnostic Classification Models that provide fine-grained feedback on students’ competencies (Leighton & Gierl, 2007; Rupp, Templin, & Henson, 2010). Remarkably, despite constantly growing need for validated items, educational large-scale assessments (LSAs) have largely forgone cognitive models as template for item writing. Traditional, often inefficient item writing techniques prevail and participating students are offered a global competency score at best. This may have many reasons, above all the focus of LSAs on the system and not individual level. Many domains lack the amount of cognitive research necessary for model development (e.g. Leighton & Gierl, 2011) and test frameworks are mostly based on didactical viewpoints. Moreover, developing an empirically validated cognitive model remains a challenge. Considering the often time-sensitive test development cycles of LSAs, the balance clearly goes against the use of cognitive models. Educational LSAs are meant to stay, however, and the question remains, whether increased effort and research on this topic might pay off in the long run by leveraging all benefits cognitive models have to offer. In total, 35 cognitive item models were developed by a team of national subject matter experts and then used for algorithmically producing items for the mathematical domain of numbers & shapes. Each item model was administered in 6 experimentally varied versions to investigate the impact of problem characteristics which cognitive psychology identified to influence the problem-solving process. Based on samples from Grade 1 (n = 5963), Grade 3 (n = 5527), Grade 5 (n = 5291), and Grade 7 (n = 3018), this design allowed for evaluating whether psychometric characteristics of produced items per model are stable, and can be predicted by problem characteristics. After item calibration (1-PL model), each cognitive model was analyzed in-depth by descriptive comparisons of resulting IRT parameters, and using the LLTM (Fischer, 1973). In a second step, the same items were analyzed using the G-DINA model (Torre & Minchen, 2019) to derive classes of students for the tested subskills. The cognitive models served as basis for the Q-matrix necessary for applying the diagnostic measurement model. Results make a convincing case for investing the (substantially) increased effort to base item development on fine-grained cognitive models. Model-based manipulations of item characteristics were largely stable and behaved according to previous findings in the literature. Thus, differences in item difficulty could be shaped and were stable over different administrations. This remained true for all investigated grades. The final diagnostic classification models distinguished between different developmental stages in the domain of numbers & operations, on group, as well as on individual level. Although not all competencies might be backed up by literature from cognitive psychology yet, our findings encourage a more exploratory model building approach given the usual long-term perspective of LSAs. [less ▲] Detailed reference viewed: 42 (1 UL)![]() ![]() Michels, Michael Andreas ![]() ![]() ![]() Scientific Conference (2022, November) Today’s educational field has a tremendous hunger for valid and psychometrically sound items to reliably track and model students’ learning processes. Educational large-scale assessments, formative ... [more ▼] Today’s educational field has a tremendous hunger for valid and psychometrically sound items to reliably track and model students’ learning processes. Educational large-scale assessments, formative classroom assessment, and lately, digital learning platforms require a constant stream of high-quality, and unbiased items. However, traditional development of test items ties up a significant amount of time from subject matter experts, pedagogues and psychometricians and might not be suited anymore to nowadays demands. Salvation is sought in automatic item generation (AIG) which provides the possibility of generating multiple items within a short period of time based on the development of cognitively sound item templates by using algorithms (Gierl & Haladyna, 2013; Gierl et al., 2015). The present study psychometrically analyses 35 cognitive item models that were developed by a team of national subject matter experts and psychometricians and then used for algorithmically producing items for the mathematical domain of numbers & shapes for Grades 1, 3, 5, and 7 of the Luxembourgish school system. Each item model was administered in 6 experimentally varied versions to investigate the impact of a) the context the mathematical problem was presented in, and b) problem characteristics which cognitive psychology identified to influence the problem solving process. Based on samples from Grade 1 (n = 5963), Grade 3 (n = 5527), Grade 5 (n = 5291), and Grade 7 (n = 3018) collected within the annual Épreuves standardisées, this design allows for evaluating whether psychometric characteristics of produced items per model are a) stable, b) can be predicted by problem characteristics, and c) are unbiased towards subgroups of students (known to be disadvantaged in the Luxembourgish school system). After item calibration using the 1-PL model, each cognitive model was analyzed in-depth by descriptive comparisons of resulting IRT parameters, and the estimation of manipulated problem characteristics’ impact on item difficulty by using the linear logistic test model (LLTM, Fischer, 1972). Results are truly promising and show negligible effects of different problem contexts on item difficulty and reasonably stable effects of altered problem characteristics. Thus, the majority of developed cognitive models could be used to generate a huge number of items (> 10.000.000) for the domain of numbers & operations with known psychometric properties without the need for expensive field-trials. We end with discussing lessons learned from item difficulty prediction per model and highlighting differences between the Grades. References: Fischer, G. H. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 36, 359-374. Gierl, M. J., & Haladyna, T. M. (Eds.). (2013). Automatic item generation: Theory and practice. New York, NY: Routledge. Gierl, M. J., Lai, H., Hogan, J., & Matovinovic, D. (2015). A Method for Generating Educational Test Items That Are Aligned to the Common Core State Standards. Journal of Applied Testing Technology, 16(1), 1–18. [less ▲] Detailed reference viewed: 176 (7 UL)![]() Fischbach, Antoine ![]() ![]() ![]() E-print/Working paper (2022) Detailed reference viewed: 58 (12 UL)![]() ![]() Michels, Michael Andreas ![]() ![]() ![]() Scientific Conference (2022, March 09) Detailed reference viewed: 74 (10 UL)![]() Fischbach, Antoine ![]() ![]() ![]() E-print/Working paper (2022) Detailed reference viewed: 43 (4 UL)![]() Fischbach, Antoine ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Nationaler Bildungsbericht Luxemburg 2021 (2021) Detailed reference viewed: 55 (21 UL)![]() ![]() Fischbach, Antoine ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Nationaler Bildungsbericht Luxemburg 2021 (2021) Detailed reference viewed: 46 (10 UL)![]() ![]() Fischbach, Antoine ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Rapport National sur l´Éducation au Luxembourg 2021 (2021) Detailed reference viewed: 51 (12 UL)![]() Sonnleitner, Philipp ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Nationaler Bildungsbericht Luxemburg 2021 (2021) Detailed reference viewed: 41 (4 UL)![]() Fischbach, Antoine ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Rapport national sur l’éducation au Luxembourg 2021 (2021) Detailed reference viewed: 37 (3 UL)![]() Sonnleitner, Philipp ![]() ![]() ![]() in LUCET; SCRIPT (Eds.) Rapport national sur l’éducation au Luxembourg 2021 (2021) Detailed reference viewed: 32 (0 UL)![]() Vlassis, Joëlle ![]() ![]() Presentation (2020) Detailed reference viewed: 65 (6 UL)![]() Vlassis, Joëlle ![]() ![]() Scientific Conference (2019) Detailed reference viewed: 79 (1 UL)![]() Sonnleitner, Philipp ![]() ![]() ![]() Report (2018) it der Erhebung der ÉpStan im Herbst 2016 liegt erstmalig ein Datensatz vor, der einen Einblick in die Entwicklung schulischer Kompetenzen zwischen der 3. Schulstufe (Zyklus 3.1) und der 9. Schulstufe (5e ... [more ▼] it der Erhebung der ÉpStan im Herbst 2016 liegt erstmalig ein Datensatz vor, der einen Einblick in die Entwicklung schulischer Kompetenzen zwischen der 3. Schulstufe (Zyklus 3.1) und der 9. Schulstufe (5e bzw. 9e) erlaubt. Das vorliegende Kapitel gibt nun einen ersten Einblick in die längsschnittliche Kompetenzentwicklung in den Bereichen Deutsch-Leseverstehen und Mathematik. Hierfür werden die Testergebnisse der untersuchten Schülerkohorte aus den ÉpStan 2010 in der 3. Schulstufe (Zyklus 3.1) den Leistungen in der 9. Schulstufe (5e bzw. 9e) im Jahre 2016 gegenübergestellt. [less ▲] Detailed reference viewed: 117 (10 UL)![]() Hoffmann, Danielle ![]() ![]() ![]() Report (2018) Ce chapitre présente les résultats de trois collectes de données (2014, 2015, 2016) des ÉpStan au cycle 2.1 et présente avec quelles compétences scolaires les élèves débutent leur scolarité au début du ... [more ▼] Ce chapitre présente les résultats de trois collectes de données (2014, 2015, 2016) des ÉpStan au cycle 2.1 et présente avec quelles compétences scolaires les élèves débutent leur scolarité au début du cycle 2.1 et comment celles-ci évoluent sur deux ans. De manière générale, nos résultats montrent que les compétences disciplinaires du cycle 1 portant sur les trois domaines d’apprentissage observés (« compréhension de l’oral en luxembourgeois », « compréhension de l’écrit» et « mathématiques ») sont acquises. Au début du cycle 2.1, la majorité des élèves atteint le Niveau Avancé dans l’ensemble des trois domaines d’apprentissage considérés. Deux ans plus tard, au cycle 3.1, la répartition des élèves sur les différents niveaux de compétence est plus négative qu’au cycle 2.1 et ceci dans la mesure où moins d’enfants ont atteint le Niveau Socle dans l’ensemble des trois domaines d’apprentissage observés. Nos résultats montrent également que, dès le début de la scolarité, différents facteurs extrascolaires (tels que le statut socio-économique et le contexte linguistique) ont une influence extrêmement forte sur les résultats des épreuves et que cette influence augmente au fil des années. [less ▲] Detailed reference viewed: 152 (5 UL)![]() Hoffmann, Danielle ![]() ![]() ![]() Report (2018) Dieses Kapitel stellt die Befunde aus drei Datenerhebungen (2014, 2015, 2016) der ÉpStan im Zyklus 2.1 vor und zeigt welche schulischen Kompetenzen Erstklässler am Anfang ihrer Schullaufbahn aufweisen und ... [more ▼] Dieses Kapitel stellt die Befunde aus drei Datenerhebungen (2014, 2015, 2016) der ÉpStan im Zyklus 2.1 vor und zeigt welche schulischen Kompetenzen Erstklässler am Anfang ihrer Schullaufbahn aufweisen und wie sich diese über zwei Jahre hinweg entwickeln. Allgemein betrachtet, sind die für den Zyklus 1 festgehaltenen Bildungsstandards in den drei überprüften Kernkompetenzen („Luxemburgisch-Hörverstehen“, „Vorläuferfertigkeiten der Schriftsprache“ und „Mathematik“) erfüllt. In allen drei Kompetenzen erreicht die Mehrheit der Schülerinnen und Schüler zu Beginn des Zyklus 2.1 das Niveau Avancé. Zwei Jahre später, im Zyklus 3.1, fällt die Verteilung der Schülerinnen und Schüler auf die verschiedenen Kompetenzränge negativer aus als im Zyklus 2.1. Hier haben vergleichsweise mehr Kinder das Niveau Socle in allen drei Kernkompetenzen noch nicht erreicht. Unsere Befunde zeigen außerdem, dass verschiedene außerschulische Faktoren (wie z. B. sozioökonomische Situation, Sprachhintergrund) bereits sehr früh im Verlauf der Schullaufbahn einen äußerst starken Einfluss auf die Testergebnisse haben und dass sich dieser Einfluss über die Jahre hinweg verstärkt. [less ▲] Detailed reference viewed: 242 (18 UL)![]() ![]() Sonnleitner, Philipp ![]() ![]() ![]() Scientific Conference (2018, November 09) Im Rahmen des luxemburgischen Schulmonitorings werden Schlüsselkompetenzen der Schülerinnen und Schüler der luxemburgischen Regelschulen in regelmäßigen Abständen durch die so genannten Épreuves ... [more ▼] Im Rahmen des luxemburgischen Schulmonitorings werden Schlüsselkompetenzen der Schülerinnen und Schüler der luxemburgischen Regelschulen in regelmäßigen Abständen durch die so genannten Épreuves Standardisées (ÉpStan) gemessen. Diese längsschnittliche Begleitung der Schülerinnen und Schüler birgt die einmalige Chance, neue Erklärungsansätze für ein (alt)bekanntes Problem des luxemburgischen Schulsystems zu finden: die großen Unterschiede der Bildungschancen von Schülerinnen und Schüler je nach Geschlecht, sprachlichem und sozioökonomischem Hintergrund. Der vorliegende Beitrag gibt nun einen ersten Einblick in die längsschnittliche Kompetenzentwicklung in den Bereichen Deutsch-Leseverstehen und Mathematik. Hierfür werden die Testergebnisse der untersuchten Schülerkohorte aus den ÉpStan-Kompetenztests 2010 in der 3.Schulstufe den Leistungen in der 9. Schulstufe im Jahre 2016 gegenübergestellt. Die Darstellung der Entwicklungsverläufe mittels Sankey-Flussdiagrammen, erlaubt ein schnelles und intuitives Verständnis, von welchem Kompetenzniveau die Schülerinnen und Schüler in der 3. Klasse starten und welches sie schließlich in der 9. Klasse erreichen. Der Effekt von nachgewiesenermaßen einflussreichen, demografischen (Hintergrund-) Merkmalen wie Geschlecht, sprachlichem Hintergrund und sozioökonomischem Status wird dabei gesondert analysiert. Beim Blick auf die generellen Entwicklungsverläufe in den Bereichen Deutsch-Leseverstehen und Mathematik fällt vor allem eine sehr hohe Stabilität der Kompetenzeinstufungen auf: Schülerinnen und Schüler der 3. Klasse, deren Leistungen auf dem (erwartungskonformen) Niveau Socle oder Niveau Avancé liegen, verfügen in der Regel auch 6 Jahre später über hohe Deutsch- bzw. Mathematikkompetenzen. Umgekehrt verbleibt die Mehrheit der Schülerinnen und Schüler mit anfänglich schwachen Leistungen auch später auf einem niedrigen Kompetenzniveau. Bezieht man nun die Teilergebnisse zum Sprachhintergrund mit ein, lässt sich ganz klar folgern, dass die Unterrichtssprache hierfür einen entscheidenden Faktor darstellt: Schülerinnen und Schüler, die Luxemburgisch oder Deutsch als Muttersprache angeben, können sowohl in Deutsch-Leseverstehen als auch in Mathematik eher ein hohes Niveau halten bzw. sich im Laufe ihrer Schulkarriere auf ein solches verbessern. Portugiesischsprachige bzw. frankophone Schülerinnen und Schüler, die im Allgemeinen ohnehin auf einem niedrigeren Kompetenzniveau starten, können sich nur teilweise deutlich verbessern, profitieren aber vom Wechsel der Unterrichtssprache im Secondaire. Die Analysen zeigen darüber hinaus, dass typische Geschlechtsunterschiede, die auf einen Vorteil für Mädchen beim Lesen und einen leichten Vorteil für Jungen in Mathematik hindeuten, schon anfangs der 3. Klasse bestehen, und über die folgenden 6 Jahre weitgehend stabil bleiben. Zusammenfassend bestätigen die Ergebnisse die bereits mehrfach aufgezeigten landestypischen Probleme, erlauben aber eine feinere Aufschlüsselung und zeitliche Verortung der Wechselwirkungen zwischen Unterrichtssprache, sprachlichem und sozioökonomischem Schülerhintergrund, und bilden so die Grundlage für effektivere Interventionen. [less ▲] Detailed reference viewed: 128 (18 UL)![]() Hoffmann, Danielle ![]() ![]() Poster (2018, November 08) Jedes Jahr werden in den luxemburgischen Schulen die ÉpStan (Épreuves Standardisées) durchgeführt. Hierbei handelt es sich um nationale Schulleistungstests, welche Kompetenzen im Bereich der Mathematik ... [more ▼] Jedes Jahr werden in den luxemburgischen Schulen die ÉpStan (Épreuves Standardisées) durchgeführt. Hierbei handelt es sich um nationale Schulleistungstests, welche Kompetenzen im Bereich der Mathematik und den Schulsprachen (Luxemburgisch, Deutsch und Französisch) auf standardisierte Art messen. Der vorliegende Beitrag ist sowohl eine Bestandsaufnahme der Schülerschaft zu Beginn des formalen Bildungswegs als auch ein Bericht ihrer Evolution über zwei Jahre im luxemburgischen Schulsystem. Hierzu haben wir die Daten aus drei Erhebungen (2014, 2015, 2016) der ÉpStan analysiert. Zum einen zeigen wir, anhand von Daten aus drei verschiedenen Kohorten, welche schulischen Kompetenzen Erstklässler (Zyklus 2.1) am Anfang ihrer Schullaufbahn aufweisen. Zudem hatten wir die Möglichkeit die Schüler und Schülerinnen der ersten Erhebung (2014) zwei Jahre später im Zyklus 3.1 nochmals zu testen und somit ihren Entwicklungsverlauf über zwei Jahre im luxemburgischen Bildungssystem zu dokumentieren. Diese ersten längsschnittlichen Daten zeigen, dass die Mehrheit der Schülerinnen und Schüler zu Beginn des Zyklus 2.1 das Niveau Avancé in den drei überprüften Kernkompetenzen („Luxemburgisch-Hörverstehen“, „Vorläuferfertigkeiten der Schriftsprache“ und „Mathematik“) erreicht. Somit stellen wir fest, dass die für den ersten Lernzyklus festgehaltenen Bildungsstandards erfüllt sind. Zwei Jahre später fällt die Verteilung der Schülerinnen und Schüler auf die verschiedenen Kompetenzränge negativer aus als im Zyklus 2.1. Im Zyklus 3.1 haben vergleichsweise mehr Kinder das Niveau Socle in allen drei Kernkompetenzen („Deutsch-Hörverstehen“, „Deutsch-Leseverstehen“ und „Mathematik“) noch nicht erreicht. Unsere Befunde zeigen außerdem, dass verschiedene außerschulische Faktoren (wie z. B. sozioökonomische Situation, Sprachhintergrund) bereits sehr früh im Verlauf der Schullaufbahn einen äußerst starken Einfluss auf die Testergebnisse haben und sich dieser Einfluss über die Jahre hinweg verstärkt. Abschließend präsentieren und diskutieren wir verschiedene Erklärungsansätze für diesen beobachteten Schereneffekt. [less ▲] Detailed reference viewed: 143 (10 UL)![]() ![]() Levy, Jessica ![]() ![]() ![]() Scientific Conference (2018, July) Detailed reference viewed: 120 (11 UL) |
||