Jiří Münich: Testování a zkoušky ve školství: jak fungují a co způsobují

pátek 12. března 2021 ·

Rok co rok se tisíce žáků účastní státní maturitní zkoušky a rok co rok nastane kontroverze okolo jedné nebo více zadaných úloh. Centrum pro zjišťování výsledků ve vzdělávání (CZVV, také známé jako CERMAT) – zodpovědné vedle maturitní zkoušky rovněž za jednotnou přijímací zkoušku – bývá vystavováno kritice za obsah testu i podobu jednotlivých úloh. Jednu z těchto kritik dokonce stvrdil svým rozhodnutím soud. Na základě testů administrovaných CZVV se rozhoduje o dalších příležitostech ve vzdělávání i v životě žáků základních i středních škol. Není divu, že jejich podoba je předmětem takového zájmu zasažené veřejnosti. Kvalitou několika úloh maturitní zkoušky dopady testování na český vzdělávací systém nekončí.


Zdroj: Audit vzdělávacího systému 2020



Testy ovlivňují vzdělávací politiku, určují, co se vyžaduje od zájemců o VŠ


Podstatná část představ, které si děláme o fungování našeho vzdělávání, bude vycházet z nějakého testu znalostí nebo dovedností. Například v roce 2018 jsme se srovnávali se zbytkem světa ve výsledcích testování PISA, v roce 2019 to bylo zase měření TIMSS. O výsledky mezinárodních šetření se opírá práce státních i neziskových aktérů nebo i podstatná část veřejné diskuze o českém vzdělávání. Velká mezinárodní testování pro nás hodně znamenají – částečně možná proto, že příliš nezvládáme provádět vlastní. Je celkem příznačné, že i když Strategie 2030+ otevřeně reflektuje potřebu vyhodnocovat dopady vzdělávací politiky, sama svou argumentaci musí opírat výlučně o výsledky mezinárodních šetření, protože vlastní data jsou často buď nedostatečná, nezpracovaná, nedostupná, nebo vůbec neexistují.


Význam a dopady testování ale nejsou výhradní výsadou veřejné sféry. Společnost SCIO zajišťuje přijímací zkoušky k vysokoškolskému studiu pro řadu fakult. Přes široce užívaný test Obecných studijních předpokladů se tento soukromý hráč de facto stal jedním z hlasů určujících, jaké kompetence se od absolventů středních škol (se zájmem o vysokoškolské studium) očekávají. Ověřování dovedností totiž není jen pasivní pozorování výsledků. Testy mohou být aktivními hybateli ve vzdělávací politice.


Česká veřejná debata o zjišťování výsledků ve vzdělávání se zpravidla točí okolo kvality jednotlivých úloh nebo důležitosti dílčích dovedností v tom kterém testu. Chybí nám ale hlubší diskuze o tom, co vůbec používáním testů dokážeme zjistit, jakým účelům mají zjišťované výsledky sloužit nebo zda mají určité testy ve vzdělávání vůbec co dělat.



Jak se zjišťují výsledky ve vzdělávání – nejen testy


Zjišťovat výsledky vzdělávání lze různými – více i méně kreativními – způsoby: standardizovanými testy, ročníkovými pracemi a portfolii žáků, zkoušením před odbornou komisí, praktickou zkouškou nebo klasicky učitelem před tabulí. Stejně tak je celá řada účelů, kterým může zjišťování výsledků sloužit. K čemu se hodnocení používá u nás?


OECD v roce 2012 zveřejnila zprávu o tom, jak se v českém vzdělávání s hodnocením nakládá. Z hlavních závěrů zprávy vyplývá, že se naše vzdělávání v problematice hodnocení výsledků vzdělávání myšlenkově trošku zaseklo. O testování umíme přemýšlet především v termínech „kdo je dobrý, kdo je špatný“ a testování používáme k dohledu nad žáky, jejich třídění a vzájemnému poměřování.


Zmíněná zpráva České republice doporučuje v první řadě rozšířit si přehled o tom, jak lze zjišťování výsledků provádět a k čemu všemu by šlo využít. Klíčová doporučení by se dala shrnout následovně: pojďme o hodnocení přemýšlet méně jako o nástroji kontroly a více jako o nástroji konstruktivní zpětné vazby.


K tomu se ale musíme vypořádat s následujícím:

– vyjasnit, co od žáků a učitelů vlastně chceme;

– nespoléhat se na mezinárodní šetření, nýbrž zavést vlastní sběr dat;

– naučit se, jak požadované dovednosti měřit.


K poslednímu bodu je v závěrech zprávy doslova uvedená potřeba vytvořit odborné kapacity „v oblasti měření výsledků vzdělávání, vývoje testů, validace testových úloh či metod škálování, které jsou v České republice nedostatkové.“ Co si má ale člověk pod vývojem testů představit? Sestavit kvalitní didaktický test přece nemůže být o tolik těžší, než napsat dobré zadání písemky. Nebo ne?



Jak vznikají testy


S troškou nadsázky lze říct, že ve vzdělávání buď jednoduše změříme to, co se měří snadno, nebo složitě to, na čem záleží. Jistě je snadné sestavit a vyhodnotit dějepisný test na základě znalostí jmen a letopočtů, ale takový test nám jen stěží něco řekne o schopnosti žáků pracovat s novými informacemi nebo pochopení historických souvislostí.


Abychom dokázali odlišit dobré testy od špatných, musíme být schopni posoudit je z celé řady hledisek: didaktického, statistického, systémového, ale například i etického. Takový rámec pro široké posuzování testů vytvořili na základě velkého přehledu validačních metod badatelé Newton a Shaw. 


Sestává ze tří kroků, každý z nich založený na jedné otázce:

1. Je test dobrý v měření toho, co má měřit?

2. Je test dobrý v plnění účelu, kterému má sloužit?

3. Jaké jsou vedlejší dopady podoby a využívání daného testu?


V tabulce ukazujeme, jak by mohly vypadat konkrétní otázky formulované dle navrženého rámce.



Kvalitní test stojí na obsahu, koncepci vzdělávání a na psychometrických vlastnostech 


Testový skór má zpravidla představovat úroveň nějaké vlastnosti nebo dovednosti. Abychom mu ale přisoudili vypovídající hodnotu, musí nás autoři nejprve přesvědčit, že test odpovídá měřenému atributu přinejmenším v oblastech:

– obsahu

– koncepce vzdělávání

– psychometrických vlastností

 


Obsah testu


Posuzování testů z hlediska obsahu bude všem poměrně známé: test, který hodnotí schopnost dorozumět se v anglickém jazyce, by měl dobře reprezentovat chápání mluveného a psaného slova nebo gramatických pravidel, ale neměl by stát například na vědomostech o historii anglicko-jazyčných národů.


Je ale těžké sestavit kvalitní test, pokud sami nevíme, co by měl vlastně měřit. Za každým pojmem jako je čtenářská gramotnost, kompetence k učení nebo i vágní matematika potřebujeme mít jasnou teorii vysvětlující, co přesně jím míníme. Dokud není teorie, nemá cenu nad testem ani přemýšlet – těžko sestavovat test, když sami nemáme jasno, co vůbec měří.



Shoda s koncepcí vzdělávání


Sherlock Holmes neví, že planeta Země obíhá okolo Slunce. Tvrdí, že jeho mozek je perfektní analytická mašina, kterou nemůže zahlcovat zbytečnými informacemi. Velký detektiv by pravděpodobně u testu širokého okruhu astronomických vědomostí vypadal jako pěkný nekňuba. Nechte ho ale týden řešit případ zahrnující pohyby nebeských těles a na všechny otázky o Slunci odpoví jako diplomovaný astronom.


Při vývoji testů často vycházíme z představy, že existuje nějaká měřitelná dovednost, která má stejnou podobu, bez ohledu na to, jakou cestou se k ní člověk dostane. Schopnost řešit matematické úlohy můžeme nabýt frontální i např. badatelskou výukou. Některá metoda možná naučí dovednost rychleji, lépe, trvanlivěji atp., ale jejich výsledky můžeme testovat bez ohledu na to, jakým způsobem se děti učily.


Jo-Anne Baird ale tento předpoklad rozporuje – k učení dochází v kontextech nejrůznějších komunit, škol, kultur, potřeb a dalších věcí. Naučené vědomosti i způsoby uvažování jsou tak nakonec vždy unikátní – někdo se učil fyziku v laboratoři a půjdou mu úlohy s konkrétními příklady, někdo zase s rodičem matematikem a nejlépe mu bude mezi vzorečky a abstraktními úlohami. V teoriích pedagogiky se již dlouho diskutuje o kontextuálních kompetencích, do teorií testování tato perspektiva ale zatím nepronikla.


Autoři hodnocení se potřebují zabývat nejenom tím, jaké vědomosti nebo dovednosti měří, ale také zda jimi použité metody testování odpovídají tomu, kde se tyto vědomosti s dovednostmi vzaly. Pozitivním příkladem zde může být iniciativa New York Performance Standards Consortium – skupina škol, která nachází způsoby, jak univerzální metodou vyhodnocovat výsledky úzce zaměřených badatelských projektů žáků, na kterých stojí jejich výuka.



Psychometrické vlastnosti


Můžeme si dlouze lámat hlavu nad tím, jak a co by měl test měřit a z jakých úloh by měl sestávat. Existuje ale určitá mez toho, co můžeme vymyslet a odpovědět od stolu. Jistě se dá hodiny diskutovat o vhodnosti té které formulace zadání. V nějaké fázi je potřeba test použít a posoudit ho i na základě pozorování z praxe, protože některé slabiny testu se ukáží až ve chvíli, kdy se podíváme, jak na něj žáci odpovídají.


Při první úvaze se nám třeba může zdát, že někdo je prostě dobrý detektiv a někdo ne. V praxi ale vidíme, že některé kroky v řešení případu jdou lépe Sherlockovi (dedukce a analýza tabákového popílku) a některé zase Watsonovi (srozumitelné shrnutí postupu práce a komunikace s lidskými svědky). Na základě pozorování tak přehodnotíme naši původní teorii detektivní dovednosti.


Psychometrie je obor který se podobným způsobem zabývá prací s daty z testování. Na základě statistických analýz posuzuje takové věci, jako je přesnost měření (Jak často v testu neuspějí jinak kompetentní žáci?), počet rozměrů měřené dovednosti (Může být někdo dobrý v geometrii, a přesto špatný v integrálech? Má smysl dávat z matematiky jen jednu souhrnnou známku?) nebo třeba předpojatost testu (Najdou se v testu úlohy, u kterých se nedaří jen chlapcům, bez ohledu na jejich celkovou úroveň dovednosti?).


Dobrá psychometrie nám sama o sobě kvalitní test nezajistí. Bez ní ale diskuze o kvalitě měření může velice snadno sklouznout do roviny teorií a dojmů. Jakkoliv potřebujeme celou řadu garancí kvality testování, psychometrické analýzy patří nepochybně mezi ně.



Každý účel měření potřebuje jiný test


Existují názory, že každý test by měl sloužit jen jedinému specifickému účelu – maturitní zkouška na konci studia razítkuje žáky a PISA dělá ze vzdělání mezistátní dostihy, tečka. Paul E. Newton ale myslí, že testy pro ověření znalostí a dovedností mohou sloužit různým účelům a nemusí se nutně omezovat pouze na jeden.


Ne každý test ale poslouží dobře každému účelu – přesnost kuchyňských vah stačí k domácímu pečení chleba, ale v lékárnách se používají jen zřídka (a když už, je to trošku podezřelé). V podobném duchu nelze posoudit, zda je náš test čtenářské gramotnosti dostatečně přesný, pokud nevíme, k čemu jej chceme využít.


Vezměme si smyšlený příklad přijímacích zkoušek na vysokou školu. Hypotetické vedení chce své vysoké škole ušetřit práci s výukou. Hledá proto takový test, který úspěšně vybere žáky, kterým půjde studium víceméně samo. Prakticky to znamená, že rozdíly mezi skóry v testu jednotlivých uchazečů se budou rovněž odrážet ve známkách, které během studia obdrží. Bohužel, podle studie Bartákové, Chvála a Martinkové přijímací testy českých vysokých škol vysvětlují jen mezi 4 a 16 % rozdílů ve známkách mezi studenty. Podobnému účelu tedy používané testy vyhovují jen stěží.


Špatně nastavené přijímací řízení může nespravedlivě vyřadit studenty, kteří by jinak měli šanci úspěšně dostudovat, a hůř dopadá na skupiny, kterým se v něm systematicky nedaří (jako podotýkal už v roce 1971 Robert Thorndike). Dokonce i takový technický parametr, jako je spravedlivé nastavování hranice úspěšnosti, potom odvisí od toho, co se má daným testem předvídat.


Proto nestačí jen posoudit, zda test dobře měří tu znalost či kompetenci, ale zda jím měřené hodnoty spolehlivě předvídají to, co od nich čekáme.



Každý test má vedlejší dopady, musíme o nich vědět


Ve veřejné diskuzi se objevují hlasy, že nebýt maturitní zkoušky, žáci se přestanou učit, vyrazí do ulic a ze středních škol můžeme udělat skladiště bramborového škrobu. Druhá skupina zase varuje, že testování vysává z dětí vnitřní motivaci k učení a vrozenou radost z poznání.


Nezamýšlenými dopady testu je třeba se zabývat stejně jako těmi zamýšlenými. Musíme ukázat, že test pomáhá (tvrdíme-li, že pomáhá) a dokázat, že neškodí (tvrdíme-li, že neškodí). Jistě se můžeme přít, na kom a kdy leží dokazovací povinnost, ale většinu takových debat stejně dříve nebo později budeme muset empiricky rozseknout. Jistě jde o těžký úkol – je totiž třeba průběžně vyhodnocovat neznámé a opakovaně se ptát, jaké otázky jsme si ještě nepoložili.


Zpětným dopadům testování na to, jak se učí, se v odborné literatuře říká washback. Příkladem takového washbacku je standardizované testování v rámci vzdělávací reformy No Child Left Behind v USA. Původní záměr testování byl jednoduchý: pojďme testováním zjistit, jak školy učí. Dobré pojďme odměnit, špatné zkusme napravit, případně trestat. Jenomže jak poukazují akademici jako Kenneth Rowe nebo David Berliner, využití testů pro posuzování kvality škol může vést k takovým dopadům, jako je redukce kurikula nebo segregace škol i celých sousedství. Americké školy zareagovaly prostě: budete nás testovat? Začneme učit jenom to, co je v testech.


Co to znamená pro nás? V České republice se školy podle výsledků ve standardizovaných testech naštěstí systematicky neodměňují. Zato se hojně používají v přijímacích řízeních, například podle nich třídíme děti do středních škol. Máme ale představu o tom, zda naše testy jen neposílají chudší děti do horších škol? Co víme o nenaplněných možnostech dětí, o jejichž vzdělávací dráze se rozhodlo ještě před pubertou?


Kritik standardizovaného testování Wayne Au upozorňuje, že plošné měření výsledků jednotnými testy hraje zásadní roli ve vytváření a replikování společenských nerovností. Výsledky testů jsou určeny celou řadou faktorů, nad kterými dítě nemá kontrolu – socioekonomický status rodičů, kulturní původ a jiné. Jakýkoli vzdělávací systém, který používá standardizované testy k rané selekci tak pod zdánlivě objektivním hávem dovednostních testů replikuje společenské nerovnosti.


Například studie na dvojčatech výzkumného týmu Bartelse a ostatních ukázala, že výsledky testů společnosti nizozemské CITO, která inspirovala i standardizované testování v České republice, vykazují znaky dědičnosti. V demokratické společnosti není obhajitelné omezit dětem přístup ke vzdělávání na základě toho, komu se narodily. Nizozemští psychometři Borsboom a Wijsen ale varují, že odpírat jej na základě výsledků testů se může zdát (až vědecky!) obhajitelné, ačkoliv se jedná o totéž v bleděmodrém.


Je nutné vést diskuzi o etičnosti zjišťování výsledků a jeho využití: je vůbec správné přístup ke vzdělání zakládat na základě vědomostí a dovedností? Co všechno tím způsobujeme dětem i našemu vzdělávání? Taková diskuze – ač v principu hodnotová – se ale neobejde ani bez empirických podkladů. Chceme-li testy nadále používat, musíme umět klást často obtížné a nepříjemné otázky o jejich kvalitě a využití.



České vzdělávání potřebuje kritickou diskuzi o účelech testování


Strategie 2030+ správně zdůrazňuje potřebu vytvoření testovacích kapacit pro celé spektrum využití. Musíme být schopni dávat zpětnou vazbu žákům, školám i samotnému systému. Nic z toho se bez solidních informací neobejde.


V současnosti Česká republika buď musí přebírat výsledky mezinárodních šetření, nebo využívá testy bez příbalových letáků (tedy bez solidní dokumentace – více o potřebě transparentnosti píše Newton, 2005), jejichž validita není doložená hlubší koncepcí ani psychometrickými analýzami. Zatímco těmto testům nedůvěřujeme natolik, abychom z nich vypracovávali obecné statistické analýzy o kvalitě vzdělávání v zemi a jejím vývoji v čase, neštítíme se používat je pro potřeby certifikace a přijímacích řízení. Často tak rozhodujeme o životních drahách dětí bez odůvodnění účelu nebo garance rovnosti a spolehlivosti.


Podle Marthy Foote z New York Performance Standards Consortium nastal možná čas místo věčného posuzování žáků posoudit testy samotné. Je načase ověřit, zda dokáží to, co o nich jejich proponenti tvrdí, obzvlášť když se na jejich základě rozhoduje o dětech a jejich budoucnosti. Je načase vyjasnit, co od testování vlastně chceme – kde je užitečné a kde je pouze zvykem a důsledkem naší omezené představivosti. Máme-li potřebu třídit, nevybíjejme si ji na dětech. Místo toho pojďme zvážit, kolik skutečně důležitých otázek by nám systém kvalitního ověřování výsledků ve vzdělávání mohl pomoci zodpovědět.



Klíčové body


– přesnost formulací otázek v testech je důležitá, ale musíme se bavit také o účelech testování a jejich vedlejších dopadech

– Česko využívá testování hlavně ke kontrole, značný potenciál je v testování jako nástroji zpětné vazby pro vzdělávací systém

– Česku chybí odborné kapacity v oblasti ověřování výsledků vzdělávání

– je potřebná kritická debata o aktuálně využívaných testech a jejich účelech




Tabulku, zdroje a komentáře expertů najdete ZDE.


Nezapomeňte si přečíst také rozsáhlé Události 2020 – přehled událostí roku, který si můžete filtrovat podle témat nebo podle svého typu školy.







0 komentářů:

Šéfredaktorka

Výtvarné umění



WebArchiv - archiv českého webu



Licence Creative Commons
Obsah podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česká republika, pokud není uvedeno jinak nebo nejde-li o tiskové zprávy.

Powered By Blogger