Jiří Dvořák: Možnosti testování

úterý 31. ledna 2012 ·

Vystoupení Jiřího Dvořáka z lednového kulatého stolu SKAV a EDUin „K čemu mohou či nemohou být výsledky plošných testů užitečné?“ ze záznamu Silvie Pýchové.


Celý text záznamu z kulatého stolu si můžete přečíst ZDE.


Jiří Dvořák na začátku svého vystoupení uvedl, že se bude zabývat tím, jaké jsou možnosti testování a co se z něj můžeme dozvědět. Klasický postup je, že zvolíme téma, cíle, vytvoříme úlohy a test sestavíme. Jedná se o poměrně složitý proces. Ve chvíli, kdy test použijeme a žáci obdrží určité body, je otázka, co jsme se z testu dozvěděli. Informace, kterou získáme, je v mnoha ohledech omezená, nelze odhadnout obtížnost testu, z počtu obdržených bodů přímo nelze odvodit skutečné schopnosti žáka. Každý test má jinou obtížnost, definuje škálu, na kterou žáky umisťuje a ta je ke každému testu specifická. Nelze říct, jak moc se liší schopnosti žáků, kteří získali stejný počet bodů, ale v různých testech. Lze učinit pouze srovnání žáků v rámci jednoho testu. V tomto případě se jedná o srovnávací testy a tyto testy nemohou v žádném případě ověřit standardy.

Problematická je i porovnatelnost testů mezi roky, není možné zajistit, že žáci budou mít srovnatelné výsledky. Je tedy potřeba testy propojovat vytvořením řetězu společných úloh. Do těchto testů lze zařadit část stejných úloh.

Pokud chceme test vztáhnout k objektivně existujícím dovednostem, je potřeba je předem definovat. Dále je potřeba zajistit, aby standardu rozuměli tvůrci testů a také aby mu „rozuměl počítač“, aby mohly být výsledky zpracovány počítačem. V tomto modelu musí být obsaženo, jak budou vypadat výstupy:
1) stanovena hranice prošel/neprošel (např. u státní maturity),
2) kategorie – například Společný evropský referenční rámec (B1, B2 …),
3) mapy učebního pokroku (MUP). MUP nám umožní vytěžit z testů více informací, ale je těžké obsáhnout celé kurikulum. Můžeme zohlednit fakt, že jedna úloha pokrývá více dovedností.

Následovat by měla fáze kalibrace (nedochází k tomu často) – empirické ověření, že nastavení modelu je správné a nastavení parametrů úloh. Kalibrace skóruje úlohy podle jejich skutečných vlastností. Také je potřeba test podle kalibrace vyhodnotit podle parametrů, které jsme určili.

Ohledně přidané hodnoty – existují dva přístupy. Jeden je relativní – např. výsledek předchozího testu, socioekonomické zázemí žáka, můžeme například srovnávat, jak se jeho zázemí projevuje na výsledku testů, můžeme porovnat žáky ze stejného prostředí a zjistit, kde se konkrétní žák pohybuje. Na základě toho lze konstatovat, že žák dosahuje nadprůměrných výsledků vzhledem ke svému sociokulturnímu prostředí. V tomto případě lze použít srovnávací testy.

Druhý přístup je absolutní, tj. že zjistíme, co se opravdu žák naučil, o kolik se posunul v absolutních měřítcích oproti standardu. Předtím byl na úrovni B1 a nyní je na B2.

Srovnávací testy není možné použít na ověřování standardu. Dále je potřeba se ptát, jakým způsobem byly testy vztaženy ke standardu, a tato metodika by měla být veřejně oponována. Co se týče srovnatelnosti, v případě státní maturity je obtížné zajistit provázanost testů, jelikož jsou zveřejňovány testové úlohy. A jejich srovnatelnost je diskutabilní. Metodiku je důležité znát, abychom věděli, jestli nám testy poskytují informace, které požadujeme, nakolik jsou tyto informace relevantní. Testy umožňují mnohé, ale jenom v případě, že bude dodržena metodika, v případě, že test je zkonstruován tak, jak má být, a pokud použijeme moderní poznatky. V zahraničí testy vznikly před 10 a více lety a při testování nebyly využity moderní poznatky.


Více v prezentaci ZDE.


Tomáš Feřtek (TF): Pokud srovnávací testy nelze použít na ověřování standardu, je možná jejich kombinace?

Jiří Dvořák (JD): Možné to je. Pokud je test schopen ověřovací funkce při dodržení určité metodiky lze ho za určitých podmínek použít i pro srovnávací funkci. U použití kategorie lze zjistit, kdo spadá do kategorie A2, A1. V případě robustního modelu MUP se může stát, že se žáci rozdělí podle skupin, test ale musí být silnější.

TF: V pilotáži byl použit test o počtu asi 13 otázek. Lze test o takovém počtu otázek použít pro ověřování standardu?

JD: Záleží na síle modelu a na rozsahu kurikula. U aktuálního testu, který tvoříme pro Společný evropský referenční rámec, pracujeme s 8 kategoriemi s 50 úlohami. V případě adaptivních způsobů testování na počítači je možné počet úloh snížit. Počítač může na základě průběžného hodnocení přiřazovat úlohy, počítač se přizpůsobuje práci na testu. Testy jsou rozsáhlé, protože jsou nepřesné. Platí úměra: čím více úloh, tím je test přesnější. Adaptivita umožňuje zpřesňovat rychleji.

TF: Pokud se nebude jednat o adaptivní test, je rozdíl v počtu otázek v papírovém provedení a na počítači?

JD: Není v tom rozdíl. Počet otázek je omezen časem, který žáci na test mají. Neexistují výzkumy, že by byl časový rozdíl mezi prací na počítači a na papíře.

TF: Ze srovnávacích testů zjistíme, že žák je v 5. třídě v určitém percentilu a v 9. třídě je v jiném percentilu, zjistíme tak, jestli se zlepšil?

JD: Takto to není možné realizovat dostatečně přesně. Pokud použijeme ten relativní přístup k přidané hodnotě. Je to možné, že žák dosáhl nějakého skóre, např. průměru a nyní je např. nadprůměrný.

TF: Lze z toho vyvodit, kdo to způsobil? Například škola?

JD: Jestliže zvolíme vhodné indexy, očistíme data od nežádoucích vlivů a spolehneme se na statistické metody, tak v principu ano. PISA se pojišťuje tak, že data dává k dispozici, aby si to každý mohl přepočítat.

0 komentářů: