"W sytuacji masowego oprotestowania jakiegoś pytania będziemy musieli się zastanowić, czy je unieważnić."
Jeśli takie słowa rzeczywiście padły z ust naczelnego organizatora Lekarskiego Egzaminu Państwowego, a nie zostały przez dziennikarzy ("Puls Medycyny" nr 24 z 17 listopada) tylko źle zrozumiane – to sprawa jest przerażająca. Przerażająca poziomem niekompetencji organizatorów egzaminu.
Każdy, kto cokolwiek rozumie ze sposobu oceniania jakiegokolwiek pytania z egzaminu testowego wie, że to nie "głos zdających" się liczy, ale całkiem obiektywne fakty płynące z analizy badanego testu, a ściśle mówiąc – z analizy odpowiedzi na każde pytanie testowe.
Jeśli wszyscy zdający poprawnie odpowiadają na pytanie (wybierają właściwą odpowiedź), to znaczy, że pytanie było za łatwe. Innymi słowy, tzw. dystraktory były absurdalne (żeby nie użyć słowa – głupie). Jeśli większość zdających wybiera jedną "złą" (wg egzaminatora) odpowiedź, to znaczy, że układający pytanie nie znał tematu, bo wg niego "nieprawda" była w istocie "prawdą" albo "prawd" było więcej niż jedna.
Jeśli "rozrzut" złych odpowiedzi na pytanie jest zupełnie równomierny, a prawidłowych odpowiedzi mało, to znaczy, że albo pytanie było zupełnie bez sensu, albo temat w ogóle nie był znany zdającym. Z analizy odpowiedzi na to pytanie można wyciągnąć wnioski nt. dydaktyki tego zagadnienia albo po prostu uznać je za niewłaściwe dla danego testu.
Analiza poszczególnych pytań przeprowadzona w ten właśnie sposób i po odrzuceniu wszystkich wątpliwych pytań (za łatwych, za trudnych i po prostu złych), co przy odpowiednim programie komputerowym jest możliwe w kilka minut – daje nam "całościową" analizę testu. Po policzeniu prawidłowych odpowiedzi można dopiero ocenić, czy test był "łatwy", czy "trudny".
Ale to tylko część prawdy. Celem każdego egzaminu jest sprawdzian wiedzy zdających, a praktycznie – wyselekcjonowanie tych najlepszych (25%) i najgorszych (też 25%).
Problemy powstają wtedy dwa. Pierwszy – jak "podzielić" pozostałe 50% na "lepszych" i "gorszych", oraz drugi – gdzie postawić granicę zaliczenia lub niezaliczenia testu. Obydwa można rozważyć dopiero po wspomnianym odrzuceniu wielu pytań. To znaczy – tych tzw. za trudnych (gdzie liczba prawidłowych odpowiedzi jest mniejsza niż 25%) oraz tych ze złymi dystraktorami, gdzie więcej niż połowa zdających uznaje "nieprawidłową odpowiedź za prawidłową.
Dopiero po odrzuceniu tych pytań liczyć należy odpowiedzi prawidłowe i nieprawidłowe, a wtedy można np. zanalizować każde pytanie pod względem jego "mocy różnicującej".
Moc różnicująca to stosunek liczby najlepiej zdających cały test (górna połowa), którzy prawidłowo na to pytanie odpowiedzieli, do liczby dobrze odpowiadających z dolnej połowy zdających. Dobrze, gdy taka siła różnicująca to 0,6-0,8. Liczba ujemna dyskwalifikuje pytanie.
No, ale gdzie postawić granice zdał/nie zdał? Można to zrobić mając już tylko "dobre" pytania i wiedząc, że 1/5 dobrych odpowiedzi (przy 5 możliwościach) to czysty przypadek. 20% dobrych odpowiedzi można zaliczyć "na ślepo" w ciągu 5 minut. Ta decyzja jest wyłącznie arbitralna.
Układanie pytań testowych stanowi pracę trudniejszą niż postronnym się wydaje. Jest to w istocie egzamin układającego pytanie. Dlatego wielu odpowiedzialnych za kształcenie, a potem – ocenianie wiedzy studentów i lekarzy z reguły nie podaje do późniejszej wiadomości danych o tzw. rzetelności testu. A to w istocie jest ocena, czy test w ogóle spełnił jakiekolwiek (poza propagandowym) zadanie.
Organizując przez kilka lat testowe egzaminy specjalizacyjne wiem, jak trudno było się doprosić wybitnych niekiedy specjalistów o pytania do testu. Wynikało to przeważnie z faktu, że utytułowanej osobie "nie godzi się" dyskutować nad (z konieczności) precyzyjnymi dystraktorami i pytaniami. Można tu bowiem zdradzić się ze swoją niewiedzą.
W latach 80. liczyliśmy wyniki egzaminów testowych "ręcznie". Obecnie programy komputerowe są w stanie w minutę wyliczyć wszelkie parametry testu, bez żadnych subiektywnych opinii, że jakiś fragment testu był trudny, a inny łatwy.
Na miejscu zdających LEP, gdybym nie zaliczył testu, zażądałbym danych o "rzetelności" testu. Gdyby ta rzetelność wynosiła mniej niż 0,7 (odsyłam tu do klasycznego opracowania Hubbarda i Clemansa sprzed 40 lat), to bez względu na wynik żądałbym zaliczenia go wszystkim zdającym.