Aşağıdaki içerikler, bilimsel yöntemlerle test ve sınav hazırlama konusunda bilgilendirme amaçlı hazırlanmıştır.
Sorularınız için bizimle iletişime geçebilirsiniz:
E-posta: [email protected]
PBX: +90 212 318 80 99
Teknik deyimiyle alt gruplardaki grup-içi değişkenlik, ölçülerde gözlenen toplam değişkenlikten önemli derecede düşükse, örneklemdeki alt-gruplar arası farklara bağlı değişkenlik önemli derecelerde büyük, yani testin gerçek farkları ölçülere yansıtma gücü yüksek demektir. Böyle bir sonuç, testin geçerliğinin yüksek olduğuna bir kanıttır. Testin geçerlik göstergesi, grupların oluşturulması ile “açıklanmış olan” değişkenlik, ölçülerde gözlenmiş olan toplam değişkenliğe bölünerek hesaplanır (Hays, 1963 s.356-458).
Gruplar oluşturulmasının gözlenen değişkenliğin azalmasına katkısının, yani ölçülmek istenen özelliğe sahip oluş derecelerindeki gerçek farklardan gelen değişkenliğin, gözlenen toplam değişkenliğe oranının 3/5 bulunduğunu düşünelim. Bu durumda, test puanlarında gözlenen toplam değişkenliğin 3/5 = 0,60’ı ölçülmek istenen gerçek farklardan gelmektedir. Bir tur yapı geçerliği kanıtı olan bu oran, yaygınca bilinen ilişki katsayısı şekline dönüştürülürse 0,60 = 0,78’lik bir ilişkiye denktir. Bu durumda değişkenliğin geri kalan yüzde 40’ı nereden gelmektedir? Bu da, istenmediği halde ölçeğin verdiği ölçüleri etkilemekte olan diğer özelliklerdeki farklardan, istenmediği halde ölçüleri etkileyen özellikler var ve bunlar ölçülmek istenen özellikle etkileşiyor ise bu ikisinin ortak etkisinden ve bir de kullanılan aracın hatasından gelmektedir.
Ancak, bu son halde etkili ve amaca daha elverişli olabilecek başka bir yol daha vardır. O yol da şudur: İlk önce örneklemdeki kişilerin ilgili alandaki öğrenme güçleri, hazırlanan ölçekle ölçülmeye çalışılır, yani eldeki ölçek bu örnekleme uygulanır. Sonra, örneklemdeki bu kişiler izlenir ve onların aynı alanda ne düzeyde ve ne kadar bir hızla öğrenmekte oldukları belirlenir. Buradan elde edilen sonuçlara göre örneklemdeki kişiler öğrenme gücü yüksek bulunmuş olandan düşük bulunmuş olana doğru (ya da tersine bir sıra uyarınca) gruplara ayrılır ve bu gruplara giren kişilerin eldeki testten aldıkları puanlar analiz edilir.
Bugüne kadarki uygulamalarda, burada önerilenlerden farklı bazı geçerlik tahmini yolları da izlenmiştir. (Bakınız, Gulliksen, 1950). Bu yollar özetle şöyledir: Bunlardan bir tanesinde, testin verildiği gruba, ölçülmek istenen özelliği ölçtüğü bilinen ya da ölçülmek istenen özellik ile yüksek ilişki gösteren başka bir özelliği ölçen bir ölçme aracı daha uygulanır. Gruptaki kişilerin bu iki ölçekle elde edilmiş olan ölçüleri arasındaki ilişki katsayısı (korelasyon) hesaplanır. Bu yol izlenirken kullanılan ve ölçüt (kriter) puanlarını sağlayan “geçerliği önceden kanıtlanmış” ölçek de aynı özelliği ölçen bir sınıflama ya da teşhis testi ise, bu yolla hesaplanan geçerliğe testin yapı geçerliği (construct validity) denir. Ölçüt (kriter) puanlarının elde edilmesinde kullanılan ölçek, “ölçmek istediğimiz özellikle yüksek ilişki gösterdiği bilinen” bir ölçek ise, hesaplanan geçerliğe uyum geçerliği (concurrent validity) denir. Belli bir alandaki öğrenme gücünü ölçme amacını güden bir test için, öğrenme gücü işaretçilerinin ortaya çıkması beklenemez ve öğrenme gücü ile ilişkili olan “o andaki başarı” ölçüt (kriter) olarak kullanılırsa, yine uyum geçerliği saptanmış olur. Yok eğer, yukarıda önerildiği gibi, öğrenme gücü işaretçilerinin ortaya çıkması beklenir ve testten alınan puanlarla bu işaretçiler arasındaki ilişkiye bakılırsa testin yordama geçerliği (predictive validity) saptanmış olur.
Bir dersteki hedeflerle tutarlı öğrenme düzeyini ölçmek amacıyla hazırlanmış bir testin geçerliğini tahmin etmek için de yukarıdaki yollara başvurulabilir. Bu yollarla testin gerekirse yapı geçerliği, uyum geçerliği ve yordama geçerliği tahmin edilebilir. Ama bu son halde bu kadarı da yeterli değildir. Şöyle ki, eğer örneklemde bulunan (bu durumda dersi almakta olan) kişiler öğrenme düzeyleri dikkate alınarak başkaca bir yoldan gruplara ayrılırsa bu grupların testten sağladıkları puanlar analiz edilerek testin gerçekten de çok öğreneni az öğrenenden ayırıp ayırmadığı ve bu iki grubu birbirinden ayırma derecesi saptanabilir. Burada tahmin edilen bir çeşit yapı geçerliğidir. Testin kullanılmasındaki amaç bu dersin devamı olan başka derslerde kimin başarılı olup kimin başarılı olmayacağını belirlemekse, ilerdeki derslerde gerçekleşecek başarı ile ilişkili olduğu bilinen ve halihazırda elde olan başka ölçülerle (ölçüt) test puanları arasındaki korelasyona bakılabilir (uyum geçerliği). Ya da sırada daha sonra gelen dersin tamamlanması beklenerek o dersteki başarı düzeyi ile daha önce testten alınmış olan puanların korelasyonu hesaplanabilir (yordama geçerliği). Ama bütün bunlar bir soruya cevap vermez: Test, bu derste öğrenilenlerin tümünü etkili bir şekilde yoklamakta mıdır? Bu bir kapsam geçerliği (content validity) sorunudur. Bu tür geçerlik, özellikle eğitimde kullanılan ve öğrenme düzeyini belirleme amacını güden testler için çok önemlidir. Testin kapsam geçerliği, test uygulanmadan da tahmin edilebilir. Bunun için, testteki maddelerin (soruların) neyi yoklamakta olduğu, neyi ölçmeye çalıştığı tek tek belirlenir. Bu belirlemeden sonra testteki maddelerin (soruların), öğrenilmesi öngörülmüş bulunan tüm yeni davranışları etkili bir biçimde örnekleyip örneklemediğine bakılır. Tüm öğrenilenler, dersteki ağırlıklarına uygun olarak yoklanmakta ise, testin kapsam geçerliği yüksektir. Öğrenilenlerden bazıları örneklenmemiş veya öğrenilenlere, eğitimdeki ağırlıklarına uygun bir temsil olanağı verilmemişse, testin kapsam geçerliği bu aksaklıklar ölçüsünde düşmüş demektir. Bu son türden geçerlik bir “uygunluk derecesi” göstergesiyle belirlenir. Bu gösterge genellikle bir yüzde şeklinde ifade edilir, “Yüzde şu kadar uygunluk görülmüştür” gibi (Özçelik, Ölçme ve Değerlendirme, 2016, s. 51-54).