İndir (Türkçe PDF)

Kuram ve Uygulamada Eğitim Bilimleri • Educational Sciences: Theory & Practice • 14(2) • 969-979
©
2014 Eğitim Danışmanlığı ve Araştırmaları İletişim Hizmetleri Tic. Ltd. Şti.
www.edam.com.tr/kuyeb
DOI: 10.12738/estp.2014.3.2107
Ölçek Geliştirmede Geçerlik Kanıtları: Çapraz Geçerlik,
Sınıflama ve Sıralama Geçerliği Uygulaması
a
Tülin ACAR
Öz
Literatürde geliştirilmiş pek çok ölçeğin faktör analizi teknikleri ile sınırlı kaldığı gözlenmiştir. Bu ölçeklerin
istatistiksel yapı ve/veya psikolojik yapı geçerliği incelemelerinin yanı sıra çapraz geçerlik, sınıflama-sıralama
geçerliği gibi geçerlik çalışmalarına da sıklıkla yer verilmesi gerekmektedir. Bu araştırmanın amacı ise geliştirilen paranormal inançlara ilişkin tutum ölçeğinin bölünmüş iki alt örnekleme göre çapraz geçerliğinin, aynı
zamanda sınıflama-sıralama geçerliğinin sınanması ve sonuçlarının yorumlanmasında araştırmacılara rehberlik sağlamaktır. Ölçek geliştirme ile ilgili alanyazın incelendiğinde ölçeklerin çoğunun açımlayıcı faktör analizi sonuçlarına göre geliştirildiği görülmektedir. Geliştirilen ölçme araçlarının faktör yükleri, model veri uyum
indeksleri, iç tutarlık güvenirlik katsayıları uygun olsa da farklı yöntemlerle geçerlik analizlerinin incelenmesi
gerekmektedir. İncelenen yöntemde uygun çıkan parametre değerleri, farklı bir yöntemde uygun çıkmayabilir
veya farklı ipuçları gösterebilmektedir. Dolayısıyla ölçek geliştiren araştırmacının, farklı yöntemlerle geçerlik
kanıtlarını sürdürmesi gerekmektedir.
Anahtar Kelimeler
Çapraz Geçerlik, Çift Tutarlık İndeksi, Geçerlik, Geçerlik Kanıtları, Sınıflama-Sıralama Geçerliği.
Eğitimde kullanılan ölçme araçlarının geçerliği,
ölçme aracı geliştirme sürecinin en önemli konularından birisidir. Yaygın olarak geçerlik kavramı;
ölçme aracının amacına hizmet ediyor olmasının
bir ölçütüdür (Croker ve Algina, 2008; Downing
ve Haladyna, 2006; Kane, 2006). Bir başka deyişle,
beklenen yapı ile gözlenen yapının özdeşlik derecesi testin yapısal geçerliğidir (Baykal, 1994). Dolayısıyla bir ölçümün geçerliliği ölçme aracı ile ölçülmek istenen amaçla doğru orantılı olmaktadır. Bu
nedenle geçerlilik, amaçtan bağımsız düşünülebilecek bir kavram değildir ve geçerlik için bir takım
deliller toplanmaktadır.
Ölçmenin amacına göre geçerlik yaklaşımı genel
olarak üç grupta ele alınmaktadır. Bunlar sırasıyla
kapsam, ölçüt ve yapı geçerliğidir (Brualdi, 1999;
Erkuş, 2003; Hopkins, 1998). Kapsam geçerliği, test
maddelerinin ölçülecek yapıyı temsil etmesiyle ilgilidir. Ölçüt dayanaklı geçerlikte test puanları ile
ölçüt alınan bir başka testin puanları arasındaki
ilişki incelenir. Yapı geçerliği ise test maddelerinin
ilgilenilen kuramsal veya psikolojik yapıyı temsil
etme derecesidir.
Eğitimde kullanılan ölçme araçlarının, test maddelerinin dolayısıyla ölçümlerin geçerliği, yansızlığı
ölçme alanının temel sorunlarından biridir. Bilindiği gibi, eğitimde ölçme uygulamalarının temel
amaçlarından biri de bireyler ya da test maddeleri
hakkında bilgi edinmektir. Bunun için hatalardan arınık ve geçerliği yüksek ölçme araçlarına/
sonuçlarına gereksinim duyulur. Ancak, geçerliği
olumsuz yönde etkileyen faktörlerden biri de “yan-
a Dr. Tülin ACAR Eğitimde Ölçme ve Değerlendirme alanında doktordur. Araştırma konuları arasında aşama­lı
doğrusal modelleme, maddenin farklı fonk­siyonlaşması, testlerin psikometrik özellikleri, eğitim istatistiği,
çok değişkenli istatistiksel analizler yer almaktadır. İletişim: Parantez Eğitim Araştırma Yayıncılık, Selanik
Cad. 46/4 Kızılay, Çankaya, Ankara. Elektronik posta: totbicer@gmail.com
KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ
lı” maddelerdir (biased items) ki bir testte yanlı
maddelerin yer alması, bu testin sonucuna göre
yapılacak olan değerlendirmelerin güvenirliğini
hiç şüphesiz düşürecektir. Maddelerin yansızlığı ise
test kuramına göre bir takım psikometrik işlemle
saptanmaktadır (Camilli ve Shepard, 1994; Holland
ve Wainer, 1993; Millsap ve Everson, 1993; Raju ve
Ellis, 2002; Zumbo, 1999).
Stuck (1995), çalışmasında özellikle ölçme hataları
ve madde yanlılığının yapı geçerliğini bozan faktörlerden olduğunu ve geçerlik sorununun bir yeterlik
derecesi olduğunu ifade etmiş ve dolayısıyla yapı
geçerliği kavramı yerine fizibilite geçerliği (construct feasibility) kavramını önermiştir.
Messick (1995) eğitimsel ve psikolojik ölçmelerde
geçerlik için altı tane ayırt edilebilir özellik vurgulamış ve bunları içerik (content), asli (substantive),
yapısal (structural), genellenebilirlik (genaralizability), dış (external) ve sonucu olan (consequential)
geçerlik olarak ifade etmiştir. Bu özelliklerin tamamı bir geçerlik çalışması için delil toplama verileri
olarak değerlendirilmiştir.
Ölçme aracının “yapı” geçerliğini belirlemek için
Guilford’un da belirttiği gibi sıkça faktör analizine
başvurulmaktadır (Croncbach ve Meehl, 1955). Bilindiği gibi faktör analizi ölçme aracında yer alan
maddelere ilişkin gözlenen puanların korelasyonuna dayalı olarak bir gruplama yapmaktadır. Böylece
ilişkili maddelerin ölçmeye yöneldiği yapı(lar) ortaya çıkarılabilmektedir. Ancak faktör analizi kendi
içerisinde “açımlayıcı faktör analizi” ve “doğrulayıcı
faktör analizi” olarak iki şekilde ele alınmaktadır
(Pohlmann, 2004; Stapleton, 1997). Madde puanlarına ilişkin korelasyona dayalı gruplamalar “açımlayıcı faktör analizi” olarak sınıflandırılmaktadır. Bu
nedenle “açımlayıcı faktör analizi” ile ortaya konmaya çalışılan “yapı”, bazı kaynaklarda “istatistiksel
yapı (statistical constructs)” olarak da adlandırılmaktadır (Knight, 2000; Pohlmann, 2004; Stapleton,
1997). Doğrulayıcı faktör analizinde ise maddelerin
puanlarından daha çok kurama dayalı madde-yapı
ilişkileri test edilmektedir. Bu nedenle doğrulayıcı
faktör analizinde ele alınan yapı, “psikolojik yapı
(psychological construct)” olarak da adlandırılmaktadır (Knight, 2000; Pohlmann, 2004).
Yapı geçerliliği, faktoriyel geçerlik ya da sadece geçerlik kavramlarını 60 yıl önce ilk kez ifade eden
Guilford, “Bir test istenen, beklenen yapıyı ölçüyor
mu?” sorusuna verilen cevabın bir tür geçerlik sorunu olduğunu ve bu geçerlik sorununun da faktör
analizi yöntemi ile çözülebileceğini ifade etmiştir
(Stapleton, 1997). Ancak, günümüzde geçerlik
kanıtları, ölçütler arası korelasyon analizleri, iç
970
tutarlık, güvenirlik katsayıları, ayırt edici geçerlik
(distinguish validity), çapraz geçerlik, sınıflama
geçerliği, sıralama geçerliği gibi kavramlarla da incelenmektedir.
Araştırmanın Amacı ve Önemi
Literatürde geliştirilmiş pek çok ölçeğin faktör
analizi teknikleri ile sınırlı kaldığı gözlenmiştir. Bu
ölçeklerin istatistiksel yapı ve/veya psikolojik yapı
geçerliği incelemelerinin yanı sıra çapraz geçerlik,
sınıflama-sıralama geçerliği gibi geçerlik çalışmalarına da sıklıkla yer verilmesi gerekmektedir.
Bu araştırmanın amacı ise geliştirilen paranormal
inançlara ilişkin tutum ölçeğinin bölünmüş iki
alt örnekleme göre çapraz geçerliğinin ve aynı zamanda sınıflama-sıralama geçerliğinin sınanması
ve sonuçlarının yorumlanmasında araştırmacılara
rehberlik sağlamaktır.
Yöntem
Çalışma Grubu
Tutumların ve inançların netleşmesi 18-21 yaşları
arasındadır (Hökelekli, 1998, s. 280). Bu nedenle
araştırmanın çalışma grubunu 18 yaş üzerinde bulunan toplam 947 kişi oluşturmaktadır.
Veri Toplama Aracı
Veri toplama aracı olarak beşli Likert tipi ölçeklenen
toplam 23 maddelik paranormal inançlara ilişkin
tutumları ölçmek amacıyla geliştirilen nihai form
kullanılmıştır. Ölçeğin geliştirilme sürecinde 70
maddelik madde havuzu, tutum ölçeği geliştirme
ilkelerine (bkz. Tezbaşaran, 1997) göre hazırlanmış
ve 100 kişilik bir gruba uygulanmıştır. Bu uygulama sonucunda alt-üst grup ortalamaları arasındaki
farka bakılmış ve farkın manidarlığı t-testi ile sınanmıştır. Yapı geçerliği için açımlayıcı faktör analizi;
maddelerin iç tutarlılığı için Cronbach Alfa katsayısı ve madde-toplam korelasyonları değerlendirilmiş
ve nihai form oluşturulmuştur. İkinci aşamada nihai
form 947 kişiye uygulanmış ve paranormal inanca
ilişkin tutum özelliği örtük değişken; ölçek maddeleri gözlenen değişken olmak üzere doğrulayıcı faktör analizi işlemine tabi tutularak maddelerin yapıyı
temsil etme düzeyine bakılmıştır. Maddelerin psikometrik özellikleri ve yapıya ilişkin sonuçlar, araştırmacının “Paranormal İnançlara İlişkin Tutumları
Ölçebilme Çabası” isimli çalışmasında ayrıntılı olarak yer verilmiş olup bu araştırmanın amacı gereği
ayrıntılar tekrarlanmamıştır.
ACAR / Ölçek Geliştirmede Geçerlik Kanıtları: Çapraz Geçerlik, Sınıflama ve Sıralama Geçerliği Uygulaması
Veri Çözümleme Teknikleri
Set the Covariances Free
Çapraz geçerlik; aynı popülasyondan çekilen iki ya
da daha fazla random örneklemde modelin yeterliğinin değişmez olduğunun araştırılmasıdır. Dolayısıyla bu çalışmada, LISREL paket programının
çoklu grup (multiple group) özelliği, ölçülen psikolojik yapının çapraz geçerliğinin olup olmadığını
değerlendirmek için kullanılmıştır.
Set the Error Variances Free
Çapraz geçerlik için yokluk hipotezi iki örneklem
arasında ölçme modeli parametrelerinin (faktör
yükleri, faktör varyansları, faktör kovaryansları ve
ölçme hatası varyansları) özdeş (değişmez) olduğunu ifade etmektedir. Bu hipotezin testine ilişkin
SIMPLIS betik aşağıda gösterilmiştir.
Group 1: Original Sample
Raw Data from File sample1.PSF
Covariance Matrix from File sample1.COV
Latent Variables: Paranormal
Relationships:
M1 - M23 = Paranormal
Group 2: Cross Validation Sample
Raw Data from File sample2.PSF
Covariance Matrix from File sample2.COV
Path Diagram
End of Problem
Alternatif hipotez ölçme modelinin ise en azından
iki parametresinin iki örneklem arasında aynı olmadığını ifade etmektedir. Bu hipotezin testine ilişkin SIMPLIS betik:
Group 1: Original Sample
Raw Data from File sample1.PSF
Covariance Matrix from File sample1.COV
Latent Variables: Paranormal
Relationships:
M1 - M23 = Paranormal
Group 2: Cross Validation Sample
Raw Data from File sample2.PSF
Covariance Matrix from File sample2.COV
Relationships:
M1 - M23 = Paranormal
Set the Variances Free
Path Diagram
End of Problem
İkinci örneklem için Set komutları, faktör varyans,
covaryans ve ölçme hatası varyanslarının iki örneklem arasında farklı olduğunu belirtmektedir.
Sınıflama ve sıralama geçerliği için Erkuş’un (2003),
Çift-Tutarlılık İndeksi olarak adlandırılan indeksi
hesaplanmıştır. İndeksin geliştirilme yöntemi; test
maddelerinin tekler-çiftler şeklinde iki yarıya ayrılıp iki yarıda her bireyin toplam puanlarının bulunmasına, bu toplam puanların büyükten küçüğe
doğru sıralanmasından sonra her iki yarıda alt ve
üst %27’lik grupların arasındaki uyuma bakılmasına
dayanmaktadır. Çift-tutarlılık indeksi; eğer test tutarlı bir sınıflama yapıyorsa (bir anlamda tutarlı ayırt
ediyorsa), testin ilk yarısında üst grupta sınıflanan
bireylerin ikinci yarıda da üst grupta; ilk yarıda alt
grupta sınıflanan bireylerin ikinci yarıda da alt grupta sınıflanmasının beklenmesi mantığına dayanmaktadır. Testin her iki yarısındaki alt ve üst %27’lik
gruplardaki frekans farklarıyla, 0.00 ile 1.00 arasında
değerler alan indekse ulaşılmaktadır. İndeks değeri
0.00’a yaklaştığında tutarsız sınıflamayı, 1.00’e yaklaştığında da tutarlı sınıflamayı ifade etmektedir.
Bulgular
Çapraz Geçerliğe İlişkin Bulgular
947 kişilik örneklemden 23 maddelik ölçeğin Alfa
iç tutarlılık katsayısı 0.824 olarak bulunmuştur. İki
yarı tutarlılığı (ilk on iki madde ve son on bir maddeden oluşan formlar arasındaki tutarlık) 0.803 ve
Gutman iki yarı tutarlık katsayısı 0.794 ve tek ve çift
numaralı maddelerden oluşan formlar arasındaki
korelasyon 0.656 olarak hesaplanmıştır. Cevaplayıcıların ölçek maddelerine verdiği tepkilerin kararlılık ve tutarlılık gösterdiği söylenebilir.
Random olarak ikiye bölünen verilerden birinci örneklemin Cronbach Alfa iç tutarlık katsayısı 0,817;
ikinci örneklemin 0,830 olarak hesaplanmıştır. Dolayısıyla, her iki alt örneklem verisi için Alfa iç tutarlık katsayıları birbirine çok yakın bulunmuştur.
İki ayrı alt örneklemin ölçme modelinin çapraz geçerliğini değerlendirmek (yokluk ve alternatif hipotezlerini test etmek) için ki-kare fark testi kullanılmıştır. Ki-kare fark testi sadece yokluk ve alternatif
hipotezleri altında ölçme modellerinin uyum iyiliği
971
KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ
ki-kare testleri arasındaki farktır. Serbestlik derecesi sadece yokluk ve alternatif hipotezler altındaki
ölçme modelleri serbestlik dereceleri arasındaki
farktır. Örneklemlerden elde edilen ki-kare fark
testi sonuçları Tablo 1’de gösterilmiştir.
Ki-kare fark testine ilişkin hesaplanan 0.299 ve 0.499
anlamlılık düzeylerinin iki örneklem arasında ölçme
modeli parametrelerinin (faktör yükleri, faktör varyansları, faktör kovaryansları ve ölçme hatası varyansları) değişmez olduğunu göstermektedir. Diğer
bir deyişle, ölçek maddeleri için ölçme modelinin
çapraz geçerliği, iki örneklemde de desteklenmektedir. Yokluk hipotezine ilişkin ölçek maddelerinin
standartlaştırılmış faktör yüklerine ilişkin yol (path)
grafiği Ek 1’de ve alternatif hipoteze ilişkin birinci
örneklemin ölçek maddelerinin standartlaştırılmış
faktör yüklerine ilişkin yol grafiği Ek 2’de; ikinci örnekleme ilişkin yol grafiği ise Ek 3’te gösterilmiştir.
Birinci örneklemin benzerlik oranı ki-kare istatistiği X2(506)=1807.26, p<0.01, kök ortalama kare yaklaşım hatası (RMSEA)= 0.091 ve ikinci örneklemin
benzerlik oranı ki-kare istatistiği X2(483)=1781.21,
p<0.01, kök ortalama kare yaklaşım hatası
(RMSEA)= 0.093 olarak hesaplanmıştır. Her iki
örneklemin standartlaştı­rılmış ortalama hataların
karekökü (S-RMR)=0.07; karşılaştırmalı uyum
indeksi(CFI)= 0.88; uyum iyiliği indeksi (GFI)=
0.82; normlanmış uyum indeksi (NFI)= 0.84; göreli
uyum indeksi(RFI)= 0.84 olarak belirlenmiştir.
Doğrulayıcı faktör analizi sonucunda ölçeğin tek
faktörlü yapısının kabul edilebilir ve geçerli sonuçlar verdiği söylenebilir.
Sınıflama ve Sıralama Geçerliğine İlişkin Bulgular
23 maddelik ölçek tek ve çift maddeler olmak üzere
iki yarıya bölündükten sonra bu yarılardan bireylerin ölçek maddelerine ilişkin toplam puanları elde
edilmiştir. Her iki yarı için bireyler toplam puana
göre sıralatılmıştır. Sıralanmış verilerin en yüksek
puanından başlayarak %27 oranında bir grup seçilmiş ve bu grup üst grup olarak adlandırılmıştır.
Yine sıralanmış verinin en düşük puanından başlayarak %27 oranında grup seçilmiş ve bu grup alt
grup olarak adlandırılmıştır. Dolayısıyla tek numaralı maddelerden oluşan formdan alt-üst gruplarındaki bireylerle ve çift numaralı maddelerden oluşan
formdan alt-üst gruplarındaki bireylerle işlemlere
devam edilmiştir. Bundan sonraki işlemlerde bireylerin puanlarıyla ise ilgilenilmemiştir. Çift tutarlık
hesaplama formülüne göre %27’lik orana göre hem
alt hem de üst gruplardaki birey sayısı 256’dır. Alt
gruptaki bireylerin hem tek hem de çift numaralı
formlarında ortak yer alan kişi sayısı 72; üst gruptaki bireylerin hem tek hem de çift numaralı formlarında ortak yer alan kişi sayısı 160’dır. Hesaplama
formülüne göre elde edilen frekanslar yerlerine
konduğunda ÇT= 1- [((256-160)+(256-72))/512]
= 0.45 olarak hesaplamıştır. 0.00 ile 1.00 arasında
değişen indekse göre bu çalışmada 0.45 olarak bulunan sınıflama ve sıralama geçerliği için orta düzeyde olduğu söylenebilir.
Tartışma
Ölçek geliştirme ile ilgili alanyazın incelendiğinde
ölçeklerin çoğunun açımlayıcı faktör analizi sonuçlarına göre geliştirildiği görülmektedir. Dahası,
birçok ölçek yalnızca bir kez kullanılmış ve geliştirilme amacına hizmet etmediği görülmüştür. Adeta
bir ölçek çöplüğünden bahsedilebilir.
Ölçek geliştirmenin bir süreç olduğu ve bu süreç içerisinde maddelerin yeniden düzenlenmesi,
hesaplanan faktöriyel istatistiklerin yenilenmesi,
farklı örneklemlerde test edilmesi gereklidir. Ölçek
geliştirme sürecinde incelenen yapı (örtük özellik)
çoğu kez bir makale çalışmasında nihayetlenmektedir. Değişen ve gelişen çağımızda artık bu tür
çalışmalar, kuşkusuz bir makalede değil birkaç makalede ele alınmalıdır.
Geliştirilen ölçme araçlarının faktör yükleri, model
veri uyum indeksleri, iç tutarlık güvenirlik katsayıları uygun olsa da farklı yöntemlerle geçerlik analizlerinin incelenmesi gerekmektedir. İncelenen
yöntemde uygun çıkan parametre değerleri, farklı
bir yöntemde uygun çıkmayabilmekte veya farklı
ipuçları gösterebilmektedir. Dolayısıyla ölçek geliştiren araştırmacının farklı yöntemlerle geçerlik
kanıtlarını sürdürmesi gerekmektedir.
Tablo 1.
Ki-kare Farkı Testi Sonuçları
Hipotez
En küçük uyum fonksiyonu ki-kare (Minimum Fit Normal Teori ağırlıklı en küçük kareler ki-kare (Normal
Function Chi-Square)
Theory Weighted Least Squares Chi-Square)
Değeri
Serbestlik derecesi
Değeri
Serbestlik derecesi
Eşit
1807,26
506
2486,96
506
Eşit değil
1781,21
483
2464,47
483
26,05
23
22,49
23
0,490
Fark
972
Anlamlılık düzeyi
0,299
Anlamlılık düzeyi
Educational Sciences: Theory & Practice • 14(2) • 973-976
©
2014 Educational Consultancy and Research Center
www.edam.com.tr/estp
DOI: 10.12738/estp.2014.3.2107
Validity Evidence in Scale Development: The Application
of Cross Validation and Classification-Sequencing
Validation
a
Tülin ACAR
Abstract
In literature, it has been observed that many enhanced criteria are limited by factor analysis techniques. Besides
examinations of statistical structure and/or psychological structure, such validity studies as cross validation
and classification-sequencing studies should be performed frequently. The purpose of this study is to examine
cross validation and sequencing-classification validation at the same time with regard to two sub-samplings
from an attitude scale concerning paranormal belief developed to guide researchers in interpreting its results.
When the literature regarding scale development is taken into account, most of the scales have been developed
in accordance with exploratory factor analysis. Even if the factor loads, model data conformity index, and the internal consistency reliability coefficients of the measuring devices are proper, the validity of the analysis should
be examined through different methods. Parameter values which test as appropriate in the examined method
may be found to be inappropriate or have different clues from other analyses. Therefore, the researcher’s scale
development should follow validity evidences through different methods.
Key Words
Classification and Sequencing Validation, Cross Validation, Double Consistency Index.
The validity of measuring devices used in
education is one of the most important topics
of the measuring device development process.
Validity concept is a criterion for the fact that it
serves as a measuring device (Croker & Algina,
2008; Downing & Haladyna, 2006; Kane, 2006). In
other words, identifying the degree of an expected
structure and of an observed structure is the
structural validity of a test (Baykal, 1994). Thus, the
validity of a measurement is directly proportionate
to the purpose being measured by the device.
Therefore, validity is not a concept to be considered
independent of purpose and therefore a set of
evidences should be collected.
Validity approach according to the purpose of
measurement is generally discussed in 3 groups:
content, criteria and structural validity (Brualdi,
1999; Erkuş, 2003; Hopkins, 1998). Content validity
is related to the fact that the items to be tested
represent the structure to be measured. In criterion
supported validity, the relationship between points
from one test and points from another test are
taken as criteria to be examined. Structural validity
is the degree to which significant organizational or
psychological structures are represented.
The validity of measuring devices, test items, and
accordingly the measurements used in education is
one of the basic problems with the impartiality of
a Tülin ACAR, Ph.D., is an Educational Measurement and Evaluation specialist. Research interests include
hierarchical linear models, differential item functioning, psychometric properties of tests, educational
statistics, and multivariate statistical analysis. Correspondence: Parantez Education, Research Publisher,
Selanik Street No: 46/4 Kızılay-Çankaya, Ankara, Turkey. Email: totbicer@gmail.com
EDUCATIONAL SCIENCES: THEORY & PRACTICE
measurement areas. As is known, one of the primary
purposes of measurement applications in education
is to obtain information about individuals or test
items. Therefore, flawless measurement devices/
results are required. The validity of a measurement
devices’ results should be high. However, one of the
factors which affect validity negatively is a “biased”
item. The fact that a test includes biased items will
undoubtedly destroy an evaluations’ credibility and
limit its ability to be carried out in accordance with
the results of the test. The impartiality of items is
detected through a set of psychometric procedures
in accordance with the test theory (Camilli &
Shepard, 1994; Holland & Wainer, 1993; Millsap &
Everson, 1993; Raju & Ellis, 2002; Zumbo, 1999).
Stuck (1995), in his study, proposed that especially
both measurement mistakes and biased items
are among the factors which destroy a structure’s
validity. Validity problem is a degree of sufficiency,
therefore he proposed feasibility validity instead of
construct feasibility.
According to Messick (1995), in educational and
psychological measurements, six distinguishable
features were emphasized for validity: content,
substance, structure, ability to generalize,
externalization and consequence validity. All
these features have been evaluated as evidence for
collecting information to validate a study.
In order to identify the “construct” validity of a
measurement device, factor analysis is applied for
a validity study (Croncbach & Meehl, 1955). As is
known, grouping dependent on the correlation of
the points observed is carried out. This grouping
is related to the items within the factor analysis
measuring device. Thus, structure(s) in which
related items gravitate to measuring may come
into being. However, factor analysis is discussed
as “exploratory factor analysis” and “confirmatory
factor analysis” in itself (Pohlmann, 2004; Stapleton,
1997)
Groupings dependent on the correlation concerning
the scoring of items are classified as “exploratory
factor analysis.” Therefore, the constructs to be put
forth together with “exploratory factor analysis” is
also called “statistical constructs” in some sources
(Knight, 2000; Pohlmann, 2004; Stapleton, 1997).
In confirmatory factor analysis, item-construct
relations based on theory are tested instead of the
scores of the items. Thus, in confirmatory factor
analysis, the construct to be approached is also
called a “psychological construct” (Knight, 2000;
Pohlmann, 2004).
974
Guilford, who termed construct validity, factorial
validity or validity concepts for the first time 60 years
ago stated that the answer to the question: “Does
a test measure a desired expected construct?” is a
type of validity problem and this validity problem
can be solved through the factor analysis method
(Stapleton, 1997). Today, however, concepts such as
validity proofs, correlation between measurements,
internal consistency, reliability coefficient, validity
distinction, cross validation, classification validity,
and sequencing validity are examined.
Purpose and Importance of Research
In literature, it has been observed that many
enhanced criteria are limited to factor analysis
techniques. Besides the examination of statistical
and/or psychological structures, validity studies
such as cross validation and classificationsequencing studies should be frequently included.
The purpose of this study is to examine cross
validation and sequencing-classification validity
at the same time with regard to two sub-samplings
from an attitude scale concerning paranormal belief
which was developed in order to guide researchers
in interpreting the results.
Method
Study Group
The revelation of attitudes and beliefs occurs
between the ages of 18-21 (Hökelekli, 1998, p. 280).
The study group of this research consists of 947
people above the age of 18.
Data Collection Tool
For a data collection tool, the final norm tool
which was developed in order to measure attitudes
concerning paranormal beliefs has been used. This
tool consists of 23 items. The final form has been
scaled according to the quinary Likert type. In the
development process of the scale, a pool attitude
scale consisting of 70 items was prepared according
to the development principles (see Tezbaşaran,
1997) and this was then applied to a group of 100
people. As a result of this application the difference
between the sub-group and superior group
averages and the significance of these differences
was determined by the t test. For construct validity,
exploratory factor analysis used the Cronbach
alpha coefficient, and the total material correlations
for the internal consistency of materials were
ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation
evaluated. The final form has been constructed.
In the second phase, the final form was applied
to 947 people and the attitude features of people’s
paranormal beliefs were subjected to exploratory
factor analysis. The representation levels of latent
variable were also evaluated. The psychometric
features and results concerning structure have
been included in the researcher’s study which is
called “Efforts on Measuring Attitudes Regarding
Paranormal Beliefs.”
Data Analysis Techniques
Cross validation is the investigation of the fact
that the competency of a model in two or more
random samples taken from the same population
is invariable. Thus, in this study, multiple group
features of the LISREL package program have been
used to evaluate whether a measured psychological
structure has cross validation.
The non-existence hypothesis for cross validation
states that the measurement model parameters
(factor loads, factor variances, factor covariances
and measuring error variances) between two
samples need to be identical ( invariable).
Set instructions for the second sample indicates
that factor variance, co-variance and measuring
error variances are different between two samples.
For classification and sequencing validity, the
Double Consistency Index from Erkuş (2003) was
used for calculations. Development of validity using
this method is as follows: the test materials are
separated into two sides as single and double. In the
two sides, the total points for each individual sample
are contained. These score totals are arranged in
order from highest to lowest value. After that, the
match between sub-groups and superior groups
in both sides is evaluated to be 27%. In the event
that the test carries out a consistent classification
(in other words, it distinguishes consistently), use
of the double consistency index depends on the
fact that individuals classified in the superior group
from the first half of the test stay in that group for
the second half; and that individuals classified in the
sub-group from the first half of the test stay in the
sub-group for the second half. In both halves of the
test, through frequency differences in superior and
sub groups (27%), an index increase in value of 0.00
and 1.00 was achieved. When an index value draws
close to 0.00, it states inconsistent classification
and when it draws close to 1.00 it states consistent
classification.
Results
Findings Concerning Cross Validation
The Alpha internal consistency coefficient for the 23item scale sampled from 947 people was calculated
at 0.824. Split-half consistency (consistency
between the forms consisting of the first twelve and
the last eleven items) has been calculated at 0.803
and the Gutlam split-half consistency coefficient
has been calculated at 0.656 and the correlation
between the forms consisting of single and even
numbered items has been calculated at 0.656. It
may be said that the responses to the scale item
show consistency and determination.
The Cronbach Alpha internal consistency coefficient
of the first sample separated at random was calculated
at .817. The Cronbach Alpha consistency coefficient
of the second sample was calculated at .830. Thus, the
data from both samples were found to have similar
internal consistency coefficients.
In order to evaluate the cross validity of two
separate samples’ measuring model, the chi-square
difference test was used.
The Chi square difference test measures the
difference between conformity of the chi square
tests for the measuring models only under the
non-existence and alternative hypotheses. The
degree of freedom is the difference between the
measuring model’s degree of freedom only under
the nonexistence and alternative hypotheses.
Significance levels of 0.299 and 0.499 were
calculated respectively for the chi square difference
test and the measuring model parameters (factor
loads, factor variances, factor co-variance and
measuring error variances). This shows that the
levels are invariable. In other words, cross validity
of the measuring model for scale item is supported
in both samples.
The resemblance rate and chi square statistical equation
for the first sample is X2(506)=1807.26, p<0.01, where
the root mean square error approach(RMSEA) =
0.091. The resemblance rate and chi square statistical
equation for the second sample is X2(483)=1781.21,
p<0.01, where the root mean square error approach
(RMSEA) = 0.093. In both samples, the standardized
root mean square residual(S-RMR) = 0.07; the
comparative fit index (CFI)= 0.88, the goodness of fit
index ( GFI)= 0.82, the normed fit index (NFI)= 0.84,
and the relative fit index (RFI)= 0.84.
It can be stated that, as a result of confirmatory
factor analysis, the single-factor structure of the
scale provides acceptable and valid results.
975
EDUCATIONAL SCIENCES: THEORY & PRACTICE
Findings regarding Classification and Sequencing
Validity
After the scale with 23 items is divided into two
halves, the total score for individuals concerning
the scale items is obtained. Individuals are listed
according to their score totals for both halves. A
group rate of 27% was chosen by beginning from the
highest point listed in descending order. This first
group is called the superior group. Then, proceeding
down the list, individuals are formed into subgroups consisting of odd numbers. Superior groups
are formed consisting of even numbers and the
individuals are placed into sub-groups and superior
groups. In subsequent proceedings, the points
of individuals are no longer taken into account.
According to the double consistency calculation
formula with regard to the rate of 27% the number of
individuals in the sub-groups and superior groups is
256. The number of people taking place in both odd
and even numbered forms in the sub-groups is 72.
The number of people taking place in both odd and
even numbered forms in the superior group is 160.
According to the calculation formula, the obtained
frequencies are calculated at 0.45. It can be stated
that according to the index varying between 0.00
and 1.00, the sequencing-classification validity of
0.45 can be considered middle level.
Discussion
When the literature regarding scale development
is taken into account, most of the scales have been
developed in accordance with exploratory factor
analysis. Moreover, many scales have been used
only once, for the development of purpose. To
summarize, what is left turns to scale rubbish.
Scale developing is a process, and in this process
it is required that items are regulated again, that
calculated factorial statistics are renewed, and
that different samples are tested. In the scale
development process, the generally examined
structure (an implicit feature) is finalized in the
article study. Undoubtedly, these kinds of studies
should be discussed in more than one article.
Even if the factor loads, the model data conformity
index, and the internal consistency reliability
coefficients of measuring devices are proper, validity
analysis should be examined through different
methods. Parameter values detected appropriate
via the examined method may be found to be
inappropriate or to have different clues. Therefore,
a researcher who is developing a scale should follow
validity evidences through many different methods.
976
References/Kaynakça
Baykal, A. (1994). Davranışların ölçülmesinde yapısal
geçerlilik göstergesi. Türk Psikoloji Dergisi, 33, 45-50.
Brualdi, A. (1999). Traditional and modern concepts
of validity. Retrieved from http://eric.ed.gov/PDFS/
ED435714.pdf
Camilli, G., & Shepard, L. A. (1994). Methods for identifying
biased test items. Newbury Park, CA: Sage.
Crocker, L., & Algina, J. (2008). Introduction to classical
and modern test theory. Mason, OH: Cengage Learning.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity
in psychological tests. Psychological Bulletin, 52, 281-302.
Downing, S. M., & Haladyna, T. M. (2006). Handbook of
test development. Mahwah, NJ: Lawrence Erlbaum.
Erkuş, A. (2003). Psikometri üzerine yazılar. Ankara: Türk
Psikologlar Derneği Yayınları.
Holland, P. W., & Wainer, H. (1993). Differential item
functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.
Hopkins, K. D. (1998). Educational and psychological
measurement and evaluation (8th ed.). Boston: Allyn and
Bacon.
Hökelekli, H. (1998). Din psikolojisi. Ankara: Türkiye
Diyanet Vakfı Yayınları.
Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.),
Educational measurement (4th ed., pp. 17-64). Westport,
CT: Praeger.
Knight, J. L. (2000, November). Toward reflective judgment
in exploratory factor analysis decisions: Determining the
extraction method and number of factors to retain. Paper
presented at the Annual Meeting of the Mid-South
Educational research Associations, Bowling Green, KY.
(ERIC Document No. ED 449224)
Messick, S. (1995). Validity of psychological assessment:
validation of inferences from persons’ responses and
performances as scientific inquiry into score meaning.
American Psychologist, 50(9), 741-749.
Millsap, R. E., & Everson, H. T. (1993). Statistical
approaches for assessing measurement bias. Applied
Psychological Measurement, 17, 297-334.
Pohlmann, J. T. (2004). Use and interpretation of faktor
analysis in the journal of educational research: 1992-2002.
ProQuest Psychology Journals, 98(1), 14-22.
Raju, N. S., & Ellis, B. B. (2002). Differential item and test
functioning. In F. Drasgow & N. Schmitt (Eds.), Measuring
and analyzing behavior in organizations (pp. 156-188). San
Francisco, CA: Jossey-Bass.
Stapleton, C. D. (1997). Basic concepts and procedures
of confirmatory factor analysis. Educational Research
Association, Reports-Evaluative (142), Speeches / Meeting
Papers (150).
Stuck, I. (1995, April). Heresies of the new unified notion of
test validity. Paper presented at the Meeting of the National
Council on Measurement in Education, San Francisco, CA.
Tezbaşaran, A. A. (1997). Likert tipi ölçek geliştirme
kılavuzu. Ankara: Türk Psikologlar Derneği.
Zumbo, B. D. (1999). A handbook on the theory and
methods of Differential Item Functioning (DIF): Logistic
regression modeling as a unitary framework for Binary and
Likert-Type (Ordinal) item scores. Retrieved from http://
educ.ubc.ca/faculty/zumbo/DIF/handbook.pdf
ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation
Ek 1.
Yokluk Hipotezine İlişkin Modelin Yol Grafiği
977
EDUCATIONAL SCIENCES: THEORY & PRACTICE
Ek 2.
Birinci Örneklem için Alternatif Hipoteze İlişkin Modelin Yol Grafiği
978
ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation
Ek 3.
İkinci Örneklem için Alternatif Hipoteze İlişkin Modelin Yol Grafiği
979