测验的构想效度是指测验能够测量到理论上的构想或特质的程度。构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察,但是每个构想都有其心理上的理论基础和客观现实性,都可以通过各种可观察的材料加以确定。例如,言语流畅性可以通过语速、语句间的逻辑性、口误的次数等可观察的指标进行确定。构想效度关注的问题:测验是否能正确反映理论构想的特性。例如,一项言语流畅性测验测量的是不是真正的言语流畅性,是否对言语流畅性的理论概念中包含的所有特点(如语速、语句间的逻辑性、口误的次数等)进行了测量。
1)确定构想效度的步骤
一般而言,确定一个测验的构想效度包括以下3个基本步骤。
(1)建立理论框架,以解释应试者在测验上的表现。
(2)依据理论框架,推演出各种与测验成绩有关的假设。
(3)以逻辑和实证的方法来验证假设,根据某些累积材料决定某种理论是否能恰当地解释现有材料。如果不能做出恰当的解释,则应该修正上述假设,直到能做出恰当的解释为止。
构想效度的确定过程可以用一个简单的例子来说明。例如,某人对创造力这个构想感兴趣,他假设那些具有创造力的个体与那些不具有创造力的个体有某些不同,因此可以建立一个理论(或理论体系)来说明那些有创造力的个体(或具有创造力构想的个体)的行为与其他人不同,从而使人们能够通过观察个体的行为和根据某种理论分类来辨别具有创造力的个体。如果希望编制一个测验来测量创造力,那么这个创造力测验必须具有构想效度,即测验分数与根据创造力的心理学理论观察应试者行为做出的判断相关。如果这种关系不成立,则该创造力测验缺乏构想效度的支持;如果关系不太大,可能有多种原因,如测验可能没有真正测量创造力,或者关于创造力的理论是错误的。如果测验分数与根据创造力的心理学理论观察应试者行为做出的判断相关很高,则表明测验具有构想效度。
由此可见,构想效度不是通过简单的逻辑分析或统计分析来确定的,而是通过从各种来源中逐渐累积资料来确定的。
2)常用的确定构想效度的指标
确定构想效度的一般方法可以分为以下几种。
(1)测验内部的方法,如采用测验内容效度、内部一致性等指标。
(2)测验间的方法,如采用相容效度、因素分析、会聚效度和区分效度等指标。
(3)效标效度的研究方法,如采用发展变化等指标。
(4)实验和观察方法,检验是否有构想效度。
常用的确定构想效度的指标如下。
(1)发展变化。
智力测验中最常用的标准是年龄差异,通常是通过考查实际年龄来观察测验分数是否逐年增加。在儿童期,一般认为人的能力是逐年增强的,因此如果测验有效,则测验分数应该反映这种变化。所以,在验证智力测验的构想效度时,可以检查不同发展水平的儿童的表现。在工作中,人们的经验会随时间的推移而积累,所以如果要考查某项技能的效标,可以假定该技能在一定时间范围内是随从事该项工作的年限的增加而增加的。工龄增加,经验更丰富,技能增加,对组织的贡献也就增大,报酬自然也应该多。这个假定实际上也是年资工薪的理论基础之一。当然,这个假定并不是对所有的人在所有的时间段内都成立的,需要加以考查验证。
(2)与其他测验的相关。
测量相同特质或构想的测验,彼此之间应该有高相关。因此,一个新测验与相似的旧测验之间的相关,可以作为衡量新测验测量相同行为的程度的标准。这种新旧测验的相关系数又称为相容效度。与效标效度不同,这类相关虽然较高,但不是特别高。如果一个新测验与现有的有效测验的相关很高,而且不是更简便或易于实施的,那么没有必要编制这个测验。与其他测验的相关还有另一种用途,就是表示新测验是否受到某些无关因素的影响。一般来说,测量不同特质或构想的测验之间的相关很低,因此一个能力倾向测验不应该和人格测验有高相关,学术能力测验不应该与管理技能测验有太高相关。
(3)因素分析。
因素分析是确定心理特征的一种统计方法,比较适合用于构想效度的研究。通过因素分析可以找出测验中包含的特质。卡特尔就是通过因素分析的方法从一系列特质中归纳出16种共同特质,最终按照这16种特质构造成16因素人格测验的。
采用因素分析的方法对材料的构想效度进行分析:首先对测验的所有项目进行因素分析统计,抽取出能够解释测验结果的大部分变异的共同因子,这些共同因子可以用来对测验的组成进行描述,然后比较由这些共同因子描述的测验组成是否与测量目标(某种特质或能力)的理论构想一致。
(4)内部一致性。
有些测验,尤其是人格测验,多以内部一致性作为构想效度的指标,这是因为如果测验的所有题目被验证为具有很高的内部一致性,则说明它们都是关于同一内容的,符合同一种构想。一般来说,这种方法常以测验的总分为标准,有时也用获得不同总分的应试者的差异为标准。用来考查内部一致性的方法主要有以下3种。
• 考查总分较高和较低的两类人在各题目上的通过率大小,比较每道题目上总分最高的27%的应试者与总分最低的27%的应试者,如果前者在该题上的通过率显著大于后者(一般要求在30%~40%),则认为题目是有效的,否则应淘汰或修改。
• 计算题目与总分的相关,如未达到显著水准,则应淘汰;采用以上两种方法选择题目,其结果的内部一致性必然较高。
• 求分测验与总分的相关。例如,许多智力测验大多包括多个分测验(如词汇、算术、推理等)。在编制这种测验时,常要求各分测验与总分有显著相关,如果这一相关未达到显著水平,则应删除。
(5)会聚效度和区分效度。
坎贝尔指出,要确定一个测验的构想效度,则该测验不仅应与测量相同特质或构想等理论上有关的变量有高相关,而且应与测量不同特质或构想等理论上无关的变量有低相关,前者称为会聚效度,后者称为区分效度。这就是坎贝尔和菲斯克(D.W. Fiske)在1959年提出的构想效度的一种考验方法。例如,一个数学推理能力测验与数学课成绩的相关就是会聚效度,而该测验与阅读理解能力测验的相关很低,则该相关就是区分效度。因为在测验设计时,已将阅读理解能力作为数学推理能力的无关因素来考虑了。区分效度特别适合人格测验,因为人格测验比较容易受到各种无关变量的影响。