在教育研究中,研究方法非常重要,研究方法中常存在以下几个误区。
一、叙事研究就是讲故事吗?
近年,叙事研究或叙述性研究(narrative study)开始在质化研究(或称为质性研究)中流行起来,它也给人一种错觉,诸如叙述性质化研究就是说故事或写日记。而且,无论讲故事和学术研究之间是何种关系(我们不是要低贬讲故事,不少故事均有很重要的学术意味),我们总要回答这种研究方法的所谓信度的问题。当然,没有人无知到把量化研究中的效度与质化研究中的效度等同,但质化研究所得出的结果是否是碎片信息,是否会受主观角度(无论研究者或受访者(informant))的影响还是值得我们注意的。
叙事的质化研究与历史探索(重现)其实有类似的地方。例如,在探讨香港小学数学近半世纪的历史发展研究中就遇到的情况。该研究利用叙事研究的方法,采访了大量参与早期香港小学数学课程改革的相关人士。其中,有一位受访者(冯源先生)提供了颇为完整(且有文档支持)的“故事”。他在故事中提到何兆伦先生在其中(课改)的参与,于是我们再找何先生进行访谈。何先生又说出了另一个与冯先生略有不同的版本。我们总不能老是用“罗生门”来解释问题。后来,经过反复的访谈引证,不同的访谈实际上组成一幅颇为完整的图画。例如,其中一个关键是冯先生当时主导小学课程改革,他说基本上把英国的Nuffield(纳菲尔德)数学计划作为香港课改的主要参考,但何先生却说在集体会议当中并无人提过Nuffield数学,而且课改也不只参考英国的教育,还包括美国等国的教育。表面上看,两个受访者的故事相悖,其实这两个观点不难组成另一个完整的“故事”。首先,冯先生借鉴了Nuffield数学却不一定需要在会上提到Nuffield这个词,而当时整个西方(英美)都受到“动手数学”(hands-on mathematics)的影响,Nuffield是其中一个代表者,故此参考英国也好,美国也好,都会大同小异。在勾勒整个历史发展过程中,出现的表面矛盾点仍会很多,但透过研究者进一步反复追问和印证,收集到的佐证(evidence)愈是丰富,就愈有可能得出一个大家都没甚异议(所谓“公认”或客观)的图画,亦即获得质化研究的效度。
对质化研究来说,无论研究者使用访谈或现时很流行的教师反思日志,甚或隐喻(metaphor),我们期望研究者应接触和追查所有合理的、进一步的数据源(尤其当涉及表面的矛盾点时),否则所谓的分析便会流于表面,当成写小品文一样。不然,我们就要问:为何应该要访问的人你不访问?应该去调查的数据你不去调查?例如,当访问教师时,他提到校政的影响,我们就有理由期望研究者进一步访问校长、主任,甚至反复引证。否则,若研究停在这里,就有听取一面之词之嫌。当然,一个单一研究能否做这么多东西是另一回事,不过这还只是技术性的问题。
二、三角验证是在寻找一致性吗?
以往的社会学科研究,往往太侧重量化方法,以为大样本、多数据就能说明问题。特别是,一些批评量化方法的人停留在“量化=发问卷”,用SPSS或其他工具随便左试右试。其实,好的量化方法在厘定不同假设性(hypothesis)和因子(factor),以至一层层用不同的统计方法逐个看变量的比重和解释度,逐层作出推断等方面,都有其严谨性。而有一些批评质化的人以为“质化研究=找一两个受访者进行访谈”而已,又以为质化研究不用什么立论(无论你把它叫作框架也好,概念化(conceptualization)也好),只要进田野收集了“厚数据”(thick data)就一定能找到研究问题的答案。不少人对于两种研究传统不了解是基于对它们的不认识,因而变成了一种二分法和互相批评。现时又常遇到有一些研究使用量化加质化的研究方法(甚或声称混合研究方法(mixed method)),本意是不错的,试图透过多角度来分析数据,以了解真相(其实是否真的存在真相呢?或者说勾画出研究对象的一幅完整图画更贴切)。但我们要问,如果可以用量化方法解释的,为何还要使用质化方法?其实,不少人放弃量化方法,未尝不是因为惧怕统计造成,当然也有一些人滥用量化方法(下文会再谈)。研究方法的选取应出于对哪种方式能回答某项研究问题的考虑,而不是技术性的考虑。例如,如果你因不善交际,研究的某个环节明明是用访谈有效些,反而改为问卷就不恰当,除非你真的有“社交障碍”,若真是这种情况应去学会访谈技巧!于是乎,按照不同环节的需要选取研究方法,这才是真正的混合方法(mixed method)!质化研究强调深入解读、分析数据,也包括调查多种数据。其中,三角验证(triangulation)是目前很多研究者热衷的方法。
三角验证是处理主观性的一种手段,也被认为是用来增加质化研究的效度。其实,质化和量化方法的结合使用,本身便是一种三角验证。三角验证并不只限于质化研究。除了找不同人对同一数据作独立分析外,较常用的还有多元方法三角验证。例如,使用教案、观课和课后访谈去探讨教师如何执行课程改革背景下的新课程。这些方法在教育研究中比较常见。但在三角验证的使用上,亦发现存在很多误解。是否利用了不同数据说明就能声称自己是在进行三角验证?而倘若不同数据来源不互相佐证或达成一致,就无法三角验证呢?运用大量手段(访谈、观课、日志等)获得一堆数据,并非不好,但它们之间的关系究竟如何?研究者需要回答:为何要访谈,为何要观课,它们对研究问题的解决会有什么帮助。这些数据是否指向同一个研究目的?如果不同数据之间能相互支持、补充,当然很好,增强了研究的说服力。但如果不同数据出现矛盾又如何?比如,在调查教师执行新课程的研究中,其实教案、观课和访谈是三个不同的数据群组(data set),它们分别面向新课程实施中不同的问题:教案为意图课程、观课为执行课程、访谈则可能包含教师信念和理解课程(perceived curriculum)。它们不一致(甚至有矛盾)又能说明些什么呢?反过来说,它们之间出现差异是正常的,我们亦不会期望它们一致,所以不应该用它们的一致性印证研究的不主观性。但是,是不是不能进行三角验证呢?此时,三角验证可能有更高的一个层次,这是对研究者的考验,需要研究者提高解释的层次。例如,如果能用信念的强度、权力关系、持分者等方面作解释(并有佐证支持)上述三组数据的共同处和不协调处,研究的分析和立论就全面、合理得多了。
三、有了问卷就有了分析数据吗?
有的研究者用量化研究方法,时常有个误解:以为只要将问卷发下去,收回来对着电脑分析就是了,而调查结果是必然出现的。这里首先便有一个问卷的信度和效度如何保证的问题,很多介绍量化研究的书均有提及,于此不赘。这里要指出的是,一些研究者在使用问卷(无论自己研发的还是借用他人的)时,不甚明白为何问卷中会有很多相类似的问题而惯常用之?例如,问及“你喜欢数学吗?”,甚至“你的性别、年龄”等,问一句不就够了吗?何以要问很多句?这便是普通问卷(questionnaire)和量表(scale)的分别。在理论层面而言,我们问“你喜欢数学吗?”是一种观感,有别于性别、年龄等客观事实。答题者的观感会受到情绪(填写问卷时)、语意及具体表现的影响。例如,对于喜欢数学,不同的人对喜欢的理解不同。有人会回家先做数学家课,有人会多买数学书,有人会喜欢数学故事……,故而,我们设计量表时要从多个角度旁敲侧击地问。但怎样保证这些问题都指向一个单一的想问的“东西”(或构念(construct))呢?就是靠Cronbach Alpha系数或α系数。一般地,α系数愈高,问题的指向性愈好。
当然,这亦衍生量表的其他问题。例如,要增加α系数不难,问10题“你喜欢数学吗?”或10题与“你喜欢数学吗?”十分类似的问题。这亦是一些著名量表遭人诟病之处,把研究的构念(construct)收得太窄。故此,建立一个既在统计数据上不错又有公信力的量表,往往花十数廿年的时间。在技术层面而言,我们将来对题项作统计分析时,往往就要假设样本是正态分布(normal distribution)的。简化而言,问了一句只属贝努利试验(Bernoulli Trial),要多问一些问题才会出现重复性贝努利试验(repeated Bernoulli Trial)。样本数量n愈大,样本愈趋于正态。最理想的情况是,量表中的这些命题的字眼是来自实地观察(包括访谈)得到的,即用质化方法探视学生对数学观感的具体表现,然后慢慢归类,找出相类似的词句,用一堆指向“喜欢”的字眼来构作量表。从这个意义上讲,量化研究其实与质化研究是密切联系的。
四、收回问卷就能作统计分析吗?
一堆问卷收回来了,数据也输入了电脑,于是有研究者就开始不假思索地试试各种统计分析方法,一个方法不行换另外一个,也有人戏称这种做法为数据按摩(data massage)。老调重弹,研究问题决定研究方法。即便确定了量化研究,但是选择何种统计方法并不随意,也不能期望电脑肯定能“跑”出个结果来。事实上,大部分统计分析(如t-检验、方差分析、回归分析等)都要求总体满足正态分布,但很多研究者并未意识到这点,而草率行事。而且,不同统计方法其分析的目的是存在差异的。
常常用到的t-test(t-检验)主要用来检测两组数据的平均数或均值(mean)是否相同,根据分析对象的不同可分成配对t-检验(paired t-test)和双样本t检验(two-sample t-test)两种。配对t-检验中,两组数据均取自同一个来源,例如,对同一减肥对象实施前测(pre-test)与后测(post-test)——减肥前后的体重,以研究减肥方法成效。双样本t检验中,是比较同性质但不同来源的两组数据,例如,比较班级A和班级B的数学成绩。另外,t-test是有预先假设的,首先总体要求是正态分布,样本均值统计量才服从正态分布,进而t统计量才服从t分布。而更重要的是,两个样本要有相同的方差或称变异数(variance)。所以,在着手作研究分析时,一定要先处理好方差。相比让数据服从正态分布(normal distribution),要两组数据有相同的方差其实更难。故而,在t-test之前,统计人员一定会做F-test来测试两组数据的方差是否相同。
方差分析或称变异数分析(Analysis of Variance,ANOVA)也常在研究中被用到,它其实是t-test之引申,旨在测试两班人(如男女)的同一分数有否显著差异,且能得出可解释差异的百分比。该分析亦可涉及数个因素,此时即为协方差分析或共变异数分析(Analysis of Covariance,ANCOVA)。但一般作了ANCOVA后,只知多个因素有差异与否,却无法知道究竟是哪个因素造成的,这就要作逐步回归分析(stepwise regression analysis),而此类回归分析也与正态有关。
另外,对同一对象进行的前测、后测会受不少因素影响(如实验组/控制组、性别等),理论上用ANCOVA就可以了,但因为无法断定所解释的方差,故而采用多层回归分析(hierarchical regression analysis)较妥,而这又需要假定样本服从正态分布。总括来说,上述所有这些分析都要假设正态分布,可以想象,没有分布的方程式,又如何能作出种种计算呢?但如何才能让总体服从正态呢?
五、样本足够大就是正态吗?
上面谈到正态分布是进行各种统计分析的前提,那么如何才能正态呢?不少人误以为只要数据越大,样本足够大,就会越接近正态。这显然是不对的。比如,全国小学五年级的学生够多了,他们的小腿长度,除了特殊情况外,都在半米左右,让我们想象有一个健身计划为他们增长小腿长度(譬如为美观缘故),现想看其成效,显然小腿长度并非正态分布,故不能用t-test,故此人多不代表就可以用t-test;再夸张点,若考虑他们的年龄,绝大部分都在9~12岁之间。故此,样本数量多肯定不代表正态。
而认为只要增加样本数目就能保证正态,通常的理据是中心极限定理(Central Limit Theorem)。事实上,任何数学统计推断,均要用到数学,用数学就是假定数据大体而言符合某个方程式(否则无法作数学推断),那就是要假定数据属于某种分布(如正态分布),否则就无从推断下去。至于中心极限定理,它是一个很强大的理论。它所涉及的取样是,不论原有数据的分布状况,不断取样,各样本的均值会趋于正态。而小学五年级学生的例子及一般教育研究中的前测、后测,都不会涉及不断抽样,故此中心极限定理根本用不上。另外,中心极限定理引申出另一问题,就是认为重复贝努利实验会接近正态。以问卷而言,第一道问题把填答者分成两堆,比如同意或不同意(这里我们暂不理会划分为5堆,即5点量表或更多堆的情况);下一道又分成两堆,这样前两道问题总共会出现4堆的可能:同意、同意,同意、不同意,不同意、同意,不同意、不同意;若以得分而言(不同意0分,同意1分)就是三组:0分、1分、2分,而如果问卷的问题数量越多(当然填答人数也不能太少),且问题间彼此独立(independent,在现实中其实不可能出现),最后分数的分布会接近正态。故此,重要的不是数据够多,而是问题够多。不过,这只是理论上如此,实际的问卷中,问题与问题之间很难独立。
也有人觉得,只要数据的分布似钟形(bell shape)不就是正态吗?当然,钟形是完美的正态分布,但统计人员判断数据是否正态是从概率的角度出发!在统计人员眼中,服从正态其实不难。近年,不少有关能力测验(包括教师学科知识等)的研究,借助黎氏量表(Likert scale)的分析法去处理数据。这也是有质疑的。因为许多能力测验是按标准参照测试(criterion referencing)而非常模参照测试(norm-reference)去设计,既然不是常模参照,就不应该符合正态分布,那么使用传统的统计方法分析可能就不恰当了。
如何证明某堆数据是正态的呢?首先,它可以是一种理论上的假设,比如通过将问卷题目进行细分,可以假定(还只是假定)它是正态。其次,在实际而言,一堆真实数据是难以完全吻合正态的。当某些发现不再正态或是某些关系不是线性,那就要更新理论了。因此,量化研究分析前,理论上是先要作曲线拟合(curve fitting),看数据大概遵从什么曲线,若接近正态或经过某种转换后接近正态,就可以用所有关于正态的分析。对于涉及有关教师(或学生)知识的测试,包括问题解决能力的测试调查,现时学者都不太在意分数上的分析,而是作质化分析,如他们的答题思路、常犯错误等。
六、选择研究方法为何?
教育研究中,无论采用量化研究还是质化研究,均是探求现象背后的真相。它们的分别不在于客观与主观。访谈者当然有可能将主观意见引导被访者,问卷设计者透过问卷不是更甚吗?这不局限于用字上的引导,例如,将某个概念(如数学情意)分成若干子问卷(态度、兴趣、动机和自信等)不是将一个未完全确定的主观框架放进问卷填答者的脑内吗?量化与质化的分别也不在于数字与否。我们遇到一种(学习)现象,初期可能任由各方面探索(包括被访者的叙述(narration))渐渐以分析思维把现实层层区分,分成若干部分、若干因素,数据(无论是数字、非数字)出来后,我们用不同方式诠释、解读,让不同的数据对话,数据和文献对话,甚至让不同学派的人对话,量化和质化的思维已经交替出现。我们若深入地看,要探讨真相,两种研究取向都无可避免地要同时用到。
研究方法中的这些问题可以说是写之不尽,学之不尽。我们不要期望有一个指引手册,熟读后才开始研究。(就算有,你也未必有兴趣读!)其实这些讨论都围绕着一个观点:就是学术严谨性。每一步均是在问自己,如何分析和理据何在。每引用一处文献都要问,它们的理论立场是什么?每用一个工具都要问,它假设了些什么,会得出什么?正如索菲亚·柯瓦列夫斯卡娅(Sofiya Vasilievna Kovalevskaya)所说:说您所知道的,做您所该做的,怎么了就怎么了。
来源:《教育科学研究》2015年第04期 作者:张侨平 丁锐 黄毅英