转载自《经济社会体制比较》2007年第2期
[美] 扎卡里·埃尔金斯
詹蓓 译
内容提要:一些颇具影响力的学者武断地认为:民主应该用二分法进行测量。这种观点不但从理论上而且从方法上对使用级差法来测量民主的通行做法提出了挑战。此做法曾被那些从事民主研究的重量级方法论学家所推崇。本文拟提出几种实证检验方法,来评价各种竞争性策略。总的说来,有证据表明,等级测量法具有更高的效度和信度。因此,我们应该相信,特定案例与民主概念的对应在程度上是各不相同的——我们能够而且应该测量这种“程度”。
关键词: 民主 等级测量 二分法测量 实证检验
前言
学者们应该使用各种居间概念(intermediate categories)来测量民主政体与非民主政体之间的差别吗?普雷兹沃斯基(Przeworski)、阿尔瓦伦茨(Alvarez)、凯布(Cheibub)和利蒙奇(Limongi)在他们的一系列有影响的研究中,认为这种方法是 “荒谬的”,并坚持使用二分法测量。令人惊奇的是,一些声名显赫的学者也和他们持同样的观点。坚持采用二分法测量,似乎忽略了数据收集与分析方面的进展,而这些进展可以使等级测量更加精确。此外,很多民主转型的过程都具有增量特征,有时候还具有一定的局部特征,而他们的观点对此也缺乏敏锐的反应。因此,二分法测量似乎不仅在方法上是落后的,而且缺乏表面的效度。
虽然二分法存在很多缺陷,但他们仍然坚持使用它来进行测量,这种做法在研究民主概念的学者当中进一步引发了更大的分歧。作为二分法观点的代表,普雷兹沃斯基等人的论点是以两个在逻辑上相互独立的主张—— 一个是关于效度的主张,另一个是关于信度的主张——为基础的。他们的效度主张是:就民主而言,应该是先有类型的问题,然后才有程度的问题;并且,我们不可能跨越不同“类型”的政体,去测量民主的程度。根据这种逻辑,解决的办法只能是奉行众所周知的社会科学箴言:量化之前先分类。他们的信度主张是:即使测量民主的等级有意义,也应该优先选择二分法测量,因为它比等级测量所包含的测量误差更少。总之,他们认为:在“非民主政体”中去寻找民主的踪迹,不仅是无效的,也是极易产生误差的。
本文拟采用一些有关民主及其相关问题的跨国数据,来对普雷兹沃斯基等人的主张进行一组效度和信度方面的检验。本文的前提假设是这些学者已经在民主的比较研究方面做出了杰出的贡献,而本文的目的是推动这个重要的研究项目,并使其日臻完善。这里所得出的测量结果,从两个层面体现了等级测量法的优点。首先,结构效度测量的结果显示,等级测量最直接地证实了社会科学家从理论上为民主所作的解释的作用;其次,对影响测量误差的各种因素所进行的模拟检验以及详细的阐述,也证明了等级测量在绝大多数情况下都更有效度。
等级测量与二分法测量的结构效度
如果对民主的测量能够很好地预测出被广泛地假设为与民主有关的现象,那么我们可以说,该测量就具有了结构效度。就等级测量与二分法测量而言,它们的结构效度的相对程度如何,将取决于我们在所谓的二分概念范围内通过等级测量所获得的预测能力如何。如果民主程度的变化对“非民主政体”的意义和它对“非民主政体”的意义一样大,那么,甚至在“非民主政体”中测量民主的程度都会是有意义的。为了评价这两种测量方法的结构效度,我选择了两个研究领域——国际冲突与政权稳定性,因为在这两个领域,我们对民主行为已经有了清晰的预期。
民主与国际冲突
民主政体之间的战争记录不但已经众所周知,而且在理论上已得到了充分的说明。所有与经验法则相类似的事情,总是难免会伴随着人们相当程度的怀疑;但是,大量的文献都证实了这样的结论:民主政体不会与其他民主政体相冲突。因此,我们就有希望利用国际冲突的结果,来评定那些竞争性民主测量法的结构效度。这里有两个特别相关的问题:首先,哪一种测量方法能够更好地预测国际冲突,是二分法还是等级法?其次,在具有不同民主水平的国家之间,民主给冲突带来的边际效应是如何变化的?
对民主和平假设的实证检验是不胜枚举的。为了满足写作本文的需要,我重复了鲁索等人的分析。他们使用了由格尔所首创的一个标准等级民主测量法。鲁索等人详细地说明了一个模型,在这个模型中,民主的原动力(initiation of force)取决于三个变量:参与者的民主(Actor’s Democracy)、反对者的民主(Opponent’s Democracy),以及由二者组合而成的一个相互作用项(interaction term)。鲁索等人把格尔在《政体数据集Ⅱ》当中所列举出来的专制政体的比例与民主政体的比例结合起来,从而为参与者民主和反对者民主构造了一个由20个分值所组成的级差。参与者民主与反对者民主的相互作用项,是参与者民主与被二分化的反对者民主之间相互作用的结果(如果反对者是非民主的,分值为0;如果反对者是民主的,则分值为1)。因此,当参与者的反对者是民主的时候,该结果就等于可变的参与者民主的值;当反对者是非民主的时候,该结果则为0。鲁索等人还在他们的模型里加入了另一组变量,该组变量可以用来检验那些由现实主义的冲突理论所推导出来的其他同类主张。在这一模型中,对参与者民主所带来的影响是不太明显的,而对相互作用项所带来的消极影响却很明显,这就为下面这种广为流传的假设提供了支持:虽然民主政体与非民主政体一样,都有滋生冲突的可能,但民主政体与民主政体之间似乎不可能发生冲突[这是一种二元假定(dyadic hypothesis)]。对反对者民主所带来的明显的积极影响则意味着:非民主政体从民主政体那里所获得的东西,要多于从其非民主同伴那里所获得的东西。
表1 民主对原动力的影响(逻辑回归)
|
独立变量
|
等级模型
|
二分法模型
|
|
参与者民主
|
-0.03
(0.02)
|
-0.25
(0.27)
|
|
参与者民主*反对者民主
|
-0.09**
(0.03)
|
0.51
(0.17)
|
|
反对者民主
|
0.05
(0.01)
|
0.17
(0.24)
|
|
力量平衡
|
1.23**
(0.38)
|
1.19**
(0.37)
|
|
共同的联盟关系
|
-0.01
(0.27)
|
-0.09
(0.20)
|
|
满足于现状
|
-3.36**
(0.38)
|
-3.42**
(0.38)
|
|
常数
|
-0.29
(0.32)
|
-0.13
(0.25)
|
注:N=606双重冲突。**p﹤0.01;*p﹤0.05。括号里是标准误差。
三种民主变量的等级,等级模型:1~10,二分法模型:0~1。
表1第二栏所显示的,是对包含着多重民主变量的预估数据所体现出来的原动力进行逻辑回归的结果。图1呈现了已转化为边际概率的logit系数,也就是原动力从独立变量的最低值移动到特定值以后,对原动力的概率所产生的影响。这些结果强有力地证实了这样的二元假定:民主政体相对而言是和平的,但只有当它们联袂反对其他民主政体时才能如此。
图1有助于我们评价普雷兹沃斯基等人的主张:在各种非民主政体当中,不同水平的民主是毫无意义的。结果表明:民主的变动确实在每个水平上都造成了差异。对原动力概率的影响在每个变量的整个级差内要么增大(反对者民主),要么削弱(参与者民主或参与者民主暨反对者民主)。甚至在各个“非民主政体”(在等级更低的一端的那些政体)中,民主的提升也产生了影响。
既然民主的程度事关重大,那么,采用鲁索等人的民主二分法来进行分析,其结果又将如何呢?要找到这个问题的答案,第一步就要构建一种可以用来做比较的二分法。在鲁索等人的20个分值的等级上,我只把那些分值至少为16的情况称为“民主”。这样的临界点维持了级差两端的大组别的完整性,并且非常符合普雷兹沃斯基等人的二分法。事实上,这种新的分类方法与普雷兹沃斯基等人的样本所涵盖的369个案例的92%是一致的。
这种版本的民主二分法测量怎样在鲁索等人的模型下进行呢?表1第二栏的结果显示,二分法使民主的任何影响都变得模糊不清——不管是二元影响,还是单一影响。从统计学的角度来看,没有一个系数在所有可分辨的重要性程度上不会等于0。不仅如此,即使这些变量具有统计学意义,与采用民主等级测量法进行检验相比,它们的影响实质上也被低估了。从“非民主政体”向“民主政体”转变所产生的边际效应,显然没有等级测量法所预测的边际效应那么显著。例如,如果二分法的相互作用项从0移动到1,变动概率就降低了9个百分点;但是,如果多分法的相互作用项在整个范围内移动,概率就降低了35点。因此,国际冲突的证据表明,民主等级测量法所产生的结果,非常符合许多社会科学家对民主政体行为方式的期望。换句话说,等级测量显示出较高的结构效度。
◆参与者民主
■反对者民主
▲参与者民主暨
反对者民主
|
图1 民主对原动力的边际效应(根据逻辑回归分析计算得出)
注:这些概率是由表1的等级模型中的各种系数推导而来的。
在介绍各个层次的民主政体的边际概率的时候,我在回归分析中所采用的是一个10分值的等级,而不是上述的20分值的等级,这完全是因为我们的取样只有606个的缘故;在这种情况下,如果仍然使用20分值的等级,很多区间就会显得数据不足。
民主与政体的连续性
不同程度的民主所产生的影响并非总是线性的。就民主与政体稳定性的关系而言,我们在这里可以采用格尔(1990)所说的可变的“连续性”(即从最后一次根本的、突然的政策变化以来的年数)来描述政体的稳定性。民主程度的变化对“较低水平”的民主政体的稳定性的影响,与它对“较高水平”的民主政体的稳定性的影响是不同的。一个可接受的假设是,民主与政体稳定性之间的关系是“U形”的。也就是说,民主程度的提高会降低“较低水平”的民主政体存在的概率,却可以提高“较高水平”的民主政体存在的概率。考虑到这种非线性的特征,把民主的情况划分为两大类,而不是各种程度,似乎更为可行。
探讨这种概率的方法之一,就是同时在等级民主测量法和非等级民主测量法的基础上对政体稳定性的测量进行回归分析。既然普雷兹沃斯基等人的样本数与格尔(1990)的政体“连续性”测量所涵盖的国家数非常吻合,那么,我们现在就完全可以使用那些支持二分法的学者所收集的数据。然而,与这种方法有关的一个因素将会影响到用来做比较的等级测量的效度。把等级级差分解成二分法的分值(就像我以前做过的那样)只是其中的一个方面;而另一方面,想从一组二分法的分值中获得多分法所需要的数据,那可要困难得多。能够让我们从二分法测量中获取到等级类别的简易数学转换公式是没有的。然而,即使民主的二分法测量也都是建立在多重特征的基础之上的。如果符号已经一清二楚地显示了这些成分,我们就可以创造一种运用居间概念来进行测量的方法。由于普雷兹沃斯基等人详细记录了他们的符号方案,我们就能够以这些学者用来得出二分法分值的标准为基础,建立一个多分法分值。
为了评价二分法测量与等级法测量的相对绩效,我先分别以两种测量方法(等式1和等式2)再接着把它们合并到一起(等式3)为基础,对政体连续性进行了回归。不可否认,等式1和等式2不够详细。但这两个等式也表明:采用等级测量法,民主每提高一个单位,政体就会再延长6年;相比之下,在二分法方案中,如果这些政体被标识为民主政体而不是非民主政体,则会再延长22年。由于等级测量是一种四类别级差,其最大效果(从0至3)大约是18年,比二分法测量的预测结果少4年。二分法测量不但产生的效果更大,而且其拟合优度也更好。此外,如果采用同时包含这两种测量法的第三种模型,就不仅可以证实二分法测量解释力更强,而且可以表明:至少在一个二分类型中,民主水平与政体连续性之间呈负相关关系。也就是说,虽然民主政体也许比非民主政体更稳定,但在这些类别中,民主的提高际上有可能降低政体稳定的概率。
等式4进一步考察了这种非线性模型。在这里,政体连续性的回归是以一系列等级数值所造成的哑变量,其中0代表剩余类别(residual category)。因此,这些变量的回归系数代表政体存在期限的平均变化,该期限与等级数值范围内一个从0移向某个特定值的移动相关联。这种描述揭示了民主与政体稳定性之间的“U形”关系。在数值范围的较低端,民主的增长实际上降低了某个政体存在的概率;只有当某个政体达到完全民主之时,其存在期限才会延长。
表二 民主对政体存在期限的影响(OLS回归) 单位:年
|
变量
|
等式1
|
等式2
|
等式3
|
等式4
|
|
常数
|
19.00**
(1.28)
|
22.49**
(0.78)
|
28.87**
(1.43)
|
32.26**
(1.26)
|
|
等级法-普雷兹沃斯基等人
|
6.11**
(0.59)
|
|
-5.13**
(0.97)
|
|
|
二分法-普雷兹沃斯基等人
|
|
21.80**
(1.28)
|
30.83**
(2.13)
|
|
|
哑变量1
|
|
|
|
-13.71**
(1.62)
|
|
哑变量2
|
|
|
|
-12.71**
(1.97)
|
|
哑变量3
|
|
|
|
-12.03**
(1.91)
|
|
R2
|
0.02
|
0.05
|
0.05
|
0.06
|
注:N=5593(1900~1986年国家存在的年数总和);**p﹤0.01;*p﹤0.05 。括号里是标准误差。
数值范围:普雷兹沃斯基等人的二分法(0~1),普雷兹沃斯基等人的等级法(0~3)。
以上哑变量是根据普雷兹沃斯基等人的等级数值范围计算出来的,0代表余类别。得出的哑变量分别与它们各自在数值范围中的位置对应。例如,从哑变量2来看,如果某个案例在普雷兹沃斯基等人的等级测量数值范围中所得出的分值是2,那么,就在哑变量2一栏中计1分,其他的所有案例都计0分。
这实际上就意味着:民主程度的提高在“民主政体”中所产生的一系列结果,会不同于在“非民主政体”中所产生的结果。但是我们应该明白,这些结果不应该导致我们放弃等级测量法。尽管民主对政体连续性的效应具有非线性的特征,但是,在这两个类别中民主对政体的存在期限都带来了可以测量的效应。事实上,只要我们对那些跨越不同类型政体的民主等级进行测量,就会发现民主化对低水平的民主政体所产生的削弱影响是显而易见的。
不仅如此,在具有非线性特征的模型中对二分法测量的依赖,对我们在各种类别中选择临界点产生了很大的影响。对各种政变——一种与政体连续性密切相关的现象——的分析就证明了这一点。我们以上讨论过各种变量的三个相同的结合体,对它们的“政变”概率所进行的逻辑回归分析表明,它们比较不适合用普雷兹沃斯基等人的二分法来测量。等级测量结果表明,在四类别等级中整个概率范围有15个分值,而二分法所显示的最大变化也只有5个分值。此外,当两种测量法被包含在同一个等式中的时候,等级测量仍然维持着它的解释力,而二分法测量则无论在实质上还是在统计学上都显得毫无意义。就“政体稳定性”模型而言,民主对政变的影响绝对是具有非线性特征的。然而,普雷兹沃斯基等人现在的二分法把民主的临界割点定得很高(或者说,更重要的是定得不同),他们这种二分法预测结果的能力是很差的。对各种二分法测量来说,其发现的结果强调的是:要在各种类型之间判断出相关的阀值(threshold)是困难的,但这却是又是一项至关重要的任务——一项实际上并不妨碍等级测量的任务。
那么,我们能够从政体连续性的数据中总结出什么呢?一方面,在一些关系中民主确实显示了阀值效应,这种效应也许会诱使我们去讨论各种政体中的两大类别。然而,即使是在这些二分法类别中,民主的等级也具有值得推测的、有意义的效应。不仅如此,政体连续性以及政变的事例表明:对民主政体与非民主政体之间的阀值的位置,是无论如何都要做出因果推论的。对这个临界割点进行定位,绝对不是一件什么无关紧要的事;事实上,就政体的连续性而言,这确切地说来就是一件生死攸关的事情。关键在于,研究者应该避免以掩盖有因果关联的阀值的方式来对各种案例进行合并和划分。
等级测量与二分法测量的信度
普雷兹沃斯基等人的另一种观点认为,即使民主的本质是连续的,二分法也要比等级测量法更有信度。这种观点是违反直觉的。如果人们所讨论的某种结构确实在不停地变化,那么,也许我们可以期待采取一种更细密的测量方法,以便运用其更高的信度来捕捉这个变化。我敢肯定,普雷兹沃斯基等人的观点是因为他们对测量误差这个概念了解不完整所致,因此,我们有必要澄清这个概念。
从某种水平上说来,要证明对一个连续的现象进行等级测量比二分法测量更有信度,相对来说是一件简单的事情。假设各国的民主的“真实”分数能够在一个分值从0到10的等级上进行排列;假设我们已知格尔(1990)的变量——“制度化的民主”——中已经记录下每一个观测到的“事实”。那么,现在我们就让两位研究人员着手去测量这个“事实”,其中一个人运用二类别(即二分法),另一个运用五类别。现在,我们再假设这两个研究人员都能够为其中的每一个案例进行正确的打分。也就是说,两个研究人员都要根据这些案例的真实民主水平进行正确的分类。现在,每个案例就都有了三个分值:真实分值和两个研究人员各自记录下来的分值。有了这样的信息,我们就能够运用信度的标准测量法,或者运用观察到的变量与总变量之比来轻松地评定这两种测量的比较信度(见公式1),测量的结果完全在我们的意料之中,运用五类别的测量结果更为可信(0.95对0.84)。
公式1 1-[变量(误差值)/变量(总分值)]{1-[Var(Error)/Var(Total)]}
当然,上面这个例子中的分值确实忽略了由符号所引起的测量误差。也就是说,在这两个等级中的每个案例都被分配到了与其相符的类别。但是,普雷兹沃斯基等人有一个十分合理的假设:这些案例会被错误地分类,并且多类别测量比二类别测量所造成的分类错误更严重。这种推测是适当的。毕竟,把各种案例分为两个类别比分成五个类别要更加容易。在这个例子中,我们怎样才能描绘这样的测量误差呢?一种方式是将干扰项(noise)引入格尔的“制度化民主”测量中。例如,假设由最谨慎的符号所确定的“制度化民主”的真实分值是在一个单位以内,再假设误差是随机的;那么,在一个单位以内的测量是与真实分数一致的,但是,当测量向一个单位的两边偏离时,它就是不系统的。通过从每个案例的真实分值里随机地添加或者减去一个单位,就产生了这种误差模型。现在,我们按照上面的那种方式,把这些被改变的观察结果同样分配到两类别等级和五类别等级当中。不出所料,五类别等级比二分法等级对各种案例分类所产生的错误要多得多(35%对3.3%)。但是,这种误差是怎样影响两种测量各自的信度呢?有趣的是,五类别测量却仍然保持着它的信度优势(0.87对 0.82)。
那么,两类别测量在什么情况下才能显示出更高的信度呢?有几种设想浮出水面。首先,普雷兹沃斯基等人言辞凿凿地认为,对各种真实分数进行双模型分布,就可以表现出二分法测量的优势。他们凭直觉认为,这种设想很好解释:假设有一个单位改变,只有当各种案例都在两个类别之间的临界割点周围的时候,二分法测量才会出错;但是,等级测量却有可能在等级的每一点上对案例进行错误的分类。幸运的是,“制度化民主”的分布实际上是双模型的,这就意味着我们以前的评价事实上考虑的是那种类型的分布。因此,即便是各种情况都对二分法测量有利——本案例中的一个双模型分布,等级测量也更有信度。
但是,还有第二种设想,它关注的是对“制度化民主”的误差值大小的理解。在上面的例子中,我把测量的结构改变了一个单位;那么,当这种干扰增多时会发生什么呢?随着误差值的升高,二分法测量在信度方面的比较优势也有可能加大。事实上,如果将“制度化民主”的得分改变两个单位,就可以证实这种猜测;在这种情况下,五类测量法的信度就会骤然降低到0.51,而两类测量只是下降到0.69。
普雷兹沃斯基等人认为信度并不决定于误差值的大小,但我不赞同这种看法。普雷兹沃斯基等人坚持认为,当分数被改变一个分值的概率为0.2的时候,二分法测量产生的误差就会更小。在我的计算公式中,甚至当每个分数被改变一个分值时,多分法等级会更有信度。这些分歧的存在很可能是因为对误差概念的不同理解所致。普雷兹沃斯基等人用三个因素计算预期的误差:一个特定大小的误差的概率、误差值的大小,以及这些误差的数量。实质上,普雷兹沃斯基等人测量的是误差方差。为了确定一次测量的信度,必须把误差方差与总方差进行对比。毫无疑问,多分法测量的误差方差肯定多于二分法测量(这也有一定的限度,因为无限的分类测量会使每个分值的分类都出现错误)。但是,多分法测量也会产生更多的总变差,而这是决定信度等式的关键项(critical term)。
这里有必要重复一下:采用这种标准的信度概念,并不一定就会优于等级测量。信度依误差的数量、误差值的大小,以及我们的测量方法相应的灵敏度而定。灵敏度越高,误差就越多。在分析各种案例的时候,如果我们能够假定某种民主结构会显示出自身的等级,那么我们就可以运用灵敏度尽可能高的测量方法来记录那些等级。那么,我们应该如何在灵敏度与误差之间求得合适的平衡呢?上面的例子表明:如果我们不能把超过60%的案例正确地分为五类,那么我们最好使用二分法测量。然而,实际上我们并不是天生就具备了解民主的真实分值的知识。与在灵敏度与误差之间求得合理的平衡一样,分类的数量肯定取决于测量者的判断。当然,这种判断能够而且应该通过上文所提到的那些实证检验方法来获取。
无可否认,可能还有其他一些理由,可以被人们用来解释为什么舍弃多分法而采用二分法。例如,如果我们要把各种特征结合起来形成一个序数的等级,就需要做出一些已经在某些案例中被证明是站不住脚的假设。但是,关于测量误差,有一点是很清楚的:等级测量并非必然具有更小的信度。
结论
民主化研究使我们认为:不管是跨时间看,还是跨空间看,民主在程度上都存在着实质性的变化。本文的实证检验证实,这样的变化是有意义的,并且能够得到可信的测量。更具体地说,以那些关注于国际冲突和政体连续性的假设为基础所进行的结构效度检验表明,为研究等级而提出的各种测量民主的方法,最符合民主理论研究所预测出来的表现形式;另一方面,对导致测量误差的因素的更进一步的研究表明,等级测量将会显示出更高的信度。总而言之,在表面上看起来是“非民主的”政体中寻找民主的踪迹,不仅具有重要的理论意义,也具有重要的方法论意义。