作者:林展,中国人民大学清史研究所;陈志武,香港大学经济管理学院与亚洲环球研究所。
一、量化历史的含义及与新史学的关系
量化历史研究是交叉学科,是用社会科学理论和量化分析方法来研究历史。量化历史研究目的是发现历史的规律,即人类行为和人类社会的规律。在量化历史研究中,称这些规律为因果关系,量化历史研究的过程,就是发现因果关系的过程。理解量化历史研究的含义,一般需要结合三个角度,即社会科学理论、量化分析方法、历史学。
理解量化历史,广泛借鉴社会科学的理论。这些理论有两个重要特征:一是可以引申出可检验的假说或推测;二是随着支持这些假说或推测的经验证据越来越多,理论的可靠性程度也越高。量化分析方法不是一个静止的概念,而是处于不断发展中。为了发现历史规律,通常需要进行因果关系的分析,对历史现象的度量和寻找历史现象的相关性是寻找因果关系的步骤或起点。量化历史与历史学的关系,“体现在量化方法不是要取代传统历史研究方法,而是对后者的一种补充,是把科学研究方法的全过程带入历史领域”。量化史学与历史学研究的传统一样,注重对历史文献的考证、确认。这也意味着,一项好的量化历史研究并不容易实现,需要细致的工作和艰辛的努力。
量化历史是新史学的重要组成部分,尽管新史学有不同的含义,也处在不断发展变化的过程中,但在对新史学的不同解释中,一般都强调尽可能结合人文社会科学的知识和方法来研究历史。随着人文社会科学研究方法的量化程度大大提高,量化分析已经在社会科学研究中唱主角,在人文学科中的影响也越来越大。
二、量化历史的研究步骤
《量化历史研究的过去和未来》一文介绍了科学研究的基本流程,大致可分为五个步骤:提出问题和假说;寻找史料和数据;对数据进行量化分析,寻找因果关系;对发现的因果关系进行解释和寻找作用机制;论文的写作。我们用来作为示范的例子是围绕《新教伦理与资本主义精神》展开的量化历史研究。在该书中,韦伯认为新教地区有更为繁荣的经济,新教伦理对经济有重要的促进作用。虽然该书通常被认为是定性研究,但却建立在大量的统计数据之上。如果基于史料,正如韦伯所发现的,新教徒数量越多的地方,经济发展更好,如此就能断定新教伦理推动了资本主义发展吗?对上述问题的回答,构成了一项典型的量化历史研究。
这一研究由两位经济学家贝克尔和沃斯曼完成。他们利用19世纪普鲁士452个县(郡)级政区的调查数据,发现新教徒占比越高的地区,经济发展确实越好,这与韦伯的发现一致。但当他们将各地平均识字率的差别和新教徒占比的差别放到一起时,发现后者的影响消失了。他们认为,新教之所以推动了经济增长,是因为人力资本的提升。
与传统历史研究强调避免带着问题阅读史料不同,量化历史研究主张先提出问题和假说,再去收集整理史料。这样一是可以方便跟已有文献的对话,确定自己的贡献在哪里。二是便于跟不同学科的交流,回答不同学科的重要问题。三是可以基于要验证的假说,从被解释变量、解释变量和控制变量的角度,高效率地组织史料。
在提出问题和假说之后,我们需要寻找史料来建立数据库。在拿到相关的史料和数据之后,量化方法先从不同的维度对它们的质量进行检验。在历史研究中,拿到的史料往往是关心的研究对象的一部分,只能够基于拿到的史料去开展研究。绝大多数时候只能通过研究对象的部分信息对其特征进行分析。这里就涉及总体、样本和随机抽样的概念。在统计分析时,把研究对象的全体称为总体,每一个研究对象称为个体,把从总体中抽取的一部分个体称为样本。什么对象是总体,取决于研究问题。对历史研究而言,基于空间和时间的抽样是非常常见的。一个典型的历史研究为了方便集中论述,常常会限定地域和时期。抽样方法有其特有的优势,也是目前历史研究中常用的方法,但从实证研究、发现规律的角度看可能会带来选择性偏差,研究结果不一定带有普遍性。
选择性偏差是指由于选择的样本不是随机抽取的,所以不能够基于这些样本的特征推断总体的特征。随机抽取是指保证总体中每个样本被抽中的概率都是一样的。例如,不能够基于江南的经济发展水平去推断整个中国的经济发展水平。这样的选择性偏差非常明显,也很容易被察觉,但历史研究中,还有大量不容易察觉到的选择性偏差问题。例如传统经济史研究中的“选精”“集粹”问题,其实质就是一个基于样本推断总体的问题。由于研究者拿到的史料通常是样本,但希望了解的是总体,如何由样本推断总体就成为历史研究的挑战。这种挑战在定性和定量研究中都存在。定量研究的好处在于,可以明确地展示出这种挑战,同时利用已有的量化方法克服这种挑战。基于总体和样本的理解,可以知道,历史大数据或增加数据量,并不必然会解决“选精”与“集粹”的问题。利用样本信息来推断总体的信息,是统计学中统计推断的重要内容。应对选择性偏差,基于非随机抽样的样本来推断总体的特征,是量化分析方法特别是计量经济学分析方法的核心关注之一。
在提出问题和收集数据之后,第三步是量化分析。量化分析方法主要有三类。第一是对数据进行描述统计。第二是相关性分析。第三是因果关系分析。发现因果关系方法的实现,需要通过回归分析。回归分析是一种统计方法,通过建立统计模型,用一个或多个解释变量来解释被解释变量。回归分析可帮助人们理解,当任意一个解释变量发生变化而其他变量保持固定时,被解释变量将如何变化。回归分析不仅是展示变量相关性的一种重要方法,也是因果推断的基础和最重要的工具之一。回归分析与相关分析不一样,回归需要选择解释变量与被解释变量,而相关系数不需要。回归分析可以处理两个以上变量的相互关系,一个被解释变量和多个解释变量以及多个控制变量。由于历史现象通常是多个因素共同作用的结果,也就是说,通常涉及两个以上的变量(即历史现象是一个多变量函数)。因此,在量化历史研究中,多元回归分析是最为常用的方法。一项量化历史研究通常需要进行很多的回归分析,贝克尔和沃斯曼文章中的回归表格就有十个。这是因为需要将不同的影响因素考虑进来,需要考察是否有遗漏变量、反向因果的问题以及对结果的可靠性程度,也要从不同的维度进行检验。
建立因果关系后,我们还需要知道为什么这种因果关系会发生,也就是解释变量是如何影响被解释变量的。机制是指解释变量如何影响被解释变量,其产生影响的原因是什么。在对“韦伯假说”的论证中,贝克尔和沃斯曼发现新教徒数量与资本主义经济增长之间是正相关的关系。机制研究是量化分析的核心组成部分。与此类似,我们对于在人类社会中发现的因果关系,也需要知道其作用机制是什么。对于作用机制的分析,一般需要从三个方面进行。第一,起作用的机制变量。第二,需要说明机制变量与被解释变量高度相关。第三,需要说明,当同时考虑作用机制变量和解释变量之后,解释变量的解释力变小或消失;而机制变量有很强的解释力。
三、量化历史作为新史学的价值
量化历史是新史学的重要组成部分。历史学建立在史料的基础上,随着大规模史料的出版、公开、数据库化,研究者已经注意到,历史大数据时代和“数字人文时代已经到来”。量化方法在应对历史大数据挑战的同时,也有助于分析复杂的历史,其办法主要是将历史现象拆分成不同的因果关系。
历史的长期影响,是人们关心历史的重要原因。量化方法对历史长期影响的分析,也有助于形成贯通性的认识。尽管强调时间性和打通断代是历史学研究的重要诉求,但中国悠久的历史留存下来的史料汗牛充栋,要从中对某些历史特征进行长时段的描述,具有挑战性。这种困难,通过量化分析,可以得到缓解。基于时间序列数据和面板数据,不仅可以快速地对历史时期非常重要的历史事件进行长时段的描述、与世界其他地区已有的研究进行对比,更重要的是,这有助于改善知识创造和积累的方式,以后的学者,将可以在此基础上做进一步的推进,而不需要从头开始阅读史料。
史学是一切社会科学的基础,应该成为社会科学理论创新的源泉,但从各个社会科学的实际情况看,史学还没有起到应有的作用。量化历史直接从问题和假说出发开始研究,这些问题和假说也是不同社会科学关注的问题。如果假说得到证实,由于历史提供的实验室,使得理论被接受的可能性和可靠性得到增强,基于中国历史的例子也可以很好地融入社会科学理论之中。如果假说和理论被证伪,则会更好地推动理论的修改,形成重要的理论创新,这正是社会科学真实的发展过程。当然,历史的作用在这里,不仅仅是社会科学理论的实验室,对于理论的证实和证伪,可以从不同的角度增进对历史的认识。
随着历史大数据时代的到来,如何高效率地处理大规模史料并从中获得规律性认识,是当代历史学面临的新挑战。量化方法经过数十年的发展完善,已经在应对大规模数据库、发现因果关系方面走在了前面。将量化分析方法和历史大数据结合起来,是新史学的重要内容,也是一种必然趋势。强调量化历史研究的优势,并非意味着这些优势能够自动实现、或者很快就能够实现,一项好的量化历史研究需要很多条件的配合,也需要大量坚实的工作。而量化历史研究作为一个新兴的领域,仍然处于不断完善的过程之中。在使用量化历史研究方法的过程中,也需要注意其适用的条件,任何一种方法都有其适用的范围和局限,一项研究的发展也需要学术共同体的监督和批评。量化方法作为“史无定法”中方法的一种,在历史大数据时代,其作用将越来越大。
文章摘自《史学理论研究》2021年第1期,原文约23000字。