根据第六章中得出的原理,绝对感受性可以通过绝对刺激强度的倒数即集中感受来估量,也可以通过引起相同大小感受的绝对刺激强度的倒数即广延感受来测量。为了测量简单的差别感受性,可以用刺激差异量的倒数或者引起相同差别感受的差异程度来表示。相对差别感受性则可以用刺激比率的倒数,或者引起相同大小感受差异的刺激程度来衡量。

没有区别简单与相对差别感受性的方法,因为在这两种情况下我们都必须确定引起特定感受差异的两种刺激量。在这个时候,我们要关注差异的绝对强度或者刺激的比率,以此来用两者之一的倒数测量感受性。每一种方法都具有自己的意义。不过现在,讨论获得前一种结果的方法就足够了。

在这些定义的基础上进行测量,也就是假设我们在各种条件下都能够切实准确地判断感受与感受差异的等价性,并且能够对它们进行陈述,这些任务乍一看没有那么容易。然而正如我们之前提到过的,大家都知道利用光度计的测量方法是基于对感受等价性的判断,就音乐而言,一个人必须经常判断两个音调的一致性,以及两个音调间的差距是否相同,也就是音差。我们现在要以某些普遍的方法来证明感受差异的等价性。事实上,相对于绝对感受性的测量方法,关于差别感受性的测量方法迄今为止已有很大的进步了。因此我们要开始主要研究这些方法。

对于这里将要提到的这些方法,重点讨论对它们本质的一般理解以及它们之间的相互关系,并对保证它们准确性的共同必要条件进行介绍。我们关注的重点是它们在实验与计算中的应用,这在后面几章中将进行详述,并且对所获得的结果做出解释。然而如果我试图阐述在更周详的调查中必须考虑到的特殊实验与计算方法,或者我想为所有可用的规则提供理论基础和实验证据,我可能会破坏讨论的流畅性,干扰那些更关注方法的一般理解而非方法使用的人的兴趣。因此为了更详细地说明这些方法以及基于这些方法的实验系列,我更希望选取《心理物理学领域的测量方法与测定》(Massmethoden und Massbestimmungen im Gebiete der Psychophysik)这本书中的一些内容,并且简单引用一下《测量方法》(Massmethoden),以对目前的这项工作做一些补充。我在这里简单述及的很多内容都在那本书里有详细的论述。你也会发现那里有更精确的理论观点和明确的实验证明。

差别感受性的测量方法

概述

当前有三种测量差别感受性的方法,为了简洁起见,我分别称之为:

(1)最小可觉差法。

(2)正误法。

(3)平均差误法。

首先,我们检验这三种方法在同一项任务中的表现,特别是区别重量差异的准确性。我们希望以通过这种方式的介绍,引出对这些方法的初级表面的理解,尽管实际上到现在为止,人们只使用了前两种方法。

在使用最小可觉差法时,我们要通过提起两个容器A和B来比较它们的重量,这两个容器中水的重量有轻微的差异。如果重量的差异足够大,就能被感觉到,否则就不会。最小可觉差法的主要目的在于确定多大的重量差别才能刚好被感觉到。我们可以用这个差异量的倒数作为感受性水平的指标。

这种方法的一般操作如下,即将刺激从容易被觉察降低到刚刚可觉察的水平,以及再将刺激从不可觉察增加到刚刚可觉察,两者完成相同次数的操作,取平均值作为结果。

如果有人采用很小的重量差异进行多次重复实验,就会经常弄错差异的方向,即较轻的容器会被认为较重,反之亦然。然而如果重量增加得越多或者感受性越强,正确的次数就将大于错误次数或占总次数的比例会增大。正误法从本质上讲,它的目标在于确定在各种比较感受性的情况下,想得到相同的正确判断与错误判断比率,或者正确判断与总判断数比率时,所需要增加的重量。这些不同情况下感受性的程度用这个附加重量的倒数表示。

不确定的情况需要删除,但是应该半数计入正确判断,另外半数计入错误判断。

以给定容器的实际重量作为标准,被试可以只根据感觉判断来匹配与之相同的重量。一般来说,一个人在判断时会出现一定量的低估。当把一个与被试判定的重量相同的容器放到天平上时,就可以发现这个误差。重复进行这个实验可以得到许多误差数据,我们可以据此计算出一个平均差误。我们把通过这种方法得到的平均差误的倒数,作为重量的差别感受性。这就是平均差误法。

由于正误差与负误差在相同程度上源于缺乏正确的知觉,因此它们对我们的测量是同样有用的。也就是说它们不应相互抵消,而应该把它们的绝对值相加。

正如这些方法可以用于重量的感受方面,它们也可用于视听感受等,还可用于广延感受。例如用最小可觉差法测量广延感受性时,需要判断两支圆规的两脚间距的差异达到多少时,才能让被试刚好感受到差异,可以通过视觉或者放在皮肤上两种途径来判断。使用正误法判断两支圆规两脚间距的细微差异时,我们需要记录实验试次中正确与错误的次数。最后在平均差误法中,我们则要确定当一个人尝试匹配相等的两支圆规脚间距时所产生的平均误差。

这三种方法目的相同且相互补充。在第一种方法中,把区分明显差异与不明显差异的边界值作为最小可觉差;在第二种方法中,需要进行计数的是表面差异(即判断完全随机,有时候是正确的,有时候是错误的反应);在第三种方法中,测量的是感觉不到的差异。

这三种方法在测量感受性方面存在相对——有的时候不存在——细微的差别。后面我们会看到当我们意在某些感受性测量中寻求感受测量的基础时,这个事实正是最有帮助的。

就我们现在看来,这些方法均适用于所有的感觉范畴,但是我们还远不能用哪怕其中任一种方法来测量所有的感觉。同样地,这三者中也没有一种可以完全用于测量单一的感觉。

最小可觉差法过去曾被用于独立的实例中,例如德勒泽纳(Delezenne)用它测试对音差纯度差异的感受性。这种方法应用很广泛,最佳的结果可见韦伯所做的对重量、触觉和视觉空间知觉感受性的研究[1]。就我自己而言,我仅仅在光强度、视距和温度判断领域内使用这种方法做过几个不太深入的实验。

对于正误法,除了图宾根(Tübingen)的医学生哈格梅耶尔(Hegelmayer)对视觉广度的研究[2],以及伦茨(Renz)与沃尔夫(Wolf)在听觉测量领域的研究[3]之外,我还不知道有其他应用的先例。由于这两项研究都是由维洛特所资助的年轻人所实施的,有人就会认为是他把这种方法分派给他们的,尽管他们并没有明确说明这一点。就我个人而言,我曾使用这种方法对重量判断进行过非常深入的实验。

在某种意义上,与通过伴随误差的大小来判断观察精确性的方法一样,平均差误法的历史也同样悠久。然而据我所知,这种方法仅在对物理和天文学观察精确性的客观测量中,或者确定这些测量误差源的大小时才会得以应用。[4]该方法从未被认为是或作为鉴别感觉灵敏度的心理物理学方法而使用。但是这种方法对于我而言却是实现上述目标最有用的方法,而且我和福尔克曼(Volkmann)一起用它确定了视觉广度和触觉判断研究的精确性。

从实际的角度来看,最小可觉差法是三种测量方法中最简单也最直接的方法。它能最迅速地达到目标,并且需要的运算也是最少的。其中最小可觉差是根据等价的感受获得的,即使有人可能需要以重复的方式来加强单个判断和计算的准确性,他可能也只需要较少次数的实验就可以了,因为每一次观察本身就是结果。另一方面,用其他方法的时候,为了得出关于差别感受等价性的结论,需要对很多次正确和错误的例子或者误差的情况进行观察,而且这种判断需要通过计算的过程来实现。而最小可觉差法在多数情况下,例如在基础数据的初步确定中以及当一个人没有充足的时间用于观察时,似乎是一种很好的选择。然而,该方法对更详尽的调查似乎不太合适,也不能像其他两种方法那样达到同样高的准确度,因此导致研究者经常发现自己不得不靠多次的实验来获得准确性。最小可觉差法主要的缺点之一是相比于其他两种方法,由于其基于主观判断,因此对于最小可觉的定义会为产生误差留下更多的空间。最小可觉的定义不可能是绝对的,因为不管是第一个时间点即感受差异变得刚刚可以觉察到的点,还是第二个点即感受差异消失的点,均不能非常精确地确定。一个人的不确定区间与其是否知晓这种感受的存在有关。如果一个人不想把最小可觉的判断标准设定得太高,也就是只接受基于重复实验获得的差异结果,而且非常确定地排除了任何例外情况,这个方法就变成了正误法。如果这样的话,我们就有必要频繁使用一个稍小的差异作为刚刚能被感觉的标准,因为总是会出现差异的方向判断错误,或者是判断不确定的情况。关于这些情况出现的频率必须被列入考虑范围。

尽管如此,我们仍可以说,经验表明了人能够就构成微小但能清楚感知到的差异形成统一的标准。这个差异的标准能够在不同的实验中足够精确地重复,即使不是完全地复制这个结论,也可以通过重复实验获得理想的结果。上述评论无论如何也不能降低这种方法的价值,因为它们只是为了说明这种方法相对于其他方法的优缺点。可以说没有这种方法,心理物理学就失去了其最有用的工具。在专家的手中,最小可觉差法通过获得的基础数据证明了自己的价值。像我一样的局外人也有充分的机会说服自己相信它的有用性。

正误法可能是最单调乏味的,如果一个人没有足够的时间和耐心最好不要使用这种方法进行研究,因为少数几个正确或错误的情况不能得出什么结果。尽管如此,通过大量的实验我们能够得到非常不错的结果——实验结果间的一致性较好,并且揭示了感觉领域内的合理关系。虽然需要计算的辅助,但是只有简便易行的操作才能为人们所用。鉴于人们在最小可觉差法中受到简单差异的局限(也就是刚刚可以感觉到的差异),而使用正误法时人们则可以随意选择或大或小的细微差异来测量差别感受性。用这种方法得到的正确和错误次数的不同值可以用于进行专门化的比较。

平均差误法也需要大量的数据取样以及辅助计算。正误法和平均差误法都具有一个很大的优势就是它们依赖概率论已经证明的定理,而且甚至自己就可以为这些定理的发展提供支持。的确,对这些方法的长期实践激起了我非常持久浓厚的兴趣,并且这种兴趣随着概率论的发展而与日俱增。

一般考虑的因素和预防措施

我刚刚简单介绍过的方法可能乍一看去很简单,实际上却是符合原则的,在它们的使用过程中有很多需要考虑的因素和预防措施。它们有的与观察有关,有的则与计算有关;它们还部分依赖于专门化的方法和实验的领域。然而下面的规则或多或少具有普适性。

在这三种方法中不规则的随机波动发挥着主要作用。有些是操作本身所固有的,其他则是对比较尺度解释中存在的主观因素。如果考虑随机影响的范围,用最小可觉差法确定的差异有时看来似乎很夸张,有时却又缩减了很多。一个人为了确保自己判断的稳定性,他必须选择一个原始值,而这个值从大体上说,比不存在这些波动的情况下的原始值要大得多。由于这些随机性因素导致的主要影响,所记录的最小可觉值就增大了。在正误法中,随机性的影响会使人在两次实验中对同一个重量产生或轻或重的感觉。这种情况与随机性的影响相比,较大重量的影响并不是很重要,因为平均下来,不规则随机波动形成更重和更轻方向影响的几率是大致相同的,正确判断和错误判断的次数就很明显地表现为相等了,或者至少与没有或有较少随机性影响的情况相比,正确判断的次数下降了。最后,在平均差误法中,由于随机性导致的刺激程度会时大时小,但如果刺激变化的幅度越大,我们可以立即看到平均差误也会跟着变大。

简单地说,根据这三种方法的情况发现,随机性的作用越大,感受性的测量值越小,不存在能够不受随机性影响而得到测量结果的方法。它们的平均值总是作为一个因素伴随在测量中。只要这个因素保持恒定,也就是只要这些不规则波动保持相同大小的平均值,这种影响就不会妨碍我们得到可比性较强的感受性测量结果。事实上,没有这些随机波动,正误法和平均差误法甚至都不能够存在。它们强调了一个重要的需要考虑的因素,即只有那些感受性的测量之间具有可比性的情况下,才能够满足随机影响均等的假设。这条假设要求实验期间外部和内部的条件完全一致。测量中任何的技术改变,都会直接影响随机因素的作用进而导致数据可比性的缺失。同样地,由于内部条件的可能变化,我们无法假设不同个体或者同一个体在不同时间受到相同的随机因素影响。因此每当发现感受性的测量值缺少一致性时,我们必须确认一下这是真实偏差造成的,还是由于没有达到实验背景可比性的要求。

如前所述,一般来说多次重复实验是必要的,在正误法和平均差误法中,尤其需要大量的测定以得到可靠的结果。这种情况下观察的多样性,与物理学和天文学测量中的同类情况相比,本质上具有不同的意义。使用常用方法形成的几种准确的测量方式,可以相当准确地对物理和天文参数值加以确定。另一方面,在平均差误法和正误法中,大量的测定本身就是准确性的必要条件。每一项独立的观察没有任何意义,几次即使是很严谨的测定也不具有最终的准确性。独立的正确和错误的判断以及独立的误差,实际上分布得很不规则。尽管是在表面上具有可比性的环境下得到的,部分实验数据仍然会产生截然不同的结果。人们经常会惊讶地发现,在实验的主要部分中,这些不规则性产生的结果自身具有相当高的一致性。重点是概率领域的大数定律[5]在这里也适用。只要案例的数量很大,这条定律就可以控制随机性。

没有比普罗透斯更适合用来比喻我们的方法了,他不是单纯而心甘情愿地回答别人向他提出的问题,而是通过不停地变化自己的外形来回避一切回答。不过通过足够长时间的坚持,人们就可以迫使他给出一个答案。在过去我浪费了很多的时间,尤其是使用正误法时,努力从数个小时或是数天的实验中得出结论,但是却不能得到任何肯定的结果。直到我下定决心每天花一个小时在同一个问题上,并且坚持了数月才得到了满意的结果。

且不说无法避免的影响,所提到的,几率波动的范围会影响测量值的大小,随机因素的影响必须用频繁的重复来补偿。如果变异性和感受性保持不变,实验就必须坚持下去,直到我们在不同的时间点都能获得一致的测量结果。这样一来,单独的随机差异就会失去影响,而最终的结果也会独立于随机因素。为了确保这个结论,我们要持续或者重复每一个实验系列,直到主要的部分或实验重复在相关的结果上呈现一致。数量级的偏差自然会很小,因此是可以接受的,这就像我们必须接受物理实验中的观察误差一样,因为作为我们方法中产生的观察误差的一部分,这些随机误差不可能被完全抵消。即使在较小的子集中达到一致,我们也不能完全满意,因为这种一致性本身就可能是由于随机因素产生的。概率论事先为我们提供了一种预估精确度的方法,这里的精确度可以从给定数量的实验试次中,在给定的概率水平上进行预估。另一方面,通过观察次数,以及单独实验或系列观察的某些部分所反映的相似性程度,我们也可以计算精确度的范围。

如有可能,我们应该从一开始就根据预先安排的计划进行实验,以与特定的目标相契合。然而预实验往往对发现测量的最佳条件,以及发现在设计实验程序中应该注意的因素有很大的帮助。如果没有同时观察练习效应的话,预实验也具有优势,即它们帮助我们通过练习的第一阶段,并且避免主实验中部分的早期变异。同时,练习的影响始终都是需要加以处理的因素,留意练习的影响并且从第一个预实验起就要注意发现它的规律,这是极为有效的,因为当练习已经部分发生或者作用达到极限时,后续实验中的练习效应就会很小甚至消失了。

为了避免获得片面的或者只在特定条件下成立的结果,我们应该考虑环境中广泛存在的可能的系统误差。我经常发现在给定条件下看起来相当常见的结果,却与其他环境下的结果截然不同。[6]如果结果没有在许多不同的环境下得到证实,在判定结果通用性之前我会非常谨慎。然而我的这条准则也导致了矛盾。随着人们实验条件的组合数量增加,可以在每一单独条件下实施的实验数就减少了,因此我们只用一种实验条件所得到的测量结果通常具有较低的准确性。所以,当我们一开始想要研究任何事情时,就要立即保持谨慎态度,可以说如果把程序限制在某些固定的变量上,我们就不能得到任何正确的结果。

以重量提举实验为例,我们能够研究对于标准重量改变的差别感受性大小。试想一下,一个人用单手提起某个重量并确定了上述这些关系,那么他用另一只手提起这个重量也会得到相同的结果吗?或者如果一个人用一只手提起了一个重量,而用另一只手提起了另一个重量,可以等价替换为用同一只手同时提起这两个重量的结果吗?如果一个人换了提举的位置,或者提举的方式,或者两个重量及其容器的位置又会怎样呢?提举每一容器的速度、时间间隔、顺序即先提还是后提较重的重量,或者提举的高度会不会导致结果的差异呢?如果按照标准重量从小到大升序排列进行,或者按照相反的顺序实施,实验会得到相同的结果吗?用已受到疲劳影响的手臂或者未受影响的手臂,结果有何不同?根据重量差异的大小,正确和错误判断的比率会发生什么变化?诸如此类的问题很多很多。

所有这些影响的确定实际上属于对重量差异感受性的详尽调查范畴,在关于感受性的其他调查领域中,其他的影响也将会层出不穷地出现,并且需要我们加以研究。每个因素会依次需要一系列合适的实验,来帮助我们对其大小、方向以及对其他环境的依赖性加以确定。

需要比较不同因素的影响时,我们应该依次进行每一项实验,同一天或者每过几天交替进行升序与降序实验序列,并交替使用较大和较小的差异值。通过改变感受性或者其他原因而导致的实验序列对结果的影响,我们可以加以识别、补偿或者仔细考虑。例如就重量提举实验来说,需要将这个过程应用于不同重量标准、不同比较系列、不同的提举重量间差异等等——所有实验实施的条件。

例如,如果用一系列标准重量进行实验,我们可以在同一天先进行一个升序的系列,然后再进行降序的系列,第二天先做降序系列再做升序系列。我们还可以在一天只进行升序系列的实验,第二天再进行降序实验,有条不紊地坚持这种交替对完成实验流程很有必要。

在一些实验中,我会轮流以不同的值开始和结束,而不是一直用最低或最高值开始和结束,按顺序或者倒序进行实验序列就好像数值在一个圆上循环排列一样,在这个圆上可以随意选择起始点。然而预期系列顺序效应的安排所带来的完全补偿作用,可能还无法抵消方法复杂度的提高所带来的负面影响,或者只有在特殊的环境下才有可能实现。

一般来说,在检验系列顺序对实验的影响时必须考虑不同的条件。这些条件可能部分地互相对立和冲突,有时这个条件有时又可能另一个条件占上风。一方面,注意和感觉器官的活动可以说是在实验开始后的一段时间之后才发挥功能的,然后才开始达到某种一致,在缺少练习的情况下尤为如此。另一方面,被试会变得厌倦、疲劳或者在某些条件下由于不断的练习而导致愤怒。最后在一些限制条件下,适度的练习会使被试从一开始就感觉到练习的影响,而且这种感觉会在长时间的实验系列中一直持续。我们要通过专门性的调查对这些影响各自进行分析。这些影响会自动地在每项研究中发挥作用,因此我们应该尤其防范以下几点。

除非本身就是研究对象,否则我们就要很好地避免这些条件造成的重要变化(也就是说当出现严重的厌倦或愤怒情绪时,我们不应该继续实验),并且应该倾向于选择那些练习效应平缓或已经达到极限的实验,而不是那些练习效应很大的实验。然而因为长时间连续的实验,无论每天与每天之间,还是各个系列的时段之间,都必须以具有一致性以及能够在给定的时间内完成实验作为前提,在这方面我们必须根据个体和实验条件选择一个最佳的界限。这个界限必须由每个人自己的判断决定。无论如何,我们应该对这些影响进行准确的测定和补偿,而不是避免这些影响,因为这些影响是绝不可能消除的。对实验试次从方法学角度进行合理的安排,可以很好地控制它们的影响。想要了解详情可以参见关于每种方法的讨论。

正如条件的系统改变所具有的帮助性和必要性,为了探究它们的差异造成的影响,我们需要在最大可能的前提下获得它们的一致性——这些数据可能不容易获得,因此允许数据产生一定的变异——要把所有这些实验结合起来,以得到一套给定条件下的一致性结果。即使可以控制相关的外部条件,内部条件也不可能完全得到控制。感受性本身以及某些其他起次要作用的内部条件中仍然会存在变异性,这些变化的原因既无法加以计算也不能被移除。这个事实导致了两种可能的考虑。第一种是如果我们不能通过数据本身确定其可比性,就不能在没有进行进一步调查的情况下,得出不同时间得到的测量结果具有可比性的结论,即使这些结果是在相同的外部条件下得到的。第二,为了分别检验这些因素,应该把较长的实验系列分解为几个部分,这不仅要根据不同的实验条件,还要根据不同的时段划分。一般来说,比起一次性得到整个未分解实验系列的结果,我们把每个实验片段的结果加以组合计算更为理想。

将实验分解为几个部分有其优势,这让我们能够估计结果的恒定性是变大还是变小,以及获得可能存在的由于练习所带来的变化。尤其是与我们把观察作为一个整体时相比,它从数学角度给我们提供了一个更好地剔除内部干扰作用的机会(这种干扰在较长的实验系列中通常在相反的方向上起作用)——这一点我们在后面关于方法的专门讨论中可以看到。

由于较少的观察次数,我们对部分实验进行数学处理的方法所得到的结果,比我们使用所有实验得到结果的可靠性确实要降低很多。但是根据概率原理可以看到,将实验分解为部分所损失的可靠性,可以在这些部分的结果被整合后得到恢复。因此前面提到将实验分解为各个子群的优点依然存在。

然而另一方面,分解的方法使对结果的处理和报告更加复杂了。在正误法和平均差误法中,子群中所包括的实验次数对所获得的数值具有影响,这可以通过理论和实验得以证实。当实验次数增大时这种效应就会消失。如果实验次数很少时就必须对数据进行校正,总是使用相同的实验次数也有助于减少不良的后果。

由于每一个长期的实验系列都会持续几天或者几个星期甚至几个月,我们应该以尽可能规律的时间间隔安排实验,如果可能的话,在分解时分实验最好包括相同的实验次数,对子测验要进行相同并且均等的安排。这样对顺序的严格遵守,不仅非常有助于使得不同阶段进行的实验具有可比性,并且维持了它们的关系,还可以避免实验条件可能形成的混乱和意外事件。而且用上述方法还能够简化计算和促进观察法的使用,但是如果一次用一种顺序观察,另一次又用另一种顺序,上次的实验试次数那么多,这次的实验试次数又这么多,这次用这种实验条件,下次就用另一种实验条件,完全置严格的规则于不顾,那么观察的有用性在各个方面都会大打折扣。在用我们的方法随时进行的有规则的实验过程中,需要组织和保持的细节规则越多,带来的好处就变得越明显。

此外,如果一个系列的实验持续几天,大多情况下我会把它们安排在一天的同一个时段,因为睡眠或者吃饭所耗费的时间可能影响我们要调查的感受性。这种影响很有可能被忽略,尤其是当背景环境总是相同时。尽管如此,这个因素应该首先被单独进行调查,在完成调查之前就应该引起注意。无论如何,在实验一般规则中必须注意到这条预防措施,即保持实验试次间在时间上的严格顺序关系。

因为根据我们的方法,判断应该纯粹地基于对感觉的观察,我们应该注意判断不能由一个人的想象或者对结果的期望而加以确定——简而言之就是想象的力量。另一方面,我们也不能太过盲目地进行实验以避免想象的可能影响。我们的方法为这两种错误的产生提供了机会。

在能力范围之内,我们应该合理安排实验条件的顺序、观察值的记录以及误差的合并或正确错误判断的加和(还有基于此的所有计算)以排除其他不可避免的失误。由于涉及大量的记录、加和与计算,我们应该采用重复和其他控制方法。在记录和使用数据本身时,一定要注意绝对的诚信。

这几条规则乍一看去并不起眼,但细细看来,其重要性和困难度都大大提升。根据我自己和同事的经验,我不信任任何没有经过重复或其他方法检验的加和或计算。即使重复地再计数与再计算,我们往往也会如校对中一样容易出现忽视误差的情况,尤其是当用相同的方式一项接着一项进行时。在这方面我们怎么强调注意和谨慎都不为过。无论重复或其他检验在操作中变得如何令人厌倦,为了不因应用中的失误损害谨慎观察的好处,这些重复和检验措施还是很有必要的。

然而,即使在进行任何记录前,我们也很容易在条件的系统变化安排过程中出现失误,这种变化通常是有必要的,往往可以通过打乱条件的序列,或者在没有必要改变的前提下继续进行几个子实验。因此我们应该将对这些内容的仔细检查核对作为一项常规措施。

关于记录的诚信问题,我们总想——并不是想要篡改结果——剔除异常值,例如平均差误法中由于注意力不集中而导致的巨大误差值。这个步骤没有基于任何原理,也没有什么限制,但这会仅仅由于模糊的表象就产生武断的决定。如果可能的话这种情况应该加以避免,但如果情况已经发生了,我们就应该使用大数量的实验试次寻求补救。控制随机因素的或然律(正误法和平均差误法也依靠它得以成立)预期到特殊事件很少发生的情况。把这些意外情况排除于计算之外没有什么好处,因为计算本身是必须基于这些与概率有关的定律的。当然在长时间的实验系列中,使注意保持在完全不变的水平是不可能的,即使我们已尽力保证它的一致性。这些意外的变动本身就是随机波动性的一部分,它们是这些方法所固有的,我们不可能通过任意手段改变或然律所产生的影响,因为它适用于大样本。

记下观察的日期很重要,不仅出于我对整齐有序的偏好,更重要的是因为在实验过程中可能发生的感受性周期性和持续的变化,只能用这种方法在结果的汇集和应用中得到识别和总结。我们最好也记下所有的例如温度这样的次要条件,这些条件也可能影响到实验的成败或结果的可比性,即使当这种影响还没有得到证明的时候。就这方面来说,做得过多比做得太少要好。

有两个或更多的观察者报告汇总他们的研究,将对于我们的工作尤为有利。他们能够互相补充、帮助和检查。对于一个观察者而言,想要独自成功且彻底地从事一个单独的感觉领域或其中某一重要方面的研究是不容易的。分工对于这项广泛性的任务而言是很有必要的,正如将不同时间所得的不同结果整合起来一样必要。在某些条件下,由于技术原因需要两名观察者(或者至少是一名观察者和一名助手)的直接合作。最后,在我们的研究领域里,由于存在这样的风险,即研究结果主要依赖于观察者的个性,所以一个观察者得到的结果要经过一人或更多人的检验,这是很重要的。因此根据特殊的环境,分工可以通过观察领域的划分、共同参与同一实验,或者通过整个实验的独立重复等方式良好地执行。

有人可能会说在我们的工作中,通常没有单个观察者的结果会被认为是确定的,即使这个结果是由最可靠的观察者得到的,除非该结果得到另一名可靠观察者的检验,因为一名观察者的可靠性只是可以保证他自己获得结果的诚信和精确性,而不能保证他所观察到结果的可靠性就能推广到其他所有结果。这种一般化的观点认为,虽然存在某些关系和定律事实,但我们可以从一开始就假定它们不仅仅是关于个性的问题。

根据这些观点,可能有人说在共同的任务中几名观察者的合作努力是如此重要,但对于实验心理物理学测量结果而言,它们还只是由观察者在协作者或助手辅助下得到的,这种局限性会导致结果有效性不高。不过,正如对任何观察的独立检验都非常重要一样,在对最小的干扰、尽可能一致的条件,以及对时间、实验条件、实验序列进行了最充分控制的前提下开展该领域的观察也同样重要。我们应该尽量避免对实验条件的先验知识所带来的风险,因为它们会提供想象的线索进而导致结果的歪曲。由于某种原因,在不需要助手的情况下却勉强让其加入是做无用功的体现,正如一部机器的复杂度在不必要的时候也就变成了妨碍操作的特征。在关于测量方法的专门性讨论中,通过关于条件的本质和在这方面的已有经验,我们会有更多的机会回到这个话题上。一般观点不能成为特定规则的坚实基础。

实验的时间与空间关系:常误

由于我们的方法由两个级别的比较构成,连续的呈现比同时的要好,尤其是因为当注意不可避免地在两个级别中转换时,同步呈现几乎不可能实现。因此如果可能的话应该对实验进行合理的安排,因为尽管观察一个紧接着一个,互不影响,但在观察者的记忆中会发生叠加的情况。正如韦伯说过的,用这种方法比较大小的能力是很奇特的,必须等到内部心理物理学未来发展到一定的程度,才能得到解释。现在我们必须以其存在的事实为讨论基础。

因为被比较的知觉在时间上不是完全吻合的,正如它们在空间上不完全吻合一样,我们通过改变感知器官的条件而发现了影响测量的效应。我把这些条件简称为大小比较的时间和空间状态条件。它们是构建精确的感受性比较测量法的主要困难来源。在这些方法的发展中,必须特别注意对这些困难的测查和消除,通过数学和其他流程处理后,将可能获得比初始状态下更多的结果。迄今为止,相对于主观的查证,我们在这个方向上所投放的注意力要少一些。

一般来说我们能够谈及它们所涉及的时间关系:(1)每一个差异大小被感知到的时间,例如在重量提举实验中提起一个重量时,或者在距离判断中判断了一个距离,等等;(2)在感知一个对象大小与另一个对象大小时允许经过的时间;(3)时间顺序,哪一个先被感知;(4)在一个人做出决定之前重复比较次数的多少。通常,习惯会给这些条件带来某种一致性,在个别实验中可能发生的微小差异的影响从长远看来会被平均。在计时器的帮助下,系统的实验实施能够有助于恰当地产生完全的一致性和可比性。通过有意地改变条件,我们可以观察到它们的影响。迄今为止有关这个领域的工作很少。但我在用正误法进行重量提举实验的过程中,仍注意时时顾及着这些因素。

此时我仅仅是泛泛地谈论被比较对象大小的空间关系,这本身没有什么意义,因为比起时间关系,条件在不同方法和研究领域下的变化甚至更多。我只是做一个预先评论,我们需要特别关注感觉器官的配对性质,一方面,因为这在是以单独而不是合作进行的方式前提下,为配对器官的感受性程度提供了比较的机会,另一方面,就其合作来说,因为使配对器官在被比较对象间保持一致状态并不是件容易的事情。

因此,当需要判定的一个容器重量以及所使用方法中的正确次数改变时,差异就因此产生了,这个差异依赖于待比较的重量是在左边还是右边的容器中。这种差异的产生不是因为人的右手或左手具有什么特异功能,而是因为用一只手提起一个容器,另一只手提起另一个容器,两只手很可能具有不同的感受性。如果用同一只手先后提起两个容器,能够看出在两个重量间切换时这只手(臂)会自动改变提起时所达到的位置,因此它提举两个重量的模式也发生了细微的改变。正如我可以通过实际实验所证明的那样,实际情况对结果是很重要的。在通过眼睛使用平均差误法判断距离的实验中,用以匹配其他距离的标准距离是在其他距离的左边还是右边、上边还是下边,都会造成差异。在辨别皮肤上两点间距的匹配实验中,当一个人在自己的身体上做实验时,是用右手抓住代表标准脚间距的圆规,而左手拿着另一支圆规进行判断,还是颠倒过来进行,对于实验结果也是非常重要的,即使当使用带柄的圆规时也是如此,因为在某种意义上,使用圆规的方式可能发生改变。其他情况下也是如此。

时间和空间条件在一系列给定的实验中是保持不变的,不过当需要比较的差异程度不同时,它们可能发生变化,但在最终获得的测量结果中,它们为一个我们通常称之为常误的概念提供了基础。

在重量提举实验中使用正误法,当其他条件都相同时,先提起被比较的重量所在的容器多次,与后将其提起相同次数时的情况进行对比,常误就得到了证明。在一次实验中正确判断与错误判断次数的比率与另一次实验中的相比,会有很大的差异。同样在实验试次数目非常大的情况下,较重的重量放在左边的容器中和放在右边的容器中相比,也存在着差异。[7]当用平均差误法测量通过眼睛或触觉来判断距离的感受性时,由于在经过多次实验后,被试判断结果的平均数与给定的标准距离仍然不一致,促使常误就变得很明显了,但是由于所比较距离间的时空关系逐渐趋于稳定,常误将会沿着正向或者负向发生可见的变化。在这种关系中,我们还发现,正误差的总和(即偏离标准的正向偏差的总和)经常与负误差的明显不同,而不是在绝对值上相等。这个差异很大,不能归于不可补偿的随机误差。

有人可能怀疑这些结果,把这些观察归因于想象的影响。然而,在亲身实验过这些方法后,他会很快相信虽然他尽了最大的努力,自己仍无法逃避这些常误。由于我在这种关系中所观察的结果确确实实地把想象的影响排除了,我必须承认这些实验中非常意外出现的常误,在一开始就令我最为迷惑,在我设法消除它们之前,也是最令我尴尬的事实。即使是今天在这个领域做了大量的工作,尤其是在对重量和触觉进行了测量后,我还是不清楚它们的最终原因,我确定的只有它们存在的事实。之前曾提到那些重复我实验的研究者们,也发现了相当一致的结果。

有人可能会注意到,常误的存在仅仅是将由我们的方法得到的测量结果复杂化,但不会使结果变得不准确。如果误差真的是恒定的,我们可以通过适当的方法将其排除,同时也可以准确地确定其数值,我会在后面针对单个方法的讨论中加以说明。

不幸的是,严格来说,常误的恒定性也不高。关于先提起放在左边的容器的实验,抑或右边或左边距离的判断中,我今天所做的有关哪边较大哪边较小的判断,跟另一天的结论并不总是相同的。此外,即使外部条件保持恒定,内部加工也会发生惊人的变化。这些变化很容易随着我们的方法而变化,但是当谈到最终结果的精确性时我们就会遇到困难,因为由于常误而产生的变异性与平均差误法中纯粹的可变误差产生了混淆,并且污染了可变误差。在正误法中,误差以另一种方式始终影响着测量。因此,我们要投入最大的精力来排除变异性,或者通过对观察的设计或处理尽可能使其无害(类似于化学中的分馏法)。

尽管有这些因素存在,但我们不可以将由常误的存在导致我们方法复杂化的情况视为缺点,而应该将其视作一项重要的优点,因为常误的确定本身就是心理物理学测量可行研究的一部分。毕竟它们的影响对于与感受相联系的因素而言,是非常典型的且应该得到测量。然而同时也存在将它们排除在差别感受性测量之外的机会,这也是我们现在所关心的问题。因此,我们不应该仅仅把常误当作无用的废物丢掉;我们应该根据适用的条件、定律和变量将其仔细地与感受性的测量分开,并且在每一个领域接连开展研究。我们的观察方法应该切实地推进实验技术,因为它们不仅可以将意外常误的发生一般化,而且展示了一些常误的来源,而这在之前几乎没有得到人们的思考。我的《测量方法》中还有更多有关这方面的内容。

在测量感受性的方法范围内,影响常误的实验条件中蕴含着关于其区分力的证据。

对于想要亲自采用我所描述的实验方法来开展研究的人来说,前面的评论远远没有告诉他们需要了解以及观察些什么。因为我有责任对《测量方法》进行更详尽的解释,我将重点介绍后两种方法的本质性特点。我会在此做个简要的概述,之后将更彻底地讨论这个问题。在这个过程中,关于正误法我会以重量提举实验为基础,而关于平均差误法我会以视觉和触觉距离判断实验为基础,因为只有这些才是我可以自由支配的实验领域。接下来的通篇内容中,我使用的术语会根据所涉及的方法而变化。

正误法在重量提举实验中的应用

以下说明的实验(始于1855年)构成了正误法的基础,它一开始是为了更仔细地验证韦伯定律这一简单目的而施行的。出于完善方法本身的兴趣人们进一步进行了相关实验,我曾经很希望对不同条件下方法的精确性进行调查,并提升实验和技术,这在当时是无法实现的,后来当这些调查成为可能时,相关研究规模就逐渐扩大了。有几年的时间里,我把做实验当作一种每天例行的劳动,一天进行一小时直至全部结束。做实验需要系统地进行很长的一段时间,这是为了对各种特定的关系进行调查。用这种方法收集的材料在这卷书里不可能详尽完整地列举。人们为了确定不同时间和变化条件下的重要差异,进行了大量的实验和不断重复的实验系列,这在后面的几个章节里还会提及并给出证明。这项工作同样彻底影响了方法使用的实践过程。

我们的方法依赖于确定正确判断次数与错误判断次数相对于总判断次数的比率,一般我倾向于使用后面这种比率[8]。我假定把正确判断的次数称为r,错误判断的次数称为f,总判断数为n,我们主要关注的比率就是r/n。然而,如果一套特定观察的结果被分成几个子群并且分别加以计算,r和n则分别指每一个子群的正确判断数和总判断数,而v则代表子群的数量,因此vn就变成一整套特定观察的总判断数了。当整个实验系列涉及几套这样必须互相比较的观察时(通常情况都是如此),那么vn就必须再乘以套数以得到整个系列的总数。

注意每个不确定判断应该被分成两半,一半归入正确判断,另一半归入错误判断。为了避免这样一来存在着很多半数,我把每项正确判断记为两次正确,每次错误判断记为两次错误,每次不确定判断记为一次正确一次错误,因为计算r/n只需要计数数据。

P指代标准重量,也就是用以比较的装载在容器里的重量,标准P中是没有D的,D代表一个实验试次中使用的重量增量(附加重量)。我们给h指定一个值,这个值与差别感受性直接成正比,因此与能够与给出相同r/n的D成反比例关系,简言之也就是我们所关心的差别感受性的测量值。

实现这种方法有两种程序方式。根据第一种方式,我们要在反复提起放下载重容器之后决定哪个重量较重或较轻。根据第二种方式,每个容器只提起一次来加以比较,在这之后就立即进行明确的判断,不确定的情况则一半计正确一半计错误。

一开始我总是使用第一种方式,后来我舍弃了用那种方法所做的全部实验结果,而开始只用第二种方式了,因为我确信第二种方式有更多的优势。不仅是因为这种方式与第一种方式相比能够导致更大的一致性,而且它能为消除和确定准确的时间和空间影响提供基础,因为这种影响会产生常误。正如我们将要看到的,只有用第二种方式,这些影响才能合理地相互牵制。

当然用第二种方式比第一种方式更容易犯关于差异方向的错误。即使D恒定不变且总判断次数一直保持一致,不明确判断和错误判断的次数也会相对更大。然而基于在任何条件下都会产生误差的事实,因此这种方式没有看起来那么不准确。任何比率r/n的降低均可以通过使用更大的D来补偿,而这个比率太大也不会对测量起到什么好的作用。另一方面,第二种方式在同一时间内能够产生更多的结果,它也可以使每一组配对重量的结果与另一组完全相同或具有可比性。

如果使用第一种方式,一定不能让被试知道较重重量的位置,为了排除先入观念判断的影响,因此在决定其位置时需要助手的协助。在第二种方式中,根据下面给出的描述,这种预防措施就不必要也不适用了。在对整个情况进行更详细的说明后,这些道理就会变得更显而易见了。

根据给出的规则,容器应该总是被一个接一个地提起。因此,两次配对的提举才能构成第二种方式的判断基础,先提起一个,再提起另一个;因此它是由两次单独的重量提举组成。然而,因为正如所指出的,每次判断都被计了两次,另外需注意总的判断次数应对单次的提举次数进行计数,而不是成对的提举次数。

当我用同一只手提起两个容器时,我称其为单手操作;当我用一只手提起一个容器而用另一只手提起另一个容器时,我称之为双手操作。即使是单手操作我也是用双手加以实施的,因为右手和左手是交替使用的。在每一个长时的实验系列中都会发现右手多多少少——尽管不是很明显——比左手更敏感。然而我们发现单手操作与双手操作相比,其敏感性并不存在显著差异。容器受时间和空间关系的恒定影响在单手、双手、左手和右手操作之间进行了比较,发现四种操作差异显著。然而在此我尚不想就这个问题详细展开说明。

承载标准重量P的容器(与置于其中的物体一起)的设置需要特别的考虑。在我浪费了大量的时间用不完善的仪器进行实验后,最终我才发现了一套令人满意的装置,下面简要描述一下,容器有一个可以转动的圆形手柄,容器内的一系列用于固定重量的装置与容器构成了一个连续的实体。

我想举一个例子可能大家都会比较感兴趣——确实也只有一个例子——关于必须面对的琐碎的问题,这些问题都可能成为这类实验中耽误时间的原因,我先描述几个不完美的安排。

开始我用简单的中空木质圆筒作为容器,我用手从上部抓住它。如果重量很重,我的手就需要抓紧,否则容器会从手中滑落,然而如果重量很轻,手就会抓得松一些。因此就无法保证抓握力度的一致。后来,我在容器上装上了铜手柄,它可以绕着销钉在每个容器底部直径两端自由旋转,因此当提起容器的时候它们会由于重力而自动转到一个位置。但是这种装置很快就磨松了。之后,我把手柄铆接得更灵活一些,但为了节省重量我用薄的黄铜做手柄,这导致当我开始使用更重的重量时手柄会弯曲,因此破坏了实验条件间的可比性。于是我用更坚固的材料代替黄铜片,并抛弃了以前的所有实验结果,之后用新装置做了近一年严谨且艰苦的实验。虽然最后我没有把这些实验结果都抛弃,但至少它们需要重复和检验,因为从一定程度上我了解到所有先前的实验观察现在看来都是多余的——或者可能充当新系列实验结果的附加检查值。在随后的结果中它们都被彻底删去了。在下面的内容中可以发现原因。最初使用的压载物,现在已经被抛弃了,只是还在用于校正重量,它的体积大小是与重量成比例地变化的。因为容器必须要足够大以容纳最大的重量负荷,当提起容器的时候,较小的或者甚至一些较大的重物都会移动。我假想即使不考虑这个事实,当手抓起手柄的时候,容器重量的压力也会落到手的同一点上,因此容器中重量物体的可能移动并不会产生不利的情况。由于需要挨个研究和检验的情况很多,它们均有可能影响实验的进程,我就忘了对上述这个因素进行专门的研究。这个疏忽得到了报应。当我最终有意将重量固定在容器的中间或两边并试图加以比较,从而想要确保并将我的研究引到这一方向上时,我发现两种情况下的结果有很大的差异,不是由于重量的不同,而是由于压力分布的差异。当重量处于中心时,一个容器似乎是最重的,当需要对位置的极端情况作比较时,这种差异是绝不能忽略的。当然在我的实验里发生移动的可能性很小,而且通过大量的实验可能互相抵消。根据主要的结果子群间各自相同,以及后来使用改进装置后得到非常一致结果的事实,这种推测可以得到证实。尽管如此我对自己之前的结果还是不满意,结果的准确性和单独测定的可靠性(即使不是整体的数据)都具有风险,我宁愿费劲再用新装置重新测定,而不愿让事情保持原状。

后面我所提到的所有实验都是根据第二种方式进行的——几乎所有的实验都采用了这种方式,我称其为一般环境或条件。这里省略了第二重要的内容,我留在《测量方法》一书中说明。只有在偏差可以通过研究获得的情况下,才能测得偏离一般条件的偏差。

最后对容器内部的设置仅仅包括了一个具有四个垂直铜柱组成的框架,这些铜柱在底部由水平的横杆连接起来。容器所载重量物(铅或锌块)的边角都是直角并且大小与框架正好相吻合。这些重量物只是厚度不同,这样它们就可以牢固地卡在框架中,而不会在提举的过程中移动了。标准重量P包括容器、重量物和盖子,盖子的中间焊有一个小空盒。两个标准容器经过仔细处理,可认为是完全相同的。附加的重量D被放在容器盖子上方的盒子中。这样附加重量就会固定在标准重量的中间位置。容器的手柄由一个直径1巴黎英寸[9]的木制圆柱体构成,手柄可以绕着轴心旋转。提起容器的时候要用整只手抓住手柄。

根据所使用盖子的轻重,每一容器包括盖子重有300或400克两种条件。300克是最小的标准重量P,也就是当容器的盖子最轻而且没有附加重量时的情况。我所使用的最大标准重量是3000克;我的装置可能不能长时间承受更重的重量。当实验目的并非检验使用不同标准重量的结果时,我通常以1000克作为标准重量。

最常用的附加重量为0.04P和0.08P。

尽管两个容器在构造上完全一致,但在每个系列实验中为了抵消可能忽视的差异影响,D分别加在两个容器上的次数也要是一样的。

我用一块装在实验桌边的横板对提起重量达到的高度加以限制,具体高度为2巴黎英寸9巴黎行。

提起容器的时候要摆脱衬衫袖子的束缚。

提举实验是这样进行的,例如如果在第一次比较中先提起的是左边的容器,下一次就要先提起右边的容器,如此交叉往复。单独的一套实验包括32组连续交替的提举配对或是64次独立的提举,其中D一直是在同一个容器中的。在每套实验做到一半时(也就是32次单独的提举),这个容器的位置从右边换到左边。不同的时间和附加重量D的位置形成了四种不同的组合,构成了所谓的四种主要条件的基础,这在下面会具体讨论。在一套实验中,每一种方法都对应16次单独的提举或判断。每天通常连续进行8到12套这样的实验,每个实验包含了64次的提举,其中会有适当的实验条件(P、D等)变化。对于较长的实验系列而言,有可能持续将近一个月的时间。

提起一个容器的时间为一秒钟,由一个节拍器控制,放下容器用时一秒钟,提起与放下容器之间的时间间隔也为一秒。因此,一次用于进行比较的配对重量提举需要用时整整五秒钟。同样的时间——五秒钟——也是两个实验试次之间的间隔。这个时间用来记录结果。在单手操作中总是采用空闲的那只手进行记录,在双手操作中,则以隔天交替一次的方式确定记录用手。

经过练习,实验者可以跟着节拍器的节奏机械地完成这些操作。正如我的数据本身所显示的,虽然注意指向能够很快地变得一致而机械,但注意本身在每天实验过程的最后阶段似乎没有显著地减弱。对于附加重量D在哪一边的判断,随着时间和空间位置的恒定影响以及随机的不规则影响而发生了不规则的改变:右边更重、左边更重和不确定。可以说这些影响以客观的方式出现,得来全不费工夫,而无须进行选择和思考,均无疑是第一种方式中出现的情况。

为了避免混淆,并且更方便地使分别包含在四种主要条件下的正确判断次数增加,我们应该对记录进行合理的安排,安排的具体方法在《测量方法》中有叙述。

我们暂时结束关于实验外部条件的讨论,现在我要转到有关方法的一般性原理了。

方法的一般性任务是为每一对比较来找到参数r/n的比值——或者如果我们把整体分为v个部分就要得到v个r/n的值——并从这些值里,获得差别感受性的测量结果。我们必须在重量差别感受性的每种研究条件下均进行比较。相关的次要任务还包括明确恒定影响的方向和大小,它是作为实验程序的副产品存在的。

现在看来似乎从一开始就存在着一个根本性的困难。

我们知道,在其他条件相同的情况下,r/n的比率随着重量差别感受性的增加而增大。然而我们还知道,r/n加倍不意味着感受性的加倍,但根据我们先前对感受性测量的概念,附加重量D减半而r/n保持不变,对应的是两倍的感受性。根据这些一般的情况,我们现在可以得到以下的观察结果。

无论你想让感受性低至何种程度,我们总是能够找到一个相对于P来说足够大的增量D,使得几乎全部或全部的判断都会是正确的。即使是感受性最大程度的增加也不会带来r/n的增加,这一点大家一定可以理解。那么在这些条件下,我们就不能以此作为感受性的一般恰当标准,因为即使感受性急剧变化,r/n的比率也会保持恒定或几乎恒定。另一方面,假设感受性大大地提高了,那么一个极小的附加重量就足够使r/n接近n/n,我们也会相应地判断出感受性的增量。因此我们不得不回到之前对测量概念的定义,它是事物所固有的本质。但我们应该如何据此来重新改进我们的方法呢?

例如,假设我想要比较右手和左手对重量的差别感受性。我会多次提起同样的标准重量P和同样的附加重量D,左手(L)和右手(R)交替进行。然后我会针对左右手获得不同的比率r/n,这使我可以判断两只手的感受性孰高孰低,但是我无法得到它们二者感受性测量的比较结果。现在的问题是,需要获得能够导致左右手产生相同r/n比率的增量D的不同大小。

如果我只想要研究不同P值下单手的感受性,或者双手的平均感受性,也会出现类似的问题。正如从经验中可知,较轻的P相对于较重的P而言,增加相同的重量D会导致更大的r/n,但是问题的重点是在不同的P值下,找到使r/n恒定的不同D值,以使得可以用D的倒数表示不同P值的感受性测量结果。

从这点看来,迄今所用的正误法确实只适用于给出一个多了还是少了的指示,而不是具体可比的感受性测量值。尽管如此,还是可以发展这种方法来获得测量结果。

目前最直截了当的方法是使用试误的程序。我们可以在测验的条件下改变附加重量直到得到相同的比率r/n。然而由于需要非常多个试次,甚至才能为同一个D找到准确的数值,这个过程对于每一个被研究的D值都需要投入大量的观察,因此不仅会非常枯燥,而且即使经过这么多枯燥的试次后也不一定会得到准确的结果。

我们当然可以在紧邻的两个数值中插入数值(即插值法)。在很长的一段时间中我都是用这种方法的。然而即使这种方法也只能部分地克服不方便和不精确的问题。幸运的是这些缺点可以简单而彻底地被克服。

由每一个特定D得到的r/n值,可以用于推测需要什么样的D来得出其他的r/n,只要P和其他条件是恒定的,而且r/n是根据足够量的n个试次而获得的。使用的公式原则上是准确的,在实验测量中是成立的。虽然公式基于数学分析,但它也很容易付诸实践。因此可以用来计算我们想要得到的恒定的r/n。事实上,基于任何一个足量的n个试次[10]获得的比率r/n,我们都能够不用计算而在表格中直接查到相关差别感受性的测量值。这种测量与我们前面的定义相符,我会马上说明怎样使用,不过首先要对这个公式的推导过程进行简要说明。

在我改进方法的过程中,对概率论的兴趣一次又一次地使我得以向前推进,在其中我想到了以下几点:(1)根据我们的程序,差别感受性的测量参数可以通常由标为h的值表示,根据高斯的观点,只要精确性是仅仅依赖于类似程序中差异知觉的感受性而得到的,那么h就可以提供观察精确性的测量;(2)实验确定的比率r/n和前面提到的h与用以确定r/n的重量增量D——r/n和hD——之间应该存在数学关系,这可以使我们从r/n得到hD,因此通过除以D可以得到差别感受性的值h。

首先只是理论上确定这种关系,其次需用实验加以证明,最后将其运用于我们的方法实践中。我相信我已经圆满地完成了这三项任务,这样正误法就应该能够达到真正的测量方法标准。

我们要把相关的数学推导过程插入下面这个独立的部分中,因为就方法应用的实践目的而言,并没有必要将其中的数学原理解释得非常透彻。实验证据主要表明了在假定感受性恒定的条件下,当找到给定D值对应的r/n值时,如果存在一个与第一个D值成比率的D,那么前者的r/n值(根据我们的数学关系加以计算)在后者的实验中是可以再测得的。当然允许由未加补偿的随机因素引起的小规模偏差存在。或者用同一证据的另一形式,我们可以表明在感受性不变而D不同的条件下,基于我们确定的数学关系,通过实验确定的r/n能够与计算得到的hD值相对应,而根据我们表格中的数据,hD与D值是成比例的。[11]作为证据,我进行了一项扩展的实验研究系列,这在《测量方法》中有相关论述。我们在第九章和第十二章中还会看到一些相关数据。

因此可以用纯实验的方法呈现这个问题,这样任何人,即使没有理解操作规则的推理过程,甚至没有数学背景也能够使用这种方法来进行测量。他还能够满怀自信地加以使用,因为这种方法的数学推导已经得到了著名的数学家权威的认证,并且通过了经验的检验。

正误法计算的公式与数学推导

到目前为止还没有人提出当附加重量D保持恒定时,如何确定比值r/n怎样随着标准重量P的大小而变化的先验原理。这更应该属于需要通过实验加以确定的原则性问题。另一方面,我们需要根据概率论的原则,确定当标准重量P保持恒定而附加重量变化(差别感受性h保持不变)时,r/n将如何变化(假定有很大的n)的先验条件,或者如果影响重量增加感受的任一外部变量发生了变化时,通过D如何能够一劳永逸地预测所有变化。如果可以实现这些目标,同样的原理对于我们确定观察误差相对数量的变化也是适用的,其中观察误差的大小会变化,而观察精确度保持恒定。然而我们所关心的r/n与Dh的关系却不能用有限的表达式加以表示,而是必须表示为一个整体,出于实际操作的目的必须制成表格,制作表格过程如下所述。

从现在起用θ表示整式,它在这里的使用与表示相对数值或限定大小的误差概率一样。唯一不同在于重量增量的一半D/2被通常表示为Δ的误差项代替。我们写作

公式中,π是鲁道夫常数[12],e是自然对数的底数,t=hΔ=hD/2, h是高斯概念系统中精确度的量度。在很多地方,都有可以查到与给定θ值对应t值的表格,例如在1834年的《柏林天文年鉴》(Berlin astronom.Jahrb., pp.305 ff.)中,给到了t=2.0的范围值;在一份特殊的且已绝版的石印表格中,给到了t=3.0的范围值。因此,给定对应于r/n的θ,我们可以同时确定t或hD/2。

我们现在马上要开始证明下面这些等式,它们是我们方法的基础,通过这些公式可以由r/n得到θ。

因此

只需按照如下的要点来考虑r/n和θ的关系就足够了。我们通过等式(2r/n)-1=θ就能根据观察得到的r/n计算出θ值,在综合表中可以根据θ的积分值查找对应的t=hD/2的值,然后用这个值除以D/2来得到h。或者,如果我们将在正误法中取的h定为平均差误法中的一半(接下来我们就是这么做的),我们可以直接除以D。为了避免把每次观察得到的r/n值单独换算成(2r/n)-1,我把积分表中的θ进行了转换,转换后的表给出了θ=(2r/n)-1和t的关系,可以直接从r/n和t列查到。后续的基本表是用这种方法推导出来的。

我向莫比乌斯(A.F.Möbius)教授展示了r/n和θ关系的数学推导,并且通过了他的检验,因此可以认为是精确无异议的。他还帮我进行了更加简练和精确的推导,相比之下我的公式就有点拙劣了,不过最后得到的结果是一样的。因此下面我想再展示一下他的推导来取代我之前的推导。

莫比乌斯的推导使用了一条直线两个部分的偏离为例,而不是两个重量差异的例子。二者的原理是相同的。

一般把

作为测量误差落入-Δ和+Δ区间的概率,其中h和前面一样代表测量精确度,π是鲁道夫常数。

如现在给出

A  C  B

作为一条直线上的三个点,C接近于但不是正好处于A和B的中间。用正误法进行n次观察的过程中,我有a次判断A比B更加接近C,也就是CB>CA。我还判断n-a=b次B比A更接近C即CB<CA。CA<CB和CB<CA的可能性随着a和b相应地发生变化,两种可能性本身就是a/n和b/n。

如果我们用

A  C M  B

表示一条线,M是A和B之间真正的中点,C紧靠M在A的一边,那么我的判断就是正确了a次而错误了b次。换言之,我相信点C在M和B之间的次数为b。在b次的判断中,每次我都错误地判断了C的位置,我错误地认为在往B的方向上,线段CM相对于M而言,是靠近B的一边的。因此我每次在同一方向都犯了一个>CM的错误。错误的概率一方面可以用=b/n的方式表示,另一方面可以表示为

其中CM是正数。现在

因此

接下来可知

最后,因此有:

这两个a/n和b/n的表达式也可以这样解释:在对直线ACMB的n次观察中,只有A和B是确定的,一个人有a次相信M处于C和B之间(正确判断),有b次(错误)判断M位于A和C之间。然而综合的区间对于a/n是-hCM到∞之间,对于b/n是-∞到-hCM之间,这就类似于线段CB与AC。因为如果我们把ACMB视为正向而M作为起点,C和B的横坐标就变成-CM和MB,A和C的横坐标就分别成为-AM和-CM了。然而AM和MB相对于CM而言,可以视为无穷大。

接下来是莫比乌斯的推导。

为了将直线的例子转换为重量的例子,我们不得不用重量P代替AC,用P+D代替BC。AM=(AC+BC)/2的长度现在成为P+(D/2),线段CM因此对应于D/2, D/2代替前面公式中的CM。此外,a/n等于我们的r/n, b/n等于我们的f/n,这引出了以下表达式,可以直接应用于我们的方法:

或者如果我们将积分

用θ简化表示,那么

前面提到一个事实,就是正误法的精确性或感受性h是平均差误法的一半,但这不影响我们对正误法的应用,因为在这种情况下只有相对值t或h是重要的。必须考虑这些因素,以防有人想要通过正误法比较由平均差误法所得到的结果的绝对值,这样可能要用到θ的积分。对可能误差或r/n或t的变异性的预估也是如此,但这里我们暂时先不讨论。

现在我们转到实践问题上:

我们所涉及的判断程序仅仅是由以下的查表过程组成的,我把这个表称为正误法的基本表,t=hD的值对应于实验确定的分数r/n(如果r/n的数值不能在表中准确地找到,则可以使用插值法)。然后将这个数除以D来确定h的值,即我们想得到的感受性测量值,或者当D恒定时,我们也可以通过获得的t=hD值并使用这种方法直接进行测量,这在许多情况下是非常方便的。

当没有恒定影响(除了恒定重量增量D)存在时,或者这些影响在确定r/n的过程中已被实验设计补偿时,这条规则足以判断哪边的重量是较大的。当情况并非如此时,误差的恒定来源就会混入t值,其现在不再只是依赖h和D(D只表示附加重量),而且还依赖于这些无关变异来源。即使D是恒定的,如果这些变异性的次要来源与D不能保持相对恒定,简单地用t除以D自然也不能让我们得到正确的h,而且t值不能代替h作为可比性的度量。然而即使这样,合理安排实验程序,使用适当的基本表是校正的最简单方法。后面我会分别加以说明。

注意:(1)因为只涉及t或h的比率,我习惯于将t的制表值中所有的数字看作一个整数,而忽略它是小数的事实。[13]下面这张表中所引用的计算值总是采取这种形式。(2)只需要将r/n大于0.5的值制入表中。如果出现小于0.5的r/n,就如下面将要讨论的这种情况中出现的那样,这个情况是实验中一个常见的现象,尤其是发生在D不太大的给定实验条件下,我们必须使用f/n=(n-r)/n而不是r/n,在表中名为r/n的列下查找,并把对应的t值加上负号代入确定hD、hp和hq的表达式中,关于hp和hq后面会说明。(3)表中r/n=1(也就是所有判断均正确的随机事件)对应的t值是无穷值。严格来说,这假定了观察到的数值是无穷的。一般来说我们应该使D足够小而n足够大,以保证这种情况不会发生。

正误法的基本表

译者注:表中的差异值指的是t的差异值,为后一个值减去前一个值的结果,如费希纳前文所述的,他不再使用小数点,而直接用整数形式表达。下同。

我们使用基本表最简便的方法是一劳永逸地取n=100,也就是我们每次分别为100次判断确定r值。较长的系列以100次为单元进行拆分,求出每一部分的t值之后分别加和与求平均值,出于其他原因,这种部分处理的方式都是必需和有用的。之后的唯一要做的就是删掉r/n列中的零和小数点[14],以直接找到通过实验得到的r值。我们可以走捷径,不仅可以通过拆分以形成r/n,而且也出于插值法的需要,因为我们可以在表中精确地查到所有实验所需的r值。

如果我们不将100选作n值,我们就无法在基本表里精确找到合适的r/n值。我们可以很容易地在不同列差异值的帮助下,通过简单插值法确定对应的t,因此我们产生的t值误差大约只是0.0001至0.0002之间,而转换成r/n的误差大约是0.85。这个误差不重要,因为这种观察结果中的第四位小数均可被视为是无关紧要的。然而,采用更大的r/n值,我们会在插值中产生更大的误差,r/n越大误差值也会越大。因此我附加了几个表格来补充表格的最后部分,其中r/n值的间隔更小,通过这些表我们可以为更精细插值的获得提供充分的基础。

补充表格Ⅰ

补充表格Ⅱ

表格的数字并不意味着n=100有着特殊的优势。就我个人来说,我总是倾向取n=64而不是n=100。我把所有较长的实验系列分成了n=64的几个部分,分别给这些部分加上了t值,并且由此得到了总数和平均数。我的理由是,64作为2的幂,比起100可以被分成更多的部分,我最初在划分时想要保持开放的方式。后来我坚持使用这个数字,为的是使所有实验系列具有可比性,正如在后面会提到的,由于基本n值的大小对于测量结果的大小有特定的影响,应该始终保持可比性。因此我常用基本表中的r值是与n=64相对应的,这是为了避免将分数r/n转换为小数以及出于内插值计算必要性的考虑,这些在前面的表格中都有描述。下面这张表格是供那些和我有同样需求的人使用的。

出于对各部分实验条件进行比较的目的,我需要将较长的实验系列作为整体或者划分为各个较大的部分,这样可以较方便地进行处理,因此我还建立了一个n=512的表格,因为我的所有系列均是由64次判断的倍数组成,64是512的1/8。n=64、2×64或4×64的表格也可以由此得出。这里需要重新提及引用的θ积分,凭借关于r/n和θ的等式,专家们能够毫无困难地发展出以任何n为基础的表格(通过插值法的帮助)。无论选择了哪个n值作为基础值,只要所有的实验都保持同一基础值,我们都可以很好地完成这个表格。较长的系列可以被分成同样长度的几个部分,我们可以一直都使用这些数值来设计表格。

基本表 n=64

假设感受性h保持恒定,那么P也就不变(因为h随着P发生变化,而不随着D变化),我们还可以使用基本表查到根据已有的D和P计算出的r/n比值,据此推导出D,D值对于计算其他所需的r/n是很有必要的。只要用r/n值在表格中搜索相应的t值即可。我们还可以得到下列比值:一个t=hD比另一个t=hD的值,等于相应的这个D比另一个D的值。反过来看,给出一个D值,我们就可以从表中找到属于这个已知D值的r/n值,只要h保持不变。然而,我们的方法并不是轻易地就能被投入实践,因为如前所述,最后所有的结论都依赖于h的确定,或者有时只需要t即可。

我们不要忘记,如我已经解释过的,表格的便捷使用只有在给定条件下才成立,也就是轻重表现的估量只依赖于D,与随机性无关。现实中它还依赖于时间和空间因素的恒定影响。事实上,t的制表值不仅仅是hD,而是h(D+M),其中M是除了D之外的所有恒定影响的代数和,它也决定着轻重表现的判断选择。把这个因素纳入考虑,我们的实验任务将把测试和对它们的评估综合起来,这样我们就能通过使用前面的表格达到补偿M值的目的,总是可以返回一个与没有外部资源干扰出现的情况下相同的hD值。

我们先前提到的一般操作方法时刻都在以改进程序为目的而进行着调整。我们搭配了不同的时间和空间顺序,产生了四种主要的实验条件,较重的重量以完全动态的方式在其中展开轮换:(1)在左边的容器中且先被提起;(2)在左边的容器中且后被提起;(3)和(4)对应于在右边容器中的情况。为了将这四种主要的条件区分开来,我们将它们分别定义为,较重的重量:

(1)在左边的容器中先被提起。

(2)在左边的容器中后被提起。

(3)在右边的容器中先被提起。

(4)在右边的容器中后被提起。

我将四种条件依次简写如下:

Ⅰ>,Ⅱ>,Ⅰ<,Ⅱ<

每种条件下对应的正确判断之和变为

r1, r2, r3, r4

将从表中的查得的对应t值(不能再简单地与hD等同)除以n值求得的商,分别记为

t1, t2, t3, t4

假定所有主要条件中的n值均相同。

如果我们将四种主要条件中的t值加和然后除以4,就能很容易发现M能够由于完全补偿而抵消。因此我们可以得到

除以D就可以像前面一样得到纯粹的h值。只要D是恒定的,我们还可以用hD或4hD本身作为测量结果。

这种对M影响的完全补偿法是基于以下理由的。根据讨论,提起重量的时间顺序和容器的空间位置影响轻重表现的判断。我把由于时间顺序导致的影响称为p,而将空间位置导致的称为q。如果是相反的时间和空间顺序,那么p和q就会带有不同的符号。我们希望给既定位置的符号是任意指定的,只要我们是用符号表示相反的位置。例如如果我们在第一种条件下把p和q取为正值,那么在我们的四种主要条件下,第一次的M就有值+p和+q,第二次为-p和+q,第三次为+p和-q,第四次为-p和-q。因此以下为t=h(D+M)在四种主要条件下的对应值:

t1=h(D+p+q)

t2=h(D-p+q)

t3=h(D+p-q)

t4=h(D-p-q)

这四个值相加然后除以4等于hD。第一个和第四个等式相加(同样第二个和第三个等式相加)再除以2也足以使我们得到hD。

通过加法和减法,同样的等式适用以计算hp和hq,进而得到p和q的值。首先:

通过用这些hp和hq的值除以前面计算出来的值

可以得到p和q对D的比率,将这些比率乘上以克来表示的D值时,就可以得到以克为单位的p和q值。每个hp和hq,以及hD值均可以通过任两种主要条件下得到的t值来确定,这样不同计算方法所得到的值可以相互进行一致性核对。

依赖于作用的方向,p和q在这个过程中可以取正值也可以取负值,这样它们的方向和大小就能同时得到确定。根据p和q被引入基本等式的方式,我们必须对它们的符号意义加以说明。

整个问题的最终解决方案以及由其衍生出的次级要点,均通过以下等式对h、p和q进行确定:

当然,只要整个过程使用同样的参数值,我们就可以像数学方面的专家那样,频繁且轻而易举地将诸多部分获得的结果进行组合,或者乘以更大的倍数后进行相互比较,例如hD、hp、hq或4hD、4hp、4hq等等。

我在所有重量提举实验中对差别感受性的确定都是用这种方法得到的,后面我会再加以描述(第九和第十二章中)。它完全消除了p和q的影响,同时使获得这些效应的准确值变为可能。我在此对这个问题进行的只是粗略描述,在上述两章中都采用一种以上的方法进行了解释和证实。大家在《测量方法》一书中可以看到对这个问题的全面且更加有条理的讨论。

未来当需要使用到符号时,我将还是会遵从提到的符号定义一致的标准,当感觉第一次提起的重量较重时,就将时间顺序对提举的影响p记为正值。如果不考虑D的作用前提下,第二个容器更重的话,我就将其记为负的。当感觉左手的容器更重,我就称空间因素的效果是正的,当右手上的容器更重的时候,就称空间因素的效果为负。例如,如果我说,p的影响是+10克的话,这就意味着,除去真实情况下两个容器的轻重关系,第一个容器比第二个容器感觉上要重10克。第十二章中我们会给出这样的例子。

尽管时间的和空间上的关系保持一致,但是p和q仍然可能因为内部的因素而导致变化,由于这些客观的条件只能根据人的主观外在表现才能反映出来,出于未知因素的影响,导致这些条件都是富于变化的。

由于内外条件的变化,p和q的结果可能会发生很大的变化。我在各种不同条件下进行的所有实验结果都显示,如果不排除标准重量的轻重、先前手臂疲劳或者单双手操作实验范式对p的影响,就会导致p朝负值方向发展,表现为正值的绝对值减少或负值的绝对值大小增加,或者会从正值变成负值。结果进一步表明,在其他条件一定的情况下,右手单手操作相比于左手而言,p和q值中正值更多,负值更少。结果最终还表明,这些作用的大小和方向本质上并不依赖于D的大小。更多的细节我在这里就不赘述了。

在计算t和获得总体的r/n之前,也可以通过增加四种主要条件的r来补偿p和q的效应,具体方法是在基本表中查找一个共同的t值来代表hD值。这种范式有时候是可以满足要求的,但是对于我来说,这是一种不完全补偿,因为通过这种方法,人们不能得到准确的hD值(并因此也得不到准确的h值),这些值是在不出现上述效应时才能获得的,这一点我即将会说到。

例如我们假设,p的效应会在第二次提起的重量中更为显著。同样我们还夸大地假设,这个效应是不寻常的,甚至是无穷大的。很明显,给其中一个容器增加有限的D对判断没有特别大的影响,第二次被举起的容器总是会更重。那么如果第一次举起有D的容器的次数与第二次相同(就像我们的实验中的那样),并且将两种顺序条件下的结果都加到一起,就会如同在一般条件下人们获得正确和错误次数相等的情况一样,这种情况中可以假设其中p的影响被消除了,对和错的次数就相等了,就好像是重量的差别感受性是0。就好比由于这个因素的作用,对D的感受性似乎被清除了。另一方面,如果提举的时间序列效应不存在,D在两种不同的时间条件下应该被感知为相等的。这样根据容器的空间位置,就能确定正确判断占优的水平程度(与重量的大小和感受性状态成比例)。因此我们不能认为,相反时间序列导致的正确判断次数增加,是与完全不存在时间序列影响的情况下相等的。但很显然,越趋近于极限,这个因素的效应就越强。p的情况同样适用于q,也同样适用于这两种因素同时存在的情况。另一方面,为了能够分别使用不同的r而产生不同条件下的t,我们设计了一套完全补偿程序,它将会有效地得到与没有p和q的效应情况下相同的hD结果,因为这种效应可以被这种实验操作所消除。

很容易看出,D的影响肯定也能与p和q一样得到消除。当D非常大的时候,无论是提举的顺序还是左右手条件的影响几乎都不起作用,判断仅仅会受到D的位置影响。为了保证空间和时间条件下D被觉察的次数相等,就像我们的实验程序中的一样,就要求第一次和第二次提举的位置以及左手和右手使用的次数相等,或者与D的增幅相称。

虽然这种关系在理论上很容易表示,但是我必须坦白,我仅仅是通过经验得出这种关系的,因为在实验中即使不通过计算也可获知,由于标准重量的作用,p的影响有时候会很大,以至于我们提及过的被忽略的D就变成了可觉察的。经过计算,差别感受性之间的函数关系发生了改变,因为在计算t值之前,我总是会对属于不同空间和时间条件下的正确次数进行加和。

我们很容易看出,如果不允许将这四个主要条件下的情况分开,通过这种包含了反复交替提举容器的过程,只能得出一个不完全补偿的结果。

此外,当人们只关心是“多”、“少”还是“相等”的判断,而不关心如何对差别感受性进行真正的测量时,或者当他需要假设在研究过程中,p和q的效应没有或者几乎没有重要改变时,就可能会免掉一个完全补偿程序。当然在这种情况下,人们不仅会将这四个主要条件组合在一起,还会认为我们不必一开始就将数值直接转换成t值,因为对于由特定的n个试次构成且D为给定值的实验中,相等的r值——或者更大或者更小——表示的是一个相等的,或更大或更小的差别感受性。当然,我们必须牢记这个程序仍然是取决于p和q效应的恒定性的。就像前面已经提及过的,任何大量规则且恒定的干扰作用,都与大量的不规则随机波动一样,有着同样的结果,也就是它减少了正确的反应次数(r)。因此,当恒定效应更大时,并且由此增大只在完全补偿条件下才会消失的错误结果概率的情况下,假如存在相同的,甚至是更大的差别感受性,四种主要条件组合得到的r值就会被证实是变小了。由于内部因素影响所导致的巨大变异性,即使是仔细控制了外部条件的可比性,我们永远都不能完全肯定以下事实,即用于比较的结果的确是在具有可比性的条件下获得的。完全补偿(也就是将这四种主要条件分离,之后分别转换为t值)虽然会更麻烦,但是能够保证更高的可信度,而对r单纯的比较仅能用于粗略的估计和初步的测量。

没有对相同次数的观察和四种主要条件的规则轮换进行系统的使用,就不能对p和q的恒定效应进行准确的消除与确定,这样的使用可以预知附加重量位置的规律性变化,并且形成稳定的认识。这种认知必然会影响到的第一种程序方式的判断,其中曾提及用于计算r的每次判断,都仅仅是在来回反复地提起容器之后才做出的。上述影响在第二种方式中不存在,因为其中每一组被提起的重量都会影响r,但大家知道结果也会受随机因素和容器时空因素的影响。因此对D位置的认识不能用于推测某一组特定重量的判断结果,人们必须通过客观证据对感觉进行判断。通过我的实验结果表格可以证实这种观点。单手判断的结果看似不规律分布,但从整体上而言,它由p和q的效应决定的频率,和由D的位置决定的频率是相同的(有时候前者甚至大于后者)。事实上在许多的实验系列中,在某些主要条件下,尽管可能会提前预知D的位置,但仍会出现错误的次数远远大于正确的情况。

相应地,我们在使用第二种方式时不需要助手协助,虽然他在第一种程序方式中是不可或缺的,因为他必须在观察者不知情的情况下改变附加重量的位置。事实上,他不允许在第二种方式中出现,因为在这个步骤中,对附加重量位置进行稳定的个人性质的检视,以及在重量提举过程中不被打扰地保持同等的注意状态,这两个条件缺一不可。

我按照第一种方式进行了长达数月的实验,在转换到第二种方式之前,我很谨慎地让自己尽量忽略附加重量的位置,或者忽略任何有关其位置的信息,现在我已经可以很好地比较这两种方式了。当然,如果针对这种程序方式中必须出现的与附加重量位置有关的信息,我没有充分的信心保证它没有风险的话,我是不会停在第二种方式而不再进行其他尝试的。

如果有任何人根据这种方式去进行实验,而发觉这些解释不足以排除对我实验推理的质疑,那我必须请他们去参考《测量方法》一书了,那其中关于这个实验方法性质和方法本身进行了详尽的说明,同样还给出了实验的结果,它们可以有效地反击这些质疑。在任何情况下,只要有人按照上述程序方式进行了仔细的个别研究,我都允许他们存有反对意见。

出于计算的目的,我不仅是有规律地将实验分为四种主要条件,而且值得一提的是,我还根据时间段和其他条件进行了分组。通过这种方法,每个单独的t值都是基于64次简单的重量提举实验试次而获得的,再将它们组合之后加和或平均,而不是从总体的n个实验试次中推导出每个主要条件的t值。这样操作的原因我已经提及多次了,并且也在《测量方法》中有详细的讨论。

当然,这样计算会相当不方便,特别是实验系列较长的时候。然而,它却能减少由恒定效应引发的有害变异。

人们还应该考虑到这样的情况,即从部分结果中推得的hD值,多多少少会比从总体中计算得来的hD值要大——当各部分的规模越小时,两者之间的差异就会越大。我可以针对这一点给出理论上的解释,但现在我想先忽略这一点。为了保证这些数据的可比性,就要求必须从拥有相同数量n的各部分实验进程中获得推论,而且被使用的n也应该被提及。在我自己的实验研究结果中,关于简单提举的次数n一直是64,除非有其他特定说明,该结果之后将会提及。

关于D的大小(应该选择合适的D的大小,不应太大或太小)、对结果意义的检验和一些其他小的要点,我也提供了一些实践方面的建议,这些会留到《测量方法》中再讨论。

平均差误法在视觉广度和触觉中的应用

关于实验方面,我们注意到在视觉距离的判断中,为了避免由圆规两脚分开的角度带来的其他作用,最好使用平行线索、平行点或者间距较大的两点来标志所要估计的距离,而避免使用间距较近的两点,除非事先设定了这样的实验目标。

在触觉实验中,我用手柄将两根英式缝纫针[15]固定在一起,制作成圆规来进行实验。实验过程中,我握着圆规的手柄[16]。规脚的末端只是稍有些钝或者根本不钝,这是为了能在尺子的刻度上准确地进行读数。只能轻轻地用规脚末端刺激皮肤,避免过于强烈的刺激。触觉的大部分实验都是由我在自己身上完成的,但是出于比较的考虑,我也请了一名助手来协助实验。在这种情况下,发现常误变小但可变误差大大增加了,这是因为由他人操纵另一支圆规,就会导致缺乏一个统一的使用标准,这就使得随机因素的作用增加了。我马上会说到如何消除这些误差。

在估计视觉或者触觉广度中,使用到所谓的标准距离,指的是在实验过程中保持不变的固定长度值。可变距离是被试估计出的与标准距离相等的广度,一般来说多少存在着误差。每段可变距离与标准距离之间的差异,我称之为原始误差,用δ表示以区分于纯误差Δ。

正如讲到的,由很多观察得到的广度平均差误,一般会与标准距离有非常大的偏离,正的原始误差之和与负的原始误差之和的绝对值不相等。其中一者会比另一者的数值大很多。为了恰当地应对这种情况,我将平均差误对标准距离的偏离视为常误,并将单个判断相对于平均数的偏离视为纯粹的可变误差。我将这两种误差当作是原始误差的一个替代品。因为每个原始误差从代数学意义上而言,都是由一个常误和一个纯粹的可变误差构成的,所以我称它们都是原始误差的成分。常误用c表示,纯粹的可变误差用Δ表示,所以一个给定的实验系列或实验部分的纯粹误差总和用∑Δ表示。只有纯粹误差可以用于测量差别感受性,并且只有根据它而非原始误差才能得到用于测量的平均差误。常误依赖于被比较刺激的时间和空间位置的恒定效应,也依赖于主观条件影响判断的形式。

在《测量方法》里我会讨论到,将原始误差拆分为各种成分是必要的,这既出于数学上也出于理论上的原因。在原始误差和它的组成部分之间同样存在数学上的关系,对这一点的认识在我们使用这一方法时是很有用的。这个问题同样也会在《测量方法》里讨论到,在这里我仅限于讨论这种方法中最关键的细节部分。

目前的重点问题在于要认识到可变误差和常误之间的基本独立性,就像实验中显示的那样。当被用来比较的距离改变了相对位置或者序列发生了改变,常误也因此发生了改变,那么两种情况下的原始误差之和间可能常常会存在着很大的差异,而实际上纯粹误差之和却是相同的。有一个例外就是这些结果都伴随着不同且不规则的平均随机波动效应,但是在我们的实验中这种情况不多见。因此在测量常误时,似乎并不需要仅仅为了测量可变误差,就去通过改变刺激位置和序列重复进行这些距离的比较,尽管这种做法也是不允许的。在合适的方法的前提下,通过组合在不同的位置和序列条件下获得的数值,我们就能根据它们的来源分离出不同的成分,就如我在《测量方法》中详细描述的那样,并且这对于专家而言也是非常浅显的。这种处理从本质上而言,与在正误法中分别测量p和q效应的思路是一致的。

在视觉广度的判断中,必须要区分左右或者上下的情况(取决于这些距离是水平的还是垂直的),以及标准距离与可变距离间的位置关系。在触觉的实验中,用右手握住作为标准刺激的圆规,而用左手握住作为可变刺激的圆规,也可以反过来;抑或假若一个人在实验中是双手重叠操作的,那他必须用同一只手握住两支圆规,其中一支圆规位于手的上半部分,另一支位于手的下半部分,也可以反过来。另外,我也已经完成以时间为变量的触觉实验,具体是指标准刺激和可变刺激哪个先呈现。

当从纯粹的可变误差中获得平均误差之后,就要面临两种形式平均误差的选择问题了。其中一种,我就将它命名为“平均误差”(或者,为了做出区分,将它命名为“简单平均误差”),记为ε,由纯误差的简单平均得来,公式为:

其中m表示纯误差总和中的误差数量。另一个,是天文学家所称的“平均误差”,但是在这里,我们要称之为“二次平均误差”[17],用εq表示。它的计算是先将每个单误差平方,然后将这些平方的总和∑Δ2除以m,再将所得到的商开方,公式为:

总之,它是误差均方的开方。如果误差的数量够大的话,根据或然律,这两种平均误差的比值是一个常数,可以形成以下公式:

其中π是鲁道夫常数,所以这个二次平均误差大概是简单误差的5/4。这一点我对自己很有信心,因为我进行了大量的系列实验,结果与我的这个公式非常一致,通过足够多次的测量,发现只有在小概率情况下结果会偏离正常情况。相关证据在《测量方法》中给出了。大家也可以在第九章中看到一项证据,是关于视距判断的。从那项结果来看,似乎我们使用的是εq还是ε并不重要。然而,有一个事实可能会影响到我们的选择,即ε在计算过程中的精确性相对而言是更差的,而基于同等数量的观察,计算出的εq相对而言更保险,因此(根据或然律)如果要得到同等显著性的话,ε的计算需要114个观察数据,而εq只需要100个。我仍然相信,由于我们的实验一直都是建立在大量的观察数据基础之上的,所以这种实践性的因素对于ε是非常有利的,这在《测量方法》中将会完整地讨论到。实验数量的优势抵消了εq在显著性方面那一点点(m很大时就可以忽略)优势。在任何情况下,这种选择都是开放性的。无论什么时候,需要处理由给定次数观察获得的结果时,直接使用测量中获得的纯粹误差之和∑Δ,与使用ε一样合理,而且还不需要进行除以m这样的运算。

我们应该对这样一个事实给予特别的注意,即纯粹的差值总和与纯粹的平均误差(无论是ε还是εq)一样,都会在大小上有轻微的变动,这依赖于由计算出来的偏差是基于偏差总和的平均数得到的,还是将实验结果分为几个部分,分别计算每个部分的平均误差,再分别计算纯粹误差,最后将结果加和或平均而得到的。这个流程讨论过的正误法相类似,都是基于相同的推理。总的来说其他条件保持相同的前提下,偏差与平均差误的总和是更大的,而分到各个部分就变小了。例如,将100个原始偏差作为一个整体时所计算而得的纯粹偏差之和,比将这100个原始偏差分为两部分,每部分均包含50个原始偏差,再分别计算这两部分的偏差之和,之后再相加所得的结果更大。同理,分为两个各包含50个原始偏差得到的和,要大于将其分为4个各包含25个原始偏差得到的和更大,依此类推。然而,这种差别是很小的,除非把这些数据分为非常非常小的部分。

对于为什么会有这种差别,有两个原因。第一,是因为观察的数量少,偏差的平均值——以及据其计算出的校正误差——就会偏离其真实值,而真实数值指的是在相同的条件下,可由无限多次观察而获得的数值。概率论的手法和经验可以证明,误差的均方以及简单平均误差一般情况下(并且总是呈正态分布)都太小。另一个原因是因为常误的变异性,我们永远都不能忽视它在较长系列实验中的作用,否则就会导致当观察的结果与这种变异性累加在一起,并且由此计算得出平均误差和校正误差时,偏差总和会受到一定干扰的影响而且这种影响还将变大。

可以对第一种导致差别的原因进行校正,这种校正只需要有限的m就可以完成。通过它,偏差的总和与平均误差就会得到妥善处理,就像是从有限数量的观察中得到真正的平均误差,并且可以用于计算校正误差。这种校正长期被应用于物理和天文学研究之中,作用是获得用以确定观察精确性的二次平均误差。它用公式

来表示εq,而非

有人可能会立刻认识到这种校正并不具有多大的重要性,并且当m很大时,其中的差异基本可以忽略不计。对简单平均误差进行相应校正的方法至今还没有开发出来,因为没有实用价值。我发现通过类比推理可以发现校正误差均方中的潜在偏差,具体是将

乘以

π是鲁道夫常数。对方程进行稍作简化但仍然足够精确的处理[18],可以采用

这种表达与下面的公式得到的数值相近,但比下面这种表达方式要更好一点,即

大家只要执行这些计算就能看出其中的原因。[19]

有一位数学方面的专家已经帮我检查过这种校正的偏差,这将在《测量方法》里讲到。当暂时只需要计算总和,而不计算平均误差ε时,有一个相同的因子将会被用以修正有限m个试次的偏差总和。如果一个系列实验被分为几个部分进行(也就是说,假如校正误差是从特定几个部分的平均误差中获得的),那这种对有限的m的校正应该在各个部分内单独进行,而不是将m中的所有子集全部合起来进行。第九章第五部分会给出具体的例子。

如果只关注对类似关系的测定,那么在进行不同数量的观察时,可以采用统一m数量或者将总体均分为数个m的方式,我们就永远只需要对有限的m进行测定即可。在这种情况下,由有限的m造成平均误差或偏差总和的减小,对于所有操作的影响程度是相同的。

对于第二个原因没有校正的可能,但是可以通过将整体分为足够多个部分来避免这种误差。考虑到针对第一种原因,可以通过校正或者始终保持相同m的方法来消除它的不良影响,所以一般情况下,我没有选择将较长的实验系列视为一个整体进行处理的方式,而是采用部分处理的方式来消除第二种原因导致的不良误差影响。在我关于触觉的实验中,我总是将实验进程按照m为10进行划分(即m和∑Δ的校正因子为31/30),即每段中包含10次观察,在皮肤上不存在其他刺激干扰的前提下,实验可以一段紧接着一段地进行。(有些部分,尤其是前额,不能忍受在同一个部位上一个接一个地进行如此多的实验。)

在任何情况下展示这种实验程序时,都有必要按照正误法中的要求一样,报告整个实验是否被分成了几个部分以及采用的m是多少。从这一点上说,我会根据正误法中选用n和ν的方法,一样地在平均差误法中选用m和μ。换句话说,当这些实验进程被分为几个部分的时候,m代表单独一段进程中包含的观察数量,μ代表进程的段数,所以μm就表示总的观察数量。将每一个特定的观察值加和将获得最终的结果,而这些观察值会构成μ个单独的结果。

如果偏差总和产生非常小的平均误差,就有必要考虑两种其他校正的方法,我将这两种校正方法称为区间大小的校正和等级估算的校正。第一种校正涉及一个事实,即记录误差总是被给定的有限区间分隔,该区间随着用以测量误差标尺的刻度大小而变化,这些刻度估计会精确到小数,这就使得无限的中介误差可以浓缩为刻度上毗邻的点。这个事实会影响到平均误差。第二种校正涉及这样的一个事实,即用标尺来测量误差过程的方法,本身就是不精确的。第一种校正需要考虑误差理论中的纯粹的数学原则,是先验的。第二种校正中,则需要针对标尺上的特定单元的刻度,对所估计误差的表现形式进行实验观察。福尔克曼在《萨克森学会报告》(Berichte der sächs.Soc., 1858, p.173)中报告过关于这个因素的一项有趣的调查。在这里我将会避开关于这些校正的讨论,因为几乎没有人关注它们。

为了根据观察数量确定平均误差和偏差总和的显著性,需要一些公式和准则,它们比校正本身更为重要,通过这些准则,分别得到的观察结果可以组合在一起,形成最准确的全面性结果。这方面所需的任何基础信息都可以从概率论中获得,并以可用的形式付诸实践。充分的解释需要一个初步的讨论,而这就离题太远了。

在任何情况下若要对平均差误法提出深刻的见解,都需要对数学误差理论中的主要观点有一定的了解,误差理论是概率论的一个分支。关于这方面,我相信我已在《测量方法》一书中针对其中的要点进行了阐释,而且我叙述的方式能够让不了解这一理论的人也能够理解。我在这里就不再多说了。

三种方法间的数学关系

也许有人会问这三种测量方法两两之间的关系是什么样的。让我们假设一个既定感觉领域的最小可觉差,平均误差和比例r/n(因此t=hD)已经测定,并且差别感受性也保持不变。于是问题出现了:它们互相之间是如何联系的呢?这必须要基于以下的原因才能作答。

严格来说,最小可觉差就是应用于正误法中时,为了达到没有错误反应的前提,所得到的不能再减小的距离差异,因为实际上这种差异是刚刚可以注意到的,意味着差异是存在的,并因此排除任何错误反应的情况,而且它是刚刚可以注意到的,也就是说如果差异再小一点的话,就不能被感觉到。然而事实上,如果有人想防止在对一个给定差异进行反应时出现错误,就必须使得这个差异足够大以至于随机因素不会使其降低至下阈限。如果实验中具有压倒性的正确判断数量,在同时兼顾相关随机因素的平均大小和主观估计的情况下,我们会允许各种差异的大小和错误数量的存在,并且仍然认为这个差异是最小可觉差。

另一方面,如果不允许错误情况或只允许偶尔的错误情况存在的话,平均误差必须要比最小可觉差小。对于平均差误法,如果差异(例如,两支圆规脚间距的差异)仍然可以被觉察到的话,那就需要不断地改变这个距离直到它不再被觉察。总体来说,从零开始,所有比最小可觉差小的误差,都是平均差误法测量关注的内容。鉴于这些原因,最小可觉差和平均误差之间的关系不大。

然而,正误法和平均差误法之间存在这样一种数学关系,即二者主要由概率积分联系在一起。当通过简单或二次平均误差的大小来弥补正误法中的差异D时,我们可以利用上述关系,推测出其他类似环境下的正确和错误判断比值。正如我在《测量方法》中所说的,如果使用简单平均误差作为重量差异(重量提举实验中的附加重量)的话,那么比率r/n约为2/3,或者更确切地说是0.655032。

这种理论上的关系仍然需要实验上的证明,测试过程中可能存在着一些困难,例如在两种情况下,测试环境必须具有可比性,这样才能使随机因素在两种情况下的作用相同。

绝对感受性的测量方法

这些方法几乎完全没有试用于有关集中感受的研究中。除了沙夫豪特(Schafhäutl)对最小可听绝对响度的测定、韦伯和卡姆勒(Kammler)对最小可觉压的测定(将会在第十一章详细阐述),我不知道还有哪些例子。在视觉领域,对绝对感受性的测定甚至是不可能的,因为我们不能忽略光感的内部来源,这一点我将在第九章探讨。

另一方面,测量绝对感受性的方法又在广延感受领域得到大量应用。目前有很多人正在针对视网膜或皮肤这两个区域,从事着最小可觉大小或最小可觉距离的测定。对于后一个区域而言,最著名的研究是韦伯从心理物理学角度对皮肤最小可觉距离的测量,这项工作是具有前沿性的。这种方法的操作类似测量差别感受性时所用的最小可觉差法,后来很多测量绝对感受性的实验操作都只是借用这一称呼。进行这项测量的另外两种方法,也同样能在绝对感受性测量领域找到类似的对应。

福尔克曼基于简易的观察得到结论,认为构成最小可觉距离的圆规两脚间距并不是绝对固定的,而是在一定的范围内波动。在连续实验中,同样的两点间距设定,有时候能被感觉是分离的,但是有的时候却不能被感觉到分离,只要不超过上限——超过上限就一直能感觉到分离,或者不超过下限——比下限低就总不能感觉到分离。然而,我们不能对这些范围进行绝对精确的测定,但是这个事实,就如我们经验所得的那样,并不能阻止我们在不同的实验中寻找具有可比性的距离。我们可以根据上述方法,再结合下述两种值中的一种来测定常模值,其中一种值是通过设定不同的圆规两脚间距去接触皮肤来找到的近上限值,另一种是通过测定在上下限之间的距离来求得的最小可觉距离平均值,获得的常模值可作为我们测量的基础。如果不是这样的话,韦伯的实验和结果也无法被其他人所证实。可以基于这些观察结果对韦伯的方法进行修正,这个方法类似于正误法,而福尔克曼也确实这样做了。它包括以下两个部分:(1)在上述的上下限之间选定一个两脚间距值,重复使用这个数值进行实验,注意每次使用情况下的结果,并且记录注意到两脚间距存在的次数和没有注意到的次数;(2)在上述区间内选定数个两脚间距值,重复这个操作。在这个例子中,对于给定的两脚间距来说,如果皮肤上的某个特定部分的广延感受性越高,正确判断(即被试可以感知到两脚之间存在着距离)发生的次数就越多,而在保持同样的正确判断次数的前提下,广延感受性越高,圆规两脚间的距离也就越小。任何一个给定正确判断与总判断次数的比值,都可以作为感受性比较的基础,在皮肤的不同部位,通过调整合适的两脚间距来实现这个比值。然而福尔克曼倾向于认为,最好在那些距离被注意到和没有被注意到的比例相同的皮肤位置上,应用这个比值进行研究。由于我们不能对合适的圆规两脚间距进行绝对精确的测量,所以必须通过插值法使我们记录的数值尽量与实验中所使用的间距相对应,才能保证足够的精确度。福尔克曼的实验中应用到了这种方法,证明了触觉感受性中练习效应的作用,具体内容参见《萨克森学会报告》(1858, pp.47 ff.)。其间有趣的实验结果很好地证明了这种方法的效用。

韦伯方法的另外一种变式,即我称之为等效法的方法,已被我与平均差误法联系在一起,应用于触觉领域并且得到发展,两者是类似的。与此同时,韦伯甚至在更早时,就曾使用过相同的方法研究过皮肤不同部位对压力的差别感受性。[20]

正如应用于触觉的这种方法,它的关键是在皮肤不同的两个位置A和B上,交替使用两支圆规A和B,采用一支圆规对应一个位置的形式,比较它们的广延感受性。对于放置在A位置的圆规A,保持其两脚间距为A,调整放置在B位置的圆规B的两脚间距B,直到其带来的感觉与A一致为止。当然实际上,可能会因皮肤上的不同部位感受性的程度不同,而导致实验结果有很大的出入。使用这种方法,可以确定在皮肤的不同部位上,能够产生同样触觉时的两脚间距。它们的倒数可以视为广延感受性的一个量度,但要有大量的实验次数作基础。

至此,有人可能会很轻易地就满足了,认为这个方法灵敏、准确,因为它会得到一致的结果,并且非常可靠,只要皮肤上的各个点能够保持大致相同的感受性程度。它们的一致性可以由不同部位的比较结果得以展示,而可靠性则可以很容易地通过计算结果平均数的概率误差得以证明。然而,如果结果的比值改变了,那这个方法可以对这些改变进行具体的检验。我对实验的同一个部分进行了持续数月的重复,当每天仅只进行少数的实验试次时,我确实看到比值能够保持不变。然而可以确定的是,如果每天经常性地进行大量的实验试次,就会产生严重的练习效应,我观察到这些原本相等的结果逐渐发生改变,总的来说,那些不太敏感部位的结果逐渐向敏感部位的结果靠近,练习更明显地惠及前者而不是后者。

这种方法优于前两个的另一个优点在于,它没有将对皮肤感受性的比较仅仅局限于最小可觉距离,而是可以在任意给定距离条件下进行比较。另一方面,也有一个劣势,它只能得到绝对感受性的相对性数据,而在一个最小可觉情况下获得的数值(或者是可觉的情况和不可觉的情况出现的比例相等时,对应的感受性值)会导致一个差距,这个差距值是以一种绝对的方式来定义皮肤某一给定区域的绝对感受性值。因此,必须允许这些方法中的每一种都能以自己独特的方式起作用。

很容易看到,在等效法中使用的程序从本质上来说和平均差误法中使用的是相同的,仅仅是对圆规两脚间距的调整方式不同,但是有人发现对于皮肤上的测试点而言,用于比较的不是点之间的距离差异而是距离大小的比值。然而,我们也必须考虑被比较的距离比值——标准距离与可变距离的比例——采用的是平均差误法,我们还必须考虑等效法中每个两脚间距B与平均两脚间距B之间的差值,就如校正误差Δ中的做法一样。根据这些想法,那么等效法本质上只是平均差误法的一般化形式,反过来,平均差误法是等效法的一种特殊情况,在所有可能的位置,人们都可用B与A相比较,选择A并将其当作标准距离,将B当作可变距离。类似于平均差误法中常误和校正可变误差的关系效应,在平均差误法中也被再次发现,只是以一种更一般化的方式。与平均差误法中一样,等效法也需要注意与前一种方法相关的各种注意和预防措施。

每一种比较的反向关系是特别重要的。例如,当已经建立了从B(嘴唇)到A(下巴)的等价关系,那也必须通过相等的实验次数测定从B(下巴)到A(嘴唇)的互补等价关系。每个结果应该分开记录然后计算平均数,避免常误导致的单侧化效应。我的《测量方法》一书中将会给出充分的证据和解释来说明为何这种预防措施如此重要。这种情况下的常误大小也可以通过简单的计算得出。

* * *

注释:

[1] 特别参见其对触觉和一般感受性的著作以及他的《收集的程序》(Programmata collecta)。

[2] Vierordt's Arch.,1852,Ⅺ,p.844.

[3] Vierordt's Arch.,1856, XV(2),p.185 oderPogg.Ann., XCVIII, p.600.

[4] 例如,斯坦海尔在他的《亮度测量要素》(Elemente der Helligkeitsmessungen,p.75)中提到的那样,以及朗吉耶(Langier)在《法国科学院进展》(Comp.rend., XLIV, p.841)中论述的,等等。

[5] 大数定律是以确切的数学形式表达了大量重复出现的随机现象的统计规律性,即频率的稳定性和平均结果的稳定性,并讨论了它们成立的条件。——译者注

[6] 对于还没有加以处理的常误,这条警示是非常重要的。

[7] 此外,伦茨和沃尔夫提到了他们采用正误法进行的关于声音的实验,一个人倾向于把先听到的声音知觉为更响,而另一个人觉得第二个声音更响。这个结果表明不同时间关系的影响得到了体现,并且这种影响会根据环境而改变。

[8] 原文此处有误,下文中提到主要关注的是r/n,即正确次数与总判断次数的比率,应为“倾向于使用前面这种比率”。——译者注

[9] 1巴黎英寸等于1.066英制英寸(约2.7厘米),1巴黎行等于0.0888英制英寸(约0.23厘米)。费希纳在有的章节中会省略去“巴黎”一词,译者对有明显省略的地方都进行了补充,但是有的地方确实难以分辨。——译者注

[10] 当大量的试次被分成几部分时,n就变小了,这样每个部分中的准确性就降低了,但是我们可以在后面对部分的结果进行整合时加以补偿。

[11] 由于我们所涉及的差别感受性是随着P变化的(只要D很小就不会随D变化),所以相同感受性条件下的实验需要恒定的P。

[12] 鲁道夫·范·科伊伦(Ludolph van Ceulen, 1540—1610),数学家,以计算π值或称鲁道夫常数闻名,他最后运算到小数点后35位。在费希纳的时代,π的十进制等效值一般被称作是鲁道夫常数。——译者注

[13] 即在下表中的小数,费希纳均把它们去掉小数点视作整数,尤其是在差异值这一列中可以明显地看出,后文中所有的数据均是这样处理的。——译者注

[14] 也就是乘以次数100。——译者注

[15] 即我们现在通用的缝纫针。——译者注

[16] 通过我自己所做过的一些比较,使用无手柄的圆规时,实验过程中必须握着它的两腿,这样会造成更大的恒定和可变误差。

[17] 这种误差现在被称为标准差,但在这里仍然沿用费希纳的叫法。——译者注

[18] 即对π进行了取整的处理。——译者注

[19] 甚至连校正系数

也仅仅是一个整数的近似值,因为它不能以一种有限的形式表达,但这种取整所产生的偏差是很小的。

[20] Progr.coll.,p.97.