当品茶高人撞上统计学家

自从我们读大学时的哲学老师在2007年访问波士顿期间教导我们喝普洱茶以后, 我就落下了一个毛病。 

这个毛病实际上是一个综合症,也就是一系列的相关症状的综合表现。我的第一个症状是每次泡一碗茶就强迫地想喝出茶是多少年的陈茶。因为老师可以喝出5年7年8年10年,十几年,二十年,四十年,乃至一百年的茶的岁数,非常精确。我喝茶历史短,当然没有这么牛的品茶能力,但是老师的这个品茶的高分辨力却很让我着迷,心里很羡慕,所以也就总是想也达到那个境界。 

十几年来,我喝的普洱茶都是亲朋好友的馈赠。一般来说,收到的大多都是熟普,在我收到的所有的普洱茶礼品加起来的总量中,生普大概只有其中十分之一。老师说了,熟普洱茶的区分没有什么意义,只有生普才有年代的分别。生普是自然发酵,存放越远久越好喝。比如存放了四十年的生普,颜色看起来很深,泡出来以后完全没有了青涩的苦味,喝起来觉得很醇厚。 

靠着对青涩感的品味以及对茶的醇厚感的体会,对于年代相距10年以上的,我可以感觉到一些差别,而存放时间差别在几年之内的,觉得都差不多。听到老师说起他的精度高到年的分辨能力以后,我就觉得自己要下狠工夫。这样一来,第一个毛病就表现出来了。 

我家里的所有的生普,本来按照馈赠者的嘱咐要存放起来的,都被我忍不住掰缺了。我把不同年代的生普掰下一块,一字摆开,泡了测试它们的味道到底有什么不同。我经历了反复多次试验,双盲的对照的,其设计和执行的严格程度完全参考美国FDA的条款,最后的实验结果很沮丧地表明,十年以内的茶的味道的差别,我无法可靠地进行分辨。 

在生物统计学界有一本很有意思的科普读物,说的是上个世纪20年代有个很高大上的英国女士,声称自己可以分辨先放茶再加奶和先放奶再冲茶的奶茶的味道的不同,结果有个叫Fisher的统计学家听见了她的吹牛,觉得很着迷,他与几个数学家决定一起研究这个女士的感觉的可靠性。后来这个研究的最后成果是Fisher给科学试验的设计制定了一个经典的标准。这个标准也是FDA判断一个药物是否有效的整套程序的基础,也是我给自己做品茶试验的设计准则。

Fisher,英国统计学家和遗传学家,现代统计科学的奠基人之一

据后来的人肉搜索,确认了这个矫情的女士叫Bristol,是一位生物学家。她吹牛的时候根本没有注意到喝茶的人里面有个叫Fisher的著名的统计学家竖着耳朵,当然更没有想到自己会促进Fisher居然就借此机会发展出一套统计测试。这个测试就是著名的Fisher精确测试。 

现在以这个真实的故事为例子,来说明一下,高大上的女人一矫情,是如何就推动了科学的进步的。 

Fisher做了先奶后茶以及先茶后奶各4杯,随机打乱这八杯茶的次序让Bristol女士判断,看看她是否真的可以像她宣称的那样准确地分辨出来八杯不同的奶茶。据说有文献记录,在这次名垂千古的著名的试验中,她全部都对了。

Fisher的第一步是提出假设,我们假设这个试验中,Bristol女士是没有什么根据胡猜的,那么按照Fisher精确测试的公式可以计算出,猜八杯奶茶全部正确的可能性只有0.014,也就是说,这个结果表明她不是胡猜的,而是她的味觉有某种过人的分辨力。假如她每一种情况发生一次错误,那么Fisher测试的值就是0.229,或者说,她的判断是蒙的,即使每一种都对了四分之三,也不是因为具备特殊的分辨能力,因为胡蒙也可以有百分之二十三的机会在四杯两种茶只错一次。

这两种茶以及对每一种茶猜出的结果的对与错可以写成一个2乘2的表格,英文叫兔掰兔,内格用abcd表示试验记录的值,外格则为a加b,a加c,c加d,b加d,总数就是abcd的和。Fisher的公式就是这个兔掰兔表格的四个外格和分别阶乘的积除以总数的阶乘与四个内格的值的分别阶乘的积。Bristol女士的内格数值就是4004,代入公式的结果就是0.014,如果每组错一个,这个内格就是3113,代入公式的结果就是0.229,既然错一个都不行,那么我们如何才能够有信心确实有这个能力呢?

Fisher认为,测试值小于或者等于0.05,就是可以信任的。这个0.05就是统计分析中差异的显著性的判断标准。 

中国有个俗语叫做事不过三,其中一个意思就是,如果三次都对了,就可以信任了。可是按照Fisher的说法就不行。比如用奶茶为试验,两杯先茶一杯先奶,一起总共三杯,假如全对,a=2,b=0;c=0,d=1;总数n=3;代入公式,特别提请注意感叹号是阶乘的符号(我最近发现我父亲作为一个老一辈无产阶级数学家竟然不知道这个修正主义的表示法,更不知道0的阶乘被定义为1),那么Fisher测试值为0.333,大大高于0.05,这样说来,连对3次还是不足为凭的。 

生活与科学看起来相差很远,其实不然。生活是一辈子连续的事件,其中充满了真假虚实的判断,信任度就是在长久的生活中积累起来的。事实是,生活中一旦对某人某事失去了信任,你连搞三次正确的也很难换回失去信任。可见我们与Fisher还是同一路人呢。不过我认为事不过三准则在将信将疑的时候,应该是可以有一些应用价值的。 

那么完全没有生活积累,也无法参考别人的经验的时候怎么办呢?我提出一个方案供参考。 

以这个奶茶为例,每一种做三杯,一起六杯,随机排列,如果全对,就是可信的。既然公式写好了,就用这个六杯试验演算一下,abcd分别是3003,n为6,看看Fisher测试值正好是0.05,是显著性的判断标准。这个时候我真觉得我们有理由怀疑伟大的统计学家Fisher参考了两次中国人的事不过三的智慧才拼凑了这么个公式和判断标准。 

回头说我的试验证明我不具备判断10年以内的差别的能力,但是这个研究的正面收获就是破除了茶叶的味道的差异的神秘感,生普耳茶叶味道的变化在本质上就是植物的自然氧化过程,这个所谓的味道的差异,其实就是茶叶氧化程度的差异。如果用化学的方法来测试茶叶氧化的年代,那分辨的精度根本就不是一个问题。

尽管在科学目前失去了神秘感,但是那些茶饼看起来还是实在太有诱惑力,只要我看到了茶饼,我就老是想去泡了它看看到底什么味道。打个比方,这些茶饼看着就像一个可爱的孩子的脸,你看见了就忍不住要亲一口。这个比方不是很恰当,因为孩子的脸很少有被亲出缺口的。那就换一个比方,茶叶有点超越一般物质的气质,有某种灵魂的特点,一旦你的精神与茶的灵魂合拍,你就会想与这个灵魂进行交流,交流的方式就是,揪一块下来泡了喝掉。这样一来,我家里新收到的普洱茶礼物,往往在第二天就会被我掰一块下来试哈味道。 

领导看见家里的生普没有一块完整的茶饼,觉得真是不可思议,而在这个问题上,我毫不犹豫地承认了这是一种病。当然,我敢于爽快地承认这个毛病也得益于老师给了我的勇气,因为他泡茶的水也要有讲究,必须是山里的泉水,他认为富含多种矿物质的水,才能泡经历了年代的茶,因此我得和老师一起带着桶到缅因州的山上去找水,带回来泡茶。所以与老师对水的苛刻讲究对比起来,我的这个毛病还是算轻微的。 

直到后来很久才有个机会让我发现了我的综合症中的第二个毛病。领导一个闺蜜来访,我取了一个有缺口的生普,泡了招待朋友。看见朋友赞不绝口,领导说,既然喜欢,这块茶就送给你。我在摸摸索索包扎茶饼的时候,从本来就缺了口的茶饼上又矬了巴掌大一块下来。其实家里茶很多,根本不在乎这么个小块,可是我竟然忍不住要留点下来。领导说毛病啊?我说是啊是啊,我怎么觉得这个茶饼简直像是一个活生生的宠物,央求我留点下来呢。出于这个喝茶的痴癫癖好,我从来不送茶给别人,如果领导非要送了,我一定会掰四分之一块带回来。

本文原发《新语丝月刊》2017年3月号,原标题《喝茶》。《科学猫头鹰》获授权转载,作者有改动。

~~~欢迎转发~~~

!!!转载请联系我们获取授权!!!