文章目录
噪声
这本《噪声》不但讲了一个系统性的新东西,而且讲出了一个绝对的高度,它的历史地位将会跟《快与慢》并列。这本书卡尼曼找了两个共同作者帮忙一起写,但是延续了他自己的风格。《噪声》的难度比《快与慢》还要高,它稍微用了一点点数学,要想精确理解,裴波那契难度系数大约是13。
为什么流程比人强
判断题
假设我们公司有两位新来的女高管,一个叫李薇一个叫于丽娜。她们都是搞行政的,岗位职责一样。她们都刚刚接受了一家咨询公司的评估,已知她们在五个能力维度上的得分是下面这样的:
请你判断,两年后,她俩谁的工作表现会更好?
下面是几位领导的判断,你支持谁?
王总说这很简单, 直接看平均分啊。李薇的平均分是 7.2 分,于丽娜是 6.8 分,那么显然是李薇更强。
孙总觉得不能这么算。李薇的各项指标比较平衡,但是于丽娜的表达能力非常突出,那可是满分 10 分啊!她俩担任的是行政管理职位,表达能力难道不应该比技术能力重要得多吗?我支持于丽娜。
赵总则说,老孙你说的也不一定对。表达能力更重要,那只是你的直觉,不一定符合事实。我的建议是咱们能不能用个统计方法,拿以往的数据搞个线性回归分析,看看到底哪些指标更重要,然后来个加权平均值 —— 重要的指标我们就多算一点,不重要的指标就少算一点。
王总和赵总建议的、用一个公式计算的方法,就是机械预测。王总用的是简单模型,赵总用的是稍微复杂一点的模型。孙总使用的基于个人经验和直觉的综合判断方法,被称作临床判断。
结论:临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。
临床判断之殇
前面那个例子是一项真实的研究。到底李薇强还是于丽娜强?研究者请一群专业心理学家,调动各种他们认为有效的理论,做了综合的临床判断……结果专家的预测结果和实际绩效结果之间的相关系数只有 0.15。这意味着他们的判断也就比投硬币稍微好一点。
而有人用回归模型做数据分析,搞了一个计算加权平均值的机械预测公式,结果的相关系数则有 0.32。
这个研究不是孤立的。2000 年,有人综合调查分析了 136 项研究,其中包括各种主题 —— 什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等。
结果其中 63 项是机械预测更准确,65 项是机械预测和临床判断一样好,只有 8 项是临床判断比机械预测好。
机械预测比临床判断快得多,而且根本不需要相关领域的专家,可以说是省事省力省钱。可是为啥呢?专家不是会具体问题具体分析吗?怎么还不如一个公式的水平高呢?
原因:专家的噪声太大了!
你所以为的特殊情况,往往就是一般情况。
于丽娜的表达得分是 10 分,这能说明她是一个表达天才吗?你要知道天才是非常、非常罕见的。也许得 10 分的人很多,也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她,这是一个冒险的、不靠谱的判断。
想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。
一个更有意思的研究对 847 名行政职位的候选人进行评估,就如同这一讲开头那样分成几项打分。结果发现,哪怕用非常简单的模型 —— 比如直接取平均 —— 也比专家的临床判断好。用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”
复杂未必就好
如果利用人工智能,通过大数据和几百个指标能提升预测水平吗?如果数据量足够大,这个的确可以。
有研究表明机器学习预测犯人再犯罪率,比法官要准得多。
机器学习的预测表现也的确比简单模型好,但是并不会好很多。这是因为机器学习的预测能力也有个上限—客观无知。
大多数情况下你可能不具备大数据或AI团队来训练模型,那么简单的机械预测就是最佳选择,省时省力。
机械预测方法
- 1 确定若干个评分指标,最好不超过五个
- 2 给每个指标设定一个整数分数区间,进行打分
- 3 计算总分,简单相加即可
示例:阿普加新生儿健康判断模型,五个指标:肤色、心率、表情反应、肌肉张力、呼吸。每个指标0-2分,满分10分,7分以上健康,4-6分不太健康,0-3分需要立即急救
这个方法既然这么简单又有效,为什么没有普及开来呢?根本原因是决策者能接受用算法判断,但是决策者对算法的容忍度特别低。
如果人类判断错了,我们会说这很正常,人本来就经常犯错。但是如果算法判断错了,我们就会很恼火,我们就倾向于再也不信任它了。
这就好比说自动驾驶汽车。将来某一天,自动驾驶出事故的概率将会比人类司机要低 —— 但是我们能容忍人类司机出事故,我们不太能容忍自动驾驶汽车出事故。
我们认为犯错是人类的特权,机器没有权利犯错。
我们可以得到的启发是:应该关注判断的过程,而不是判断的结果。相信过程,走流程,是决策卫生的关键。其实日常做事也是这样。
有谱才能靠谱
我曾经听罗振宇罗老师讲过他的一个启发:现在对一个人的最高评价,可能就是靠谱。而精准且低噪声的判断力能让你成为一个“靠谱”的人。
先给靠谱来个定义:所谓靠谱,就是能够以一个客观的尺度,做出量化的、合适的判断。
不靠谱的故事
多年前有个社会新闻是这样的。某公司办公楼的正面是一块大草坪,公司领导强调不要踩踏草坪,可是员工们总爱抄近路踩着草坪进出大楼。
有一天,公司总经理在办公室的窗前看到,一个负责保洁的员工居然没有走直线,选择了绕过草坪进门。总经理非常高兴,立即宣布,奖励该员工一千元!
这就叫不靠谱。一千元相对于那个员工的工资来说不是小数。不让踩草坪这种规定如何愚蠢咱们暂且不说,如果一个人因为这点小事儿就能得到重奖,那那些兢兢业业工作,做出实质贡献的员工又该怎么奖励呢?
一惊一乍重奖重罚是非常土的管理方式,与其说是为了管理还不如说是老板在享受权力的乐趣。
当我们要把自己的认识、感受、情绪冲动转化为行动的时候,我们常常要决定这个行动的力度应该有多大。而我们非常不善于做这样的量化。
一个 79 岁的美国老太太到麦当劳吃饭,不小心把咖啡洒在了自己的脚上,烫了几个泡,被诊断为三度烫伤。老太太起诉了麦当劳,因为根据规定,麦当劳的咖啡温度应该是 65 摄氏度左右,而那天服务员没调好,达到了 87 度。结果法庭判决麦当劳赔偿 270 万美元。对于最高判决你怎么看?下面是大多数网名的想法
- 美国司法制度真好
- 就应该罚这么狠,所以商家才必须好好服务、没有假货
但是你想过没有,如果犯个这么小的错误都会随时被罚那么多钱,这生意还能做了吗?其实“天价赔偿”在美国也是罕见的,这就是为什么它是新闻。
事实是天价赔偿不但不代表司法制度的优点,而且反映了司法制度的缺陷。这是噪声。
大脑匹配的噪声
人的大脑能非常自然地、直觉地给判断分配数值,称之为匹配。比如说,此时此刻,如果满分是 10 分,请问你的心情是多少分呢?
现在很多公司会使用一个叫做“360度绩效评估”的系统去评价员工的表现。这个系统把个人绩效分解成了很多方面,包括沟通技巧、人际关系、领导能力、行政能力……等等,员工周围的人,比如同事、上司、下属、包括员工自己、甚至可能还包括公司的顾客,都要在这些维度上给他打分,每一项最高 5 分。
你觉得这种评估合理吗?能真实体现一个员工的表现吗?
有人对360度绩效评估做过严格的研究,结论是悲观的。两个员工得分的差异,只有 20% 到 30% 可以归因于这两个人的表现差异 —— 剩下 70%-80%,都是噪声。
四分之一的信号,四分之三的噪声。这就等于说信号几乎都被噪声掩盖了,有极大的可能性表现比你差的同事得分比你高。
你能想见这里面有「水平噪声」。每个人的评分标准不一样,有的人认为 3 分代表“不错”,有的人认为 4 分都是低分;有的人对同事就是比较刻薄,有的人给谁都打 5 分。这里肯定有「稳定模式噪声」。一个严厉的上司可能偏偏就欣赏有一技之长的人,并且容忍他所有的缺点。这里面当然还会有「偶然噪声」,有个同事刚刚拿到奖金,看谁都是好人。
这个现象是大多数绩效评级都不能准确反映绩效。凭印象打分这种形式非常不靠谱。(绩效评定确实很难,调查表明90%公司认为绩效评估没啥用)
如何对待量化噪声
- 给一个尺度,设定一个锚(类似的案子,赔偿金额是多少)
- 寻求外部观点,找一找基础比率(过去两年,罚款平均数量是多少)
- 把判断事物先进行排序再打分(先按照高低排好,再开始打分,当然强制排名方法也存在弊端,但差异不会这么大)
- 设定共同参考框架(详细规定,到底什么情况给什么分数,德国、日本一些车间就是这么做的,好像我制订的部门KPI也歪打正着了)
一个评估估餐馆服务员表现的共同参考框架:
- 5 分,是哪怕顾客提出了不寻常的要求,也能尽量提供帮助;
- 4 分,是当顾客点的菜没有的时候,能够愉快地提供建议;
- 3 分,是听顾客只说一遍,就能准确记下来点了什么;
- 2 分,是跟顾客说话不够有礼貌;
- 1 分,是对顾客视而不见,跟别人聊天
有了这个框架,打分是不是就会精确很多,不同的人打出来的分数也会更加一致。这个办法的缺点在于它对判断者的要求比较高。你必须仔细学习打分的规则,才能做出可靠的判断。对很多公司来说,让人花这么大工夫搞绩效评估未必值得,最好是系统可以自动去做。(内心OS:极客绩效成长平台的价值点好像又被挖掘了一点)
总结来说,量化判断容易产生很大的噪声,最关键的就是一定要有一个参考尺度。
这个尺度可以是主动设定的,可以是类似事物的基础比率,可以是排名决定的,也可以使用一个共同的参考框架。如果没有尺度,判断就会盲目。
我们来看看日常生活中经常见到的那些不靠谱的词:加大力度(多大力叫大力)、严惩不贷(什么程度叫严)、大力推进、你放手去做吧(是说要钱给钱吗)、组织是你坚强的后盾(是给钱又给人吗)。
一定的模糊性往往能给说话的人(往往是领导)保留更多的主动性。不过我们自己做判断做决定还是应该尽可能地精确量化。
什么叫靠谱,关键是得有个谱。
集体决策必须讲卫生
个人判断的噪声可以用走机械化流程和设定参考尺度的方法消除,集体决策就必须讲卫生,要有标准的流程。
集体判断的质量高度依赖判断过程。人还是这拨人,用这个过程判断,就可能是三个臭皮匠顶个诸葛亮,产生了群体的智慧;用另一个过程,就可能是三人成虎、结果弄成了“羊群的共识”。
一次翻车的集体判断
判断力边界一节中的判断题,现在变成了一道选择题。我们公司 CEO 的人选最终落在了两个候选人身上。一个是之前的李志国,他的优点比较突出缺点也比较突出;另一个是徐一梅,她各方面素质都很好,履历完整,但是似乎缺少了一点特色。董事会开会做决定,规则是十个董事依次表态。
孙总首先发言。孙总说,我的选择是李志国。李志国的闯劲和能力有目共睹,是难得的领军人物。至于说他不善于搞关系,我们公司本来就不是一个喜欢搞关系的公司。
接下来轮到王总。王总其实没有很强烈的倾向,他根本就没下功夫研究两位候选人。但是王总特别信任孙总,现在既然孙总那么强烈地倾向李志国,王总就也表示选李志国。
第三个发言的是赵总,他心目中的人选,是徐一梅。但是现在孙总和王总都选的李志国,赵总就有点不敢说了。
并不是说赵总为人懦弱、很怕孙总和王总 —— 如果他掌握足够强烈的证据能说明徐一梅是更合适的人选,他会毫不犹豫地说出来。可问题是赵总觉得自己的论据并不是很强。他认为徐一梅也就比李志国好一点点 —— 可是现在孙总和王总那么坚决,也许他们有更充分的理由,他们做的调查研究应该比我深刻。
赵总隐藏了自己原本的观点,选择支持孙总和王总的判断。剩下的董事一看局面这么明显,也就都随大流了。
信息级联
这个集体判断过程,发生了所谓信息级联。开始的几个人直接影响了后面的人。后发言的人大大高估了前人判断的可信程度,在群体的压力下,更多地是在模仿别人,而不是做好自己的判断。如果先发言的是赵总呢?可能结局会非常不一样。
你参加这种会议如果想左右别的观点,“带节奏”,那就一定要争取先发言。但是不只是发言的顺序容易,像谁坐在谁的旁边,谁的表现更自信,谁有一个什么表情手势,都可能影响会议结果。
有个著名的下载音乐的实验,一首歌初期的下载量,能在很大程度上决定它此后的总下载量。人们就是更愿意下载那些已经被很多人下载过的歌曲 — 哪怕最初的下载量是实验人员做过手脚的。
群体极化
信息级联还不是最严重的,最严重的问题是群体极化。
群体极化是说,一群人坐在一起讨论事儿,可能会越说越激动,互相鼓励之下,做出一个非常极端的决定。
比如现在有个案子,陪审团成员个个义愤填膺,都认为应该罚个惩罚性赔偿。研究者先让每个人写下他心目中打算罚多少钱。比如写出来数额排在中间的人认为应该罚 100 万,排第一的人要求的是罚 300 万。
如果就按照这些数字做决策,比如取个平均数,那么表决结果应该在 100 万左右,对吧?可是陪审团还没讨论完。
他们报出数字之后继续讨论。大家一看原来每个人都这么有正义感,看来我之前的判断有点保守了。于是每个人被其他人的情绪感染之下,大家等于是在互相鼓励。于是人们开始增加罚款数额。
研究者统计表明,这样讨论的结果,最终确定的罚款数额不但比之前排中间的那个数额高,而且有 27%的陪审团,最终数额比一开始报的最高数额还高。
讲卫生决策流程
指纹比对就是一个讲卫生的决策流程。
指纹是非常有力的证据,但是你可能不知道,法医的指纹比对,也可能出错。一般警方在犯罪现场采集到指纹,指纹专家做判断要走一个分四步的程序。首先是「分析」,看看这个指纹的质量怎么样,有哪些突出的特征;然后是「比较」,跟数据库里的指纹作比对;然后是「评估」,作出判断,两个指纹到底是不是属于同一个人;最后还要「验证」,也就是再找一位专家,看看能不能得出同样的结论。这个过程中有如下的流程:
- 1 给判断者提供信息,必须严格按照一定的顺序进行,千万不能给早了
比如你要让这位专家比对一个指纹,那你就把指纹给他 —— 别的什么都别说。他要做的唯一判断就是这个指纹是不是那个人的。至于说那个人是不是嫌疑人、有多少其他证据指向那个人,与指纹判断无关,他根本就不应该知道。 -
2 应该详细记录自己每一步的判断,严格按照程序顺序进行
比如第一步是分析指纹,这时候你先不要看要对比的那个指纹。你就把眼前这个指纹看清楚,它有哪些关键特征都写下来。完了再去作对比。这也就是把调研和决策分开。这样就能降低你“只看自己想看的”的风险。 -
3 第二位专家做判断的时候,不应该知道第一个专家的判断结论
决策卫生的关键就是信息披露的顺序。做判断并不是知道的越多越好 —— 不该你知道的你不知道,反而能做出更客观的判断。有些信息应该在判断做出之后再给,否则就有可能引发信息级联,导致偶然噪声。
怎么做好重大决策
决策和判断最好分开。判断是我建议我们应该这么做;决策是拍板了,就这么做。
生活中的小事儿,小公司的负责人,一般决策者就是判断者,自己琢磨自己决定。而事情如果比较大,决策者一般都会找人帮着拿主意,就比如评书里那些“主公”都至少有一个“军师”。
招聘行业研究
正规公司招聘都有一个面试环节,毕竟百闻不如一见。应聘者来到公司,跟这个聊聊跟那个聊聊,有时候跟好几个面试官一起聊,有时候要当场考试,可能还要做个报告什么的。面试官聊完后有的说行有的说不行,大家都给打个分,很多都是凭直觉。这种非机构化判断的准确度有多高呢?
大量的研究汇总在一起,这种普通面试评分和应聘人入职之后实际的工作表现评分之间的相关系数,是在 0.20 到 0.33 之间。这就意味着两个候选人 A 和 B,如果 A 的面试得分比 B 高,他的实际工作得分也比 B 高的可能性,在 56% 到 61% 之间。抛硬币也有 50% 的准确率。这就意味着面试几乎是没用的。
Google 公司,本身就是做数据研究的,他们意识到了自家的面试也没用。他们重新设计了面试流程。采用了结构化判断方法。
- 1 分解,公司先想好,到底应聘者的哪些指标对我们是重要的。原则是指标的总数应该少,各个指标应该考察不一样的东西、尽量避免重复。(谷歌定义了4个指标:认知/智力水平,领导力,文化匹配度,专业角色相关知识)
-
2 打分,每个面试官只负责一项指标,给一个分数。这一步的原则是独立性。每个面试官只管自己这一摊,在最终决定之前绝对不能知道候选人其他指标的得分。不但要提问,而且要记录答案,而且要根据一个统一的评分表、按照之前设定的评分标准打分。
-
3 整体判断,现在候选人四个指标的分数已经摆在桌子上了,最终的录取决定是一个委员会共同做出的。分数就摆在面前,委员会成员通常不至于弄出一个大惊喜来,他们比较容易达成共识。
这套方法的特点是基于流程,但是不拘于流程,不只看分数,但是尊重分数。
调解评估规程
调解评估规程是一套通用的集体决策判断方法,跟Google 招聘的方法差不多。
李志国顺利成为公司新任CEO,他的第一把火是要董事会决定是否收购一家叫“金星”的公司。为此,董事会总共召开了三次会议。
第一次会议上,李志国介绍了收购的意向。然后他说:“你们选择 CEO 的决策程序根本不科学,但是你们很幸运,你们的判断结果是对的。不过这一次我们必须使用科学判断。我们要使用一个叫做调解评估规程的方法,它的特点是结构化。”
董事们一看,李志国果然不善于搞关系啊。孙总立即提出质疑,说:“你这个规程听着就很怪异,是不是搞形式主义官僚主义啊?”赵总也说:“金星公司现在有很多人在抢,我们得快速决定啊。”
李志国说你们放心,我这绝对不是搞官僚主义。恰恰相反,我这个方法能保证每个人都敢说话,而且我们判断时间不会拖延。现在我先给你们培训一下科学决策的知识…
第二次会议的主题是确定结构化评估指标。
李志国说我们做出准确判断的前提是充分了解金星公司,而了解和决策应该分开。现在我们要设定若干个指标去考核金星公司。我要求这些指标要少、要全面、要互相不重复。凡是你们能想到的对收购决策重要的信息,都应该包含在这些指标里。
大家讨论了一番,最终定下了七个指标,包括财务状况、研发能力、管理水平、与我们公司能否顺利对接、监管部门能否批准等等。
李志国说,我会组织成立七个小组,每个小组负责一项指标的调研。各小组人员必须严格独立,在下一次会议之前,任何人不得打听其他小组的调研结果。
李志国要求每个小组给该项指标打一个分数。而这个分数必须是绝对基于事实的,而且必须参考外部观点,给出合理的量化结论。
比如说,你要评估监管部门能否批准,就要找出近年来类似的交易,看看其中被批准的概率有多大。
再比如说你要考察研发能力,单单说“金星公司研发水平很高”是没用的,你必须像“该公司最近发布的产品,技术水平在全行业的前 20%”这样说。
为了得到更独立的意见,李志国甚至专门从外边请了一个人负责评估金星公司的管理水平。
李志国要求把看似矛盾的信息也写到报告里。
第三次会议就是拍板决策。
全部七份报告被同时摆在了每一个董事面前,董事们在会前仔细阅读了报告。但是李志国要求董事们先不要考虑最终决定。董事们先要一份一份地分别评估各个指标。
轮到评估哪个指标,负责这个指标的小组就上台,给董事会做讲解。然后,李志国要求所有董事同时掏出手机,在手机上同时给这一项评估打分。你的打分可以跟评估小组的分数一样,也可以不一样。
打分结果被立即投影在会议室屏幕上,但是打分是匿名的,只有分数,不显示是谁打的分。这样就最大限度保证了每个董事的独立性,避免信息级联。
这时候你会看到各个董事的打分可能会有比较大的分歧。那么李志国要求大家现场讨论,但是必须用事实说话。讨论之后,再来一轮投票打分,然后取平均值。这个分数就是金星公司在这项指标上的最终得分。
这就叫「评估 — 讨论 — 评估」。
就这样,最终七项指标的分数都被显示在了屏幕上。这时候王总表达了他对这套方法的叹服:“有几个指标,我一开始想的非常不一样,但是经过这些讨论,现在的分数我很赞同。”
那么这就到了决断时刻。屏幕上七个指标,七个分数,怎么决策呢?
李志国说,我这里没有什么硬性的分数线。现在是你们使用直觉的时刻。这是你作为公司董事的权力。分数就是这些分数,我们大家已经对这些分数充分讨论了,该挑战的也挑战了,该辩论的也辩论了。现在怎么决定,你看着办。
我相信董事会可以做出一个好决定。
所以调解评估规程就只有三个原则:
- 1 设定几个结构化指标
- 2 各指标独立判断
- 3 根据最终分数使用直觉决策(不要依赖分数,因为应聘者会刷分,还有每次决策外部条件可能不一样)
要点是我们关心的是过程,不是结果。好的判断不是来自伟大领导人的灵光一现,而是参谋团队兢兢业业的专业工作。
这不是形式主义也不是繁文缛节。这是像做数学题一样,必要的、卫生的解题步骤。
判断力决策
正确认识判断决策
卡尼曼说要想降低判断噪声,要想保证「决策卫生」,就得走流程,就得按照固定的标准量化,就得遵循严格的信息披露纪律。这些都是对判断者的管理。那你可能会觉得这是不是太死板了、太不自由了,难道真正的重大决策不应该具体问题具体分析吗?难道伟大的发现不都是神来之笔吗?
卡尼曼这里说的是判断,不是生活,也不是创造。你的生活当然可以多姿多彩,创造当然可以天马行空 —— 但是这里的忠告是,那些自由行动,最好是建立在合理判断的基础之上。你说我周末就不去健身房,我非得一个人去无人区爬山 —— 可以,但是你最好先判断一下安全性。你说我就不跟主流一样,我非得投资一部非主流电影,那你也应该先判断一下成本。总是先有预测性判断,再做评价性判断。
为什么做判断非得有这么强的“机械味儿”,判断者为什么不能多点“思考自由”呢?
自由裁权量与规则
我们说的自由应该叫自由裁权量,是指在一定的范围内,你有权自行选择该怎么做。比如我们有时候看个什么片,片头打出一个警告信息:
注意,这句话的意思可不是说你“爱看不看”,而是说你要“想好了再决定看不看”。你这个自由不是胡作非为的自由,而是自己掌舵自己承担后果的自由。
那什么情况下判断者有自由裁量权呢?这就涉及到标准和规则。
标准是关于做一件事的指引,比较含糊,你需要在其中使用自由裁量权;规则是严格的,是什么就是什么,你没有自由裁量权。
举个例子。所有国家的政府都不提倡青少年饮酒,但是中美两国的做法很不一样。在中国,青少年饮酒的问题是一个标准。你最好不要喝,但是你要非得喝两口也行,你要去超市买酒人家也卖给你,你自己的事儿自己看着办。在美国,则有严格的法律规定,任何商家不能向 21 岁以下的人卖酒。这就是一条规则,它得到了很好的执行,以至于四五十岁的人买个酒也得给人看驾照。
再比如说,“请小心驾驶”是个标准,“限速120公里”就是规则。“反对职场性骚扰”是标准,“禁止任何身体接触”是规则。“企业必须在可行的范围内给员工提供安全的工作场所”是标准,“消防设施必须经过检查批准”是规则。
标准最大的问题,就是自由裁量权的判断噪声太大。如果一个案子落在这个法官手里就是有期徒刑一年缓刑两年,落在那个法官手里就是有期徒刑六年,人们就会认为这太不公平了,人们就会呼吁把标准改成规则。
规则没有噪声,因为根本不需要判断。但是规则可能会有偏差,而且容易僵化。法律会故意保留一些“模糊性”。比如“公司应当为本公司工会提供必要的活动条件” —— 什么叫“必要”?“一般的公司要设立监事会,但股东人数较少或者规模较小的有限责任公司,可以设一至二名监事,不设监事会” —— 什么叫“规模较小”?
到底使用标准还是规则,其实是个成本问题。规则因为不需要判断,使用时的决策成本低,可是它必须频繁修改,制定规则这个决策的成本高。标准需要判断,使用时的决策成本高,但是制定标准的决策成本低。
高判断力的人
比决策成本更重要的则是犯错成本。给你自由裁量权,你万一判断错了,我们受得了吗?所以判断力越大,责任才能越大。
判断力强的人有三个特点:
- 1 具备专业知识
专家之所以是专家,是因为他们掌握行业规范,他们知道深浅的微妙拿捏,他们的判断是建立在真实场景的经验之上。所有专业知识都有一定的模糊性,留下了解释的空间。而在那个空间内怎么运用自由裁量权,很大程度上取决于经验。 -
2 较高的智力水平
智力水平和高难度工作表现之间的相关系数高达 0.50。这大概是《噪声》全书最大的一个相关系数。卡尼曼说,像律师、化学家和工程师(可悲的IT工程师应该不在其中)这样的高地位职业,其从业者的智力得分没有一个低于平均水平的。 -
3 谦逊的认知风格
主要体现在:认知反思能力、认知需求、开放性(预测来说最重要风格)上。
认知反思能力(回答问题的时候能多想一步,遏制住自己脱口而出的冲动能力)越弱的人,越容易相信鬼魂、占星术那些东西,越容易信假新闻。
认知需求就是看你愿不愿意自己思考寻找答案,而不是吃现成的答案。比如如果你看电影很不喜欢被“剧透”,你喜欢自己破解悬念,那你的认知需求就比较高。
开放性是说你愿不愿意寻找跟自己的假设矛盾的信息,你能不能考虑别人的不同意见,考虑新的证据 —— 你是否允许自己被相反的论点说服。开放性高的人能随着新信息积极修改自己的预测。
高水平判断者绝对不能是那种死板的、一根筋的人 —— 可是他们也绝对不是没有章法、胡乱说话的人。
我们要的“自由裁量权”中的“自由”到底是什么呢?是探索的自由、是调动一切有用信息的自由、是学习相关知识的自由、是直接运用逻辑而不必接受生硬命令的自由 —— 不是自由放任的自由。自由裁量权不是“我心中想是什么就是什么”,而是“我发现世界是什么就是什么”。
如果你的判断力强,你就配得上拥有标准;如果你的判断力弱,你就只能拥有规则。可是什么叫判断力强呢?恰恰是善于运用判断规则。
这样说来,“判断者”有个悖论 ——
如果你尊重规则,你就可以不遵守规则;如果你不尊重规则,你就必须遵守规则。
再厉害的人,也得认这个命。要不怎么连宋神宗都说,「快意事便做不得一件」。
洞见小结
下篇主要讲述了机械化的流程决策其实是一种性价比很高的决策方式,一直被人们低估了其价值。
集体决策经常会出现噪声,可以采用调解评估规程来做到卫生的集体决策。
如果你想成为一个高判断力的人或判断一个人是否具有高判断力,那么注意三个基本特征:专业知识、智力水平、谦逊认知。
卡尼曼的《思考快与慢》讲述的是人类判断中的偏差,而《噪声》讲述的是人类判断中的干扰因素噪声。
本书最值得记住的一个观点:偏差和噪声同样重要。
哪怕你平时不怎么需要做什么决策判断,读一读、深刻理解此书,也能让你的思维水平上一个台阶。这本书更大的教训可能是你应该养成精确思考的习惯。
这本书就像一把磨刀石,会把你的大脑磨得更加锋利。
附录
四大会计事务所黑斗会
认知反思测试题目
- 假设你在赛跑,你超过了第二名,请问你现在是第几名?
- 一只蝙蝠和一只球的价格是1.10美元。蝙蝠的价格比球高1美元。那么,球的价格是多少?
- 湖里有一小片睡莲,睡莲的面积每天成倍增加。假设睡莲覆盖整个湖面需要48天的时间,覆盖一半的湖面需要多长时间?
- 如果5台机器需要5分钟来制作5个小零件,用100台机器制造100个小部件需要用多长时间?