科技中国杂志

同行评议的局限性和改进之策

来源:《科技中国》2019年第十一期pp.34-36

日期:2019-11-19

  文/杨正瓴(天津大学电气自动化与信息工程学院)

  同行评议,是指在论文发表、基金资助等学术活动中,由一个或更多相关领域的专家进行评价,来决定论文发表、基金资助等结果的活动。

  当前,同行评议在维持和提高科技工作的质量和进步方面,起到了重要的程序保证作用。同行评议,在很大程度上保证了对科技劳动结果的价值确认、分配稀缺资源等方面的相对公正性和客观性。

  1665年伦敦出版的《Philosophical Transactions》最先使用同行评议。二战之后,特别是1970年代之后,同行评议才步入制度化、社会化的阶段。同行评议的历史,大体归纳在2016年《Nature》的“Peer review: Troubled from the start(同行评审:从一开始就遇到麻烦)”一文中。

  与同行评议相关的另一个活动是历史检验。二者都是对科技成果价值的评价。差别在于:同行评议一般是少数人主观的、短时的评价,其时间范围常在天、月的尺度。历史检验通常是人类的客观实践,其时间范围常在月、年、十年、百年或更长的尺度。显然,只有经过历史检验才能逐步确定科技成果或劳动的真实价值。

  事物都是一分为二的。同行评议的局限性,也是需要我们认真对待的问题。

  1962年1月毛泽东同志明确指出:“历史上常常有这样的事实,起初,真理不是在多数人手里,而是在少数人手里。马克思、恩格斯手里有真理,可是他们在开始的时候是少数。列宁在很长一个时期内也是少数。”“历史上的自然科学家,例如哥白尼、伽利略、达尔文,他们的学说曾经在一个长时间内不被多数人承认,反而被看作错误的东西,当时他们是少数。”

  1978年华罗庚提出“早发表,晚评价。”“努力在我,评价在人。”强调科学工作要经过历史检验才能逐步确定其真实价值。

  2014年丁肇中说,科学是多数服从少数,只有少数人把多数人的观念推翻以后,科学才能向前发展。因此,专家评审并不是绝对有用的。因为专家评审依靠现有的知识,而科学的进展是推翻现有的知识。

  在更早些的1948年,著名物理学界普朗克(Max Karl Ernst Ludwig Planck,1858—1947)死后留下定理:“一个新的科学真理的胜利,不是通过说服其反对者让他们明白过来而实现的,而是由于其反对者最终死去,与此同时熟悉这个真理的新一代成长起来了。”

  简单地说:同行评议是依靠旧知识来评价新知识,本身就具有误判的可能性。当代科技分工越来越细,还造成专家知识的主观性和有限性,进一步造成了同行评议局限性。

  近年来国外一些基于大数据的实证定量研究,大体上证实了上面的看法。一些代表性的研究结果有:

  (1)2012年《Nature》的“Conform and be funded”。该文对本世纪美国国立卫生研究院(US National Institutes of Health,NIH)资助的项目研究表明,大多数NIH的项目评审人得到了NIH资助,却没有发表高引用论文。反之,大部分高引用论文并没有得到NIH资助。

  (2)2015年《PNAS》的“Measuring the effectiveness of scientific gatekeeping”。该文对1,008份顶级期刊的稿件评审意见分析后发现,同行评审能够识别出良好的研究论文,但一般不能识别出高创新性的稿件。高创新性稿件,往往被高影响因子期刊拒绝,之后发表在低影响因子期刊上。

  (3)2016年《Management Science》的“Looking across and looking beyond the knowledge frontier: intellectual distance, novelty, and resource allocation in science”。该文用“知识距离(intellectual distance)”作为评审人和申请书之间的“同行”量化指标,对随机挑出的2,130对“评审人—申请书”(evaluator–proposal pairs)分析的结果表明:知识距离越近,评审人给申请书的评分越差;新颖性中等的申请书得分最高,高新颖性申请书的得分远低于没有新颖性的申请书得分。

  (4)2016年《PNAS》的“Peer review and competition in the Art Exhibition Game”。该文构造了一个由23,627评审者参加的the Art Exhibition Game试验。结果表明:同行之间的竞争,使得更多高质量的作品被故意拒绝。这个结果,有可能解释众多的突破性的科技成果只能在低影响力期刊发表。

  (5)2016年《Nature》的“Interdisciplinary research has consistently lower funding success”。该文以澳大利亚研究理事会(Australian Research Council Discovery Programme)2010—2014年间受理的18,476申请书为例,采用跨学科距离(interdisciplinary distance,IDD)作为“创新性”的量化指标,发现创新性越高,获得资助的概率越低。

  (6)2017年《Nature》的“Blinkered by bibliometrics”。该文认为,大家嘴上都鼓励高创新的研究,而评审过程却是鼓励保守的、安全的研究。高创新性论文也倾向于发表在影响因子较低的期刊上。

  (7)2017年《Research Policy》的“Bias against novelty in science: A cautionary tale for users of bibliometric indicators”。该文以2001年Web of Science收录的百万篇论文为例,以“组合新颖性”作为创新性的量化指标,分析后发现:在论文刊出的头三年里,高新颖性和其他论文的引用量差别不太明显。在刊出后的第15年,高新颖性论文在学科内和对其他学科的影响力会明显高于其他论文。主要结论:短期评价指标(如三年以内)阻碍了科技创新。

  (8)2018年《Science》在“Science of science”一文中,确认了上面第(3)(5)(7)项的发现。

  (9)2019年《Nature》的“Large teams develop and small teams disrupt science and technology”。该文对1954—2014年间超过6,500万篇论文、专利和软件产品,以颠覆性指标(Disruption)作为科技成果的创新性量化指标,分析后发现:3人以下的小团队创新性明显比大团队高,即提出新的想法、发现新的机会;反之,大团队往往跟随在小团队后面进行后续的研究。进一步对2004至2014年发表的论文分析发现:小团队得到资助后,其论文的创新性变得和大团队类似。这可能是保守的资助评审过程(conservative review process)扼杀了小团队的创新性。

  简言之,同行评议的局限性在于:(1)是用旧知识来评价新知识,具有鼓励保守(而不是鼓励创新)的先天特性;(2)“评审—被评审”人之间潜在的利益冲突,会限制评审意见的科学性和客观性;(3)评审的时间太短,评审专家只能依据“不全面”的信息进行主观的推断或猜测。

  回顾一下人类的科技史,不难发现:人类科技史上的3个“奇迹年Annus mirabilis”,作为现代科学诞生年的1543年(维萨里的《人体构造》和哥白尼《天体运行论》)、1666年(牛顿)和1905年(爱因斯坦),科学巨人们所创造的科学奇迹,以及构成现代科技体系的大多数重大科技成果,都不是在同行评议下完成的。

  二战之后,人类的科技增长进入相对平缓的时期,明显表现出重大创新减少但一般性创新活跃的特征(Dong J、Li W、Cao Y等,2016)。能够基本上识别出良好科技成果的同行评议,在此条件下充分发出了积极的作用。这也引出一个问题:同行评议的制度化、社会化,和此时科技增长的平缓期出现,有没有内在的因果关系?换言之,同行评议是否扼杀或阻碍了重大科技成果的出现?

  为保障人类科技工作的可持续发展,应该充分利用同行评议的优点,竭尽全力避免同行评议的缺点。

  上述实证研究提示我们,对高原创、高新颖的研究工作,弥补同行评议“守旧、不客观、短时”局限性的可能改进之策有以下几点。

  (1)不使用通常的同行评议,或引入一定程度的“外行评议”。

  将市场经济中的“反垄断法”、司法中的“民众陪审团”制度进行某种改造,都可能形成新的评审机制,以期绕过同行专家“旧知识”的局限性,从而促进科技重大创新。

  (2)采用公开性的数轮对话式评审。如各种开放同行评议机制。

  (3)引入历史检验的某些特征来提高同行评议的性能。如2019年3月Richard N.Zare提出的“同行评议责任制 peer-informed review”(Richard N.Zare,2019)。

  正是认识到同行评议体系的无效和不公平,荷兰、美国、英国近年都进行了“经费平均分配”之类的新尝试(张章,2017;李江,2017)。2011年《Nature》“Fund people not projects”一文里也建议了平均主义、随机资助、自动的影响指数、科学公民身份、业绩评估、宽松项目等研究经费分配的可能模式。

  不存在完美无缺的科技评价方法。正确地认识同行评议正反两方面的特性,更加合理地使用同行评议,是一个长期的历史任务(杨正瓴,2019)。