arXiv 内部揭秘:科学界最具变革性的发布平台
现代科学的存在离不开一个名为 arXiv 的在线研究存储库。三十年过去了,它的创始人仍然难以真正放手。
“就在我以为我可以抽身而退时,他们又把我拉了回去!”(Just when I thought I was out, they pull me back in!)保罗·金斯帕格(Paul Ginsparg)嘴角带笑地引用了《教父》中迈克尔·柯里昂(Michael Corleone)的一句台词。这种狡黠的笑容,我很快就会熟悉。金斯帕格是康奈尔大学的物理学教授,也是获得“麦克阿瑟天才奖”的学者,他或许与阿尔·帕西诺(Al Pacino)饰演的黑帮教父没多少相似之处,但两人都曾感受到:自己无法体面地脱离亲手缔造的事业。
近 35 年前,金斯帕格创建了 arXiv,这是一个数字存储平台,供研究人员分享他们最新的研究成果——在这些成果经过系统性评审或验证之前。如今访问 arXiv.org(发音为“archive”),你仍能看到它保留着 Web 1.0 时代的老派设计:一个红色横幅和平台所属机构康奈尔大学的校徽。然其朴素的外表,掩盖了它在科学界引发的深层结构重塑。如果 arXiv 停止运作,全世界的科研人员都将遭受即时而深刻的冲击。“数学和物理领域的每个人都在用它,”德克萨斯大学奥斯汀分校的计算机科学家斯科特·阿伦森(Scott Aaronson)告诉我,“我每天晚上都会浏览一遍。”
每个行业都有一些公认“坏掉”的领域:医疗行业的保险机制、音乐行业的版权许可、教育中的标准化考试、餐饮业的小费制度。而在学术界,这一顽疾就是出版业。当前的学术出版领域被像爱思唯尔(Elsevier)和施普林格(Springer)这样的盈利巨头所主导。称其运作方式为“敲诈”,与其说是侮辱,不如说是经济学上的观察。想象一下:一家出版社要求作者无偿撰写书稿,不雇佣编辑,而是要求其他作者也无偿为其审稿;然后将最终成品以极高价格出售给普通读者,还强迫各类学术机构支付高额费用才能获得访问权限。
学术出版商所推动的“免费编辑”(free editing)过程被称为同行评审(peer review),也就是由其他研究人员审查新研究成果的流程。这一过程可能会持续数月,甚至长达一年。而有了 arXiv,科学家可以将他们的论文发布在平台上——在未经评审的阶段,这类论文被称为“预印本”(preprints)——供所有人即时、免费访问。arXiv 的一个重要成就,正是“证明了你可以将研究成果的传播与评审过程分离开来”,早期 arXiv 审核员、现为牛津大学全魂学院(All Souls College)物理学家的保罗·芬德利(Paul Fendley)这样说。在新冠疫情等危机时刻,时效性极强的科研突破能迅速传播开来——特别是通过 bioRxiv 和 medRxiv 这两个受 arXiv 启发而诞生的平台。有研究估计,这种传播方式可能拯救了数百万人的生命。
虽然 arXiv 上的论文并未经过同行评审,但每个学科领域都有志愿的专家对投稿进行审核,确保其符合基本的学术标准并遵守 arXiv 的准则:只能提交原创研究,不得伪造数据,语言必须足够中性。此外,平台还会通过自动程序进行基础的质量控制检查。若无这些审核机制,伪科学论文和业余作品将泛滥成灾。
2021 年,《自然》杂志将 arXiv 评为“改变科学的十大计算机代码”之一,称赞其在促进科研协作方面的关键作用。(该文章本身设有付费墙——年费为 199 美元才能解锁。)根据最近的统计,arXiv 已收录超过 260 万篇论文,每月新增论文约 2 万篇,每月活跃用户达 500 万。21 世纪许多最重大的科学发现,都是首先在 arXiv 上出现的。引发现代 AI 热潮的“transformers”论文?最初就是上传到 arXiv。解决庞加莱猜想(the Poincaré conjecture)的论文——该猜想是七大千禧难题之一,以其难度和百万美元奖金而闻名——也最初发布于 arXiv。发布在 arXiv 上的论文,并不意味着将来无法刊登在顶级期刊上,但它往往是研究首次公开亮相的平台,并会长期保持开放访问状态。“transformers”论文至今仍被频繁地通过 arXiv 阅读。
对科学家来说,设想一个没有 arXiv 的世界,就像我们设想一个没有公共图书馆或 GPS 的世界。但 arXiv 的内部运作并非是一个无摩擦的开放知识乌托邦。从官僚摩擦到过时的代码,甚至还有一次间谍丑闻,arXiv 多年来的存续曾数度遭遇威胁。金斯帕格常常会把采访请求引导到一个常见问题解答(FAQ)文件上,这个文件也是发布在arXiv上的。他甚至试图劝我不要亲自拜访他。在他看来,arXiv 是“我送去上大学的孩子,却总是回家在客厅里露营,还经常捣乱”。
去年春天,我和金斯帕格在纽约州伊萨卡(康奈尔大学所在地)会面数次。老实说,在见面前我心里颇有顾虑。金斯帕格曾在洛斯阿拉莫斯国家实验室的导师、物理学家杰弗里·韦斯特(Geoffrey West)形容他是“非常有个性的人”,并称他在圈内“出了名的难搞”。但他也说金斯帕格“非常幽默,是个很棒的人”。在我们最初的邮件交流中,金斯帕格就直截了当地告诉我,有关 arXiv 的报道并不能打动他:“那么多文章,却没什么见地。”他写道。
69 岁的金斯帕格拥有一副退役铁人三项运动员的瘦长身形,他的膝盖上布满了攀山、登山和骑行生涯中留下的疤痕。(他偶尔仍带领徒步旅行,年轻的科学家们常常吃力地跟不上他的步伐。)他的穿着总是轻松随意,仿佛刚从圣地朝圣之路(Camino de Santiago)走下来,这让我的衣着显得有些过于正式。我们在一起的大部分时间都花在了骑行这个小镇的起伏小山上,我租的电动自行车的最高速度都跟不上他高效的踩踏。
一天下午,我受邀前往金斯帕格在康奈尔大学物理楼的办公室,发现它并不“凌乱”,因为“凌乱”暗示它可以清理。相反,房间里的物体显得毫无生气,早已接受了它们的命运:90年代未拆封的箱子,一堆堆的《Physics Today》杂志,一台莫名其妙的 CRT 显示器,一张被丢在一旁的白宫邀请函。新物品偶尔被添加进堆积物中。我发现了一本斯蒂芬·沃尔弗拉姆(Stephen Wolfram)的最新书《第二法则》(The Second Law),上面有沃尔弗拉姆写的留言:“因为你在arXiv上找不到它:)”。唯一在积极使用的东西似乎是黑板,上面密密麻麻地写满了与量子测量理论相关的符号和方程式,布满了狄拉克符号。
在带我参观大楼和他常去的地方时,金斯帕格非常健谈,任何细节都不放过:当地红尾鹰的筑巢模式,餐厅工作人员的来来往往,以及他办公室后面正在新建的建筑计划。他还时常带点儿戏谑,甚至开玩笑。在讲到他正在收听的一期播客时,金斯帕格突然停下来对我说:“顺便说一句,我喜欢你的发色,很适合你”——我的头发是染的灰白色,如果有人在乎的话——然后他毫无痕迹地转到了一个关于硬盘坏了的故事上。
他说的那块硬盘是他送去恢复的,里面存着一个语言模型,这是金斯帕格目前最新的知识兴趣之一。在他所关心的一系列问题中,有一个就是由于 arXiv 最近提交量激增,特别是在 AI 领域,低质量论文的数量也随之增长——而 arXiv 根本没有足够的志愿者来审查这些论文。因此,他不断对那块硬盘进行操作,试图通过所谓的“圣杯疯子过滤器”(the holy grail crackpot filter)来捕捉那些质量不高的投稿。而金斯帕格认为,正如他在 arXiv 三十年的历史中常说的那样,如果不亲自去做,质量就无法得到保证。
在 arXiv 成为科学研究的关键基础设施之前,它只是金斯帕格的 NeXT 计算机上运行的一些 shell 脚本。1991 年 6 月,当时在洛斯阿拉莫斯国家实验室任职的金斯帕格参加了一个在科罗拉多州举行的会议,在那里发生了一次决定性的邂逅。
首先是金斯帕格的朋友、普林斯顿高等研究院的博士后乔安妮·科恩(Joanne Cohn)的一句话,她当时维护着一个物理学预印本的邮件列表。当时,没有一种集中的方式来访问这些预印本。除非研究人员在某些邮件列表上——这些列表通常基于他们在知名机构的隶属关系——或者知道确切的联系方式,否则他们只能等待几个月才能在已出版的期刊中阅读到新的研究成果。
然后是一个物理学家的随意评论,他担心自己在旅行时,计算机的存储空间被大量通过电子邮件发送的文章占满。
金斯帕格问科恩是否考虑过自动化分发过程。科恩没有,她让金斯帕格自己去做。科恩回忆道:“我记得第二天,他就想出了脚本,并对自己这么快完成感到相当高兴。很难描述那时的情况有多不同,保罗确实看得很远。”
听到关于金斯帕格的故事,你不禁会把他看作是互联网时代的“阿甘”,总是出现在关键时刻,和革命性人物不期而遇。作为哈佛大学的本科生,他与比尔·盖茨和史蒂夫·鲍尔默是同班同学;他的哥哥在斯坦福大学读研究生,和人工智能先驱特里·温纳格拉德(Terry Winograd)一起学习。这对兄弟都有电子邮件地址和访问阿帕网(Arpanet,互联网的前身)的权限,而在那个时候,其他人都没有。
在康奈尔大学获得理论物理学博士学位后,金斯帕格开始在哈佛大学教授。那里的职业生涯并未如他所愿:他未能获得终身教职——哈佛大学因这点而臭名昭著——于是他开始寻找其他工作机会。正是在此时,金斯帕格受到了洛斯阿拉莫斯实验室的邀请,在那里他可以全职从事理论高能物理学研究,无需承担其他职责。而且,新墨西哥州的环境非常适合他充满活力的生活方式。
当 arXiv 刚开始时,它并不是一个网站,而是一个自动化的电子邮件服务器(几个月后,它也成为了一个 FTP 服务器)。随后,金斯帕格听说了一个叫做“万维网”的东西。最初他对此持怀疑态度——“我不可能关注每一个流行的东西”——但当 Mosaic 浏览器于 1993 年发布时,他开始对其产生兴趣。不久后,金斯帕格为 arXiv 建立了一个网页界面,随着时间推移,这也成了其主要的访问方式。他还偶尔与欧洲核子研究组织(CERN)的程序员蒂姆·伯纳斯-李(Tim Berners-Lee)进行咨询——如今的“万维网发明者”伯纳斯-李——金斯帕格亲切地称赞他在法国乡村的家中做的剑鱼非常好。
1994 年,在获得美国国家科学基金会的资助后,金斯帕格雇佣了两名技术人员,将 arXiv 的 shell 脚本转化为更可靠的 Perl 代码。他们都非常有技术天赋,也许有些过于出色,以至于没能在这个项目上待得太久。其一,马克·道尔(Mark Doyle),后来加入了美国物理学会并成为其首席信息官;另一个,罗布·哈特尔(Rob Hartill),则同时在从事一个收集娱乐数据的项目:互联网电影数据库(IMDb)。(在 IMDb 后,哈特尔继续在 Apache 软件基金会做出显著贡献。)
在 arXiv 被命名为 arXiv 之前,它是通过 xxx.lanl.gov 这个主机名访问的(“xxx”在当时并不像今天这样有明确的含义,金斯帕格特别强调)。有一天,他和妻子一起在车上头脑风暴,想出更好听的名字。Archive?已经被占用了。也许他们可以用希腊字母 X 的变体——chi(发音类似于“kai”)。金斯帕格说:“她把它写下,划掉了字母 e,使其在 X 周围更对称。”于是,arXiv 就这样诞生了。那时,并没有太多正式的结构。开发者的数量通常保持在一到两个,而大部分的审核工作是由金斯帕格的朋友、熟人和同事们管理的。
刚开始时,金斯帕格预计 arXiv 每年大约会收到 100 篇投稿。但事实是,这个数字接近每月 100 篇,并且不断增长。正如金斯帕格曾说过的:“第一天,发生了一些事情;第二天,发生了一些事情;第三天,艾德·威滕(Ed Witten)发了一篇论文。”正是从那时起,整个社区加入了进来。艾德·威滕是享誉全球的弦理论学家,可能是现存最聪明的人之一。“arXiv 使物理学家之间的全球沟通变得更加快速,”威滕在一封邮件中写道。随着时间的推移,数学和计算机科学等学科也逐渐加入其中,金斯帕格开始意识到这一新电子平台的重要性。而且,他补充说,“这很有趣。”
随着使用人数的增长,arXiv 面临的挑战也与其他大型软件系统类似,特别是在扩展性和审核方面。有一段时间,arXiv 由于来自“stanford.edu”的流量过大而出现了拥堵。罪魁祸首?谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page),当时他们正忙于为即将成为 Google 的网站进行索引。几年后,当金斯帕格访问 Google 总部时,布林和佩奇亲自向他道歉,为这次事件表示歉意。
最大的谜团并不是为什么 arXiv 会成功,而是它是如何没有被那些旨在保护传统学术出版的既得利益所扼杀的。也许这与金斯帕格早期做出的一个决定有关:提交时,用户签署一项条款,赋予 arXiv 非独占许可,允许它在未来即使论文在其他地方发表,依然可以永久分发该作品。这一战略举措确保了那些通常通过激进手段维持封建控制的大出版商,永远不会认真尝试关闭 arXiv。
尽管 arXiv 的影响力不断增长,洛斯阿拉莫斯的高层却从未特别支持这个项目——可以说,它的影响力已经超过了实验室本身。(当然,这已经远远超出了克里斯托弗·诺兰 2023 年传记剧情片描绘的奥本海默的鼎盛时期。)金斯帕格强调,在洛斯阿拉莫斯的那些早期岁月是“梦幻般的”和“天堂般的”,是他做过的最好的工作。但在 1999 年,实验室的一位物理学家温·霍·李(Wen Ho Lee)被指控将机密信息泄露给**。李是一名美籍华人,后来被证明无罪,且该案件因种族刻板印象而广受批评。当时,这一丑闻引发了内部动荡,采取了旅行限制措施以防止泄密,甚至讨论是否要对员工进行测谎测试。“事情变得越来越阴郁,”金斯帕格说。这时,他的一次绩效评估中被评为“表现平平”,并指出他“没有对实验室项目做出特别贡献的计算机技能”。此外,他的女儿刚出生,而且附近没有学校。于是,他准备离开。
金斯帕格没有直接说他“带着 arXiv 一起离开”,但事实是,他最终回到了母校康奈尔大学——这次他获得了终身教职——而 arXiv 也随之而来。他发誓在“最多五年内”脱离这个项目。毕竟,他的主要工作不应该是管理 arXiv——而是教授和做研究。在大学里,arXiv 找到了它在图书馆中的归宿。“他们负责将材料分发给学术界,”金斯帕格说,“所以这看起来是一个很自然的选择。”
然而,这并非一个自然的契合点。实际上,arXiv 是一个复杂的软件平台,所需的技术专长远远超出了大学图书馆通常所能提供的范围。仅仅是提交过程的逻辑,就涉及了大量的潜在场景和极端情况,使得代码变得错综复杂。我与其他早期 arXiv 成员交流时,他们都认为图书馆没有真正理解 arXiv 的重要性,并把它当作了一个附带的任务来对待。
在图书馆方面,一些人认为金斯帕格过于亲力亲为。另一些人则认为他不够耐心。一位长期参与 arXiv 项目的人员表示,他是“一位不错的基层经理”,但“他的管理感不适合扩展”。在 2000 年代的大部分时间里,arXiv 无法留住超过几名开发者。
计算机领域的先驱者有两条路可走。一条是充满董事会席位、主题演讲和高薪咨询工作的生活。另一条是仍然亲力亲为的实践者之路,继续编写和审阅代码。金斯帕格显然走的是后者——而且他对前者深感厌恶。正如他对我所说的:“拉里·萨默斯(Larry Summers)每周只花一天时间为对冲基金提供咨询——这实在是太不体面了。”
但过度逗留也有可能变得不体面。到 2000 年代中期,随着网络的发展,arXiv——用现任项目主任斯蒂芬妮·奥尔范(Stephanie Orphan)的话说——“变得比我们所有人都要大”。一位创世纪物理学家因其论文被拒绝而起诉了 arXiv,声称他们的创世论宇宙学论文未被接纳。其他一些小丑新闻也相继爆发,包括一起抄袭丑闻,而一些用户抱怨说,arXiv 的审核员——这些领域内的专家志愿者——掌握了过多的权力。2009 年,独立物理学家菲利普·吉布斯(Philip Gibbs)甚至创建了 viXra(arXiv 的倒写),这是一个几乎没有监管的“西部荒野”,在那里,量子物理学和顺势疗法的论文也能找到读者,任何人都可以了解“圆周率是谎言”(why pi is a lie)的原因。
接着是管理 arXiv 庞大代码库的问题。尽管金斯帕格是一名能干的程序员,但他并不是一位遵循行业规范的专业软件开发人员,比如可维护性和测试等标准。就像在没有适当结构支撑或常规安全检查的情况下建造一座建筑一样,他的方法虽然让初期进展快速,但也后来带来了延误和复杂性。金斯帕格并不悔改,经常在图书馆背后检查代码中的错误。工作人员视其为一种冒犯,指责他过度干涉并导致了不信任。
2011 年,arXiv 的 20 周年纪念时,金斯帕格认为自己已经准备好离开,写下了本应是告别的文章《ArXiv at 20》,发表于《自然》杂志:“对我来说,这个存储库本应是一次三小时的游览,而不是终身的事业。ArXiv最初被设想为完全自动化的,以免耽误我的研究生涯。然而,管理它的日常行政事务却可能占据每个工作日的数小时,全年无休。”
金斯帕格会继续留在顾问委员会,但日常运营将交给康奈尔大学图书馆的工作人员。
然而,这一承诺并未实现,随着时间的推移,一些人指责金斯帕格“坐在后座指挥”。有人说,他通过拒绝与其他员工或在 GitHub 上分享代码,实际上将某些代码“扣为人质”。金斯帕格感到沮丧,因为他无法理解,过去他一天能完成的功能,现在却需要数周时间。我挑战了他,问是否有文档帮助开发者理解新的代码库。金斯帕格回答说:“我在 1960 年代学的 Fortran,真正的程序员是不写文档的。”这差点让我这名程序员心脏骤停。
技术问题加上行政问题,情况变得更加复杂。2019 年,康奈尔大学将 arXiv 转移到了学校的计算与信息科学部门,几个月后又将其交给了其他部门。然后,一位有着盈利性学术出版背景的新主任接手了 arXiv;她只待了一年半。“那段时间动荡不安,”一位 arXiv 员工说,“那是个不太好的时期。”
但最终,迎来了缓解:2022 年,西蒙斯基金会(the Simons Foundation)承诺资助,帮助 arXiv 开始了招聘大潮。康奈尔大学教授拉敏·扎比赫(Ramin Zabih),长期以来是 arXiv 的支持者,加入了担任教务主任。在新的治理结构下,arXiv 的云端迁移和代码库重构(转为 Python 语言)终于顺利进行。
有一个星期六早晨,我在金斯帕格家中见到他。他正在仔细检查我借用的他儿子的自行车,准备和我一起进行为期三小时的骑行,目的地是 Mount Pleasant。金斯帕格分享了骑行路线时,调皮而坚持地表达了对我能否跟上他的疑虑。我差点想提起高中时,我曾单人骑行穿越日本的经历,但我还是保持沉默,默默享受在当天的最后一个上坡时,他说:“我可能高估你了。”
在我与金斯帕格的交谈中,最大的挑战是打断他,因为一个简单的问题常常会引发他一段长时间的独白。直到骑行的最后,我才终于告诉他,我觉得他既固执又倔强,如果由一个更温顺的人来负责,arXiv 可能就不会存活下来。我被他的回答震惊了。
“你知道吗,一个人的坚韧不拔,对于另一个人来说就是恐怖主义,”他说。
“你是什么意思?”我问。
“我听说,工作人员偶尔会感到被恐吓,”他说。
“是你吗?”我回答,虽然更真实的回答应该是“废话”。金斯帕格显然没听清我的问题,转而开始讲起别的事。
除了日常运营中的戏剧性——如果不是恐怖主义的话——arXiv 仍面临许多挑战。语言学家艾米丽·本德(Emily Bender)指责它是“癌症”,因为它推广“垃圾科学”和“速成学术”。有时它确实显得过于快速:2023 年,一篇声称突破常温超导的论文最终被证明完全错误。(但同样迅速的是该论文被揭穿——这证明了 arXiv 按预期发挥作用。)还有一些相反的案例,批评者称 arXiv “审查”了完全合格的研究成果,比如物理学家豪尔赫·赫尔施(Jorge Hirsch),他因“煽动性内容”和“非专业语言”被撤回论文。
金斯帕格对此有何感受?嗯,他不是那种喜欢在宏大话语中谈论使命、推广意识形态或成为“开放科学”先驱的人。我想他关心这些,但他不愿意将自己的工作包装成崇高的事业。
有一次,我问他是否真的想要从 arXiv 解脱出来。“你知道,我得完全诚实地说——这个工作有很多方面仍然令人难以置信地有趣,”金斯帕格说。“我有一个完美的平台来测试想法并与之玩耍。”尽管他不再亲自调试 arXiv 的生产代码,但他仍在努力开发一种过滤伪造论文的“圣杯”。这是一个让他保持参与并保持活跃的项目。也许,借助更新的语言模型,他会解决这个问题。“就像阿尔·帕西诺那句台词:他们总是把我拉回来,”他说。金斯帕格脸上露出了熟悉的微笑,“但阿尔·帕西诺也真的开始喜欢杀人了。”
PAPER TRAIL
说arXiv既是获取最新研究成果的无价之宝,又像是科学家们的Reddit,在这里,深刻的见解和荒谬的观点相互碰撞,这并不矛盾。弦理论的对决?有。因拒绝论文而引发的诉讼?自然也有。以下是其中一些令人难忘的时刻。
1991年:《二维弦理论的基本环》(Ground Ring of Two-Dimensional String Theory),作者:Edward Witten
这位弦理论学家的第一篇论文发布在 arXiv 上。威滕的早期加入帮助平台赢得了合法性。
1994年:《世界作为全息图》(The World as a Hologram),作者:Leonard Susskind
一篇真正让人大脑崩溃的论文:就像全息图从平面上创建三维图像一样,给定空间内的所有内容可以通过其二维边界上的信息来完全描述。对吧?
2001年:《大爆炸中的缺陷指向 GENESIS——宇宙的新千年模型》(Flaws in the Big Bang Point to GENESIS, A New Millennium Model of the Cosmos),作者:Robert Gentry
当这篇“创世论”论文被拒绝并且 Gentry 的 arXiv 访问权限被撤销时,他以平台侵犯宪法权利为由提起了诉讼。
2002–2003年:Grigori Perelman 的庞加莱论文(Poincaré papers)
凭借这些论文,这位俄罗斯数学家解决了七大千禧年奖难题之一(迄今为止唯一解决的)。他拒绝了100万美元的奖金,并选择过隐居生活。
2013年:《词表示的两个论文》(Two Papers on Word Representation),作者:Mikolov 等人
在这篇论文中,word2vec——使机器能够理解单词的语言数学——被引入。大约在这个时候,计算机科学的论文开始主导 arXiv。
2017年:《注意力即一切》(Attention Is All You Need),作者:八位 Google 研究员
这篇论文引发了千百个聊天机器人。
2023年:《首个常温常压超导体》(The First Room-Temperature Ambient-Pressure Superconductor),作者:一组韩国科学家
常温超导体?全球研究人员尝试重现结果,但最终揭穿了这一主张。
原文:Inside arXiv—the Most Transformative Platform in All of Science by Sheon Han
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!