@Steed的围脖:你听说过“低本底钢”(Low-background steel)吗?
故事要从上世纪中叶说起。1945年,第一颗原子弹的蘑菇云升起,人类进入了核时代。此后数十年,频繁的核武器试验向大气中释放了大量的放射性同位素。这些看不见的尘埃随着全球大气循环,飘散到世界每个角落,悄无声息地融入了我们生产的一切事物中——包括新炼出来的钢铁。
对普通人来说,这点微乎其微的辐射无伤大雅。但对于需要制造极精密辐射探测仪器(比如盖革计数器、太空探测器)的科学家来说,这却是致命的。新生产的钢铁本身就带有“背景辐射”,会干扰测量结果,就像在一片嘈杂中试图听清一根针掉落的声音。
怎么办?科学家想出了一个绝妙的主意:去寻找那些在1945年核试验开始之前制造的钢铁。于是,他们将目光投向了深邃的大海。那些在二战中被击沉的战舰、潜艇,它们厚重的钢板在海底静静地躺了几十年,完美地避开了核时代的放射性尘埃。这些从沉船上打捞起来的钢材,就是珍贵的“低本底钢”。
你可能觉得这只是个有趣的冷战历史片段。但今天,一个惊人相似的故事正在我们身边上演。只不过,这次我们急于寻找和囤积的不再是钢铁,而是“低本底内容”——那些在人工智能(AI)浪潮席卷世界前,由纯粹人类创作的文本、图像和思想。
—-
信息海洋里的“放射性尘埃”
这个故事的新主角,是一个名为lowbackgroundsteel.ai的网站。它的创建者,前Cloudflare高管约翰·格雷厄姆-卡明,敏锐地捕捉到了这个时代的隐喻。他认为,正如核试验污染了全球的钢铁,2022年以来以ChatGPT为代表的生成式AI的爆发,也正在“污染”我们的信息海洋。
在过去,你在网上读到的一段文字、看到的一张图片,几乎可以肯定是出自某个人类之手。但现在,AI可以瞬间生成以假乱真的文章、代码、画作甚至新闻。这些AI生成物与人类的创作混杂在一起,让整个互联网的“背景噪音”急剧升高。
这场“污染”已经造成了实际的伤害。一个叫wordfreq的语言学研究项目就是第一个广为人知的“牺牲品”。这个项目通过分析海量网络文本(来自维基百科、新闻、社交媒体等)来追踪超过40种语言的词频变化,是语言学家和开发者研究语言演变的重要工具。然而在2024年9月,该项目宣布永久停止更新。理由简单而绝望:“如今的互联网,充斥着大型语言模型制造的垃圾,它们由虚无写就,也不为传递任何信息。”
当AI开始学习被AI自己“污染”过的数据,还会引发一种更深层次的忧虑,科学家称之为“模型崩溃”(Model Collapse)。这就像复印机的复印件再拿去复印,一代代下去,图像只会越来越模糊失真。AI不断“近亲繁殖”,可能会导致整个AI生态的质量不断退化,最终陷入平庸的泥潭。
—-
建造一艘“数字诺亚方舟”
面对这场可能模糊人类历史和创造力边界的“信息污染”,格雷厄姆-卡明决定行动起来。他发起的lowbackgroundsteel.ai项目,就是一个旨在为后人保存“纯净”人类思想的“数字诺亚方舟”。
这艘“数字方舟”上装载了哪些宝物呢?
▶ 一份冻结在2022年8月(ChatGPT发布前)的维基百科完整数据快照。
▶ 收录了海量公共领域图书的古登堡计划(Project Gutenberg)。
▶ 美国国会图书馆的珍贵照片档案。
▶ 甚至还有GitHub的北极代码库——这是一个在2020年被封存、埋藏在北极圈附近一座废弃煤矿深处的开源代码“时间胶囊”。
这些被精心挑选出来的资源,共同构成了一个未经AI“污染”的人类智慧样本库。它们就像那些沉船里的“低本底钢”,为我们这个时代划下了一条清晰的界线:一边是纯粹的人类创造,另一边是人与机器共创的未来。
—-
为未来保留一个参照系
格雷厄姆-卡明强调,这个项目并非为了反对AI,而是为了记录和保存。就像大气中的放射性最终会衰变回自然水平,“低本底钢”对大多数领域已不再那么重要。或许有一天,我们也能从容地分辨和利用AI内容,不再需要这样一个“保护区”。
但在此刻,建立这样一个“加密方舟”或“数字考古遗址”无疑是明智的。它不仅能帮助未来的研究者避免“模型崩溃”,更重要的是,它为后代历史学家留下了一个可供验证的、真实的人类思想记录。当未来的孩子想要了解,在机器还没有加入我们的对话之前,人类是如何思考、如何沟通、如何创造时,他们将有一个可靠的参照系。
这个小小的网站,就像在数字时代的沙滩上画下的一道线,标记了一个时代的结束和另一个时代的开始。它提醒着我们,在拥抱技术飞速发展的同时,永远不要忘记回头看看,那些曾完全由我们自己一笔一划构建起来的世界,是多么的珍贵。