科学研究中的人工智能:朋友还是敌人?

科学研究中的人工智能:朋友还是敌人?


人工智能已经完成了从科幻电影流行语到日常生活特征的转变。现在,每个压力很大的大学生的浏览器上都可以找到一个打开的 ChatGPT 选项卡。人工智能技术的普及也不可避免地进入了科学研究领域,为我们增进对世界的理解提供了巨大的机遇,但也带来了一系列复杂的伦理挑战。

根据 Scopus 数据库的分析,研究论文中引用人工智能的文章比例已从 2013 年的 2% 左右上升到十年后的 8%。人工智能算法正在广泛的科学领域得到应用;例如,人工智能正在分子生物学中得到广泛应用,以解决蛋白质折叠问题,使我们能够仅通过一小段遗传密码来了解3亿种已知蛋白质的结构。如果找到解决方案,它将代表当今科学知识最伟大的进步之一,从而在治愈和治疗疾病、生产新的生物材料和预防未来的流行病方面带来无限的进步。

谷歌母公司创建的 AlphaFold 等程序正在使用机器学习技术来更准确地预测不同蛋白质的形状。 AlphaFold 在包含约 100,000 个蛋白质的公共数据库上进行训练,将遗传密码确定的氨基酸序列与已知的蛋白质结构进行比较。 2021 年发表的论文 自然 表明这些预测在单个碳原子的尺度上是高度准确的:这篇论文从此成为有史以来被引用最多的论文之一。 AlphaFold 模型已被用于开发药物、寻找分解污染塑料的酶,甚至生产针对疟疾等以前难以捉摸的疾病的疫苗。

“显然,人工智能有潜力改变科学研究,并为古老、高度复杂的计算问题找到解决方案”

此外,Exscientia 于 2020 年生产了第一个人工智能发现的药物进入临床试验,旨在治疗强迫症症状。他们的程序以创纪录的速度搜索了极其庞大的化学库,以识别可能靶向正确受体来治疗这种疾病的分子。通常,临床科学家的药物开发是一个需要多年才能完成的过程。从最初的分子筛选到开始临床试验,通常有五年左右的时间间隔。然而,对于Exscientia的药物来说,这个阶段在不到一年的时间里就完成了。

显然,人工智能有潜力改变科学研究,并比人类或普通计算机更快地找到古老、高度复杂的计算问题的解决方案。然而,我认为我们必须谨慎对待人工智能在研究中的应用范围,以及我们对此类程序生成的内容的信任程度。

当前的人工智能模型是根据已经存在的数据集进行训练的,永远不会远离人类的影响。尽管大量数据看似客观,但在数据收集、处理和报告过程中始终存在偏差。例如,长期以来人们都知道临床试验数据中白人患者的比例过高。我们知道,影响我们对药物反应的某些疾病,例如糖尿病和镰状细胞病,在不同血统的人群中的患病率有所不同。因此,根据这些数据训练的算法将吸收这种过度代表性,并可能建议对少数民族背景的人有不同影响的药物,这是算法偏差的一个令人震惊的例子。这引发了有关在研究中使用人工智能的伦理问题。计算机算法是否应该遵守《平等法》并遵守与人类相同的法律标准?如果发现违规,谁负责?

“算法无法像人类研究人员那样理解数据所代表的含义”

这个问题最近引起了人们的关注,伦敦警察厅宣布,他们将在伦敦街道上使用面部识别技术来识别犯罪嫌疑人。然而,据报道,所使用的算法主要是使用白人面孔进行训练的,埃塞克斯大学的一项研究发现,该算法仅在 19% 的情况下准确,而大都会艺术博物馆声称的数字为 70%。

针对这些问题的一种建议解决方案是对机器学习模型进行严格的审查过程,包括根据已知数据直接测试模型,以检测针对某些群体的偏见。开发人员还可以制作一份偏见影响声明,概述哪些群体可能受到影响,以及如何检测针对他们的偏见。不过,这很难执行:当需要考虑近乎无限数量的混杂因素时,证明模型对特定群体存在偏见是具有挑战性的。

此外,机器学习算法依赖于在训练过的数据集中查找模式,并将这些模式外推到新数据。算法无法像人类研究人员那样理解数据所代表的内容。因此,这些算法无法区分数据中的噪声引起的模式和数据中的实际趋势,从而可能产生错误的预测。

总体而言,人工智能的越来越多的使用对科学研究来说是积极的。它有可能复兴对多年来未取得突破的未解答问题的研究,从而引发现代科学革命。然而,人工智能模型产生的研究应该持保留态度。显然,它们可能会在客观性的幌子下强化现有的人类偏见:需要对用于训练机器学习的信息进行严格审查,并且应控制人工智能在研究中的传播,直到制定适当的监管措施。

Měilíng Lǐ
关于