新闻  |   论坛  |   博客  |   在线研讨会
因为Excel,科学家们修改了27种人类基因的名称
深科技 | 2020-08-12 14:55:44    阅读:108   发布文章

电子表格类软件,已经深度参与到我们日常工作的各个环节。


而其中的翘楚无疑是微软的 Excel,不管是 WPS 或是 Numbers,都无法撼动这款已经拥有 35 年历史的软件。但最近它的某些功能却给一些科学家们带来了困扰。


藏在基因名称中的“隐患”


人类基因组,有 23 对染色体,包含约 30 亿个 DNA 碱基对,部分碱基对组成了大约 20000 到 25000 个基因。在科学研究中,学者需要为每个基因起一个特定的名称以便快速定位,这些名称一般由字母加数字的形式组成。


但是在最近一年左右的时间里,有约 27 种人类基因被重新命名,Excel 正是这一系列行为的“肇事者”,它会将这些基因名称误读为日期格式,并直接修改成了默认格式。


这种事情并不新鲜,我们每个人或多或少都遇到过类似情况。


但是,当 Excel 将一些关键数据误读,而科学家们恰好使用这些数据来分析,甚至临床试验的时候,就可能产生不可挽回的严重后果。


当遇到类似情况时,科学家们必须手工设置单元格格式以还原数据,但难免也会产生遗漏的情况。据一项 2016 年的调查表明,这类 “Bug” 非常普遍,以至于在 3597 篇样本论文中,约五分之一都受到了影响。


“这真的非常非常烦人”,英国 Quadram 研究所的系统生物学家 Dezső Módos 在报道中这样描述。他的工作会涉及到分析新近测序的遗传数据,他说这类 Excel “错误”非常常见,而恰好 Excel 是科学家们分析数据时的首选。“在解决计算问题的时候,它真的很方便”。


并没有一种简单的解决方法能够修复这类“Bug”,Excel 没有关闭自动修改格式的开关,为了避免自动“转型”,只能重设整列单元格数据类型。但是这种修复是一次性的,一旦其他人引用了相关数据,问题会再次出现。


改名,是为了彻底解决问题


国际人类基因组组织(HUGO)下辖的 HGNC(基因命名委员会),近期发布了包含 “影响数据处理和索引的符号” 的关于基因命名格式的新指南。从今往后,人类的基因命名将避开 Excel 的“Bug”。例如:MARCH1 将变为 MARCHF1;SEPT1 变为 SEPTIN1。


这并不是一个轻易作出的决定,HGNC 的权威性来自科学家群体的共识。HGNC 必须及时通知受到改名影响较大的群体,从改名到日常使用将是一个缓慢的过程。


此前,在遗传学早期,基因的命名一度非常随意,往往体现了科学家的强烈个人偏好,例如 “臭名昭著” 的“音速刺猬索尼克”、INDY(I’m not dead yet)等等。



不过现在,HGNC 已经将命名规则制定权牢牢掌握在手中,在他们的规则下,基因的命名不再能够让科学家们自由发挥,基因名称不得使用上标或下标,只能包含字母和数字,不能由姓名或单词组成,尤其是一些令人反感的词汇。


为了避免在搜索时产生歧义,他们曾经将 CARS 基因更名为 CARS1、WARS 更名为 WARS1 等等。


HGNC 的协调员 Bruford 说道,这是第一次该组织针对软件问题而对基因名称及命名规则进行修改,截止目前,收到的反馈总体上是积极的。


但 Bruford 也提到,他们听到了一些争议的声音:为什么选择重新命名人类基因,而不是修复 Excel 的“Bug”?为什么整个遗传学界会输给一家商业公司?


微软并未对此置评。


但 Bruford 这样解释道,Excel 并不值得因此而改变所有的产品功能,我们在微软庞大的用户群中只占很小的一部分。如果微软就此做出修改,反而将对更多的人造成影响。


最后她说,同永恒的人类基因相比,Excel 不过沧海一粟。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客