前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

作者头像
生信宝典
发布2018-11-22 16:18:39
1.2K0
发布2018-11-22 16:18:39
举报
文章被收录于专栏:生信宝典生信宝典

EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序。还有 3 个超赞的 EXCEL 插件,让你 5 分钟从小白变大神。

但是EXCEL也会出现比较尴尬的事情,如基因名字的转换。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 会被转为2-Sep1-Mar4-Oct

RIKEN 识别符因为E的存在会被识别为科学计数法,如2310009E13转为2.31E+13。而且不可恢复

这一事情在2014年的BMC Bioinformatics上就有报道。下图所示12个月份开头的基因名字都不可逆的转换为了日期。不少都是在胚胎干细胞或癌症中很重要的基因。

这些数据不只是存在于Excel表中,还威胁到了公共数据库,如NCBI LocusLink。

2016年Genome biology对2005-2015期间发表在18个杂志的文章附表中基因名字做了分析,发现Nature中有附表的文章里面,有30%以上出现了EXCEL引起的基因名字转换错误,受影响的文章有74篇,影响的基因1375个。

出现基因名字转换错误的附表错误的文章逐年增加,这一定程度上也是因为大规模基因研究的迅速开展使得总上传的附件数增多引起的。

并且作者还做了相关性分析,影响因子越高,受影响的基因列表比例越大。这可能是因为高影响力的文章涉及了更多的数据集。

BMC bioinformatics虽然首先提出这个问题,后续受影响比例也比较大,有政策,无实施。

为此,Eric A. Welsh特意开发了一款工具阻止此类转换,提供了在线版本,Excel插件,Perl脚本和Galaxy访问接口,为了大家的使用也是煞费苦心。软件发布在Github上,https://github.com/pstew/escape_excel,文章发表在Plos One

Excel插件也很好安装,下载解压,escape_excel-master\release\2017-06-28\EscapeExcelAddin目录中有setupEscapeExcel.exe, 双击安装即可。

这个插件可以解决以下几种问题,解决方式是在原字符串前加上=,并用"括起。(只在最开始加个'看上去也可以解决问题,没细看作者为啥采用相对复杂的方式)。但是转换后的数据在使用EXCEL的函数时需要注意匹配方式的变化。

常见受影响基因列表

  • 2310009E13
  • FEB2
  • MAR1
  • DEC1
  • 2310009E13
  • OCT4
  • APR1
  • SEP2
  • SEP-1
  • FEB1-FEB11
  • MARCH1-MARCH11
  • SEPT1-SEPT14

生信分析中经常会做的根据基因名字提取序列、表达量和注释,都会受到这些名字转换的影响,也会受到另外一个常见的换行符的影响^M,所以做分析需要谨慎、谨慎、再谨慎。一定多检查结果是否前后一致。

除了要求细心之外,还要求有一定的程序基础,可以从多个角度查看、验证和解决问题,保证一致性。

市面上Linux和Python的课程很多,但真正面向生物数据和生物信息分析的不多。近来频频收到不少朋友说看了我们的生信程序视频课开窍了、入门了,对程序基础的应用理解更深了,我们的课程在http://bioinfo.ke.qq.com/可以获取,欢迎更多朋友观看。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常见受影响基因列表
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档