资讯中心

创建数据管理计划的十项简单规则

来源:数据分析网 原标题:创建数据管理计划的十项简单规则
2016/6/27 10:12:02
31798
导读:数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。
  【中国智能制造网 技术前沿】研究论文和数据产品是科学企业的核心成果。政府、非政府组织,以及科研的私人基金会赞助商正愈加认识到研究数据的价值。其结果是,多数出资人现在要求足够详细的数据管理计划应该作为研究建议提交的一部分。数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。
  
  创建数据管理计划的十项简单规则
  
  这类计划通常涵盖数据全部或部分生命周期——从数据发现、收集和组织(如电子表格,数据库)、通过质量保证/质量控制、文档(例如数据类型,实验室方法),以及数据的使用,到数据保存及其与他人的分享(如数据政策和传播方法)。图1刻画了假设研究和数据生命周期之间的关系,并突出了文件中提出的规则的联系。该DMP经过了同行的审查,其中的一部分用来评价一个项目的价值。该计划还记录与投资项目相关的数据管理活动,并可以在绩效考核阶段重新审核。
  
  研究生命周期(A)的数据生命周期(B)的关系
  
  图1.研究生命周期(A)的数据生命周期(B)的关系。突出圆圈指的是与数据生命周期的步骤关联性密切的规则。
  
  作为研究生命周期(A)的一部分,很多科研人员通过采集(2)掺入(3)了各种分析和可视化元素的数据进行想法和假设的测试(1),形成了之后发表(4)在文献上面的诠释研究结果的论文,并通过其它机制传播(例如,会议演讲,博客,微博),而且这常常会导致重新返回(1)新的想法和假设。在数据生命周期(B)中,研究者们一般制定(1)数据在该项目期间和项目后期的管理计划,发现(2)并采集现存的数据资源,收集(3)并组织新的数据资源,确保(4)数据的质量,描述(5)数据,使用(6)分析,模型,可视化等方面的数据,保存(7)数据并于他人(例如,研究人员,学生,决策者)分享(8),这种步骤可能导致新的想法和假设。
  
  1确定研究赞助商的要求
  
  研究机构通常制定自己的标准方法和途径来管理和传播数据。同样,研究赞助商往往对DMP有非常具体的期望。比如说,维康信托基金会、戈登和贝蒂穆尔基金会(GBMF)、美国国立卫生研究院(NIH)以及美国国家科学基金会(NSF)同样都资助了计算生物学的研究,但在他们的DMP要求明显不同。
  
  首先了解该组织规定的要求可以节省大量的时间和精力。科研赞助商通常会把DMP的开发需求写在邀标书(RFP)中,或者发布到网上的标书指南中。
  
  不管之前你是否已将提案提交给特定资助项目,始终重要的是要记得检查新版的RFP,并研究赞助商的网站,以核实他们的要求近是否已经改变,以及如何改变。请记住,主要目标应该是建立一个对你的项目非常有用的计划。因此,良好的数据管理计划可以而且常常包含比研究自助者所要求的多得多的信息。
  
  2确定将要收集的数据
  
  每个DMP的组成都取决于你对将要收集的数据了解多少,以及所收集的数据的类型。显然数据量是很重要的,因为管理10TB级的数据量要比管理10兆字节数据量花费更多的基础设施和人员方面的成本。但是,数据的其它特性也影响成本的投入,包括元数、数据的质量保证和保存策略,甚至包括数据的策略。一个好的计划应该包括充分了解所收集数据的信息性质,包括:
  
  数据类型。一个良好的步就是列出你希望收集或创建各种数据的类型。这可以包括文本、电子数据表软件和算、模、图像和电、音频文件以及患者的病历。请注意,许多研究赞助商把数据定义得很广泛,包括实体馆藏、软件和源代码以及课程教材。
  
  数据来源。数据可能来自人类直接观测结果、实验室和现场仪表、实验、模拟,以及其他研究的数据的汇编。评审员和赞助商可能对数据的专用性的理解、从其他研究中编制数据、涉及人类受试者特别感兴趣,他们也感兴趣是否你的数据按照其规定限制了他们的使用或者再发布的权限。
  
  数据量。预期收集的数据总体积和文件总数都会可能会影响其他数据的管理活动。
  
  数据与文件格式。今天我们可以接受的技术变化和格式可能很快就会过时。的选择,包括那些被科学界并广泛采用的基于开放标准的非专有格式。如果数据未经压缩,也未加密,并使用标准字符编码储存的话,数据可以被长期的读取。的类型,来源,体量,以及数据的格式可以不事先知道,这取决于研究的性质和独特性。在这种情况下,该解决方案应该对计划迭代更新。(详见规则9)
  
  3确定组织数据的方式
  
  一旦理解了要收集数据的体积和类型,下一个明显步骤就是确定如何组织和管理数据。对于许多项目,会产生少量数据表,这些数据表可以借助商业或开源电子表格程序进行有效的管理。较大的数据量,并具有使用约束性质的,可能需要使用像ORACLE或mySQL这样的关系数据库管理系统(RDBMS)进行管理,或者使用地理信息系统(GIS)进行地理空间数据层的管理。
  
  有关如何组织和管理数据的细节,可以写满好几页的文本,事实上,这些文本应记录为项目的进展细节。那些在项目中所使用的软件工具应该可以满足项目预期的任务要求。根据赞助商的要求和空间限制,指定文件命名、标识符以及版本控制的规定非常重要。
  
  4解释数据将的记录方式
  
  数字和字符的每一行每一列具有很少或几乎没有意义,除非它们以某种方式记录。元数据——关于是什么、何地、何时、为何以及如何对数据进行收集,处理和解释的细节——提供一种使数据和文件被发现、使用和正确的引用的信息。元数据包括了数据和文件如何被命名、物理结构以及存储的描述,也包括了关于实验、分析方法、研究场景的细节。创造全面综合的元数据所需要的努力可能会因为数据复杂性,类型和数据量有实际上的不同。
  
  一个健全的文档策略,可以基于三个步骤。首先,应确定被捕获数据信息的类型,以使研究人员发现、获取、解释,使用并引用您的数据。第二,确定是否存在可以被采取以社区为基础的元数据模式或标准(即,元数据元素的优选集)。第三,确定可用于创建和管理元数据内容(例如,Metavist,形态)的软件工具。
  
  好的做法是指定一个负责人来维护一个包含所有的项目细节的电子实验室笔记本。笔记本好能定期由其他团队成员审查、修改以及复制。记录在笔记本中的元数据为那些和存储、重复使用并共享的数据产品有关的元数据提供了基础。
  
  5描述如何保证数据质量

  
  质量保证和质量控制(QA/QC)指的是用于测量,评估和改进产品(例如,数据,软件等)的质量的过程。这可能需要遵循特定的QA/QC准则,取决于研究资助的性质。它是描述您计划在项目聘请QA/QC措施很好的做法。这些措施可以包括训练活动、仪器校准和验证测试,双盲数据输入,以及统计和可视化的方法的错误检测。简单的图形化数据探索的方法(例如,散点图,映射)可宝贵的检测异常和错误的方法。

热门评论

上一篇:人脸识别算法对100万陌生脸谱做到式

下一篇:Libcloud:将所有云连在一起的开源云库

相关新闻

<