图1. 研究机构通常每天产生出数百G级乃至TB级字节的数据。
和企业一样,大型研究机构也正在为日益增长的非结构化数据困惑不已,运用正确的文档存贮解决方案,能够创造出显著的存储空间。
科 学研究部门的数据保存必须保证安全,以备时隔数十年后还能方便准确地调用。有些数据和研究方法还要保存在公开的档案里,以便能够重复这些研究项目和进行结 果检验。研究工作每天都会产生数百G级(109)字节甚至TB级(1012) 字节的宝贵数据,如何保存这些研究数据、以及在优化现有存贮资源的同时如何防止丢失,便成为当前IT部门的两个核心任务。
数据迁移提高访问效率
Genethon是一个由法国肌营养不良症研究协会(AFM)建立的生物治疗中心,主要进行肌肉疾病的研究和治疗。Genethon拥有200多名基因研究学家、物理学家、工程技术人员以及监管事务专家,是当今全球临床前基因治疗领域的研究和开发中心。
Genethon 的数据容量以每年30%~40%的速度增长,主要来自成千上万高分辨率的图片和电子显微镜的录像以及DNA的排序资料。IT专业部门在存贮数据时感受到日 益增加的时间配额限制,遂着手研究如何解决数据存贮方案,以便在一级存贮器中创建出自由的空间。在对一系列潜在方案进行评价后,Genethon最终决定 采用Atempo 的数字化档案管理软件(ADA)。
IT负责部门需管理一个由250台计算机和手提电脑通过20个Windows和 Linus服务器组成的舰队,并支配2台用于研究数据的存贮器,一个具有8 TB级字节存贮容量的Dell CX300,另一个是具有10 TB级字节存贮容量的磁盘存贮单元Dell Equallogic PS600。数据被直接存贮于Dell Powervault Tape Library (戴尔磁带库)并加以保密。
在借助于Atempo 的测量仪器对数据加以分类鉴别后,IT专家们发现存贮于一级存贮器中50%以上的图片及其数据并非每天应用。通过采用Atempo 数字化档案管理软件的分层存贮管理(HSM)系统,IT专家们成功实现了将研究数据迁移至二级存贮器中,从而为一级存贮器腾出了1.5 TB级的自由空间。在数据迁移过程中,数据被自动地替代为备份文件stubfiles,从而保证了对所存贮数据的通透式存取操作。采用这种数据迁移方法 后,数据访问效率提高了40%。
自动化存档创造存贮空间
Alba Synchrotron同步加速器公司的做法也有异曲同工之妙,这个坐落在巴塞罗那的企业是全球范围内从事同步加速器光源的引领性机构。光源可以通过电子 加速产生X射线,从而使科学家们研究分子机构的内部机构,其应用范围业已从工件的材料疲劳试验扩展到骨头生长的测量。
在Alba Synchrotron同步加速器公司有多达30种实验同时进行,每个检测器产生2~3种辐射过程,所产生的初始数据可达300MB/s,每种测试长达数分钟,每天产生出大量的科学数据。
为 了便于科学家们快捷地存取包括分析结果的实验数据,Alba 公司借助于Hitachi-HNAS平台在Bluearc公司支持下组建了250TB在线存贮器用于保存数据。该企业需要一种数据档案解决方案,以便将一 级存贮器中的存贮位置释放出来,并将实验数据加以保存以备未来参考使用之需。为了满足这些要求,Alba公司最终决定采用Atempo数字化文档存贮器 (ADA)。借助于ADA的存贮管理,Alba的一级在线存贮器用3个月就自动迁移至廉价的磁带存贮库NEO 8000中,通过将数据迁入磁带库的存档方法使新的实验数据又能存贮到一级存贮器中,即元数据存贮归档。专有或变通的元数据,诸如项目名称、所用的辐射线 或者科学家的名字等,则由各同步加速器实验分别加以纪录,这类信息的存档方法使得科学家可快速找回所需要的实验数据。
图2. Atempo公司的数字化文档存贮器(ADA)借助于合适的数据管理软件创造了存贮容量。
数据存档基本原则
除了建立强有力的存档解决方案,如何让存档软件运行也是研究的重点。需要注意几点基本原则,即可将所存档的数据从其数据死档中活化取出,以用于日常工作。
内容创始人给予授权
当研究机构内部出现存贮困难时,使用者需与内容的创始人沟通,后者更清楚哪些数据是固定的,是不可改变的,而且已准确嵌入文档存贮器中。如果赋予使用者一种有效的机制来进行数据的存贮和调出,则可做到事半功倍。
为文档存贮器创建自动化机制
虽 然使用者的干预可能大大降低存贮容量,然而单纯手动处理往往并不足以满足要求。通过建立文档存贮规则以及可实现过程自动化的时间计划,则能够更加有序地执 行文档存贮的战略计划。成熟的文档存贮软件能够让使用者根据目标制定出判据标准,并以此应用自动化的文档存贮规则于最后的存取和数据类型。
删除不必要的复制数据
企业内部许多职员和部门往往会存贮一些不必要的数据,智能化的文档存贮解决方案能够识别这些重复性数据,并可主动减少这些累赘。
确保所存贮的数据被重新找回
如果使用者不能及时快速地将所需的数据加以定位和调用,则文档存贮器不可能真正显示其所有可能节省的成本和其他优点。文档存贮器必须拥有以下的功能:
调用数据,无需其原始存贮地址;
搜索基础性的数据特性,诸如名称、建立日期、研究者名字以及数据类型;
支持元数据标签,以便确立数据组搜索中的属性,例如某一系列数据的标签为“Genon Projekt 2011”;
文档记录的全名称搜索:存贮文档记录时进行扫描,避免数据从文档存贮器中取出来后,还要再去检查内容。
保持媒体选项
文档存贮解决方案应该保持其灵活性,以便让使用者能够将最佳的媒体类型应用于特定的环境中,应能提供范围宽广的媒体选项,比如支持磁带、光盘或者在线存贮器、搜索词云计算等。
5项文档存贮规则
选择正确的存贮规则研究文档存贮的有效途径,用以强化一级存贮器的应用,消除臃肿的存贮容积问题,从而实现长期保持研究数据。数据存贮的5个重要原则是:
对内容的创始人给予授权;
为文档存贮器建立自动化机制;
删除不必要的复制品;
确保所存贮的数据被重新找回;
机动灵活地应用媒体选项。
Atempo Deutschland公司
展源
何发
2021-01-11
2020-05-27
2023-03-13
2020-05-27
2020-05-27
2020-05-27
2024-03-06
2020-05-27
2021-01-12
加载更多