回顾 | 欧洲科学数据管理给中国的启示与借鉴意义(上)

埃博拉病毒入侵机制的破解,海量DNA数据的发掘,上帝粒子-希格斯粒子的发现,全球碳检测网的架设,ARIGO海洋浮标的使用。当今科学界正随着大数据时代而转型,科研数据正成为科学发现的最大影响因素。科研数据作为科学研究的重要成果,科研数据的开放获取已成为推动科研成果传播和再利用的有效手段。
在此背景下,上海科技创新资源数据中心以“欧洲科学数据管理给中国的启示与借鉴意义”为主题,邀请中外相关领域重量级专家一同探讨欧洲科学数据管理的先进经验,研究欧洲各国推动科学数据开放和共享的机制和方法,希望能从中获得对中国科学数据管理工作的启示与借鉴。

欧洲作为世界上科学数据管理的先驱者,早已建成许多科学数据管理的基础设施,这为科学数据的开放共享提供了可能和技术支撑。以其中的欧洲网格基础设施(EGI)为例,作为联合的信息化基础设施,EGI将欧洲和全球的数百个数据中心和云供应商连接起来,为EOSC门户网站提供服务,对EOSC的建设起到了很好的促进作用。在这其中EGI的工作模式是如何的,在连接欧洲各处的基础设施间,相关的技术方案与手段是如何的。

欧洲网格基础设施(EGI)技术总监,Tiziana Ferrari对此解释道:对于EGI来说,总共有250多个相关欧洲研究院,与此同时亚非地区也有成员和EGI合作,包括中国方面,也可以看到和中国包括上海数据中心进行合作,还有和非洲有一些成员进行合作,在全球范围内,主要在科学技术平台进行大规模相关的数据分享,可以看到在过去几十年当中重大的发现,在基础设施上来进行分享,非常高兴中国也是积极参加合作。
可以看到在数据的处理包括分配方面,也可以看到数据整合其实已经得到有效的发展,另外在国际合作层面,也是和相关的政府得到了支持,已经帮助相关研究院得益于数据分享,很多数据研究成果可以提前完成。也是希望在今天的会议当中可以具体探讨一下如何能够在科学的数据开放方面有更紧密合作,帮助相关研究机构更好获得数据,能够有更快成果的转换。因为我们相信全球的合作机制不管是哪一种学科的合作,有更多的协同效应,对于我们来说数据的存取、开放、分享,通过合作机制能够实现更好的全球特别跨境、跨区域的成果转换。
对于EGI来说,是一个数据库计算方面开放性的联合平台,比如说在API还有开放式性的堆栈都是开放的,对于数据中心可以很快在技术层面进行连接,这些开放式的API包括软件方面完全都是开放的,数据中心可以很快把数据来进行部署,对于其他研究中心来说可以调用这些数据,很快去寻找所需要的信息,来完成一些具体的需求,这些开放性的API之外,也是允许数据能够在各个中心之间进行自由的传输,而且是跨境的数据平台的交流,无论是在一些大型的数据的实验,不管是欧洲还有全球范围内数字方面实验都是基于开放式的标准,通过开放式的API所有科学数据在平台上可以自由来进行交换和流动。

科学数据最困难的即是进行数据的安全管理,但作为一个完全开放的机构,EGI对于整个的安全控制是如何做到的呢?

欧洲网格基础设施(EGI)解决方案总监,Gergely Sipos表示:对于欧洲来说,整个欧洲的治理架构,也是通过联合的方式,本身就是欧盟联合体系,对于联合的方式也是跟正式管理体系完全契合,一方面需要和各国,他们也愿意进行投资,对于欧洲来说他们愿意进行合作,对于整个机构来说也是非常高兴各个国家都愿意做出这样投入和投资来开展国际的合作,因为我们可以看到不仅仅在科学数据上,包括其他数据方面也来进行合作,对于联合的模式来说,一方面是一种联合模式,每一个基础设施又是各司其职承担自己的责任,但是在联盟的层面,无论在德国还有其他国家,他们如果加入EGI各个国家要承担起自己的责任。
除此之外,还有相关的组织也会对于成员进行协调,也会鼓励欧洲还有包括欧洲以外的成员加入其中,比如说如果要加入要满足相关的质量、服务、安全、流程方面的规定,无论在计算方面还有成果方面,我们也是经过相互的协调和统一才能加入到EGI的平台。
荷兰数字研究资源永久访问研究院副院长(DANS), Ingrid Dillo补充到:正是因为有这样一个框架,才可以去更加用好技术资源在基础平台上建立,刚才我的同事也谈到会在这样平台上分享最佳实践,并且会尽量来分享使用标准,这就要求我们各个方面在欧洲层面进行发展,包括去发展云技术,因为在云技术还有解决方案方面并没有形成太多标准化解决方案,从2000-2010年一直在发展云技术尽量让他们标准化,在这些数据中心当中建立,总的来说我们可以去提供参考标准来分享最佳实践,我们也会为流程管理来建立相应的标准,并且也会在平台当中分享,现在还尽量在数据中心当中使用不同界面接入,还并没有一个太一致化标准化技术,还是允许一定灵活度来让我们更多去沟通,希望可以借此减少技术的障碍,希望技术可以更多在各个地方地区层面进行部署,尽量去减少技术壁垒。安全可以说是非常重要的问题,也是非常关注安全,只有保证安全才能够去建立整体的基础设施,所以要保证网络的安全,才能够让基础设施可以在各个技术实验室当中去进行实用,通过合作让数据在各个实验室当中进行实用。
第二,让数据在特别阶段得以保护,为了实现安全框架,我们首先采取了单一的使用个人信息,我们有这样一个平台,可以把我们的安全政策和中国、美国、加拿大、非洲国家、亚太地区基础设施连接在一起,我们也成功推出这个来进行共同管理,有基础设施才可以确保尽量保证安全的准入制度,让每个人有单独ID来获得资源,这些资源储备在基础设施当中。

和联邦制一样各个国家在云的标准可能不同,欧洲生物研究所(EBI)作为EGI在云上的合作伙伴,EBI在这一块的使用情况是怎样的呢?

欧洲生物研究所(EBI)分子系统部部长,中国国家蛋白质科学中心-北京蛋白质组研究中心生物信息学部长,Henning Hermjakob :EBI现在是一个主要生物信息中心,我们有自己专门的数据中心其实是两个数据中心,一个在大学校园,一个在伦敦数据库当中,这些数据库拥有负载,这样我们运行起来经济效应上更加合适,每一个项目其实都会在云基础设施上进行部署,可能和其他的成员差不多,我们做法差不多,就是会有学术云放在欧洲开放资源架构上,也会在谷歌上进行部署,大的在商业云上进行。
华沙理工大学计算机科学学院人工智能系系主任,Robert M.Nowak:就Henning Hermjakob的问题我想就我的研究中遇到的实际案例做一个补充。我是计算机科学专家是研究软件的,包括我的同事和我都会去使用这些数据,我们也很高兴现在是可以去用开元的数据,在这里我想提一提开元软件,因为这些开元软件可以让我们去更好的在研究当中使用到工作,举个例子,比如我们看一看一个项目在项目当中就会用到比如来自于开元软件的数据,还有其他软件的数据来预测工作,预测哪一种软件的开发过程是最为可行的,这样可以让软件开发者更快的去设计软件,在这个任务当中就会使用到开元软件,用到储存当中开元软件,我们不一定有元件原代码,但是可以用到开元软件,可以使用到人工智能的框架来更好进行预测,而且使用情况会比基于现有软件使用起来更好,这种开放数据,这样一个想法可以让我们行动更快,研究更快,当然也需要努力的来做好比如找到数据在哪里,要符合GDPR规定做到合规,从我们角度来讲这种开元开放想法真的非常好。

(0)

相关推荐