原标题:GEChain基因链让基因数据共享成为可能
在生物科研领域,基因组测序是科学探索的重要手段。随着基因组测序技术的快速发展,越来越多的生物医学研究基因组开始依赖于基因组测序数据的分析与整合。在PubMed(美国国家生物技术信息中心生物医学文献数据库)上搜索genome sequencing(全基因组测序),可以看到从2016年开始,每年相关论文都超过1万篇,可见基因组测序已经成了大多数研究的“标配”。但对于研究者来说,基因测序的引入也带来不少的问题。
测序价格较高
目前国产自主测序平台对个人全基因组测序的最低价格是600美元。假如实验组100人和对照组100人均需测全基因组数据,所需花费为12万美元,约合人民币82万元(按2018年9月8日汇率)。对于规模较小的研究机构和年轻科研人员,如此高昂的研究成本俨然成了他们科研路上的障碍。
数据挖掘不全面
基因组测序数据可以测到个体全套的基因组数据,因此可以从不同角度去对数据价值进行挖掘。比如同一套胃癌测序样本,团队A可以做癌症的分型研究,而团队B则可以进行微生物组挖掘。但单个机构熟悉的领域有限,往往仅能从自身熟悉的领域入手,对测序数据进行有限价值挖掘。如果多团队可共享数据,就会对数据进行更全面的价值挖掘。
数据共享较难
一是数据容量大。由于基因组测序数据量较大,一个样本少则几GB,多则上百GB,样本量较多时总数据量往往是TB的量级,导致数据难以快速传输。二是共享的动力不足。由于基因组测序数据成本较高,价值较大,因此除了部分刊物要求的数据公开外,部分机构并无共享数据的动力。
GEChain基因链——公平、公正、可自治的基因组数据共享平台
GEChain基因链这样一个公平、公正、可自治的基因组数据共享平台,有望解决基础医学研究领域的迫切需求。通过数据共享,可以有效地降低科研成本,提高科研方向的多样性。公平、公正、可自治,是目前的新兴技术——区块链所着重解决的问题。区块链技术由于具备透明性、可追溯性和不可篡改性,使其更加适用于无中介的多方合作场景。通过区块链的智能合约约束,不同机构的数据可以进行公平交换,杜绝违约现象的发生。
整个GEChain基因链网络运转起来之后,其重大意义显而易见:①对于用户,降低测序成本,消除测序中间商,把基因数据产生的利益分配给用户个人。②对于数据需求方,同样降低了数据成本。③促进了基因测序领域的生态繁荣。
1、搭建基因组数据共享网络
搭建基因组数据共享网络将有助于科研数据的重复利用,尤其对于拥有基因组数据的研究机构,可以使用自己的数据换取其他机构的数据,进一步拓宽科研思路,多样化分析手段,繁荣科研生态。
GEChain基因链首先搭建测试网络验证网络性能,结合点对点数据传输、处理、加密等多种角度来度量主链与项目的契合程度,最终选择符合需求、开发维护难度低、数据安全有保障的主链架构。去中心化的数据存储能力是GEChain的核心,其主要业务逻辑在区块链上进行和储存,DNA数据交换在链下进行。由于基因组数据体量较大,即便是点对点传输,仍有可能连接不稳定,可能下载中断或者失败。GE采用POC共识和PoST存储证明算法,将数据分割成固定大小的块,通过请求多个数据块,确保每个块消息摘要算法(MD5)一致,保证数据一致性,在保证可重传的同时,确认传输权限无漏洞。并通过交易合约为存储资源提供方和用户提供交易功能,在链上完成去中心化的交易,为用户提供了一个数据挖矿、参与研究项目、购买应用与服务的平台。
2、构建基因数据共享标准
实现基因数据共享标准,将有助于机构、个人之间的基因组数据交换,增强多来源数据的兼容性。GEChain基因链为此制定了基因组数据的统一共享格式和标准,包括文件结构、数据格式、表型数据格式、质量控制标准等一系列要求。
基于区块链的基因数据交换平台,据笔者了解,目前行业内仅GEChain基因链能够有望率先实现基因组研究机构的数据共享为目标,通过“区块链+基因数据”,实现基因组数据的公平、公正、透明共享,既保证了数据的流通,降低了研究成本,同时通过共享权益交换保护了数据供应方的利益,完善了生态体系。