1.6 生物信息学所用的方法和技术
生物信息学研究的方法与技术有很多,本节介绍其中常用的方法和技术。
1.6.1 数学统计方法
生物活动常常以大量的、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法。无论是传统的生物学还是现代分子生物学,都需要对大量实验数据进行统计分析,发现研究对象内在的规律或者对象之间的联系。通过综合分析,建立合理的数学模型,定量地描述生物活动过程、活动规律或者本质特征。数据统计、因素分析、多元回归分析是生物学研究必备的工具。在生物信息学领域中,许多分析工作如分析DNA语言中的语义、分析密码子使用频率、识别基因等,都要用到数学统计方法。其中,隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),对于生物分子序列分析,马尔科夫链是一个很好的数学统计模型,因为马尔科夫链本身就是相继发生事件的序列,其特征是对于事件序列中的任何一个事件都有一个发生概率,而这个概率依赖于该事件之前的若干个事件。其实,在生物信息学研究中应用的概率和数学统计方法,都可以归结为一门介于生物和数学之间的边缘学科——生物数学。
1.6.2 动态规划方法
动态规划(Dynamic Programming)是一种解决多阶段决策问题的最优化方法,或复杂空间的优化搜索方法。动态规划将比较复杂的问题划分为若干阶段,通过逐段求解,最终获得全局最优解。这种方法在解决一些复杂的组合问题中显示出优越性,尤其是在解决离散性问题方面,用动态规划方法去处理,往往比用线性规划或非线性规划方法更有效。所谓多阶段决策问题是指这样一类活动过程:它可以分为若干个相互联系的阶段,在每个阶段上都要作出决策,而每个阶段的决策确定以后,将会影响以后各阶段的活动及其决策;当所有阶段的决策确定以后,就完全确定了该问题的活动过程。各个阶段所确定的阶段性决策构成一个决策序列,成为总体决策。一般来说,由于每一阶段可供选择的决策往往不止一个,因此,对于整个过程,就会有许多可供选择的策略。若对应一个策略,可以由一个量化的指标来确定这个策略所对应过程的效果,那么,不同的策略就有各自不同的效果。在所有可供选择的策略中,对应效果最好的策略称为最优策略。将一个问题划分成若干个相互联系的阶段,选取其中的最优策略,这类问题就是多阶段决策问题。动态规划的理论和方法在求解多阶段决策问题中是卓有成效的,顺序递推和逆序回溯这两个过程是动态规划基本方法的核心。
动态规划是生物信息学中一种基本的优化方法,在DNA序列或者蛋白质序列的比对、基因识别、RNA结构预测、隐马尔科夫模型求解、生物分子探针优化设计等方面有着重要的应用。动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,顺序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解。在计算机中,以“图”作为求解动态规划问题的数据结构,图中的每个顶点代表一个局部问题。其中有一个顶点(起点)代表特别的局部问题,即问题的开始阶段,另有一个顶点(终点)代表全局问题。这样,一个优化问题可以转化为在图中求出一条从起点到终点的最短路径。通过顺序递推求出最短路经的长度,然后,通过逆序回溯找出最短路经。
1.6.3 机器学习与模式识别技术
机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验。机器学习属于人工智能技术,着重研究计算机如何获取知识,如何从给定的训练数据之中提取知识,提取数据处理规则,自动形成处理程序,提高系统解决问题的能力和准确性。在具体应用中,必须首先写好机器学习程序。学习程序通过对训练数据的分析和反馈,不断提高解决问题的能力。
下图是一个机器学习系统的基本结构。环境向系统的学习部分提供信息,即训练数据;学习部分利用这些信息更新知识库,以增强系统执行部分完成任务的能力和准确性;执行部分根据知识库中的知识或规则,解决具体问题,同时把执行结果信息反馈给学习部分,通过校正,进一步提高系统的性能。影响学习系统设计的最重要因素是环境向系统提供的信息的质量。知识库里存放的是指导解决问题的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量比较高,则学习部分比较容易处理;如果向学习系统提供的是杂乱无章的信息,则学习部分的任务就比较繁重,设计起来也较为困难。知识库是影响学习系统设计的第二个因素。知识的表示有多种形式,比如一阶逻辑语句、产生式规则、语义网络和框架等等。执行部分是整个学习系统的核心,因为执行部分的动作就是学习部分力求改进的动作。

数据是机器学习的基础,对于生物分子数据也一样。在大多数情况下,生物信息学中的知识可以用序列的模式或者序列的特征来概括。
随着人工智能研究不断取得进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习,因而引入了一些模拟进化的方法来解决复杂优化的问题。其中富有代表性的是遗传算法,此算法受到研究人员广泛重视是由于它采用随机搜索方法,具有较强的自适应能力,并且便于并行计算。人们相信随机搜索算法可以解决非线性全局优化问题,自适应方法可以解决机器学习问题,并行算法有极高的计算效率。遗传算法的生物基础是生物体的进化及发展,这种方法被称为进化主义。另一种方法是人工神经网络方法。人工神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这种方法被称为联接主义。这两种方法与传统的方法有很大的差别,因而近年来许多科学家致力于这两种方法的研究。
模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中。模式识别的关键是通过数据分析,提取分类对象的本质特征,建立分类特征模型。在此基础上设计模式分类规则和分类器,判别待识别模式的分类情况。分类特征模型描述各种目标对象的特征,以便于利用特征进行识别。模式识别主要有两种方法,一种是根据对象的统计特征进行识别,另一种是根据对象的结构特征进行识别。在生物信息学中,无论是基因识别,还是DNA序列上的功能位点和特征信号的识别,或者是蛋白质序列特征分析,都需要用到模式识别。
在机器学习中,数据分类与模式识别密切相关。所谓数据分类就是按照数据的特征进行分类。与数据分类相关的另一种数据分析方法是数据聚类。这两种方法都与机器学习相关,但相差甚远。数据分类为监督学习,而数据聚类则是非监督学习;前者在学习过程中接受外界输入的学习指导信号,而后者完全靠自身的能力进行学习。数据聚类是将物理的或抽象的对象分成几个群体,在每个群体内部,各对象之间具有较高的相似性,而在不同群体之间,相似性则比较低。一般地,一个群体也就是一个数据类。但与数据分类不同的是,数据聚类结果主要基于当前所处理的数据,我们事先并不知道分类结构及每个对象所属的类别。另外,数据聚类计算量大,其时间复杂度也要比数据分类大得多。数据聚类在基因表达数据分析中有重要的应用。
1.6.4 数据库技术和数据挖掘
在生物信息学中,数据库技术是最基本的技术。生物分子信息的存储、管理、查询等功能都是建立在数据库管理系统之上的。目前的分子信息数据库大都采用关系数据库管理系统。
随着数据库、计算机网络和人工智能等技术的发展,出现了一种新的信息管理技术,即数据仓库。数据仓库是从多个内容相关的、物理和逻辑上都相互独立的数据源中提取面向主题的数据集合,通过 Internet将这些数据复制到一个数据存储中心,进行重新组织与集成,从而将一个海量的数据库展现在用户面前。数据仓库为特定的应用提供服务,提供统一的用户接口,用户可以借助于数据仓库直接完成对多种数据的查询、分析和决策。另一种相关技术是虚拟数据库技术(Virtual Database,VDB),虚拟数据库可以对不同数据源中的数据进行联合查询,提供对数据分散问题的求解。虚拟数据库技术具有收集、组织和集成来自不同数据源中的数据并以统一的关系数据库系统的形式提供给应用程序的能力,但是虚拟数据库中数据的物理存贮是分散在Internet的不同站点。从数据库的角度看,虚拟数据库提供了多数据源的一个统一的平台。
多维数据分析是数据仓库技术最重要的特点。所谓多维数据分析,是指以多种方式来组织数据和显示数据,与数据挖掘、知识发现和决策支持等功能有着紧密的联系。随着数据库技术的不断发展以及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,数据理解和数据产生之间出现了越来越大的距离。在堆积如山的数据中包含着许多待提取的有用知识,人们迫切需要新一代的计算技术和工具来帮助开采数据,并加以提炼,使之成为有用知识。于是,一个新的研究领域——知识发现应运而生。由于蕴藏知识的数据大多存储于数据库中,因此多维数据分析又称作数据库中的知识发现 (knowledge discovery in database)或者数据挖掘(data mining)。所谓数据挖掘是从大量不完全的、有噪声的、模糊的或者随机的数据中提取潜在的、人们事先不知道但又是有用的信息和知识。数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式。数据挖掘主要采用人工智能中的机器学习、知识处理、神经网络等技术,将传统统计分析算法、计算智能方法与数据库技术相结合。这方面的研究包括对数据挖掘与知识发现算法的研究及其对开发工具的研究。数据可视化是数据挖掘技术的另一个重要组成部分。人对复杂问题的理解、人的创造性不仅取决于逻辑思维,而且取决于形象思维,海量数据只有经过可视化变成生动的形象,才能激发人的形象思维,使人们更深刻地理解和认识数据,发现新的规律,产生新的科学假设。
数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析。由于应用领域的不同,数据的类型也不同,如关系数据、结构化数据、超文本数据、多媒体数据、空时数据等。一个强大的数据挖掘系统应能有效地处理这些复杂的数据类型。研究和分析生物信息之间的复杂关系,提取生物学知识和生物活动规律,都必须应用数据挖掘技术,例如挖掘基因组数据。
1.6.5 人工神经网络技术
人工神经网络(Artificial Neural Network, 简称ANN)是通过模拟人脑神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型。人工神经网络是对大脑神经网络的模拟,这种模拟表现在功能上的,也表现在结构上。这与传统的串行计算机有着本质的区别。
一个具体的人工神经网络是由大量的、同时也是非常简单的处理单元互相连接而形成的复杂网络系统,它反映了人脑中神经元以及神经元之间连接的基本特性,因此人工神经网络具有智能信息处理的特点。人工神经网络来源于人脑神经网络,但它并不是人脑神经网络系统的真实写照,而是采用现有的计算机来模拟生物体中神经网络的某些结构和功能。它可以通过学习和自组织过程把规律性的知识或者专家的经验结合进一个数学模型中,以此完成模式特征的提取、分类和识别等功能,而不需要任何对数据和噪声的先验统计假设,也不需要把规律或者专家的知识、经验归纳成严密清晰的条文。一般认为,人工神经网络是一个高度复杂的非线性动力学系统,它具有较强的自学习、自组织、自适应、记忆、联想和推理等能力。由于它的自适应性质,神经网络在处理实际问题中用“样本学习”的机制替代了传统的编程机制,所以,特别适用于对所要解决的问题了解很少或完全不了解但又存在大量训练数据集的情况;而且,由于神经网络基本处理单元之间存在大量的联系,它能处理噪声数据,具有自容错性。同时,一个复杂的或者多层网络能够提取输入数据之间的高阶相关关系。
人工神经网络以其独特的结构和信息处理的方法在许多领域得到了成功的应用,特别是在解决模式识别问题和优化问题方面,神经网络具有非常强的能力,取得了显著的成效。生物信息学中的许多问题可以归结为模式识别问题和优化问题,因此,神经网络在生物信息学中具有重要的应用,也取得了成功。例如,在基因识别和蛋白质结构预测方面,相对于其他方法,神经网络往往能够取得更好的结果。
研究人员已建立了许多不同的神经网络模型,但在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,BP网)。BP网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。已经证明:任何在闭区间内的一个连续函数都可以用一个三层的BP网络来逼近,也就是说,一个三层反向传播神经网络可以完成任意连续的
维数据到
维数据的映射。
标准的BP网由三层神经元组成:输入层、隐藏层和输出层。输入层是从外界环境接受信息,输出层则给出神经网络系统对外界环境的反应,隐藏层不像输入输出层那样和外界有着直接的联系,它从网络内部接受信息,所产生的输出也只用于神经网络系统中的其他处理单元,主要是完成整个网络的非线形特征提取。下图是一个BP网的结构示意图,其中输入层有7个节点,输出层有两个节点,隐藏层有3个节点。

1.6.6 专家系统
专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用。专家系统利用知识和推理机解决那些需要特殊的重要的人类专家知识才能解决的复杂问题,所用的知识和推理过程可认为是最好的领域专家的专门知识的一个模型。专家系统是人工智能领域里的一个重要分支,在生物信息学研究中也有着新的应用,如用于基因识别。

如上图所示,专家系统一般由六个部分组成:知识库、数据库、知识获取部分、推理机、解释机构和使用界面。其中知识库是专家系统的第一重要组成部分,用于存储从专家处得到的关于某一特定领域的专门知识和经验,专家的知识和经验以一定的知识表示形式(如产生式规则、语义网络等)存放在计算机中,并在用户需要时,以智能的方式帮助解决问题,提供参考性决策。知识库中的知识通常分为两类,一类领域的事实性知识,或广泛公用的知识,另一类是启发性知识,是领域专家在长期研究和实践过程中积累起来的经验总结。数据库也称全局数据库或综合数据库,用于存储有关领域问题的事实、数据、初始状态和推理过程中得到的各种中间数据及中间目标。数据库是专家系统的支撑部分,相当于工作存贮器。知识获取就是把解决问题所用的专门知识从知识源(比如专家、书本、资料库和知识工程师自己的经验等)中提取出来,经过整理以后,存放在知识库中。知识获取方式大致上可以分为两种,一种是由知识工程师向领域专家询问有关知识,经过整理编辑后将知识转换成计算机表示形式,送入知识库,另一种是针对大量数据进行机器学习,分析、总结和抽取出有用的新知识,这是更高层次的知识获取方式。专家系统的另一个重要部分是推理机,由它来控制和协调整个系统,并根椐当前输入的数据和知识,按一定的推理策略,去解决当前的问题,推导出结论。其中,推理机所用的推理策略也是一种知识,是关于如何利用知识进行推理的知识,又称“元知识”。解释机构用于对求解过程做出说明,向用户解释系统的结论以及如何得到结论,并回答用户提出的各种问题。专家系统的用户使用界面一方面从领域专家或人工智能专家那里取得知识,增强知识库,另一方面负责接受用户所输入的信息,并把信息转换成系统的内部表示形式,然后把这些内部表示交给相应的部件去处理,系统最终将处理结果返回给用户。
1.6.7 分子模型化技术
分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术。分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功。
分子图形学充分应用计算机图形学的方法和
技术,以三维图形方式显示分子的三维结构,显示分子的理化或电子学特性,显示分子间的相互作用。可以用线状模型、球棒模型、空间填充模型等显示分子的三维结构,特别是在球棒模型和空间填充模型下,加上透视和光线投影技术,使得所显示的分子生动逼真。用户可以对分子进行平移、旋转、缩放等图形操作,通过交互方式观察分子的构象和形状,从不同的角度分析分子结构或分析分子间的相互作用。对于DNA分子,我们可以直观地观察双螺旋结构,看到两条链的走向,还可以研究碱基之间的氢键配对。对于蛋白质分子,既可以观察其结构骨架,可以观察其外观形状,也可以研究其活性部位或结合部位的结构。在药物分子设计方面,可以应用分子模型化技术研究蛋白质与小分子的相互作用,设计与特定靶分子相适应的先导化合物。
利用分子模型化技术,还可以构建分子的结构模型。对于一个未知结构的分子,首先将该分子分解为若干个分子片段,从结构库中取出这些分子片段的结构,将各分子片段组装成完整的分子结构,然后再通过结构优化,便可得到最终的结构。
1.6.8 量子力学和分子力学计算
量子力学(Quantum Mechanics)是现代物理学的理论基础之一,是研究微观粒子运动规律的科学,它标志着人们对物质世界的认识从宏观层次跨进了微观层次。量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用。量子力学与经典力学的差别表现在对粒子的状态和力学量的描述及其变化规律上。在量子力学中,粒子的状态用波函数描述,它是坐标和时间的复函数。将量子力学的基本原理和方法应用于化学,形成量子化学。量子化学着重研究分子结构、性能,研究结构与性能之间的关系,研究分子之间的相互作用,研究分子体系的反应等问题。
分子力学(Molecular Mechanics)方法是一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质。常用的计算有机小分子与生物大分子的力场有MM2、CHARMM、Tripos等。应用分子力学方法可以进行分子的结构优化、构象分析、给体-受体相互作用计算等工作。分子力学方法忽略电子运动,将系统的能量看成为各个原子位置的函数,一般从键能和非键能两个方面描述系统的势能。其中,键能包括化学键的伸缩能、键角的弯曲能及二面角的扭转能,非键能包括所有非成键原子之间的相互作用,如静电相互作用、范德华(Van der Walls)作用及氢键作用等。分子力学方法计算的关键是能量计算公式中的参数,或力场参数。力场参数有各种来源,包括从头算(ab initio)和半经验计算结果、实验观察结果等。能量函数的极小值对应于分子体系能量的局部最小点。在许多情况下,分子力学方法的计算结果与量子力学方法计算结果同样准确,而所用的计算时间非常短。
在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时都需要应用量子力学或分子力学方法。从计算结果的准确性来讲,这方面的计算工作应该用量子力学方法来完成,但是由于计算量的问题,量子力学方法只适合于比较小的分子体系,而生物大分子体系太复杂,包含成千上万个原子,超过了目前量子力学方法可以处理的体系范围。在量子力学计算中,需要考虑待计算的分子体系中的电子,即使在半经验方法中忽略掉一些电子,其计算量仍然很大。因此,需要考虑其它方法,如分子力学方法。当然,分子力学不能像量子力学那样提供有关电子分布的信息。量子力学可以用于确定分子力学势函数的参数,量子力学也可以在研究分子体系局部性质时起作用。
1.6.9 生物分子计算机模拟
传统的生物分子研究主要是实验方法,通过生物学实验分析和表征生物分子,如利用测序技术确定DNA分子的序列,通过分子遗传学方法确定基因的多态性,通过X-射线晶体衍射确定蛋白质分子的结构,通过生化实验研究生物大分子之间的相互作用、药物分子与靶分子的结合。所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质。对于生物分子,可以模拟大分子与大分子之间的相互作用,模拟生物大分子与具有活性的小分子之间的相互作用,研究分子之间的识别、特异性结合。生物分子的计算机模拟对于从理论上解释实验现象、指导设计实验方案、发现新的现象及产生新的科学假设具有重要的作用。计算机模拟实验的过程及作用如下图所示。

在进行模拟之前,首先为待模拟的分子体系建立模型,描述分子内和分子之间的相互作用。常用的两种理论模型分别是量子力学和分子力学,它们可以计算分子系统的能量,分析当分子或原子位置发生变化时,系统能量的变化。在进行分子模拟的第二个阶段,利用所建立的模型进行模拟实验,如进行分子动力学(Molecular Dynamics)或蒙特卡罗(Monte Carlo)模拟。最后分析模拟结果,与已知的实验现象对照比较,验证模型是否合理。如果模型不合理,则改进模型,重新模拟。在得到一个合理的模型之后,我们就可以在实验之前进行计算机模拟,从而进行“预实验”。
分子动力学和蒙特卡罗方法是两种最常用的技术。分子动力学针对分子体系进行动力学计算,由此得到系统的时间平均性质,其计算结果包括系统的静态性质和动态性质。通过应用牛顿运动方程,推导系统中各个原子的位置,得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学模拟本质上是一种统计物理方法,在物理和化学上早有应用。用此方法可以研究蛋白质的构象,模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。在能量优化方面,分子动力学能够跨过较大的势垒,获得低能量的构象。可以用不同方式进行分子动力学模拟,包括体积恒定和能量守恒的动力学模拟、恒温恒容动力学模拟和恒温恒压的动力学模拟。根据不同的研究体系和研究重点,可选用不同的模拟方法。
在分子动力学模拟中,系统各个状态在时间上是紧密相关的,而在蒙特卡罗模拟中,每个状态仅仅依赖于其前面一个状态,与其它状态无关,各个状态在时间上没有关系。蒙特卡罗方法产生一系列随机状态,并根据一定的准则决定是否接受新的构型。这样的准则保证得到一个新状态的概率等于Boltzmann因子。通过蒙特卡罗模拟,产生低能量状态的概率比产生高能量状态的概率大。蒙特卡罗方法本质上是一种随机统计方法。分子动力学与蒙特卡罗方法最大的差别在于分子动力学能够提供系统与时间相关的性质。另外,在系统总能量方面,分子动力学除考虑系统的势能之外,还考虑系统动能的贡献,而蒙特卡罗方法仅考虑系统的势能。
与分子动力学和蒙特卡罗方法相关的另一种模拟方法是模拟退火方法 (Simulated Annealing,SA)。模拟退火方法可以对系统进行优化,如对多变量函数进行优化,其名称借用加热后逐渐冷却的物理过程。该方法是由 Kirkpatrick等人于 1983年首先提出的一种经典的随机动力学方法,1986年由 Ceperley和 Alder将该方法推广到量子系统。在模拟退火过程中,缓慢降低系统的温度,直到系统不再变化。在进行模拟之前,给系统确定一个初始状态,然后通过随机置换不断形成新的状态。如果一个新状态的能量低于原来的状态,则系统无条件接受新的状态。如果新状态的能量高于原有状态,则系统按照一定的概率接受新状态。这样的过程使得系统不断地向低能量状态迁移,最终到达能量最低点。但是系统状态的改变并不总是向能量减少的方向进行,也可以按照一定几率向能量增加的方向改变,当然,温度越低,系统向能量增加方向改变的几率就越小。这种机制使系统在温度较高时能够很快跃出能量局部极小区域,不至于很快陷入初始状态附近的局部极小中,因而它是一种全局性的极小化方法。系统状态的改变是不连续的,它按照某种几率分布(称为访问分布)随机变化,随着温度的降低,访问分布的宽度也逐渐减小。模拟退火是一种通用的算法,可以和其他方法联合使用,如将模拟退火引入遗传算法,对非线性问题进行优化。
1.6.10 因特网(Internet)技术
通过因特网收发电子邮件(E-mail)是许多人都熟悉的通讯手段,电子邮件已经成为科学界一种十分重要的个人通讯手段。“新闻组”则是广播电子邮件消息的一种方法。使用者可以在网上申请参加不同的新闻组,订阅有关新闻,参加专题讨论。新闻组中的全部文章就会发送到订户手中。因特网使用者也可以通过FTP协议从特定服务器下载有关文件,或上传文件。
目前,几乎所有生物信息数据库或资源库都提供Internet网络服务,使用者可以通过网络去查询或搜索所需要的生物信息,使用各个网络站点所提供的分析工具去分析生物信息。在大多数情况下,人们可以查到各自所想要的生物分子数据,如原始的序列和结构数据,经过加工处理以后的数据。同时,人们也可以将所要处理的数据直接输送到相应的网络服务器上,服务器接受处理请求,并返回处理结果。Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据交流的场所。
作为一般的生物学研究人员,只要会用Internet就可以了。但是,对于生物信息学研究和开发人员而言,则需要掌握先进的Internet技术,如虚拟数据库技术、数据动态交换技术、网络程序设计技术等,只有这样才能研制出高效的网络数据库系统(包括网络应用软件)。