生物信息学(Bioinfromatics)

一、课程概况(Course Brief )

二、内容简介(Intruduction)

三、教学大纲(Syllabus)

 1课堂讲授部分的教学内容与要求(Teaching Plan and Contents)
 2
实验、实习部分的教学内容与要求(Experiments)
 3
教材及主要参考书(Text Book and References)
 4
习题作业安排(Assignments and Due)
四、教学大纲说明(Syllabus Explanation)

 1教学目的与课程性质、任务
 2
课程主要内容、重点及深度
 3
教学要求与主要环节

五、词汇表 Glossary

六、生物信息学网络资源 BioInfo Sources

生物类相关软件 Bio-Softwares  WinClone

八、参考文章 Reference Papers

Genome Music

eBook: Bioinformatics: Sequence and Genome Analysis (pdf format)

一、课程概况 (Course Brief )

课程编号

课程总学时54 (其中理论:36, 上机:18)

课程学分3

课程分类生科院硕士研究生必修课

开设学期秋季

开课单位生科院

适用专业生科院 生物化学及分子生物学 专业

所需先修课生物化学,分子生物学

课程主讲人:李劲
TOPE-mail:        jinli62@126.com

二、内容简介:(Intruduction)

生物信息学是一门交叉学科,是现代生物学研究的重要工具。本课程系统地概括了该学科的核心内容,包括生物学数据的获得与处理,数据库的内容、结构及数据的检索方式,序列比对的概念,基因组序列的注释,系统发生学,结构生物信息学,芯片及蛋白质组的数据分析以及生物信息学中的计算机环境等主要内容。

通过系统的学习与实验,使学生能够掌握生物信息学的基础知识与概念,了解生物信息学网络资源,实践具体的操作方法。
TOP

三、教学大纲 (Syllabus)

1、课堂讲授部分教学内容与要求(20学时)(Teaching Plan and Contents)

第一章   绪论 (2学时)

生物信息学的概念、发展简史及其研究的范围。生物信息学与Internet的关系以及WWW上的生物信息学的门户站点。

 

第二章    数据的获取 (2学时)

讲述DNARNA及蛋白质的测序方法与原理;蛋白质结构的解析;基因及蛋白质的表达数据的获取以及蛋白质互作数据的获取。

 

第三章   数据库的内容、结构及注释 (2学时)

文件格式、注释序列数据库、基因组数据库及特定生物数据库、其他类型数据库。

 

第四章   生物数据的检索 (2学时)

利用EntrezSRS工具检索数据。

 

第五章    序列比对(1) (2a) (2b) (4学时)

讲述序列的相似性比对原则,氨基酸替换矩阵,数据库搜索工具FASTABLAST,序列过滤(序列屏蔽)及多序列比对。
 

第六章   RNA的二级结构预测2学时)

讲述RNA的二级结构特征,RNA的二级结构的预测方法和局限性.

 

第七章   系统发生学(2学时)

讲述多序列比对与家族关系,蛋白质家族及模式数据库(pattern database),蛋白质结构域家族(domain families);系统发育学,遗传分类学及存在论(phylogenetics, cladistics and ontology),系统发育树的建立,生物大分子序列的进化
 

第八章   蛋白质结构生物学(1) (2)4学时)

讲述蛋白质三维结构与功能之间的关系,蛋白质结构与功能的进化,蛋白质结构的预测

 

第九章   芯片数据分析 (2学时)

微阵列数据的分析方法,微阵列数据的分析工具及数据来源,序列样品及SAGE(基因表达系列分析)。

 

第十章   蛋白质组数据分析 (2学时)

分析由二维凝胶电泳产生的数据,蛋白质质谱数据分析。

 

第十一章  高阶模型

分子途径的建模与重建,蛋白质互作生物信息学,高阶模型。

 

第十二章  制药业的生物信息学

生物信息学与药物发现,药物信息学资源。

 

第十三章  生物信息学中的基本计算机技术及生物类软件的使用 (4学时)

运行计算机软件,计算机操作系统,软件下载及安装,数据库管理。TOP
 

 

2、上机实验、实习部分的教学内容与要求(共18学时)(Experiments)

 实验报告发送emailjinli62@126.com ,主题栏标明"XXX-实验报告".
 

(一) A.  国际与国内的生物信息中心(3学时)

目的:了解生物信息学的各大门户网站以及其中的主要资源。

内容:国际NCBIEBIExPASyEMBLSIBTIGR以及国内CBIBioSino网站的熟悉及内容的了解。

要求:实验报告,以其中的一个信息中心网站为例,列举其中的主要资源(数据库、网上分析、生物计算、数据下载、培训指南等)。

1、简述以下生物信息学名词的含义:

 

GenBankAlignment BLASTClustalWdbESTACeDBEBIEMBLNCBI EntrezSRS SwissPortStadenDSSPEMBOSSEMBnetENSEMBL ExPASyFastAGCGGDB GSDBInterProMotif PhylipProDomPrositePRINTSSmith-Waterman UniGene

 

2、简述以下计算机名词的含义:

 

AccessApacheASCIIASPBASICBMPCGIC++CSSCORBADreamWeaverEmacsExcelFirewallFlashFoxBaseFORTRANFrontPageFTPGIFGNUGUIHTMLJAVAJavaScriptJPGJSPLinuxMacintoshMySQLOraclePCIPDFPHPPhotoshopPerlPowerPointPostScriptPythonRAIDTCP/IPTelnetSCSISQLSybaseUSBURLVBViXML  

 

实习指引(tips:

用搜索引擎googlebaidu,以及以下链接生物信息学的站点:

1. 北京大学生物信息中心 http://www.cbi.pku.edu.cn

2. 中国医学生物信息网http://cmbi.bjmu.edu.cn

3. 北京华大基因中心 http://www.genomics.org.cn

4. 南方基因中心 http://south.genomics.org.cn

5. 新生命北京生物医药在线http://www.newlife.org.cn

(一)B. BLAST查询搜索
 
人类着丝粒通常含有长度为170bp被称为阿尔法卫星序列的重复序列(X07685),一共长达几千个碱基对。
首先在核酸数据库中查询阿尔法卫星序列(X07685);再对非冗余数据库进行blastn搜索,观察结果;
然后,在“Entrez Query”项下键入“satellite NOT human [organism]”,将搜索对象限制为非人类,
并在结果的“Alignments” 栏中点击“Distance tree of results”,得到距离进化树。结果贴入Word
文档并作说明。

(二) 数据库内容、结构与注释的浏览(3学时)

目的:了解主要数据库的内容及结构,理解各数据库注释的含义。

内容:在NCBIENTREZEBISRSSWISS-PROTPIR上查询HBA1(human hemoglobin, alpha 1)的DNA(Genebank注释内容)和蛋白质序列(注释内容及三维结构图),以及相关序列(mRNA)的多重比对结果和进化树(注释内容、blast和进化树),熟悉数据库记录的结构,学会看懂其中的注释。下载Cn3D-4.1.msi(官方)并安装,在NCBI数据库下载HBA1结构文件(val格式)并演示."Alt + PrintScreen"截图并贴入WORD文档.

要求:实验报告,解释查出的给定序列或基因组数据,及多重比对结果和进化树的含义。 存储相关网页及中文说明文档,WinRar打包,email递交.

 

(三)多序列比对和进化树的构建(3学时)

目的:掌握NCBI EntrezEBI SRS两种数据库检索工具。学习序列比对工具BLASTFASTA以及ClustalW等的使用,能够对序列数据进行初步的分析并绘制进化树。

内容:利用 对象的gb/gi信息进行直接序列查询,并学会如何根据需要保存结果并进行文件格式的转换。用Clustal-X进行多序列比对和进化树的构建,并对结果 进行解释与分析。

要求:实验报告,根据给定对象的gb/gi信息进行序列查找,保存/转换记录为GeneBankFASTA格式。多序列比对结果(2)和进化树的PDF截图,并对结果 进行解释与分析。具体说明

 

(四)利用PrimerPremier5软件设计HPV-16 E6 E7基因的扩增引物(3学时)

目的:学习引物设计软件PrimerPremier5的基本使用方法。

内容:1.NCBI的数据库 查出HPV-16E6 E7基因并存为plain text记事本格式。

      2.下载并安装PrimerPremier5,导入Key,激活软件.

      3.打开E6 E7基因序列,显示双链格式.翻译为蛋白序列.找出motif和酶切位点.

      4.进行primer search,找出"sense""antisense""pairs"最合适的引物().

      5. 下载并安装Oligo 6,载入破解文件,评价设计的引物具体说明

      6.选出的primer序列针对人的全基因组进行BLAST同源比对搜索,以剔除非特异结合

        的引物序列:www.ncbi.nlm.nih.gov/sutils/genom_table.cgi?organism=euk

要求:实验报告,将查出的DNA及蛋白序列(gb/gi)motif酶切位点

      primer search结果Oligo 6评价引物的结果和最合适的引物(),贴入WORD文档
        并对结果进行说明
(特别是引物存在的问题)

 

(五)运用DNAMAN-5软件分析APV核酸序列,预测其结构基因RNA二级结构和编码蛋白并

作其环型基因组图(3学时)

目的:学会运用DNAMAN-5软件进行核酸序列 及编码蛋白预测分析和全基因组图的绘制。

内容: 1.下载并安装DNAMAN-5软件和其破解文件(patch).

           2.利用NCBI搜寻并下载APV-1(avain polyomavirus 1)基因组序列和线性基因组图.

           3.DNAMAN-5"File""Open"APV-1的基因序列(APV-1.txt)并全选其序列,

              "Edit""Format""Sequence"DNA序列格式为 7column10characters/column.

           4.根据APV-1线性基因组图的Intron-1,Intron-2aIntron-4的位置标示,除去相应的DNA

              序列并重做第3步格式化.全选其序列.

           5."Sequence""Load Sequence""From Selection"载入新拼接后的APV DNA序列.

           6.选取264-974 DNA序列并复制,"Sequence""Secondary Structure"

             "Current Sequence" ,并贴入264-974 DNA序列.结果存为emf格式.

           7.全选序列条件下,"Protein""Translation Overview";新窗口左上角"Options"

              "Minimum length"150.  点击各蛋白,可见其序列。从上至下分别为VP1,VP2/3,

    Agno 1aT-Ag.结果存为emf格式.

           8."Restriction""Restriction Analysis".除左侧46项外,点选各项,5项为"1".下一步

     全选各限制性内切酶.

   9.连击新窗口左上角空白处."General""Map Name"APV-1; "Elements"4组数分

    别用"Change"键改"Name"Agno 1a, VP2/3, VP1T-Ag.对应"Start""end"分别为

     290-818, 837-1860, 1759-27884415-2849. "Type"点击为箭头形式.

   10."Site""Remove" Hind III和在图上过于拥挤的酶."Sequence View"中调整字体大小

    和颜色.在图上可用鼠标调整图文位置.结果存为emf格式.

要求:实验报告,全部结果用WORD文档记录/插入并对结果 作必要说明。
 

(六)人基因组的基因分析(3学时)

目的:了解人基因组相关数据库的 组成和结构,并学会运用人基因组相关数据库构进行

            人类基因的分析。

内容: WT1是人类Wilms癌症的抑制基因并且对肾的发育也很重要。在这个基因中是否有

            一些SNPs? 并且它们是否对蛋白序列有选择性? WT1编码蛋白突变区的分布是怎样的?
                  (a)进入NCBIGene数据库并且搜索WT1DNA, mRNA和蛋白序列?
                  (b)NCBISNPs数据库中检测WT1SNPs,已发现多少SNP, 其中多少是cSNP?
                  (c)看看是否有些SNP能改变蛋白序列? 它们的rs号及在mRNA上的位置?
                      多少SNPsexonintron? 多少SNPsWT1附近?
                  (d)OMIM中探询WT1
                      该基因位于哪个染色体上?
                      大约多少位点已经知道?
                      如果想研究Wilms癌症,你是否能够得到这种病人基因异常的细胞系?有几种?
                      (提示:点击“Coriell)
                  (e)WT1中寻找未知的突变。进入0MIM中关于WT1的网页并点击HGMD(人类
                      基因突变数据库)。在这个网站中有各种分类(错义、无义、缺失等)的所有突变。
                      WT1有什么类型的突变?
                      关于这个基因,它的突变导致了多少明显的表型?
                  (f)在第11号染色体上WT1上游的3个疾病基因是什么?而在它下游的3个疾病基因
                     又是什么?WT1在第11号染色体的短臂还是长臂上?
                     利用NCBI的人类染色体图谱数据库来寻找WT1上游和下游的3个基因。而该
                     数据库显示了已知的所有基因(并不只是疾病相关基因)。你可以利用两种办法
                     来浏览NCBI网站;
                   ·从OMIM网站中进入WT1,然后“Search Gene Map”。
                   ·进入NCBI主页.用“Map Viewer"寻找.

要求:实验报告,记录并回答全部问题,WORD文档提交。

 

SNP介绍:
SNP (Single Nucleotide Polymorphism 单核苷酸多态)具有分布密度高、基因分型方法具有进行大规模处理的潜力等特点,而成为继微卫星标记后引人注目的一类遗传多态标记。1980
Botstein
等就已采用RFLP (限制性酶切片段长度多态)构建DNA的物理图谱。自从1995年以来在基因组测序的过程中,SNP被研究者重新认识,其应用越来越广泛,从复杂遗传病和肿瘤易感基因的定位,到群体和进化遗传学研究,SNP已成为一种重要的研究工具。NCBIdbSNP数据库是启动最早,收集数据最多的公共数据库,尽管它无论在用户界面设计,还是在数据内容方面都存在相当多的局限和问题,但它仍然是在学术界最有影响的SNP数据资源之一。该数据库的数据一般都有两个身份标识(ID)ss编号和rs编号,前者是为所有研究者提交的SNP都生成的编号,称为NCBI分析编号(NCBI Assay ID),而后者是在对所有已有数据比较后,为独特SNP生成的编号,称为参考SNP编号(reference SNP ID)。理论上一个rs SNP可能对应多个不同的ss SNP, rsSNP应是唯一的。但事实上不同rs编号的SNP也不一定代表不同的SNP,这是NCBI目前的数据处理流程存在的问题之一。NCBIUCSCSanger中心的基因组标释都对rs编号的SNP进行了基因组定位,因为SNP数据库的数据采集不如GenBank那样标准严格,也没有提供相应的软件帮助研究者制作标准的提交数据,因此也常有数据不完整,可靠性有局限等问题。所幸有其它一些数据库提供了更为全面的相关信息,如TSC (The SNP Consortium: http://snp.cshl.org/)提供的SNP等位基因频率数据,UCSC中可以获得定位SNP的旁侧序列

 

3、教材及主要参考书(Text Book and References)

教材:D.R.Westhead, J.H.Parish & R.M.Twyman Bioinformatics影印本,科学出版社,2004年第1版。

主要参考书:

黄韧等  《生物信息学网络资源与应用》中山大学出版社,2003

郝柏林等编 《生物信息学手册》第2版,上海科学技术出版社,2002

蒋彦等编  《基础生物信息学及应用》清华大学出版社,2003

罗静初等译 《生物信息学概论》北京大学出版社,2002

赵国屏等编 《生物信息学》科学出版社,2002

袁建刚等主译 《基因组》 科学出版社,2002

孙超等译 《生物信息学中的计算机技术》中国电力出版社,2002

David W.Mount Bioinformatics :sequence and genome analysis》影印本,科学出版社,2002.TOP
 

4、习题作业安排(Assignments and Due)

在教材各章讲述时及时安排实验,完成实验报告,并留若干思考题,在教师的督导下进行小组间的交流。教师对学生出现的普遍性问题及时给予辅导、解答。
TOP

四、教学大纲说明(Syllabus Explanation)

    1、教学目的与课程性质、任务

    生物信息学是一门新兴的交叉学科,是现代生物学研究的重要工具。即便是实验生物学家,也非常有必要了解一些生物信息学的知识。本门课程的开设正是为了使学生了解目前生物信息学学科的研究内容和发展方向,培养学生具有生物信息学方面的理论基础和基本技能,并且能够运用所掌握的生物信息学理论、方法和技术初步解决科研和实际工作中生物信息的存储、检索、分析和利用的问题。本课程是生科院本科生的选修课程。

 

2、课程主要内容、重点及深度

    本课程全面系统地概括了生物信息学这一学科的核心内容,主要包括了生物学数据的获得与处理,数据库的内容、结构及数据的检索方式,序列比对的概念,基因组序列的注释,系统发生学,结构生物信息学,芯片及蛋白质组的数据分析以及生物信息学中的计算机环境等内容,将学生的相关知识系统化。课程的重点主要在实际应用上,包括各种对数据库的查询检索方法、数据库记录内容的理解,网上数据分析预测工具的使用等。由于生物信息学涉及的很多技术方法后面都会有相当复杂的数学、统计学或计算机技术做支持,因此如何理解不同种类的专用术语以基本概念是教学中的一大难点。本课程要求在本科生能够理解的前题下进行原理及基本概念的讲述,强调动手能力,在实验中激发学生的求知欲。

 

3、教学要求与主要环节                  

    在课堂讲授方式上,力求深入浅出、形象生动,贯穿分析、综合的方法,并尽可能综合采用幻灯、图表和网上实例以达到简明扼要、直观明了、易于理解的目的。

实验是本课程的主要教学环节。本着理论与实践相结合,学以致用的原则,在实验教学中,一般提供思考题,将各个基本分析环节串在一起,以提高学生综合分析问题和解决实际问题的能力。TOP