Content text Tin sinh.docx
I.Giới thiệu môn: 1. Định nghĩa: Tin sinh học là một liên ngành của sinh học, xác suất thống kê và tin học, được dùng để thu thập và xử lý các số liệu sinh học, Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán. Tin sinh học đòi hỏi: Truy nhập vào được nhiều nguồn phân tán Cần thông tin được cập nhật Dư thừa dữ liệu tối thiểu Các ứng dụng ổn định Các ứng dụng mở rộng được Các phần mềm chuyển tải được II. Biological Database: 1. Định nghĩa database: Cơ sở dữ liệu là một tập hợp các dữ liệu một các có tổ chức, có thể được dùng để lưu trữ, truy cập và cập nhật theo thời gian. Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử. Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ. Dữ liệu về trình tự nucleotit trong ADN và trình tự axit amin trong protein là những thông tin sinh học ở mức độ phân tử. Đối với ADN đó là số lượng, thành phần và trật tự sẵp xếp của các nucleotit, ribonucleotit trên một phân tử ADN, mRNA. Đối với trình tự nucleotit: So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào. Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide nếu đoạn ADN đó mã hóa. Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme…) các gen mã hóa cho ARN ribosome (rRNA) (tính bảo thủ cao, mang tính đặc thù loài). Dựa vào những trình tự ADN của các gen này ở những loài sinh vật khác nhau mà người ta có thể so sánh chúng trên cơ sở xác định mức độ sai khác về trình tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới loài.
→ Genomic: Là tất cả những dữ liệu về thông tin di truyền của một loài sinh vật nhất định. Tức là hướng tiếp cận từ ADN. Đối với Protein, đó là số lượng và trật tự sắp xếp của các axit amin trong một phân tử protein. Các thông tin này cũng bao gồm đặc tính và vai trò của protein vị trí có mặt trong tế bào, mô, cơ quan, tác giả công bố… thậm chí còn đưa ra những giả thiết về cấu trúc của phân tử. Nếu như chúng ta biết được thành phần, trình tự sắp xếp của các axit amin trong phân tử protein, enzym nào đó có thể đánh giá được sự sai khác giữa các axit amin trong các phân tử protein, enzym cùng chức năng ở các loài khác nhau để biết được thành phần axit amin nào đóng vai trò quan trọng. Từ trình tự axit amin của phân tử protein, có thể suy diễn ra trình tự nucleotit của gen mã hóa. Từ trình tự axit amin có thể dự đoán được cấu trúc ba chiều, vị trí hoạt động (domain) của phân tử protein, enzym đó. → Proteomic: Là tất cả các sản phẩm gen (protein) của một tế bào, mô hoặc cơ quan của một sinh vật nào đó trong một giai đoạn sinh lý nhất định. Xét ở phạm vi hẹp, có thể nói đó là tập hợp sản phẩm dịch mã của tất cả các mRNA có mặt trong tế bào sinh vật tại thời điểm nghiên cứu. Tức là hướng tiếp cận từ protein. 2. Định nghĩa dữ liệu sơ cấp, thứ cấp và phân biệt Dữ liệu sơ cấp là loại dữ liệu được thu thập bởi nhà nghiên cứu từ các nguồn sơ cấp, chứa thông tin trình tự (nucleotide hoặc protein) và thông tin chú thích liên quan đén chức năng, các thư mục-tài liệu tham khảo của các cơ sở dữ liệu khác. Dữ liệu thứ cấp là dữ liệu được thu thập cho mục đích khác, nhà nghiên cứu lại sử dụng cho nghiên cứu của mình. Trong tin sinh học, dữ liệu thứ cấp là nguồn thông tin được tóm tắt (VD: trình tự protein) từ các nguồn sơ cấp. Tiêu chí phân loại Dữ liệu sơ cấp Dữ liệu thứ cấp Mục địch thu thập Phục vụ nghiên cứu Quá trình thu thập Phức tạp Đơn giản Chí phí thu thập Lớn Thấp Thời gian thu thập Dài Ngắn a. Dữ liệu sơ cấp: GenBank: LOCUS và ACCESSION giống như ID, không thay đổi được. Nếu muốn cập nhật thì sẽ được thay đổi ở phần VERSION. Entrez
EMBL và DDBJ ENA UniProt NCBI PDB b. Dữ liệu thứ cấp: Prosite: Motif: [GSTNE]-[GSTQCR]-[FYW]-{ANW}-x(2)-P. Chú thích: Không ngoặc: a.a đó. Ngoặc […]: 1 trong các a.a được liệt kê. Ngoặc {…}: Không thể là 1 trong các a.a được liệt kê. × (n): Bất kì a.a với số lượng n. P: Dừng PRINTS Pfarm: Phân loại protein theo cấu hình. Dự đoán phần trăm xuất hiện của 1 a.a trong từng vị trí protein. Interpro: SCOP: Dùng để dự đoán cấu trúc, cấu hình 1 protein rồi dự đoán chức năng của protein đó. Phân loại: Families, Superfamilies, Folds, Class (Từ bé đến lớn) CATH: Chức năng tương tự với SCOP nhưng khác nhau về phân loại. Phân loại: H, T, A, C (Từ bé đến lớn) Với class được phân theo 4 lớp lớn : Mainly Alpha; Mainly Beta; Alpha-beta và Few SSE (các yếu tố loop, turn của cấu trúc bậc 2) PubChem: Các ứng dụng của so sánh trình tự : Tìm tổ tiên chung Phân tích cây phát sinh loài Chú thích về nucleotide và protein mới trình tự Xây dựng cấu trúc mô hình cho protein Thiết kế và phân tích các nghiên cứu biểu hiện Homologous : Trân c. CSDL của các ngân hàng gen NCBI, EMBL và DDBJ 1. CSDL của EMBL/EBI : 1.1 CSDL tài liệu (Literature Databases)
Medline: Bao quát tất cả các lĩnh vực của y học, chăm sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức khỏe và khoa học tiền lâm sàng. Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền. Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO). Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự. 1.2 CSDL Microarray (Microarray Databases) ArrayExpress: Một CSDL cho microarry dựa vào dữ liệu biểu hiện gen. Miame: Thông tin tối thiểu về một thí nghiệm microarry (Minimum Information About a Microarray Experiment (MIAME). Công nghệ microarry tận dụng các nguồn trình tự được tạo ra từ các dự án xác định trình tự genom để trả lời câu hỏi là các gen nào đang được biểu hiện ở một dạng tế bào nhất định của một sinh vật ở một thời gian nhất định trong những điều kiện nhất định. 1.3 CSDL Nucleotide (Nucleotide Databases) CSDL trình tự nucleotide của EMBL là một thành viên các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truy cập vào hàng trăm trình tự genom hoàn chỉnh cùng với các sản phẩm protein dịch mã nhờ máy chủ của EBI. ASD: CSDL phân cắt nảy sinh (Alternative Splicing Database) chứa dữ liệu về các exon phân cắt phát sinh cùng với các thông tin bổ sung đi kèm. Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome. ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate Transcript Diversity Database ATD) chứa dữ liệu về các bản phiên mã trong đó mỗi bản phiên mã được mô tả cho một dạng cắt ghép nảy sinh và sự polyadenyl hóa nảy sinh (alternative polyadenylation). EMBL-Align database: CSDL so sánh nhiều trình tự. EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL trình tự nucleotide EMBL, đóng góp vào nguồn trình tự nucleotide sơ cấp của châu Âu. EMBL CDS: là một CSDL của trình tự nucleotide của trình tự mã hóa (CDS coding sequence) Ensembl: Mô tả tự động của các genome eukaryote. Genomes Server: một cái nhìn tổng quan của các genom hoàn chỉnh ở EBI. Những trang web này cho phép truy cập với một số lượng lớn các genom hoàn chỉnh.