Anukoon Wisitsora-at. A study and evaluation of dna-sequence-assembly programs. Master's Degree(Computer Science). Mahidol University. : Mahidol University, 2005.
A study and evaluation of dna-sequence-assembly programs
Abstract:
DNA sequencing is one of the most important techniques for life science in the era of genome research. The limitations of current biochemical techniques make DNA assembly, particularly for large-scale genomes, highly challenging since it is complicated, time-consuming, and expensive. Computer technologies can be used to align and assemble fragments. The alignment and the assembly processes are complex and incompletely solved due to repeated patterns, DNA evolutions and sequencing errors. This thesis describes the underlying research, design and implementation of a new sequence assembly program, called SEQASS, to help in alignment and assembly of the whole genome sequences. SEQASS has been developed with respect to the framework presented in CAP3. Unlike CAP3, however, SEQASS uses BLAT, a BLAST-like tool, to accelerate pair-wise comparisons and improve assembly quality. SEQASS has been evaluated on the DNA sequences of mammal organisms, which were obtained from Genbank. The evaluation measurements include the total percent coverage, the total percent of identity, the number of good contigs, the average size of good contigs, the number of misassembled contigs, and the total run time. The output contig sequences were evaluated by comparing the sequences with the known whole genome input by BLAT. SEQASS performances were compared to other available programs including CAP3, CAP1, and TIGR. These evaluations showed that SEQASS is a useful tool in the alignment and assembly of whole sequence program and has good potential in the field of genome research"
Abstract:
การเรียงลำดับดีเอ็นเอ (DNA sequencing) เป็นงานวิจัยทางด้านเทคโนโลยีชีวภาพที่สำคัญที่สุดอันหนึ่ง การต่อลำดับดีเอ็นเอสำหรับสิ่งมีชีวิตในปัจจุบันมีความยุ่งยากซับซ้อนและราคาแพงมากเนื่องจากข้อจำกัดของเคมีชีวเทคนิค จึงได้มีการนำเทคโนโลยีคอมพิวเตอร์มาใช้เพื่อช่วยในการจัดเรียงและรวบรวมดีเอ็นเอให้รวดเร็วและราคาถูกขึ้น อย่างไรก็ตามกระบวนการของการจัดเรียงและรวบรวมดีเอ็นเอด้วยโปรแกรมคอมพิวเตอร์นั้นยังต้องมีการวิจัยอีกมากเนื่องจากปัญหาที่ยังไม่สามารถแก้ได้ทั้งหมด ได้แก่ แบบรูปซ้ำซ้อน (repeated patterns) วิวัฒนาการของดีเอ็นเอ (DNA evolutions) และการลำดับผิด (sequencing errors) วิทยานิพนธ์นี้อธิบายการออกแบบและพัฒนาโปรแกรมรวบรวมดีเอ็นเอใหม่ที่ชื่อว่า SEQASS ใช้เพื่อ ช่วยในการจัดเรียงและรวบรวมดีเอ็นเอให้มีความถูกต้องสูงในระดับเดียวกับโปรแกรมที่มีขายอยู่ในเชิงพาณิชย์โปรแกรม SEQASS ถูกพัฒนาขึ้นมาตามหลักการที่ใช้ในโปรแกรม CAP3 แต่โปรแกรม SEQASS ก็แตกต่างจาก CAP3 ตรงที่ได้มีการใช้ BLAT ซึ่งเป็น BLAST-like tool เพื่อเร่งการเปรียบเทียบระดับคู่ (pair-wise comparisons) ให้เร็วขึ้น พร้อมทั้งปรับปรุงคุณภาพผลการรวบรวมดีเอ็นเอ โปรแกรม SEQASS ได้ถูกประเมินค่าโดยใช้ลำดับของดีเอ็นเอของสิ่งมีชีวิตที่เลี้ยงลูกด้วยนมหลายชนิดซึ่งได้มาจากฐานข้อมูลของ Genbank ตัววัดที่ใช้ในการประเมินค่าได้แก่ เปอร์เซ็นต์ของการครอบคลุม(total percent coverage) เปอร์เซ็นต์ของความเหมือน (Total percent of identity) จำนวนและขนาดเฉลี่ยของคอนทิก ที่ดี (the number and average size of good contigs) จำนวนของคอนทิกที่เสีย (the number of
misassembled contigs) และเวลาที่ใช้ในกาทำงาน คอนทิกที่ได้ได้ถูกประเมินค่าโดยการเปรียบเทียบกับสายดีเอ็นเอรวมที่รู้มาก่อนโดย BLAT คุณภาพของโปรแกรม SEQASS ได้ถูกประเมินค่าและเปรียบเทียบกับโปรแกรมอื่นที่สามารถหามาได้ เช่น โปรแกรม CAP3 CAP1 และ TIGR. ในการประเมินค่าเราพบว่าโปรแกรม SEQASS เป็นเครื่องมือที่มีประโยชน์ในการจัดเรียงและรวบรวมดีเอ็นเอ รวมถึงเป็นเครื่องมือที่มี
ศักยภาพสูงในงานวิจัยทางด้านเทคโนโลยีชีวภาพด้วย"