طراحی و معرفی نرمافزار FAND جهت تسهیل استفاده از اطلاعات ژنوم NCBI در آنالیزهای بیوانفورماتیک
پذیرفته شده برای ارائه شفاهی
کد مقاله : 1853-25IPPC
نویسندگان
1هیئت علمی . موسسه تحقیقات گیاهپزشکی کشور
2دانشگاه صنعتی شریف
چکیده
مرکز ملی اطلاعات بیوتکنولوژی (National Center for Biotechnology Information, NCBI) بزرگترین مرکز دادههای ژنوم در دنیاست. اطلاعات ژنتیکی تمام موجودات زنده اعم از ویروسها تا یوکاریوتها و موجودات بزرگ مانند انسان و گیاهان در این مرکز (GenBank) قرار گرفته است. در حدود دو یا سه دهه پیش تعداد داده برای هر موجود بسیار اندک بود و استخراج آنها برای آنالیزهای بیوانفورماتیک راحتتر بود. اکنون به ویژه با کاربرد تکنیکهای جدید مانند NGS، میزان اطلاعات ژنتیکی در این مرکز افزایش چشمگیری یافته است و استفاده از داده و مطالعه اطلاعات آنها بسختی امکانپزیر است. به عنوان مثال اطلاعات ژنتیکی در مورد پوتی ویروسها در بیست سال پیش بسیار اندک بود و جمع آوری تمامی اطلاعات مرتبط با ژنوم این گروه از ویروسهای گیاهی امکان پذیر بود. اکنون مطالعه موردی آیتمهای این گروه ویروسی با بیش از 34000 مورد عملا امکان پذیر نیست. نرم افزار طراحی شده با عنوان Facilitate Access of NCBI Data (FAND) تحلیل اطلاعات دریافتی از این مرکز داده را تسهیل نموده است. این نرمافزار با استخراج و جدولبندی دادهها، دسترسی به اطلاعات ژنتیکی را بهبود میبخشد و سازماندهی میکند. علاوه بر این، دارای ابزاری برای تعیین موقعیت جغرافیایی است که مکانهای گزارش شده ویروسها و میزبانان آنها را در سراسر جهان به صورت بصری نمایش میدهد و تحلیل اپیدمیولوژیکی را تسهیل میکند.
ویژگیهای کلیدی شامل برش سفارشی توالیها بر اساس قوانین تعریف شده توسط کاربر است که اجازه میدهد دادهها به طور دقیق پیشپردازش شوند. این نرمافزار همچنین یک ویژگی همترازسازی سریع توالی را برای مقایسه کارآمد توالیهای برش خورده در خود جای داده است. برای پشتیبانی بیشتر از تحلیل ژنتیکی، نرمافزار FAND شامل یک ماژول ارزیابی شباهت ژنی است که با تحلیل نوترکیبی انجام شده و نمودارهای شباهت جامعی را تولید میکند، بطوریکه میزان شباهت نوکلئوتیدی را در قطعات نوکلئوتیدی مشابه به صورت پلات ترسیم میکند.
FAND با هدف ارائه یک پلتفرم یکپارچه و کاربرپسند برای تحلیل دادههای ژنتیکی به پژوهشگران، ترکیبی از استخراج دادهها، تجسم و ابزارهای زیستشناسی محاسباتی را در یک بسته واحد فراهم میکند. در حال حاضر FAND برای استخراج دادههای ویروسهای گیاهی و گروههای ویروسی متعددی استفاده شده است. این نسخه ضمن تاکید بر اهمیت نرم افزار و کاربردهای آن در زمینه تحقیقات ژنومی، سرعت ویرایش، خوانش و انسجام اطلاعات را افزایش می دهد.
ویژگیهای کلیدی شامل برش سفارشی توالیها بر اساس قوانین تعریف شده توسط کاربر است که اجازه میدهد دادهها به طور دقیق پیشپردازش شوند. این نرمافزار همچنین یک ویژگی همترازسازی سریع توالی را برای مقایسه کارآمد توالیهای برش خورده در خود جای داده است. برای پشتیبانی بیشتر از تحلیل ژنتیکی، نرمافزار FAND شامل یک ماژول ارزیابی شباهت ژنی است که با تحلیل نوترکیبی انجام شده و نمودارهای شباهت جامعی را تولید میکند، بطوریکه میزان شباهت نوکلئوتیدی را در قطعات نوکلئوتیدی مشابه به صورت پلات ترسیم میکند.
FAND با هدف ارائه یک پلتفرم یکپارچه و کاربرپسند برای تحلیل دادههای ژنتیکی به پژوهشگران، ترکیبی از استخراج دادهها، تجسم و ابزارهای زیستشناسی محاسباتی را در یک بسته واحد فراهم میکند. در حال حاضر FAND برای استخراج دادههای ویروسهای گیاهی و گروههای ویروسی متعددی استفاده شده است. این نسخه ضمن تاکید بر اهمیت نرم افزار و کاربردهای آن در زمینه تحقیقات ژنومی، سرعت ویرایش، خوانش و انسجام اطلاعات را افزایش می دهد.
کلیدواژه ها
Title
Designing and introducing Facilitate Access of NCBI Data (FAND) software to facilitate the use of NCBI genome information in bioinformatics analyses
Authors
Mahmoud Masumi, Mostafa Masumi
Abstract
The National Center for Biotechnology Information (NCBI) stands as the largest genome data repository globally, housing genetic information spanning all living organisms, from viruses to complex eukaryotes, including humans and plants, through its extensive database, GenBank. Over the past two to three decades, the volume of genomic data available has dramatically expanded, particularly with the advent of next-generation sequencing (NGS) technologies. In earlier years, comprehensive bioinformatic analyses of viral genomes, such as potyviruses, were feasible due to the limited data available. However, as of today, with over 34,000 entries related to potyviruses alone, exhaustive studies have become increasingly challenging.
To address this issue, we introduce the Facilitate Access to NCBI Data (FAND) software, which streamlines the process of analyzing and interpreting vast datasets from the NCBI. FAND enhances data accessibility by efficiently extracting, organizing, and tabulating genetic information. One of its innovative features is a geolocation tool that visually represents the geographic distributions of viruses and their hosts, thus aiding in epidemiological studies.
Key functionalities of FAND include the ability to perform custom slicing of sequences according to user-defined criteria, enabling precise pre-processing of data. Additionally, the software features rapid sequence alignment capabilities for quick and efficient comparisons of trimmed sequences. To support in-depth genetic analysis, the FAND toolkit also includes a gene similarity evaluation module that utilizes recombination analysis to generate detailed similarity diagrams, illustrating the degree of nucleotide conservation across homologous sequences.
Designed to furnish researchers with an integrated and user-friendly platform for genetic data analysis, FAND combines robust data mining, visualization, and computational biology tools into a single accessible package. This software has already demonstrated its utility in addressing various viral datasets, particularly within the realm of plant virology, facilitating advances in research and epidemiological analysis. This version enhances readability and coherence while emphasizing the significance of the software and its applications in the field of genomic research.
To address this issue, we introduce the Facilitate Access to NCBI Data (FAND) software, which streamlines the process of analyzing and interpreting vast datasets from the NCBI. FAND enhances data accessibility by efficiently extracting, organizing, and tabulating genetic information. One of its innovative features is a geolocation tool that visually represents the geographic distributions of viruses and their hosts, thus aiding in epidemiological studies.
Key functionalities of FAND include the ability to perform custom slicing of sequences according to user-defined criteria, enabling precise pre-processing of data. Additionally, the software features rapid sequence alignment capabilities for quick and efficient comparisons of trimmed sequences. To support in-depth genetic analysis, the FAND toolkit also includes a gene similarity evaluation module that utilizes recombination analysis to generate detailed similarity diagrams, illustrating the degree of nucleotide conservation across homologous sequences.
Designed to furnish researchers with an integrated and user-friendly platform for genetic data analysis, FAND combines robust data mining, visualization, and computational biology tools into a single accessible package. This software has already demonstrated its utility in addressing various viral datasets, particularly within the realm of plant virology, facilitating advances in research and epidemiological analysis. This version enhances readability and coherence while emphasizing the significance of the software and its applications in the field of genomic research.
Keywords
Bioinformatic, Genbank, Genome editing, similarity plot