ستاره: Altrafast Universal RNA-Seq Aligner

ساخت وبلاگ

انگیزه: تراز دقیق داده های RNA-SEQ با توان بالا به دلیل ساختار رونوشت غیر مبهم ، طول خواندن نسبتاً کوتاه و به طور مداوم افزایش توان فن آوری های توالی ، یک مشکل چالش برانگیز و در عین حال حل نشده است. در حال حاضر ترازهای RNA-Seq در دسترس از نرخ خطای نقشه برداری بالا ، سرعت نقشه برداری پایین ، محدودیت طول خوانده شده و تعصب نقشه برداری رنج می برند.

Results: To align our large (>80 billon reads) ENCODE Transcriptome RNA-seq dataset, we developed the Spliced Transcripts Alignment to a Reference (STAR) software based on a previously undescribed RNA-seq alignment algorithm that uses sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure. STAR outperforms other aligners by a factor of>50 در سرعت نقشه برداری ، تراز کردن با ژنوم انسانی 550 میلیون 2 × 76 جفت باز زوج هر ساعت در یک سرور متوسط 12 هسته ای می خواند ، در حالی که در عین حال باعث بهبود حساسیت و دقت تراز می شود. علاوه بر تشخیص بی طرفانه De Novo از اتصالات متعارف ، STAR می تواند شکاف های غیر متعارف و رونوشت های کیمریک (فیوژن) را کشف کند ، و همچنین قادر به ترسیم توالی های RNA تمام طول است. با استفاده از توالی ROCHE 454 از آمپلیکون های واکنش زنجیره ای پلیمراز رونویسی معکوس ، ما به طور تجربی 1960 اتصال رمان intergice intergice را با میزان موفقیت 80-90 ٪ تأیید کردیم و با دقت بالایی از استراتژی نقشه برداری ستاره.

در دسترس بودن و اجرای: ستاره به عنوان یک کد مستقل C ++ اجرا می شود. ستاره نرم افزار منبع باز رایگان است که تحت مجوز GPLV3 توزیع می شود و می توانید از http://code. google. com/p/a-star/ بارگیری کنید.

1. معرفی

اگرچه ژنوم ها از توالی های خطی به صورت خطی از اسیدهای نوکلئیک تشکیل شده اند ، سلولهای یوکاریوتی به طور کلی با ترکیب اگزون های غیر مبهم ، اطلاعات موجود در متن را دوباره سازماندهی می کنند تا رونوشت های بالغ را ایجاد کنند (Hastings and Krainer ، 2001). تشخیص و توصیف این RNA های تقسیم شده ، تمرکز مهمی در تجزیه و تحلیل عملکردی ژنوم در هر دو حالت سلول طبیعی و بیماری بوده است. پیشرفت های اخیر در فن آوری های توالی ، تجزیه و تحلیل رونویسی را در سطح نوکلئوتید منفرد تقریباً روال انجام داده است. با این حال ، صدها میلیون توالی کوتاه (36 نانومتر) تا متوسط (200 نانومتر) طول (خوانده شده) تولید شده توسط چنین آزمایش های توالی با توان بالا ، چالش های منحصر به فردی را برای تشخیص و توصیف رونوشت های تقسیم شده ارائه می دهد. دو کار کلیدی این تحلیل ها را از نظر محاسباتی فشرده می کند. اولین کار تراز دقیق خوانده شده است که حاوی عدم تطابق ، درج و حذف ناشی از تغییرات ژنومی و خطاهای توالی است. کار دوم شامل توالی های نقشه برداری حاصل از مناطق ژنومی غیر مبهم است که شامل ماژول های دنباله ای تقسیم شده است که به هم پیوسته اند تا RNA های شکاف دار تشکیل شوند. اگرچه کار اول با تلاش های مجدد DNA به اشتراک گذاشته می شود ، کار دوم برای RNA-Seq خاص و بسیار مهم است ، زیرا اطلاعات اتصال مورد نیاز برای بازسازی میزان کامل مولکولهای RNA را ارائه می دهد. این چالش های تراز بیشتر با حضور چندین نسخه از توالی های ژنومی یکسان یا مرتبط که خود رونویسی شده اند ، پیچیده می شوند و نقشه برداری دقیق را دشوار می کند.

الگوریتم های مختلف تراز توالی اخیراً برای مقابله با این چالش ها ایجاد شده است (Au et al. ، 2010 ؛ de Bona ، et al. ، 2008 ؛ Grant et al. ، 2011 ؛ Han et al. ، 2011 ؛ Trapnell et al. ، 2009 ؛وانگ و همکاران ، 2010 ؛ وو و ناکو ، 2010 ؛ ژانگ و همکاران ، 2012). با این حال ، استفاده از این الگوریتم ها در زمینه های دقت نقشه برداری (حساسیت و دقت) و منابع محاسباتی (زمان اجرا و فضای دیسک) به سازش می پردازد (گرانت و همکاران ، 2011). با پیشرفت های فعلی در فن آوری های توالی ، مؤلفه محاسباتی به طور فزاینده ای به یک تنگنا توان تبدیل می شود. سرعت نقشه برداری بالا به ویژه برای تلاش های بزرگ کنسرسیوم ، مانند رمزگذاری (http://www. genome. gov/encode/) ، که به طور مداوم مقادیر زیادی از داده های توالی تولید می کنند ، از اهمیت ویژه ای برخوردار است.

علاوه بر این ، بسیاری از الگوریتم های ذکر شده برای مقابله با خواندن نسبتاً کوتاه (به طور معمول ≤200 پایه) طراحی شده اند ، و برای تراز کردن توالی های طولانی خوانده شده تولید شده توسط فن آوری های توالی نسل سوم در حال ظهور مناسب نیستند (Flusberg et al. ، 2010 ؛ Rothbergو همکاران ، 2011). توالی های طولانی تر خوانده شده ، که به طور ایده آل به طول کامل مولکول های RNA می رسند ، با ارائه اطلاعات کامل تر اتصال RNA ، پتانسیل خوبی برای تقویت مطالعات رونویسی دارند.

This report describes an alignment algorithm entitled ‘Spliced Transcripts Alignment to a Reference (STAR)’, which was designed to specifically address many of the challenges of RNA-seq data mapping, and uses a novel strategy for spliced alignments. We performed high-throughput validation experiments that corroborated STAR’s precision for detection of novel splice junctions. STAR’s high mapping speed and accuracy were crucial for analyzing the large ENCODE transcriptome (Djebali et al. , 2012) dataset (>80 میلیارد Illumina می خواند). ما همچنین نشان دادیم که STAR پتانسیل تراز دقیق طولانی (چندین کیلوباز) را خوانده است که از فناوری های توالی نسل سوم بیرون می آیند.

2 الگوریتم

بسیاری از ترازهای RNA-SEQ که قبلاً توصیف شده بودند به عنوان پسوند نقشه بردارهای خواندن کوتاه (DNA) ساخته شده اند ، که برای تراز کردن خواندن های کوتاه به یک پایگاه داده از اتصالات شکاف یا تراز کردن بخش های تقسیم شده به طور همزمان به یک ژنوم مرجع یا ترکیبی از آن استفاده می شدند. بشربر خلاف این رویکردها ، STAR برای تراز کردن توالی های غیر مبهم به طور مستقیم به ژنوم مرجع طراحی شده است. الگوریتم ستاره از دو مرحله اصلی تشکیل شده است: مرحله جستجوی بذر و مرحله خوشه بندی/دوخت/امتیاز دهی.

2. 1 جستجوی دانه

ایده اصلی مرحله یافتن بذر ستاره ، جستجوی پی در پی برای پیشوند حداکثر mappable (MMP) است. MMP مشابه مفهوم حداکثر (منحصر به فرد) مسابقه است که توسط Mummer Mummer در مقیاس بزرگ مورد استفاده قرار می گیرد (Delcher et al. ، 1999 ، 2002 ؛ Kurtz et al.) و Mauve (دارلینگ و همکاران ، 2004 ، 2010). با توجه به دنباله خوانده شده R ، خواندن مکان I و یک توالی ژنوم مرجع G ، MMP (R ، I ، G) به عنوان طولانی ترین بستر تعریف شده است (Ri , Ri+ 1, … , Ri+MML 1) که دقیقاً با یک یا چند بستر G مطابقت دارد ، جایی که MML حداکثر طول قابل تنظیم است. ما این مفهوم را با استفاده از یک مثال ساده از خواندن توضیح خواهیم داد که حاوی یک اتصالات شکاف و عدم تطابق نیست (شکل 1 A). در مرحله اول ، الگوریتم MMP را از پایه اول خواندن شروع می کند. از آنجا که خوانده شده در این مثال شامل یک اتصال شکاف است ، نمی توان آن را به طور مبهم به ژنوم ترسیم کرد ، و بنابراین اولین دانه به یک سایت شکاف اهدا کننده نقشه برداری می شود. در مرحله بعد ، جستجوی MMP برای بخش بدون استفاده از خوانده شده تکرار می شود ، که در این حالت ، به یک سایت شکاف پذیرنده نقشه برداری می شود. توجه داشته باشید که این برنامه پی در پی جستجوی MMP فقط به بخش های بدون استفاده از خواندن ، الگوریتم ستاره را بسیار سریع می کند و آن را از Mummer و Mauve متمایز می کند ، که تمام مسابقات حداکثر دقیق را پیدا می کند. این رویکرد یک روش طبیعی برای یافتن مکان های دقیق از اتصالات شکاف در یک دنباله خوانده شده است و از تقسیم دلخواه توالی های خواندن مورد استفاده در روش های تقسیم شده سودمند است. اتصالات شکاف در یک گذرگاه واحد بدون هیچ گونه دانش پیشینی در مورد محل یا خصوصیات اتصالات شکاف ، و بدون یک گذرگاه همبستگی مقدماتی مورد نیاز توسط رویکردهای پایگاه داده اتصال ، شناسایی می شوند. MMP در جستجوی ستاره از طریق آرایه های پسوند فشرده (SAS) اجرا می شود (مانبر و مایرز ، 1993). نکته قابل توجه ، پیدا کردن MMP نتیجه ذاتی جستجوی رشته باینری استاندارد در SAS فشرده نشده است و در مقایسه با جستجوهای مسابقه دقیق کامل ، نیازی به تلاش محاسباتی اضافی ندارد. ماهیت باینری جستجوی SA منجر به مقیاس بندی لگاریتمی مطلوب از زمان جستجو با طول ژنوم مرجع می شود و به جستجوی سریع حتی در برابر ژنوم های بزرگ امکان می دهد. از مزایای آن ، برای هر MMP ، جستجوی SA می تواند تمام مسابقات ژنومی دقیق و دقیق را با سربار محاسباتی کمی پیدا کند ، که تراز دقیقی از خوانده شده را که نقشه به چندین مکان ژنومی ("Multimapping" می خواند ، تسهیل می کند.

An exteal file that holds a picture, illustration, etc. Object name is bts635f1.jpg

بازنمایی شماتیک از حداکثر جستجوی پیشوند قابل تنظیم در الگوریتم ستاره برای تشخیص (الف) اتصالات شکاف ، (ب) عدم تطابق و (ج) دم

علاوه بر شناسایی اتصالات اتصال، جستجوی MMP که در STAR پیاده سازی شده است، یافتن چندین عدم تطابق و indels را ممکن می کند، همانطور که در شکل 1 ب نشان داده شده است. اگر جستجوی MMP به دلیل وجود یک یا چند عدم تطابق به پایان خواندن نرسد، MMP ها به عنوان لنگر در ژنوم عمل می کنند که می تواند گسترش یابد و امکان تراز کردن با عدم تطابق را فراهم می کند. در برخی موارد، روش توسعه یک هم ترازی ژنومی خوبی را به همراه نمی آورد، که امکان شناسایی دنباله های poly-A، توالی های آداپتور کتابخانه یا دنباله های با کیفیت توالی ضعیف را فراهم می کند (شکل 1 ج). جستجوی MMP در هر دو جهت رو به جلو و معکوس دنباله خواندن انجام می شود و می تواند از نقاط شروع جستجوی تعریف شده توسط کاربر در سراسر دنباله خواندن شروع شود، که یافتن لنگرها برای خواندن با خطاهای نزدیک به انتها را تسهیل می کند و حساسیت نقشه برداری را برای خطای توالی بالا بهبود می بخشد. شرایط نرخ

علاوه بر الگوریتم جستجوی MMP کارآمد، SAهای فشرده نشده همچنین مزیت سرعت قابل توجهی را نسبت به SAهای فشرده که در بسیاری از تراز کننده های خواندن کوتاه معروف پیاده سازی شده اند نشان می دهند (بخش تکمیلی 1. 8). این مزیت سرعت در مقابل افزایش استفاده از حافظه توسط آرایه های فشرده نشده، که در بخش 3. 3 بیشتر ارزیابی می شود، جایگزین می شود.

2. 2 خوشه بندی، دوخت و امتیازدهی

در مرحله دوم الگوریتم، STAR با بخیه زدن تمام دانه هایی که در فاز اول با ژنوم تراز شده بودند، ترازهایی از کل دنباله خوانده شده ایجاد می کند. ابتدا، دانه ها با نزدیکی به مجموعه ای از دانه های «لنگر» در کنار هم قرار می گیرند. ما دریافتیم که یک روش بهینه برای انتخاب لنگر، از طریق محدود کردن تعداد مکان های ژنومی است که لنگرها با آن ها هماهنگ هستند. تمام دانه هایی که در پنجره های ژنومی تعریف شده توسط کاربر در اطراف لنگرها نقشه برداری می کنند، با فرض یک مدل رونویسی خطی محلی به هم دوخته می شوند. اندازه پنجره های ژنومی حداکثر اندازه اینترون را برای ترازهای متصل شده تعیین می کند. یک الگوریتم برنامه نویسی پویا مقرون به صرفه (برای جزئیات به بخش تکمیلی 1. 5 مراجعه کنید) برای بخیه زدن هر جفت دانه استفاده می شود که امکان هر تعداد عدم تطابق را فراهم می کند اما فقط یک درج یا حذف (فاصله) را امکان پذیر می کند.

نکته مهم این است که بذرهای موجود از همسران خوانده شده RNA-SEQ به طور همزمان خوشه ای و دوخته شده هستند ، با این که هر یک از خواندن زوج به عنوان یک دنباله واحد نشان داده می شوند ، امکان ایجاد شکاف ژنومی یا همپوشانی بین انتهای داخلی همسران را فراهم می کند. این یک روش اصولی برای استفاده از اطلاعات زوج است ، زیرا این امر بهتر از ماهیت خواندن زوج بهتر است ، یعنی این واقعیت که همسران قطعات (به پایان) از همان دنباله هستند. این رویکرد حساسیت الگوریتم را افزایش می دهد ، زیرا تنها یک لنگر صحیح از یکی از همسران برای تراز دقیق کل خواندن کافی است.

اگر یک تراز در یک پنجره ژنومی کل دنباله خوانده شده را پوشش ندهد ، ستاره سعی خواهد کرد دو یا چند ویندوز را که کل خوانده شده را پوشش می دهد ، پیدا کند ، در نتیجه یک تراز کیمریک ، با قسمت های مختلف نقشه برداری خوانده شده به مکان های ژنومی دیستال یا متفاوتکروموزوم ها یا رشته های مختلف (شکل مکمل. S1). ستاره می تواند ترازهای کیمریک را پیدا کند که در آن همسران به یکدیگر کیمریک می شوند ، با یک اتصال کیمریک که در قسمت بدون توالی مولکول RNA بین دو جفت قرار دارد. ستاره همچنین می تواند ترازهای کیمریک را پیدا کند که در آن یک یا هر دو همسری از نظر داخلی به صورت داخلی تراز شده اند ، بنابراین مکان دقیق محل اتصال کیمریک در ژنوم را نشان می دهد. نمونه ای از تشخیص متن فیوژن BCR-ABL از رده سلولی اریترولوکمی K562 در بخش تکمیلی 1. 7 (شکل مکمل شکل S2) آورده شده است.

این دوخت با یک طرح امتیاز دهی به تراز محلی هدایت می شود ، با نمرات تعریف شده توسط کاربر (مجازات ها) برای مسابقات ، عدم تطابق ، درج ، حذف و شکاف های اتصال شکاف ، امکان ارزیابی کمی از ویژگی های تراز و رتبه ها را فراهم می کند (به بخش مکمل 1. 4 برای جزئیات مراجعه کنید.). ترکیب بخیه با بالاترین امتیاز به عنوان بهترین تراز یک خواندن انتخاب می شود. برای خواندن چند منظوره ، تمام ترازهای با نمرات در محدوده خاص تعریف شده توسط کاربر زیر بالاترین امتیاز گزارش شده است.

اگرچه جستجوی متوالی MMP فقط دانه ها را دقیقاً مطابق با ژنوم می یابد ، اما روش دوخت بعدی قادر به تراز کردن خوانده شده با تعداد زیادی از ناسازگاری ها ، ایندل ها و اتصالات شکاف ، مقیاس پذیر با طول خوانده شده است. این ویژگی با ظهور فن آوری های توالی نسل سوم (مانند علوم زیستی اقیانوس آرام یا تورنت یونی) که خواندن طولانی تر با نرخ خطای بالا تولید می کنند ، از اهمیت بیشتری برخوردار شده است.

3 نتیجه

3. 1 عملکرد در داده های شبیه سازی شده RNA-Seq

اول ، ما از داده های شبیه سازی شده برای ارزیابی عملکرد STAR و مقایسه آن با سایر نقشه برداران RNA-SEQ استفاده کردیم. شبیه سازی ها امکان محاسبه دقیق از نرخ های کاذب مثبت و منفی را فراهم می کنند ، اگرچه مدل های خطای مصنوعی ، که برای تولید خواندن شبیه سازی شده استفاده می شوند ، ممکن است به اندازه کافی خطاهای تجربی را نشان ندهند. ما از یک مجموعه داده شبیه سازی شده از یک مطالعه جدید استفاده کردیم (گرانت و همکاران ، 2011) ، که در آن 10 میلیون از توالی خوانده شده مانند Illumina 2 × 100 نانومتر با نرخ خطای معقول از رونوشت ماوس ، از جمله رونوشت های حاشیه نویسی و مصنوعی تولید شد. آنهایی کهانواع مختلف تغییرات ژنومی و خطاهای توالی برای تقلید از داده های واقعی RNA-SEQ معرفی شد.

آخرین نسخه های موجود از ستاره 2. 1. 3 ، TOPHAT2 2. 0. 0 (Trapnell و همکاران ، 2009) ، GSNAP 2012-07-03 (WU and NACU ، 2010) ، Rum 1. 11 (Grant et al. ، 2011) و Mapsplice 1. 15. 2 (وانگ و همکاران ، 2010) بر روی مجموعه داده های شبیه سازی شده با عنوان "Sim1-Test2" در آن اجرا شدند (گرانت و همکاران ، 2011). از آنجا که نسخه TOPHAT2 2. 0. 0 نشان دهنده پیشرفت جدید جدید تراز Tophat است ، که هنوز هم به بررسی نشده است ، ما همچنین مقایسه را با نسخه قبلی Tophat 1. 4 انجام دادیم. ما دریافتیم که نسخه جدید دقت کمی بهتر و سرعت نقشه برداری سریعتر (بخش تکمیلی 2. 1 و شکل S3) دارد. تمام ترازورها در حالت de novo اجرا شدند ، یعنی بدون استفاده از حاشیه نویسی ژن/متن. حداکثر تعداد عدم تطابق در 10 در هر زوجی خوانده شده تنظیم شده است ، و حداقل/حداکثر اندازه اینترون در 20 B/500 KB (بخش تکمیلی 2 برای اطلاعات بیشتر) تعیین شده است. توجه داشته باشید که در حال اجرا بین نقشه برداران با پارامترهای پیش فرض آنها یک عمل معقول و متداول است ، زیرا همه ترازورها به طور پیش فرض برای ژنوم پستانداران و داده های اخیر RNA-SEQ بهینه شده بودند.

ترازهای حاصل با منشأ ژنومی واقعی خوانده شده شبیه سازی شده مقایسه شد ، و میزان واقعی/کاذب مثبت تشخیص اتصال شکاف با استفاده از روشها و اسکریپتهای تهیه شده توسط گرانت و همکاران محاسبه شد.(2011). منحنی های ROC (شکل 2) با آستانه تشخیص (تبعیض) داده شده توسط تعداد خواندن نقشه برداری شده در هر محل اتصال محاسبه شد ، یعنی برای هر ترازو ، فقط اتصالات پشتیبانی شده توسط حداقل n خوانده شده برای هر نقطه در امتداد منحنی های ROC انتخاب شدند ،با n از 1 (پایین ترین آستانه) تا 100 (آستانه بالا) متغیر است. تمام ترازورها منحنی های ROC شیب مطلوب را در مقادیر بالای آستانه تشخیص نشان می دهند. در کمترین آستانه تشخیص 1 خوانده شده در هر محل ، ستاره ضمن دستیابی به حساسیت بالا ، کمترین میزان مثبت کاذب را نشان می دهد. شکل تکمیلی S5 همان تجزیه و تحلیل را برای یک مجموعه داده شبیه سازی با نرخ پایین با خطای پایین نشان می دهد ، که نتیجه گیری مشابهی را به دست می آورد.

An exteal file that holds a picture, illustration, etc. Object name is bts635f2.jpg

نرخ مثبت مثبت در مقابل نرخ مثبت کاذب (-منحنی ROC) برای داده های شبیه سازی شده RNA-SEQ برای STAR ، TOPHAT2 ، GSNAP ، RUM و MAPSPLICE

3. 2 عملکرد روی داده های آزمایشی RNA-Seq

برای ارزیابی عملکرد نقشه بردارهای RNA-SEQ در Star Data Data RNA- SEQ تجربی ، TOPHAT2 ، GSNAP ، RUM و MAPSPLICE اجرا شد (برای اطلاعات بیشتر به بخش مکمل 2 مراجعه کنید) در یک مجموعه داده طولانی RNA-SEQ (K562 کل سلول A +نمونه ، 1 خط Illumina Gaiix از 40 میلیون 2 × 76 خوانده شده). STAR و GSNAP بیشترین درصد خواندها (94 ٪ هر دو) را تراز کردند ، و پس از آن RUM (86 ٪) ، MAPSPLICE (85 ٪) و TOPHAT2 (71 ٪).

معیارهای مختلف دقت برای تشخیص اتصال شکاف با توجه به Gencode 7 (هارو و همکاران ، 2012) حاشیه نویسی در شکل 3 A-C به عنوان تابعی از آستانه تشخیص ترسیم شده است ، که به عنوان حداقل تعداد RNA-SEQ در هر اتصال می خواندبشراگرچه همه ترازو تعداد مشابهی از اتصالات حاشیه نویسی را تشخیص می دهند (شکل 3 A ، خطوط جامد) ، تفاوت های قابل توجهی بین نقشه بردارها در تعداد اتصالات بدون حاشیه تشخیص داده شده وجود دارد (شکل 3 A ، خطوط متراکم). درصد غیرقابل حل در بین تمام اتصالات شناسایی شده در شکل 3 B به عنوان تابعی از آستانه تشخیص ترسیم شده است. از آنجا که همه ترازو حساسیت های مشابهی را به اتصالات حاشیه نویسی نشان می دهند ، نسبت حاشیه نویسی در بین تمام اتصالات شناسایی شده ممکن است به عنوان جانشین دقت عمل کند. Star ، Rum و Tophat2 به طور مشابه عمل می کنند ، در حالی که GSNAP با دقت کمتری در آستانه تشخیص پایین تر نشان می دهد ، و Mapsplice رفتارهای غیر یکتایی و غیر اشباع غیرمعمول را نشان می دهد ، که در ژانگ و همکاران نیز ذکر شده است.(2012). منحنی شبه روس ، یعنی نسبت اتصالات حاشیه نویسی که تشخیص داده می شوند (حساسیت شبه) در مقابل نسبت اتصالات شناسایی شده که بدون آن نیستند (میزان شبه فلزی مثبت) ، در شکل 3 c ترسیم شده است. تمام ترازو (به جز Mapsplice) به طور مشابه در مقادیر بالای آستانه تشخیص عمل می کنند.

An exteal file that holds a picture, illustration, etc. Object name is bts635f3.jpg

معیارهای مختلف دقت برای تشخیص اتصالات شکاف در داده های تجربی RNA-SEQ. طرح کدگذاری رنگ برای آهنگسازان در همه توطئه ها یکسان است. x-axis در توطئه ها (a) ، (b) ، (d) و (e) آستانه تشخیص است که به عنوان تعداد خوانده شده در هر محل اتصال تعریف شده است ، یعنی هر نقطه با x-value از n نشان دهنده تمام اتصالات استپشتیبانی شده توسط حداقل N خوانده شده توسط یک تراز خاص.(الف) تعداد کل اتصالات شناسایی شده ، حاشیه نویسی (خطوط جامد) و بدون آرامی (خطوط متراکم).(ب) درصد اتصالات شناسایی شده که حاشیه نویسی می شوند.(ج) منحنی شبه روس: درصد از کلیه اتصالات حاشیه نویسی که در مقابل درصد اتصالات شناسایی شده که بدون آن نیستند تشخیص داده می شوند.(د) تعداد اتصالات بدون حاشیه شناسایی شده توسط حداقل دو نقشه بردار (خطوط جامد) و تعداد اتصالات بدون حاشیه که به طور انحصاری توسط یک نقشه برداری (خطوط شکسته) شناسایی شده اند.(ه) درصد از اتصالات بدون حاشیه شناسایی شده که به طور انحصاری توسط یک نقشه برداری و (F) منحنی شبه روسیه تشخیص داده می شوند: درصد اتصالات بدون حاشیه که توسط حداقل دو نقشه بردار در مقابل درصد اتصالات غیرقابل توصیف شناسایی شده اند که فقط توسط یک مورد شناسایی می شوندنقشه کش

از آنجا که بسیاری از اتصالات بدون حاشیه نمایانگر وقایع تلفیقی رمان واقعی هستند و مثبت کاذب نیستند ، درصد بدون پاسخ در بین تمام اتصالات شناسایی شده ، یک پروکسی دقیق برای نرخ کاذب مثبت نیست. برای به دست آوردن یک برآورد دقیق تر از نرخ مثبت کاذب ، ما یک رویکرد دیگر که اغلب مورد استفاده قرار می گیرد (ژانگ و همکاران ، 2012) دنبال کردیم و ترسیم شدیم (شکل 3 D) تعداد اتصالات شناسایی شده توسط حداقل دو نقشه بردار (شبه مثبت مثبت) و تعداد اتصالات کشف شده به طور انحصاری توسط هر نقشه برداری (شبه فال مثبت). ترازهای ستاره کمترین میزان شبه فال مثبت را به دست می آورند ، یعنی کمترین نسبت اتصالات به طور انحصاری شناسایی شده (شکل 3 E) ، در حالی که در همان زمان در کلاس شبه حساسیت به دوم رسیده است (شکل 3 F). GSNAP بالاترین حساسیت شبه را با هزینه یک نرخ شبه فال مثبت بالا نشان می دهد. این نتایج از نظر کیفی با عملکرد تراز بر روی داده های شبیه سازی شده موافق است ، در حالی که تفاوت های کمی ممکن است به اختلافات بین خطاهای واقعی و شبیه سازی شده نسبت داده شود. شکل تکمیلی S6 همان تجزیه و تحلیل را برای یک مجموعه داده RNA-SEQ کوتاه تر (50 × 50 B) نشان می دهد ، که نشان می دهد ستاره حتی برای خواندن های کوتاه حساسیت و دقت بالایی را حفظ می کند.

توجه داشته باشید که تعاریف شبه واقعی/نادرست مثبت بر اساس این فرض است که اتصالات شناسایی شده توسط یک ترا همسایه بیشتر از اتصالات شناسایی شده توسط دو یا چند تراز هستند ، کاذب مثبت هستند. با این حال ، این تعاریف سختگیرانه نیستند زیرا ارزیابی های واقعی/نادرست برای داده های تجربی نمی تواند انجام شود. ما همچنین می خواهیم تأکید کنیم که این مقایسه ها برای نسخه های فعلی هر ابزار ، با پارامترهای پیش فرض و برای وضعیت فعلی فناوری توالی Illumina انجام شده است. با پیشرفت هر دو فن آوری و ابزارهای توالی ، این رتبه بندی ها ممکن است تغییر کرده و مجدداً ارزیابی شوند.

به طور مشابه با سایر ترازهای RNA-SEQ ، پارامترهای پیش فرض ستاره برای ژنوم پستانداران بهینه شده است. گونه های دیگر ممکن است نیاز به تغییرات قابل توجهی در برخی از پارامترهای تراز داشته باشند. به طور خاص ، حداکثر و حداقل اندازه اینترون باید برای ارگانیسم هایی با اینترون های کوچکتر کاهش یابد.

معیارهای سرعت 3. 3

معیارهای سرعت بر روی یک سرور مجهز به دو CPU 6 هسته ای Intel Xeon X5680@ 3. 33 گیگاهرتز و 148 گیگابایت رم (حافظه دسترسی تصادفی) انجام شد. شش یا 12 رشته برای هر اجرا با استفاده از نیم یا تمام ظرفیت سرور درخواست شد. همه نقشه برداران با پارامترهای پیش فرض خود بر روی مجموعه داده RNA-seq انسانی 2×76 Illumina که در بخش قبل توضیح داده شد، اجرا شدند.

The ‘wall’ time (i.e. the total run time required to complete the mapping) and RAM usage are presented in Table 1 . STAR achieves a speed of 550 million 2 × 76 Illumina paired-end reads per hour using 12 threads (full capacity of the server), i.e. 45 million paired reads per hour per processor, outperforming the second fastest mapper (TopHat2) by a factor>50. STAR با تعداد رشته ها، مقیاس بندی خطی نزدیک به نرخ توان را نشان می دهد، و زمانی که تعداد رشته ها از 6 به 12 افزایش می یابد، 10٪ سرعت نگاشت هر رشته را از دست می دهد.

میز 1.

سرعت نگاشت و معیارهای RAM در مجموعه داده تجربی RNA-seq

تراز کننده سرعت نقشه برداری: میلیون جفت خواندن در ساعت حداکثر رم فیزیکی، گیگابایت
6 رشته 12 رشته 6 رشته 12 رشته
ستاره 309. 2 549. 9 27. 0 28. 4
STAR کم 227. 6 423. 1 15. 6 16. 0
TopHat2 8.0 10. 1 4.1 11. 3
رام 5.1 7.6 26. 9 53. 8
MapSplice 3.0 3.1 3.3 3.3
GSNAP 1.8 2.8 25. 9 27. 0

STAR’s high mapping speed is traded off against RAM usage: STAR requires ∼27 GB of RAM for aligning to the human genome. Like all other aligners, with the exception of RUM, the amount of RAM used by STAR does not increase significantly with the number of threads, as the SA is shared among all threads. Although STAR’s RAM requirements would have been prohibitively expensive several years ago, at the time when the first short read aligners were developed, recent progress in semiconductor technologies resulted in a substantial drop of RAM prices, and mode high performance servers are commonly equipped with RAM>32 گیگابایت. STAR گزینه ای برای استفاده از SAهای پراکنده دارد که مصرف رم را کاهش می دهد

3. 4 اعتبار سنجی تجربی

As part of the characterization of human transcriptome by the ENCODE (Djebali et al. , 2012), STAR was used to map polyadenylated (poly A+) long (>200 nt) رونوشت های جدا شده از عصاره سلول کامل رده های سلولی H1ES انسانی اولیه (سلول های بنیادی جنینی) و HUVEC (سلول های اندوتلیال ورید ناف). این RNA ها با استفاده از پروتکل نوکلئاز اختصاصی دوبلکس (Parkhomchuk et al., 2009) توالی یابی شدند که 2 × 76 جفت باز خواندن های اختصاصی رشته را ایجاد می کرد.

جای تعجب نیست که سایتهای شکاف (رمان) بدون حاشیه سطح فراوانی پایین تر از اتصالات حاشیه نویسی را نشان می دهند ، همانطور که با افت قابل توجه در تعداد اتصالات بدون حاشیه با تعداد خواندن پشتیبانی نشان داده شده است (شکل مکمل شکل S7). از آنجا که هر یک از رده های سلولی در کپی های بیولوژیکی توالی شد ، مجموعه ای از سایت های شکاف اعتماد به نفس بالا می تواند بر اساس تکرارپذیری آنها بین ماکت ها شناسایی شود. برای ارزیابی تکرارپذیری اتصالات شکاف تشخیص داده شده ، ما یک رویکرد کشف غیر قابل کشف غیر پارامتری (NPIDR) ، به طور خاص برای ماهیت گسسته داده های RNA-SEQ مناسب است (برای توضیحات دقیق به مواد تکمیلی مراجعه کنید). این رویکرد مشابه مفهوم NPIDR است که به طور گسترده در تجزیه و تحلیل آزمایش های CHIP-SEQ رمزگذاری شده استفاده می شود (لندت و همکاران ، 2012). شکل تکمیلی S8 وابستگی NPIDR = 0. 1 به تعداد خواندن در هر محل را نشان می دهد ، و یک روش اصولی برای انتخاب آستانه شمارش خوانده شده با سطح مورد نظر تکرارپذیری فراهم می کند. به عنوان مثال ، برای دستیابی به NPIDR 0. 1 ، پنج خواندن مبهم در هر محل مورد نیاز است ، یعنی احتمال 90 ٪ که این اتصالات دوباره در یک آزمایش دیگر در همان رده سلولی با همان عمق توالی مشاهده می شود.

اعتبار سنجی تجربی در 1920 اتصالات شکاف رمان در طیف گسترده ای از RNA-Seq پشتیبانی می خواند ، پشتیبانی می کند ، در زیر و بالاتر از آستانه NPIDR. فقط اتصالات شکاف نقشه برداری شده به مکان های بین ژنیک یا ضد حساس به ژنهای Gencode 7 (هارو و همکاران ، 2012) برای اعتبار سنجی انتخاب شدند ، زیرا این اتصالات به احتمال زیاد کاذب مثبت نسبت به اتصالی هستند که در ژن های حاشیه نویسی نقشه می کشند. خط لوله اعتبار سنجی با توان بالا شامل تقویت واکنش زنجیره ای پلیمراز رونویسی معکوس از مناطق هدفمند و به دنبال آن توالی Roche 454 از محصولات مخلوط شده است. طراحی آغازگر واکنش زنجیره ای پلیمراز رونویسی معکوس از طول درج ∼250 نانومتر از خوانده شده های زوجی که از اتصالات هدفمند پشتیبانی می کند استفاده کرد و مستلزم تولید آمپلیکون های طولانی 300-600 NT بود. این آمپلیکون ها توسط یک ترتیب سنج Roche 454 جمع آوری و توالی شدند تا خواندن های طولانی و با اطمینان تری را که با ژنوم با Blat مطابقت داشتند ، ارائه دهند. توضیحات مفصل پروتکل های آزمایشی را می توان در Djebali و همکاران یافت.(2012).

جدول 2

تعداد اتصالات منتخب و درصد اتصالات منتخب که حداقل توسط دو 454 خوانده شده تأیید شده اند ، به عنوان تابعی از تعداد خواندن RNA-Seq در هر محل

h1es هوس
شمارش را در هر اتصال از دو تکرار بخوانید تعداد اتصالات آزمایش شده نسبت اتصالات حداقل توسط دو 454 خوانده شده (٪) شمارش را در هر اتصال از دو تکرار بخوانید تعداد اتصالات آزمایش شده نسبت اتصالات حداقل توسط دو 454 خوانده شده (٪)
2 192 72. 4 2 192 74. 0
3 192 77. 6 3 192 75. 0
4 96 74. 0 4 96 76. 0
5 96 82. 3 5 6 96 84. 4
6 7 96 79. 2 7 8 96 84. 4
8-11 96 81. 3 9-12 96 86. 5
12-24 96 87. 5 13-23 96 94. 8
25 96 88. 5 24 96 90. 6

The upper bound of the false discovery rate (FDR) can be estimated from the validation rate (≡VR) as FDR ≤ 1 − VR. For low abundance junctions, the experimental FDR is lower than the npIDR predicted from the dissimilarity between the replicates: for example, although 45% of junctions, supported by just two reads, are not reproducible (Supplementary Fig. S8),>70 ٪ از آنها با موفقیت تأیید می شوند (جدول 2). از این رو ، NPIDR می تواند به عنوان یک برآورد FDR محدود محافظه کار در مواردی که آزمایش های اعتبار سنجی غیر عملی هستند ، عمل کنند.

4. بحث

با وجود چندین سال پیشرفت مداوم ، تراز کردن RNA-Seq غیر مبهم به ژنوم مرجع هنوز یک مشکل حل شده نیست ، هم به دلیل پیچیدگی ذاتی و هم به دلیل تحولات سریع فن آوری های توالی. چندین مشکل مهم برای تأثیر رویکردهای منتشر شده قبلی ، مانند نرخ خطای نقشه برداری بالا ، تعصب تراز ، حساسیت کم برای رونوشتهای بدون پاسخ ، مقیاس پذیری ضعیف با طول خوانده شده ، محدودیت در تعداد اتصالات/عدم تطابق/ایندل در هر خواندن ، عدم توانایی در خواندن ، عدم توانایی در مورد عدم توانایی در تعداد خواندهرونوشتهای غیر خطی (مانند RNA های Chimeric) و از نظر مهم ، توان نقشه برداری کم را تشخیص دهید.

در این کار ، ما Star را توصیف کردیم ، یک الگوریتم جدید برای هم ترازی داده های RNA-SEQ با توان بالا با توان بالا به یک ژنوم مرجع ، که برای غلبه بر موضوعات فوق الذکر تهیه شده است. بر خلاف بسیاری دیگر از نقشه بردارهای RNA-SEQ ، ستاره پسوند یک نقشه برداری DNA کوتاه خوانده نشده نیست ، بلکه به عنوان یک کد C ++ مستقل ساخته شده است. ستاره قادر به اجرای موضوعات موازی بر روی سیستم های چند هسته ای با نزدیک شدن به مقیاس خطی بهره وری با تعداد هسته است. ستاره سریع است: روی یک سرور مدرن اما نه خیلی گران قیمت ، 12 هسته ای ، می تواند 550 میلیون 2 × 76 نانومتر در هر ساعت را با ژنوم انسان تراز کند و از سایر ترازهای RNA-SEQ موجود با یک عامل 50 پیشی بگیرد. در همین زمان ، STAR دقت و حساسیت بهتری نسبت به سایر ترازهای RNA-SEQ برای داده های تجربی و شبیه سازی شده نشان می دهد.

برای نشان دادن توانایی Star در تراز کردن خوانده های طولانی ، ما توالی mRNA طولانی (0. 5-5 کیلوبایت) را از GenBank ترسیم کرده ایم (برای جزئیات بیشتر به بخش مکمل 5 مراجعه کنید). صحت تراز ستاره ها مشابه یا بالاتر از Blat است (کنت ، 2002) یک تراز محبوب EST/mRNA محبوب است. در عین حال ، Star بیش از دو مرتبه از سرعت در سرعت تراز ، بیش از دو مرتبه از حد عمل می کند ، که برای برنامه های توالی با توان بالا مهم است.

قابلیت گسترش الگوریتم به خواندن طولانی نشان می دهد که ستاره پتانسیل دارد به عنوان یک ابزار تراز جهانی در طیف گسترده ای از سیستم عامل های توالی نوظهور خدمت کند. Star می تواند خواندن را در یک حالت جریان مداوم تراز کند ، که باعث می شود آن را با فناوری های توالی جدید مانند روشی که اخیراً توسط فناوری های آکسفورد نانوپور اعلام شده است ، سازگار کند. با تکامل فن آوری ها و پروتکل های توالی ، استراتژی های جدید نقشه برداری باید تدوین شوند و الگوریتم اصلی ستاره می تواند یک چارچوب انعطاف پذیر برای رفع چالش های تراز ایجاد کند.

دسترسی داده ها

بودجه: این کار توسط NHGRI (NIH) Grant U54HG004557 تأمین شد.

تضاد منافع: هیچ کس اعلام نشده است.

مواد تکمیلی

داده های تکمیلی:

منابع

  • AU KF ، و همکاران. تشخیص اتصالات شکاف از داده های RNA-SEQ زوجی توسط SPLICEMAP. اسیدهای نوکلئیک res. 2010 ؛38: 4570-4578.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • عزیزم AC ، و همکاران. Mauve: تراز چندگانه توالی ژنومی محافظت شده با تنظیم مجدد. Res ژنوم2004 ؛14: 1394 1403.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • عزیزم AE ، و همکاران. ProgressiveMauve: تراز ژنوم متعدد با افزایش ژن ، از دست دادن و تنظیم مجدد. PLOS یکی. 2010 ؛5: E11147.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • د بونا اف ، و همکاران. ترازهای بهینه از دنباله کوتاه می خواند. بیوانفورماتیک. 2008 ؛24: I174 180.[PubMed] [Google Scholar]
  • Delcher al ، et al. تراز ژنوم های کامل. اسیدهای نوکلئیک res. 1999 ؛27: 2369 2376.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Delcher al ، et al. الگوریتم های سریع برای تراز و مقایسه ژنوم در مقیاس بزرگ. اسیدهای نوکلئیک res. 2002 ؛30: 2478 2483.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Djebali S ، et al. چشم انداز رونویسی در سلولهای انسانی. طبیعت2012 ؛489: 101-108.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Flusberg BA ، و همکاران. تشخیص مستقیم متیلاسیون DNA در طول توالی تک مولکول ، در زمان واقعی. نات. مواد و روش ها. 2010 ؛7: 461-465.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Grant Gr ، و همکاران. تجزیه و تحلیل مقایسه ای الگوریتم های تراز RNA-SEQ و بیوانفورماتیک Mapper یکپارچه RNA-SEQ (RUM). 2011 ؛27: 2518 2528.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • هان جی ، و همکاران. PRE-MRNA CLICING: کجا و چه زمانی در هسته است. Trends Cell. بیول2011 ؛21: 336-343.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Harrow J ، et al. Gencode: حاشیه نویسی ژنوم مرجع انسانی برای پروژه رمزگذاری. Res ژنوم2012 ؛22: 1760-1774.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Hastings ML ، Krainer AR. ترکیبی قبل از mRNA در هزاره جدید. curr. نظراتسلول. بیول2001 ؛13: 302-309.[PubMed] [Google Scholar]
  • Kurtz S ، et al. نرم افزار همه کاره و باز برای مقایسه ژنوم های بزرگ. بیول ژنوم. 2004 ؛5: R12.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • کنت WS. ابزار تراز مانند انفجار. بشرRes ژنوم2002 ؛12: 656-664.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Landt SG ، و همکاران. دستورالعمل ها و شیوه های CHIP-SEQ کنسرسیوم رمزگذاری و modencode. Res ژنوم2012 ؛22: 1813-1831.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Manber U ، Myers G. آرایه های پسوند - روشی جدید برای جستجوی رشته های آنلاین. سیام جی. 1993 ؛22: 935-948.[Google Scholar]
  • Parkhomchuk D ، et al. تجزیه و تحلیل رونوشت با توالی خاص رشته از DNA مکمل. اسیدهای نوکلئیک res. 2009 ؛37: E123.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Rothberg JM ، و همکاران. یک دستگاه نیمه هادی یکپارچه که توالی ژنوم غیر نوری را فعال می کند. طبیعت2011 ؛475: 348-352.[PubMed] [Google Scholar]
  • Trapnell C ، et al. Tophat: کشف اتصالات شکاف با RNA-Seq. بیوانفورماتیک. 2009 ؛25: 1105 1111.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Wang K ، et al. MAPSPLICE: نقشه برداری دقیق RNA-Seq برای کشف اتصال شکاف. اسیدهای نوکلئیک res. 2010 ؛38: E178.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • Wu TD ، NACU S. تشخیص سریع و تحمل SNP انواع پیچیده و ترکیبی در خواندن های کوتاه. بیوانفورماتیک. 2010 ؛26: 873-881.[مقاله رایگان PMC] [PubMed] [Google Scholar]
  • ژانگ Y ، و همکاران. PASSION: یک خط لوله مبتنی بر الگوریتم رشد الگوی برای تشخیص اتصال شکاف در داده های RNA-SEQ زوجی. بیوانفورماتیک. 2012 ؛28: 479-486.[مقاله رایگان PMC] [PubMed] [Google Scholar]
تجارت با گزینه‌‌های باینری...
ما را در سایت تجارت با گزینه‌‌های باینری دنبال می کنید

برچسب : نویسنده : نازنین فراهانی بازدید : 16 تاريخ : چهارشنبه 25 مرداد 1402 ساعت: 16:30