برآورد زمان واگرایی برای درک بسیاری از جنبه های تکامل ارگانیسم ها ، مانند تکامل شخصیت ، تنوع و بیوگرافی اساسی است. با توسعه فناوری توالی ، روشهای تحلیلی بهبود یافته و دانش فسیل های کالیبراسیون ، می توان نتایج دوستیابی مولکولی قوی را بدست آورد. با این حال ، در حالی که مجموعه داده های فیلوژنومیک وعده های زیادی در برآورد فیلوژنتیک نشان می دهد ، بهترین راه ها برای استفاده از مقادیر زیادی از داده ها برای برآورد زمان واگرایی به خوبی مورد بررسی قرار نگرفته است. یک راه حل بالقوه تمرکز بر روی زیر مجموعه داده ها برای برآورد زمان واگرایی است که می تواند بارهای محاسباتی را به میزان قابل توجهی کاهش داده و از مشکلات ناهمگونی داده ها که ممکن است نتایج را تعصب کند ، جلوگیری کند.
نتایج
در این مطالعه ، ما هزاران عنصر ماوراء شده (UCE) را از 130 گونه گلی شکل موجود ، از جمله نمایندگان همه جنس ها ، به دست آوردیم تا زمان های واگرایی را در طول تاریخ گلی شکل تعیین کنیم. ما اثرات طرح های مختلف "خرید ژن" را در برآورد زمان واگرایی با استفاده از مجموعه ای از فسیل ها با دقت و قبلاً معتبر آزمایش کردیم. نتایج ما یافت می شود که معمولاً طرح های شبیه ساعت مانند استفاده می شود ممکن است برای دوستیابی UCE (یا انواع دیگر داده ها) مناسب نباشد که در آن برخی از مکان ها اطلاعات کمی دارند. ما پیشنهاد می کنیم استفاده از پارتیشن بندی (به عنوان مثال ، PartitionFinder) و انتخاب پارتیشن های درختی مانند ممکن است استراتژی های خوبی برای انتخاب زیر مجموعه داده ها برای برآورد زمان واگرایی از UCE باشد. درخت زمان گالی ما تا حد زیادی با سایر مطالعات ساعت مولکولی مکانهای میتوکندری و هسته ای سازگار است. با افزایش نمونه برداری از تاکسون ، یک توپولوژی به خوبی حل شده ، کالیبراسیون فسیلی با دقت مورد بررسی و روشهای مناسب برای دوستیابی مولکولی ، ما یک درخت گالی با کیفیت بالا به دست آوردیم.
نتیجه گیری
ما یک درخت زمانبندی با ستون فقرات قوی را ارائه می دهیم که می تواند با سوابق فسیلی بیشتری ترکیب شود تا درک ما از تکامل گالی فرم ها را تسهیل کند و می تواند به عنوان منبعی برای مطالعات تطبیقی و بیوگرافی در این گروه استفاده شود.
زمینه
برآورد زمان واگرایی برای درک بسیاری از جنبه های تکامل ارگانیسم ها ، مانند تکامل شخصیت ، تنوع و بیوگرافی اساسی است [1 ، 2]. با توجه به توسعه داده های با سطح بالا ، برنامه های سریعتر و بهتر برای تجزیه و تحلیل داده ها و بهبود کالیبراسیون های فسیلی ، چندین سؤال که قبلاً بحث برانگیز بودند ، به طور کلی حل شده اند. به عنوان مثال ، هر دو پرنده Neoithes و پستانداران جفت در حال حاضر در نظر گرفته شده اند که قبل از انقراض جرم کرتاسه تا پالئوژن (K-PG) متنوع شده اند [3،4،5،6] ، حتی اگر مجموعه داده های مختلف و روش های ساعت مولکولی باشدمورد استفاده [7].
قدمت مولکولی قوی به عوامل مختلفی بستگی دارد که مهمترین آنها استفاده از نقاط کالیبراسیون فسیلی مناسب ، یک توپولوژی فیلوژنتیک به طور گسترده نمونه برداری و به خوبی حل شده و استفاده کافی از روشهای ساعت مولکولی است [8]. اگرچه رکورد فسیلی محدود است ، و انتخاب فسیل های مناسب به چالش کشیده می شود ، دستورالعمل های مربوط به انتخاب و قرار دادن فسیل های موجود تهیه شده است که می تواند منجر به بهبود برآورد واگرایی شود [9]. علاوه بر این ، استفاده از فسیل هایی که قرار دادن طبقه بندی آنها مورد توافق قرار گرفته است [10] ، و ارزیابی اینکه آیا برخی فسیل ها تأثیر ناعادلانه ای بر تخمین تاریخ دارند [11] ، در حال بهبود استفاده ما از کالیبراسیون های فسیلی هستند.
فیلوژنی های خوب پشتیبانی شده ، بر اساس مکان های موجود در ژنوم ، اکنون برای بسیاری از گروه ها در دسترس هستند. روشهای توالی ژنوم کل و کاهش یافته (به عنوان مثال ، توالی رونویسی ، ضبط توالی) صدها تا هزاران مکان را در سراسر ژنوم فراهم می کند و برآورد فیلوژنتیک به طور قابل توجهی بهبود یافته است [12 ، 13]. به ویژه ، ضبط توالی عناصر فراگیر (UCES) نوید بزرگی را در حل و فصل بیننده های کوتاه مدت مشکل ساز در تخمین فیلوژنتیک نشان داده است ، از جمله مواردی که بحث برانگیز بوده است [14،15،16]. UCE دارای یک منطقه هسته محافظت شده [17] با پهلوهای هر طرف است که شامل سایت های متغیر تر است. مناطق حفاظت شده ضبط توالی را تسهیل می کنند و مناطق پهلو سیگنال فیلوژنتیک را ارائه می دهند [18]. داده های UCE در سالهای اخیر در انواع سلسله های مهره داران و بی مهره استفاده شده است [19،20،21،22]. از داده های UCE همچنین برای تولید درختانی که تقریباً همه گونه های شناخته شده برای برخی از گروه های اصلی را شامل می شود ، یا با ترکیب UCE با داده های میتوکندری و تعداد کمی از مکانهای هسته ای [23] یا استفاده از داده های رمان uce به تنهایی استفاده شده است [24]. علاوه بر این ، ضبط دنباله UCE به ویژه برای تولید فیلوژنی های کامل امیدوار کننده است زیرا می توان از آن با بافت های موزه تخریب شده استفاده کرد [25] ، اجازه می دهد تا گونه های قبلاً غیرقابل استفاده در فیلوژنی های مدرن گنجانده شود [26 ، 27]. بنابراین ، اکنون نه تنها می توان فیلوژنی های پشتیبانی شده را به دست آورد ، بلکه مواردی را نیز که نمای گسترده ای در کلادها دارند ، نیز امکان پذیر است.
با این حال ، در حالی که UCE و سایر مجموعه داده های فیلوژنومیک نوید زیادی را در تخمین فیلوژنتیک نشان می دهند ، بهترین راه ها برای استفاده از مقادیر زیادی از داده ها برای برآورد زمان واگرایی به خوبی مورد بررسی قرار نگرفته است. این مجموعه داده ها بزرگ هستند ، که می تواند بار محاسباتی را بر روی برنامه های مورد استفاده برای تخمین زمان واگرایی قرار دهد (به ویژه برای برخی از روش ها ، به عنوان مثال ، Beast [28]). از همه مهمتر ، با این حال ، این مجموعه داده ها (چه UCE یا سایر نشانگرهای استخراج شده از ژنوم کامل) حاوی ترکیبی از مکان های ناهمگن هستند که با نرخ های مختلف تکامل می یابند ، ممکن است در سطح مختلفی از انتخاب (گاهی اوقات خاص کلاد) قرار بگیرند و در بهترین حالت متفاوت باشند. مدل های تکامل. این نوع ناهمگونی می تواند برآورد زمان واگرایی را گمراه کند [29] ، نشان می دهد که بهتر است روی زیر مجموعه داده ها برای برآورد زمان واگرایی تمرکز کنید. با این حال ، یک سوال اصلی این است که از مکان یا پارتیشن (ها) برای تجزیه و تحلیل استفاده می شود. آیا باید "مکان یا پارتیشن شبیه ساعت" را شناسایی کنیم [3 ، 21] ، مکان یا پارتیشن "درخت مانند" را انتخاب کنیم (که کمترین درگیری توپولوژیکی را با یک درخت گونه کانونی نشان می دهد) [30] یااز بزرگترین پارتیشن استفاده می کنید [31]؟در حالی که از رویکردهای مختلفی برای انتخاب زیر مجموعه داده ها استفاده شده است ، اکتشاف در مورد چگونگی انتخاب زیر مجموعه داده های مناسب بر برآورد زمان واگرایی به ندرت در نظر گرفته می شود. در این مطالعه ، ما اثرات یک سری از طرح های "خرید ژن" [32] (انتخاب زیر مجموعه های داده) را بر برآورد زمان واگرایی از UCE از گالی های ترتیب مرغی آزمایش کردیم.
Galliformes (Gamebirds یا Quentfowl) شامل برخی از بهترین گونه های مرغی مورد مطالعه (به عنوان مثال ، مرغ ، بوقلمون و بلدرچین ژاپنی) است. طبقه بندی های اخیر [33] ، و مطالعات مولکولی [26 ، 34] به طور مداوم پنج خانواده را شناسایی کرده اند: Megapodiidae (سازندگان تپه) ، Cracidae (Guans and Chachalacas) ، Numididae (Guineafowl) ، Odontophoridae (Quail New World) و بزرگترین خانواده ، خانواده ، ، خانواده ، ،Phasianidae (قرقاول ، partridges و بلدرچین جهان قدیمی). با این حال ، روابط فیلوژنتیک با استفاده از نشانگرهای مولکولی سنتی در این خانواده ها درگیری یا وضوح کم در این خانواده ها نشان داده است [34 ، 35]. اخیراً ، UCE با اطمینان بیشتر روابط عمومی را در دو خانواده ، Phasianidae و Cracidae برطرف کرده است [11 ، 26 ، 36]. با این حال ، در Megapodiidae ، Numididae و Odontophoridae نمونه برداری کمی از UCE وجود دارد. در عوض ، روابط آنها در درجه اول از اینترون های هسته ای محدود و ژنهای میتوکندری شناخته شده است که نشان دهنده ناسازگاری است [37 ، 38]. بنابراین ، بهبود نمونه برداری از UCE در طول این دستور مهم است تا تخمین خوبی از روابط در گره های کلیدی ارائه شود.
در این مطالعه سه هدف اصلی داشتیم. اول ، ما می خواستیم با بدست آوردن UCE از حداقل یک نماینده از هر جنس ، یک فیلوژنی قوی که به طور گسترده از طریق کل سفارش نمونه برداری شده است ، تخمین بزنیم. دوم ، با استفاده از این فیلوژنی ، ما می خواستیم اثرات طرح های مختلف "خرید ژن" را در برآورد زمان واگرایی با استفاده از مجموعه ای از فسیل ها با دقت و قبلاً معتبر آزمایش کنیم [10 ، 11 ، 31]. سرانجام ، با استفاده از مناسب ترین طرح ، ما می خواستیم زمان واگرایی را در طول تاریخ گلی شکل تعیین کنیم.
نتایج
روابط فیلوژنتیک در گالی فرم ها
ما UCE را از چهار گروه و 130 گونه گلی شکل (پرونده اضافی 4: جدول S1) ، از جمله نمایندگان کلیه جنس ها ، به دست آوردیم تا یک مجموعه داده شامل 135 گونه. طول مکان 5026 تراز UCE از 137 تا 2322 جفت باز (میانگین = 425 جفت باز) بود. ماتریس کامل 75 ٪ (بیش از 75 ٪ از گونه های موجود برای هر مکان UCE) حاوی 3574 مکان UCE بود که از 216 تا 1467 جفت باز در طول (میانگین = 443 جفت باز) بود. طول کل ماتریس کامل 75 ٪ 1،584،884 جفت باز با 225. 065 سایت آموزنده بود.

برای آزمایش اثرات طرح های مختلف خرید ژن در برآورد زمان واگرایی ، ما گروهی از 48 گونه (از جمله چهار گروه و 44 گونه گالی) را برای کاهش زمان محاسبه انتخاب کردیم. درخت ML تخمین زده می شود از ماتریس کامل 75 ٪ مجموعه کاهش یافته 48 گونه ، با تنها یک گره که کمتر از 100 ٪ پشتیبانی بوت استرپ را دریافت می کند (پشتیبانی از استرپ 97 ٪ برای گره Nothocrax urumutum و Mitu Salvini در Cracidae ، اضافی ، پشتیبانی می شود. پرونده 2: شکل S2). توپولوژی برای 48 گونه با آنهایی که از مجموعه داده 135 مالیات استفاده می کردند سازگار بود.
طرح های خرید ژن برای برآورد زمان واگرایی
ما تأثیرات هفت طرح خرید ژن مختلف را که در کسری از مکان های نمونه برداری شده از مجموعه کاهش یافته 48 گونه متفاوت است ، ارزیابی کردیم. این طرح های خرید ژن عبارت بودند از: (1) ماتریس 100 ٪ کامل (از این پس 100 ٪).(2) ماتریس کامل 95 ٪ (از این پس 95 ٪)..(4) بیشترین مکان (از این پس 95 ٪ -loci-treelike) ؛(5) بیشترین پارتیشن ساعت از تجزیه و تحلیل PartitionFinder [40] از 95 ٪ ماتریس کامل (از این پس 95 ٪ -PF-Clocklike). 6) بیشترین پارتیشن (آخرت 95 ٪ -pf-treelike) ؛و 7) بزرگترین پارتیشن (آخرت 95 ٪ -PF-بزرگ) (شکل 2). در تخمین زمان واگرایی ، بین همه طرح ها تنوع وجود دارد (شکل 3 و 4 ؛ پرونده اضافی 5: جدول S2) ، اگرچه فواصل معتبر آنها (CI) در بیشتر موارد تا حدی همپوشانی دارند. فقط طرح 95 ٪ -PF-Clocklay تفاوت معنی داری نشان داد (P<0.05) to other schemes when comparing all the 49 time points. Restriction to the most clock-like loci or most clock-loci partition sometimes yielded more recent divergence times, particularly for the deeper divergences (Fig. 3, Additional file 5: Table S2). Several nodes also showed increased divergence times in the two clock-like and the largest partition schemes, such as the crown ages of Megapodiidae, Cracidae and Numididae (Fig. 4, Additional file 5: Table S2). Additionally, the two clock-like and the largest partition schemes tended to have wider CIs than the other schemes (Figs. 3 and 4; Additional file 5: Table S2). Increasing the number of loci from 69 to 100 did not substantially change conclusions (Additional file 5: Table S2), suggesting the primary differences were between the gene-shopping scheme, not the number of loci sampled.



ما در ادامه علل بالقوه برای تغییر در زمان واگرایی را با بررسی ویژگی های مکان و ترازهای موجود در هر یک از طرح های خرید ژن ، از جمله طول مکان تراز ، محتوای GC و پارامتر آلفا از توزیع گاما برای هر مکان و میانگین بررسی کردیم. درصد داده های مفقود شده ، میانگین درصد سایتهای آموزنده در هر تراز (جدول 1). توزیع طول مکان برای هر یک از طرح های خرید ژن بسیار مشابه بود (پرونده اضافی 3: شکل S3) ، تنها دو جفت از طرح خرید ژن (95 ٪ در مقایسه با 100 ٪ و 95 ٪ در مقایسه با 95٪ -loci-treelike) تفاوت معنی داری نشان داد (P<0.05).We found the alpha parameter and the average percent of informative sites were extremely low in the two clock-like and the largest partition schemes (Table 1). One will obtain low estimates of the alpha parameter when loci have a few sites that change at a very high rate and many sites that change at a very low rate; this is also expected to correlate with a low percentage of informative sites. Moreover, the range of most parameters tended to be narrower in the partition-selection schemes than locus-selection schemes (Table 1). Therefore, in consideration of the variation across different loci within each scheme and the possibly problematic estimates from clock-like schemes, we selected the most tree-like partition from 95% matrix (95%-PF-treelike) as a good scheme for UCE dating (details in discussion).

جدول 2 مقایسه زمان واگرایی (در میلیون ها سال ، کارشناسی ارشد) از کلادهای اصلی در گالیه های بین مطالعات مختلف
بحث
در این مطالعه ، ما یک درخت فیلوژنیک قوی از گالی فرم ها را تخمین زده ایم ، که حداقل یک نماینده از همه جنس های موجود را شامل می شود. تنها با چند استثناء ، گره ها به خوبی پشتیبانی می شدند و درخت ML بیشتر با درخت گونه تخمینی متناسب بود. بررسی ما از طرح های خرید ژن نشان داد که برخی از رویکردها تخمین های بسیار متفاوتی ارائه می دهند و عوامل شناسایی شده احتمالاً بر برآورد زمان واگرایی تأثیر گذاشته اند. این اکتشاف داده ها به ما امکان می دهد یک طرح خرید ژن مناسب را برای برآورد زمان واگرایی از UCE انتخاب کنیم. تحت این طرح ، همراه با توپولوژی فیلوژنتیک به خوبی برطرف شده و نقاط کالیبراسیون فسیلی قابل اعتماد ، ما یک درخت گالی شکل خوب و به خوبی نمونه را به دست آوردیم که شامل 83 جنس گالی موجود بود.
روابط بین گونه ها در گالی فرم ها
فیلوژنی ما با فیلوژنی های مولکولی اخیر در قرارگیری کلادهای اصلی سازگار بود [34] ، اگرچه ما چندین رابطه را در برخی از خانواده ها که با سایر مطالعات مولکولی متفاوت هستند ، بازیابی کردیم. در Megapodiidae ، جنس های تپه ای (Leipoa ، Talegalla ، Alectura و Aepypodius) یک کلاد جداگانه متمایز از جنس Burrow-Building (ماکروسفالی ، مگاپودیوس و EULIPOA) تشکیل دادند (شکل 1). در حالی که برخی از مطالعات قبلی نشان داده اند که ماکروسفالی سازنده آروغ با سازندگان تپه متحد شده است (البته با پشتیبانی نسبتاً کم [38 ، 43]) ، نتایج ما با یک مطالعه چند تمرکز اخیر در قرار دادن ماکروسفالون با سایر سازندگان Burrow [37) سازگار است.]. با این حال ، نتایج ما با این مطالعه به ترتیب واگرایی زیر مجموعه تپه ، که Talegalla را خواهر به سه جنس باقیمانده [37] و نه LEIPOA شناسایی می کند ، متفاوت است (شکل 1).
همانطور که در نتایج ذکر شد ، روابط درون Cracidae بین درختان ML و گونه ها در نسب معمولی گان (Aburria ، Chamaepetes Penelope ، Penelopina و Pipile) درگیری است. یک مطالعه جدید ، روابط بین جنس های موجود در Cracidae را با استفاده از UCE (با استفاده از همان داده های موجود در این مطالعه) ، توالی های میتوکندری و اینترونهای هسته ای مورد تجزیه و تحلیل قرار داد [11]. درختان هماهنگ و گونه آنها با نتایج درخت ML در این مطالعه موافق هستند (شکل 1). با این حال ، استفاده از انواع داده های مختلف در آن مطالعه [11] هنوز هم از روابط ضعیف پشتیبانی شده موجود در این مطالعه پشتیبانی محدودی دارد. مرتب سازی ناقص و اثرات نوع داده (تفاوت های توپولوژیکی مرتبط با استفاده از انواع مختلف نشانگرها [44 ، 45] ممکن است باعث بی ثباتی در این کلاد شود [13 ، 46].
روابط بین چهار جنس Numididae از UCE تفاوت هایی با مطالعات قبلی نشان داد [38 ، 47]. یک مطالعه مبتنی بر چهار پارتیشن میتوکندری و یک اینترون هسته ای نشان می دهد که روده بزرگ در Numididae از قبل استفاده می شود ، با Agelastes و Acryllium یک کلاد تشکیل می دهند [47]. با در نظر گرفتن مناطق میتوکندری بیشتر و مکانهای اینترون هسته ای [38] رابطه خواهر گاترا و آکریلوم را همانطور که در فیلوژنی UCE نشان داده شده بود ، نشان داد ، اما این مطالعه فاقد رابطه خواهر بودیم که بین Numida و Agelastes پیدا کردیم ، که در عوض درجه ای را تشکیل می داد.
در Odontophoridae ، نتایج ما با روابط عمومی به دست آمده با استفاده از اینترونهای هسته ای و توالی میتوکندری [48] موافق است ، اما با پشتیبانی بسیار زیاد بوت استرپ.
Phasianidae ، بزرگترین خانواده گالی ، مطالعه گسترده ای را دریافت کرده است. مطالعات قبلی با استفاده از مکان های نسبتاً کمی درگیری های زیادی به نمایش گذاشتند [34 ، 35 ، 49]. مطالعات اخیر UCE به حل و فصل بسیاری از این روابط متناقض [14 ، 15 ، 26 ، 27 ، 31 ، 36 ، 50] کمک کرده است ، تا حد زیادی روابط خوب پشتیبانی شده مانند آنچه در اینجا پیدا کردیم ، به دست آورد. ما شامل سه جنس تازه توالی ، dendroperdix ، peliperdix و xenoperdix برای تهیه یک توپولوژی جامع در سطح جنس برای phasianidae بود. مکان های این سه جنس با سایر مطالعات بر اساس داده های محدود میتوکندری و هسته ای موافق هستند [10 ، 38 ، 47]. یک کلاد در Phasianidae وجود دارد که درخت ML با درخت گونه متفاوت است ، البته با پشتیبانی نسبتاً کم در هر دو تجزیه و تحلیل (شکل 1 و پرونده اضافی 1: شکل S1). مطالعات قبلی UCE ما همچنین نشان داد که قرار گرفتن ناپایدار Alectoris [26] ، و حتی با افزایش نمونه برداری از تاکسون در بلدرچین دنیای قدیم ، بی ثباتی هنوز هم وجود داشته است [31]. تصور می شود که ML با هم قدرت بیشتری نسبت به روشهای همسایگی برای شناسایی روابط داشته باشد وقتی که مرتب سازی خطی ناقص کم است ، یعنی روابط بین alectoris و ammoperdix [26] ، اگرچه اکتشاف بیشتر در محل قرارگیری آلکتوریس به نشانگرهای در حال تحول سریعتر یا بهبود تحلیلی نیاز داردرویکردهایی برای ایجاد اعتماد به نفس بیشتر در مورد موقعیت خود در خانواده.
عملکرد خرید ژن مختلف برای برآورد زمان واگرایی
اگرچه خرید ژن در مطالعات قبلی UCE [21، 31] به کار گرفته شده است، چنین مطالعاتی طرح های خرید ژن جایگزین را در برآورد زمان واگرایی مقایسه نکرده اند. با این حال، ما بین طرح های خرید ژن در برآورد زمان واگرایی تفاوت هایی پیدا کردیم (شکل های 3 و 4). داده های از دست رفته تأثیر منفی بر تخمین توپولوژی فیلوژنتیک دارد [26، 51]، و مهمتر از آن، ممکن است تخمین طول شاخه را نیز سوگیری کند [52]. اگرچه برخی از مطالعات نشان می دهند که داده های از دست رفته تنها تأثیرات جزئی بر دقت تاریخ گذاری مولکولی دارند [53]، ما همچنان تصمیم گرفتیم از ماتریس های کامل تر (100٪ و 95٪) برای محدود کردن هر گونه اثر بالقوه داده های از دست رفته بر تخمین زمان واگرایی استفاده کنیم. هفت تراز خرید ژن ما دارای درصدهای مشابهی از نوکلئوتیدهای حل نشده بودند (جدول 1)، بنابراین هر گونه تأثیر داده های از دست رفته باید به طور یکسان بر همه مجموعه داده ها تأثیر می گذاشت. ماتریس های داده برای طرح های 100٪، 95٪ مکان-ساعت، و 95٪-محل درخت مانند دارای طول تراز مشابه هستند (جدول 1). بنابراین، تفاوت در زمان واگرایی (شکل 3 و 4) نمی تواند توسط تعداد سایت ها در ماتریس های داده ایجاد شود. علاوه بر این، توزیع طول مکان بین طرح های خرید ژنی مختلف مشابه است (فایل اضافی 3: شکل S3)، و دو طرح ساعت مانند و بزرگترین پارتیشن تفاوتی با دیگر طرح ها نشان ندادند. بنابراین، توزیع طول مکان در هر طرح خرید ژن نمی تواند تفاوت آنها را در تخمین زمان واگرایی نیز توضیح دهد.
از طرف دیگر ، دو ساعت شبیه به ساعت و بزرگترین طرح پارتیشن که بیشترین تفاوت را در برآورد زمان واگرایی (مقادیر شدید و/یا واریانس بالا) به نمایش گذاشتند ، همه درصد بسیار کمی از سایتهای آموزنده پارسیمونی داشتند (جدول 1). در مقایسه با برخی از نشانگرهای مولکولی دیگر ، UCE دارای یک هسته بسیار محافظت شده است و تغییرات اغلب محدود در مناطق پهلو دارد. بنابراین ، این امکان وجود دارد که برخی از مکان های UCE دارای سایت های آموزنده بسیار کمی باشند. مکانهای دارای چند سایت آموزنده قدرت کمی برای رد یک ساعت مولکولی دارند ، بنابراین ممکن است تمایل به انتخاب به عنوان ساعت مانند بیشتر از سایر مکان ها باشد. این به احتمال زیاد به همین دلیل است که دو طرح شبیه ساعت (مکان و پارتیشن) هر دو درصد بسیار کمی از سایت های آموزنده داشتند (جدول 1). به طور مشابه ، مکانهای دارای چند سایت آموزنده احتمالاً در یک پارتیشن بزرگتر جمع شده اند ، زیرا قدرت کمی برای شناسایی الگوهای مختلف تکامل در بین آنها وجود دارد. اگرچه تأثیر تعداد سایتهای آموزنده در دوستیابی مولکولی قبلاً مورد آزمایش قرار نگرفته است ، ما معتقدیم که این مکان های بسیار کم تنوع در دو ساعت مانند و بزرگترین طرح های پارتیشن احتمالاً تخمین های نادرست را به همراه دارند-مطمئناً آنها منجر به تخمین هایی شده اند که تمایل به نشان دادن بیشتر دارندتفاوت از طرح هایی که شامل مکان های آموزنده تر هستند (شکل 3 و 4). برای مطالعات فیلوژنیک که در درجه اول شامل مکان های بسیار آموزنده است ، انتخاب بر اساس رفتار شبیه ساعت ممکن است مناسب باشد ، اما برای مطالعات UCE (یا مطالعات دیگر) که در آن برخی از مکان ها اطلاعات کمی دارند ، در صورت استفاده از رفتار شبیه به ساعت برای شناسایی باید مراقبت شود. مکان یا پارتیشن برای برآورد زمان واگرایی.
یکی دیگر از نگرانی های رایج برای تجزیه و تحلیل فیلوژنتیک و به طور خاص ، دوستیابی مولکولی تغییر در مکان های مختلف است [29]. اگرچه به هر مکان می توان پارامترهایی را برای توصیف آن اختصاص داد ، اما این می تواند به پارامتری بیش از حد منجر شود ، که می تواند تخمین طول شاخه را تعصب کند. به طور مشابه ، توصیف مجموعه ای از مکان های بسیار ناهمگن با یک مجموعه واحد از پارامترها منجر به زیر پارامتری می شود. بنابراین ، شناسایی مجموعه ای از مکان هایی که ممکن است تحت پارامترهای مشابه تکامل یابد ممکن است برای برآورد زمان واگرایی مناسب باشد. استفاده از برنامه هایی مانند PartitionFinder ، که مکان های خوشه ای که پارامترهای مشابهی دارند ، امکان انتخاب پارتیشن ها را فراهم می کند که می توانند برای برآورد زمان واگرایی استفاده شوند [54]. ما متوجه شدیم که بیشتر پارامترها در طرح های انتخابی پارتیشن نسبت به طرح های انتخابی مکان (جدول 1) باریک تر هستند ، که حاکی از ناهمگونی پایین در بین مکان ها در ترازهای مربوط به طرح های انتخابی پارتیشن است. به دنبال این با معیارهای دیگر ، مانند Sortadate ، ممکن است انتخاب یک پارتیشن مناسب برای برآورد زمان واگرایی را اصلاح کند. بنابراین ، ما احساس کردیم که بیشترین پارتیشن درختی از ماتریس 95 ٪ ما (95 ٪ -PF-Treelike) یک طرح مناسب برای دوستیابی UCE است. با این حال ، همانطور که در بالا به آن اشاره کردیم ، استفاده از بزرگترین یا بیشترین پارتیشن شبیه ساعت ممکن است مشکل ساز باشد ، بنابراین هنوز هم باید مراقب باشید که کدام پارتیشن بهترین باشد.
مقایسه این برآورد زمان واگرایی UCE و مطالعات قبلی
تقسیم بین anseriformes و galliformes تخمین زده شده از طرح 95 ٪ -pf-treelike در 135 مجموعه داده گونه حدود 82. 1 میلی آمپر است ، CI این گره به طور کلی با تجزیه و تحلیل های اخیر همپوشانی دارد [3 ، 5 ، 10 ، 41 ، 42] ، اگرچه با آنCI گسترده تر (جدول 2). افزایش نمونه گیری تاکسون در گالیه ها منجر به سن تاج مسن تر از مطالعات مربوط به همه پرنده ها با نمونه گیری محدود در گلی فرم ها شد (جدول 2) ، به جز [41] که در آن چندین گره کلیدی در گالیه های گالی قرار گرفتند [10]. از طرف دیگر ، [38] سنین بسیار قدیمی تر را برای این دو گره تخمین زده است (جدول 2) ، که ممکن است ناشی از عدم وجود گروههای دور (به عنوان مثال ، Struthio و Apteryx در مطالعه ما) و توزیع های نادرست قبلی باشد [10] ، کههمچنین منجر به برآوردهای قدیمی تر در گالیها می شود (جدول 2).
زمان واگرایی در بین پنج خانواده گالی بسیار شبیه به مواردی بود که از مکانهای میتوکندری و هسته ای تخمین زده می شود [10]. با این حال ، با افزایش نمونه برداری تاکسون ما ، توپولوژی به خوبی حل شده و به شدت پشتیبانی شده و کالیبراسیون فسیلی با دقت انتخاب شده که احتمالاً دقیق هستند ، برآورد زمان واگرایی در هر خانواده از UCE تفاوت های زیادی بین این مطالعه و مطالعات قبلی نشان داد.
در Megapodiidae ، برآورد زمان واگرایی از مطالعه ما قدیمی تر از موارد موجود در مکانهای میتوکندری و هسته ای بود [37]. فقط از یک نقطه کالیبراسیون فسیلی (در ریشه درخت) در آن مطالعه استفاده شد ، و توپولوژی موجود در زیر مجموعه تپه با مطالعه ما متفاوت بود (به بالا مراجعه کنید) ، که می تواند برخی تفاوت ها را توضیح دهد. با این حال ، ما CIS گسترده تری را در مطالعه خود مشاهده کردیم تا در آن مطالعه [37] ، که می تواند به دلیل نمونه برداری از تاکسون محدودتر مورد استفاده ما باشد (یک جنس ، به جای همه گونه ها).
زمان واگرایی در Cracidae از مطالعه قبلی از مکانهای میتوکندری و هسته ای استنباط شد و با استفاده از همان داده های UCE در این مطالعه به عنوان درخت ستون فقرات و همچنین پنج کالیبراسیون فسیلی مشابه [11]. همانطور که انتظار می رفت ، تاریخ آنها برای Cracidae بسیار شبیه به نتایج آشنایی با UCE ما بود ، به عنوان مثال ، منشأ Crown Cracidae CA تخمین زده شده است. 13. 1 کارشناسی ارشد در آن مطالعه در مقابل CA. 13. 3 کارشناسی ارشد در این مطالعه ، که نشان داد که قدمت کافی UCE با قدمت توالی های میتوکندری و هسته ای سازگار است ، و در طول مطالعات با نمایندگی مختلف طبقه بندی.
زمان واگرایی برای Numididae و Odontophoridae نیز بین این مطالعه و مطالعات Multilocus قبلی مشابه بود [10 ، 48] ، که نشان می دهد همان توپولوژی برای گونه های نمونه برداری شده ، و حداقل یکی از کالیبراسیون های فسیلی مشابه در مطالعات آنها استفاده شده است.
به طور کلی ، برآورد زمان واگرایی ما در Phasianidae بسیار شبیه به یک مطالعه جدید بود [10] ، به عنوان مثال ، Crown Phasianidae و Core Phasianids در آن مطالعه حدود 36. 0 و 31. 9 کارشناسی ارشد بودند ، در حالی که در تجزیه و تحلیل ما حدود 35. 4 و 31. 5 کارشناسی ارشد بودند (جدول جدول2)چند تفاوت مشاهده شد ، عمدتا به دلیل گونه های اضافه شده و موقعیت های فیلوژنتیک تغییر یافته. به عنوان مثال ، گنجاندن Lerwa ، زمان را به جدیدترین جد مشترک (TMRCA) کلاد نعوظ 2 MA زودتر ، از 26. 1 تا 28. 1 کارشناسی ارشد سوق داد. گنجاندن Tropicoperdix همچنین TMRCA کلاد پلی پرکن را به طور قابل توجهی زودتر تحت فشار قرار داد (شکل 5). مطالعات قبلی Multilocus [10] Pavo و Polyplectron را برای شکل دادن به درجه پیدا کرده اند ، در حالی که ما از روابط خواهر پشتیبانی شدیدی پیدا کردیم (شکل 1) ، مانند سایر مطالعات UCE [14] ، تغییر واگرایی پایه در کلاد غیر محیطی (شکل. 5)واگرایی عمیق دو نمونه Rhizothera ما (یکی از میانمار و دیگری از بورنئو) یک نتیجه بالقوه تعجب آور است. همین دو الحاق همچنین دارای درجه بالایی از واگرایی میتوکندری هستند [27] ، نشان می دهد که آنها ممکن است نامزدهای خوبی برای گونه هایی باشند که باید به گونه های مجزا تقسیم شوند.
نتیجه گیری
ما یک فیلوژنی گالی به خوبی حل شده تولید کردیم که به طور گسترده ای از همه جنس ها نمونه برداری می شود ، تا تخمین های قوی از زمان واگرایی را فراهم کنیم و بینش هایی در مورد تکامل گال های موجود ارائه می دهیم. چنین فیلوژنی ها مهم هستند ، زیرا بازسازی صفات یا دامنه های اجدادی می تواند توسط فیلوژنی هایی که نادرست هستند یا نمونه برداری از تاکسون مغرضانه هستند [14 ، 16 ، 31 ، 55] بسیار مغرضانه باشد و تفسیر چنین نتایج در صورت زمان بندی زمان بندی ، خطا خواهد بودوقایع نادرست تخمین زده شده است. علاوه بر این ، درخت گلی شکل خوب حل شده ما اکنون یک درخت زمانبندی قوی را فراهم می کند که می تواند با سوابق فسیلی بیشتری ترکیب شود تا درک ما برای تکامل گالی فرم ها را تسهیل کند [56] و به عنوان منبعی برای مطالعات تطبیقی و بیوگرافیک این گروه جالب [57، 58،59].
مواد و روش ها
توالی DNA و پردازش داده ها
ما یک گونه را از هر جنس گالی که در مطالعات قبلی نشان داده نشده است توالی کردیم (پرونده اضافی 4: جدول S1). برای انجام این کار ، ما DNA ژنومی را از بافت با استفاده از پروتکل بافت برای کیت تصفیه DNA PureGene® (Qiagen) استخراج کردیم. UCE توسط ژنومیک سریع (Gainesville ، FL) با استفاده از پروتکل های اصلاح شده از BC Faircloth ، JE McCormack ، NG Crawford ، MG Harvey ، RT Brumfield و TC Glenn توالی شدند. به طور خلاصه ، کتابخانه های Illumina truseq با استفاده از پروتکل سازنده (Illumina Inc. ، San Diego ، CA ، USA) اصلاح شده برای استفاده از آغازگرها با برچسب های شاخص سفارشی تهیه شدند [60]. هر کتابخانه با استفاده از مجموعه ای از 5472 کاوشگر (Mycroarray ، Ann Arbor ، MI ؛ http://www.mycroaray.com/mybaits-uces.html) و برای 5060 مکان مورد نظر غنی شد. یک Illumina (سن دیگو ، کالیفرنیا) Hiseq 2500. ما کپی های PCR را از خواندن های demultiplexed با Prinseq-Lite 0. 20. 4 [61] حذف کردیم ، خواندن با کیفیت ضعیف تمیز شد و آداپتور خوانده شده با استفاده از 0. 36 Trimmomatic انجام شد [62]. ما سپس خواندن های کنترل شده با کیفیت را با Trinity R20150302 [63] به همراه داشت.
We added these newly sequenced species to data from previous studies (Additional file 4: Table S1, [11, 14, 26, 27, 31, 36, 50] to obtain UCEs from 130 galliform species, including representatives of all genera, except the genus Ophrysia , which is thought to have gone extinct in the 1800’s. We also included UCEs from the ruddy duck ( Oxyura jamaicensis ) [26] and harvested UCEs from published genome data for the ostrich ( Struthio camelus ), kiwi ( Apteryx australis ), and mallard ( Anas platyrhynchos ) from GenBank (GCA_000698965.1, GCA_001039765.2, and GCA_000355885.1 respectively) to provide more distant outgroups to reduce the stochastic error in time estimation [10], resulting in 135 taxa. UCE sequences from those three published genomes were extracted using PHYLUCE as described in the PHYLUCE documentation https://phyluce.readthedocs.io/en/latest/index.html. We produced our data matrices using the standard PHYLUCE [64] pipeline: first we extracted UCEs from contigs, then we aligned each UCE locus using MAFFT 7 [65] using the standard settings for the PHYLUCE pipeline, edge-trimmed the alignments, and finally generate concatenated alignments that included UCE loci sampled for 100%,> 95%, and>75 ٪ از گونه ها.
برای آزمایش اثرات طرح های مختلف خرید ژن در برآورد زمان واگرایی (به تصویر زیر مراجعه کنید) ، ما از زیر مجموعه ای از گونه ها برای کاهش زمان محاسبه استفاده کردیم ، با استفاده از یک ماتریس داده تولید شده با استفاده از Phyluce همانطور که در بالا توضیح داده شد. برای این تجزیه و تحلیل ها ، ما 44 گونه گلی شکل از جمله همه جنس ها از Megapodiidae ، Cracidae ، Numididae ، Odontophoridae و هشت جنس از Phasianidae را انتخاب کردیم ، و هر سه کلاد اصلی را که در Phasianidae شناسایی شده اند ، و همچنین هر چهار گروه خارج از کشور برای تشکیل یک کاهش یافته است. گروه 48 گونه. تا آنجا که ممکن است ، ما روی گونه ها با داده های با کیفیت بالاتر متمرکز شدیم (UCE های بیشتری بازیابی می شوند).
تجزیه و تحلیل فیلوژنتیک
ما با استفاده از مدل GTR + G برای تخمین درختان ML برای ماتریس 75 ٪ کامل از هر دو 135-TAXON و 48 از RAXML 8. 2. 12 [66] در زیر بهترین درخت به علاوه 100 تکرار سریع بوت استرپ استفاده کردیم. مجموعه داده های Taxon. معیار 75 ٪ بر اساس تجزیه و تحلیل UCE های گلی شکل انتخاب شد [26]. برای مجموعه داده های 135 مالیات ، ما یک درخت گونه را با استفاده از svdquartets [39] که در PAUP*4. 0A168 اجرا شده است تخمین زده ایم. 100 جستجو Bootstrap انجام شد و تمام کوارتت های ممکن در هر جستجو مورد بررسی قرار گرفت.
برای مجموعه داده های 48 مالیات ، از درخت ML از ماتریس کامل 75 ٪ به عنوان درخت راهنما برای برآورد زمان واگرایی استفاده شد. با این حال ، ما از داده های توالی در ماتریس کامل 95 ٪ و 100 ٪ برای برآورد زمان واگرایی استفاده کردیم (به تصویر زیر مراجعه کنید).
طرح های "خرید ژن" برای برآورد زمان واگرایی
ما برآورد زمان واگرایی را با استفاده از کل هفت طرح بر اساس مجموعه داده 48 مالیات انجام دادیم (شکل 2). برای به حداقل رساندن تأثیرات داده های گمشده ، که می تواند تخمین طول شاخه را تعصب کند [23 ، 52] ، ما روی ماتریس کامل 95 ٪ و 100 ٪ متمرکز شده ایم. این شامل ماتریس 95 ٪ (95 ٪ ؛ 1415 مکان) و 100 ٪ ماتریس کامل (100 ٪ ؛ 69 مکان) بود. علاوه بر این ، ما در دو طرح انتخاب محلی و سه طرح انتخاب پارتیشن اضافه کردیم. برای انتخاب مکان ، ما از Sortadate [32] استفاده کردیم ، که از سه معیار برای انتخاب مکان (ساعت مانند ، درخت مانند و طول درخت) استفاده می کند. ترتیب این سه معیار اعمال می شود تا بتوانند مجموعه داده های متمرکز بر مکان های مختلف را انتخاب کنند. برای مقایسه خوب که مستقل از تعداد مکانهای مورد تجزیه و تحلیل باشد ، ما 69 مکان (برای مطابقت با تعداد مکانها در ماتریس 100 ٪) را از محل 1415 در ماتریس کامل 95 ٪ انتخاب کردیم. برای به دست آوردن بیشترین مکان شبیه به ساعت ، ما ابتدا Sortadate را برای استفاده از ساعت مانند و به دنبال آن طول درخت مانند و سپس طول درخت (95 ٪-loci-clocklike) تنظیم کردیم. ما برای به دست آوردن 69 مکان مانند درخت مانند با در نظر گرفتن درخت مانند به عنوان معیار اصلی ، یک انتخاب دوم را انجام دادیم ، و به دنبال آن ، به دنبال ساعت مانند طول درخت (95 ٪-loci-treelike) از ماتریس کامل 95 ٪. درخت مانند مکان هایی را مشخص می کند که بیشتر با یک درخت گونه مطابقت دارد ، و بنابراین باید مجموعه ای از مکان ها را با یک زمان هم زمان شبیه به زمان خاصیت انتخاب کند. ما طول درخت را در اولویت قرار ندادیم ، همانطور که پیشنهاد می شود مکان ها را با محتوای اطلاعات بالا شناسایی کنیم [32]. مکالمه محتوای اطلاعات بالا نیز باید با استفاده از معیار شبیه درخت انتخاب شود (از آنجا که اطلاعات خیلی کمی قدرت تخمین درختی مشابه درخت گونه را ندارند ، بنابراین استفاده از درخت مانند باید مزایای طول درخت و درخت مانند را داشته باشدمعیارها با هم).
برای جلوگیری از مدل های بیش از حد مناسب ، تجزیه و تحلیل های فیلوژنتیک در مجموعه داده های بزرگ غالباً مکان ها را در پارتیشن های بزرگتر ترکیب می کنند [68]. روش هایی که پارتیشن های مناسب را مشخص می کنند ، مانند PartitionFinder [54] این کار را با گروه بندی مکان با پارامترهای تکاملی مشابه انجام می دهند. بنابراین ، یک پارتیشن باید دارای ناهمگونی محلی باشد و ممکن است برای برآورد زمان واگرایی مناسب تر باشد. برای طرح های خرید ژن مبتنی بر پارتیشن ، ابتدا طرح پارتیشن بندی بهینه را در ماتریس کامل 95 ٪ با استفاده از معیار اطلاعات بیزی (BIC) و الگوریتم rClusterf [54] در PartitionFinder 2 [40] انتخاب کردیم ، طول شاخه ها به Linked و تنظیم شده بودند. از مدل GTR + G استفاده شد. سپس از 58 پارتیشن حاصل از Sortadate [32] استفاده کردیم تا به ترتیب بیشترین ساعت (95 ٪ -PF-Clocklike) و بیشتر درخت مانند (95 ٪ -PF-Treelike) را انتخاب کنیم. ما همچنین برآورد زمان واگرایی را در بزرگترین پارتیشن از PartitionFinder (95 ٪ -PF بزرگترین) انجام دادیم. ما نمی توانیم تعداد مکانهای موجود در پارتیشن انتخاب شده را کنترل کنیم (برخلاف انتخاب محل ، جایی که 69 مکان را انتخاب کردیم که به بهترین وجه با هر معیار متناسب باشد) ، بنابراین تعداد مکانهای موجود در این تجزیه و تحلیل ها متغیر بودند. زمان واگرایی برای هر یک از طرح های خرید ژن (49 نقطه زمانی برای هر طرح) با استفاده از آزمون مستقل Kruskal-Wallis در SPSS 26 مقایسه شد.
ما پارامترهای طرح های مختلف خود را بررسی کردیم. برای هر مکان موجود در یکی از طرح ها ، ما طول مکان تراز شده ، محتوای GC و پارامتر آلفا توزیع گاما را از تجزیه و تحلیل RAXML به دست آوردیم. ما طول مکان را برای هر یک از طرح های خرید ژن با استفاده از آزمون مستقل کروسکال-والیس در SPSS 26 مقایسه کردیم. ما همچنین از ارزیابی تراز اسکریپت پایتون [69] برای برآورد درصد داده های ارائه شده توسط؟و n (این ترکیبی از مکانهایی است که برای یک گونه موجود در آن نمونه برداری نشده است ، که باید نسبتاً محدود باشد زیرا ما روی ماتریس های کامل تر متمرکز شده ایم ، اما همچنین مواردی که در بعضی از گونه ها در بعضی از گونه ها بسیار کوتاه تر بودند و بسیاری از نوکلئوتیدهای حل نشده را ترک می کردند) و درصد از درصد از آنسایت های آموزنده در هفت تراز.
برآورد زمان واگرایی
برای تمام هفت تراز از مجموعه داده 48 مالیات ، ما با استفاده از توپولوژی تخمین زده شده از ماتریس کامل 75 ٪ ، MCMCTREE (PAML 4. 9J [70]) را با محاسبه احتمال تقریبی اجرا کردیم. تعدادی از مطالعات اولیه که بر زمان واگرایی گالری متمرکز شده اند ، از فسیل های مشکل ساز برای کالیبراسیون استفاده کرده اند [10 ، 71]. به عنوان مثال ، موقعیت نامناسب فیلوژنتیک گالنونولوئیدهای وایومینگنسسیس منجر به بیش از حد بیش از حد واگرایی در گالی فرم ها شده است [71]. بنابراین ، ما از شش فسیل گالی با دقت انتخاب شده استفاده کردیم که توسط مطالعات قبلی به عنوان حداقل مرز برای سن گره تأیید شده بودند (پرونده اضافی 7: جدول S4) [10 ، 11 ، 31]. ما حداکثر محدودیت سنی 99. 6 میلیون سال پیش (MA) را برای ریشه درخت (جدیدترین اجداد مشترک Neoithes) بر اساس مرز کرتاسه اولیه اوایل (که در سایر مطالعات فیلوژنومیک مرغی نیز استفاده می شود) تعیین کردیم [3 ، 72]). تنظیمات پارامتر MCMCTREE به شرح زیر بود: ساعت = 2 ، ریشه 9. 96 ، مدل = 4 ، bdparas = 1 1 0 ، kappa_gamma = 6 2 ، alpha_gamma = 1 1 ، sigma2_gamma = 1 4. 5 ، rgene_gamma با نرخ برآورد شده جایگزین تعیین شداز Baseml [73]. ما همه تجزیه و تحلیل ها را دو بار برای ارزیابی همگرایی انجام دادیم ، اندازه نمونه مؤثر همه پارامترها در ردیاب 1. 7. 1 [74] بررسی شد تا از بالای 200 باشد.
با استفاده از آنچه نتایج ما پیشنهاد شده است ، یک طرح خرید ژن مناسب (95 ٪ -PF-Treelike ، به بالا مراجعه کنید) ، ما زمان واگرایی گالیفرم ها را در توپولوژی ML از مجموعه داده 135 تاکونی با استفاده از روشهای مشابه توضیح داده شده در بالا تخمین زده ایم.
تجارت با گزینههای باینری...
ما را در سایت تجارت با گزینههای باینری دنبال می کنید
برچسب :
نویسنده : نازنین فراهانی
بازدید : 47
تاريخ : شنبه
10 تير
1402 ساعت: 14:55