De novo genové narození - De novo gene birth

Nové geny se mohou objevit z rodově negenických oblastí prostřednictvím špatně pochopených mechanismů. (A) Negenická oblast nejprve získá transkripci a otevřený čtecí rámec (ORF) v libovolném pořadí, což usnadní zrod de novo genu. ORF je pouze pro ilustraci, protože de novo geny mohou být také multi- exonické nebo mohou postrádat ORF, jako u genů RNA . (B) Přetisk. Je vytvořen nový ORF, který se překrývá s existujícím ORF, ale v jiném rámci. (C) Exonizace. Dříve intronická oblast se alternativně spojí jako exon, například když se retropozicí získají opakující se sekvence a mutačními procesy se vytvoří nová místa sestřihu . Přetisk a exonizace mohou být považovány za zvláštní případy narození genu de novo.
Nové geny mohou být vytvořeny z genů předků prostřednictvím různých mechanismů. (A) Duplikace a divergence. Po duplikaci jedna kopie zažije uvolněný výběr a postupně získá nové funkce. (B) Fúze genů. Hybridní gen vytvořený z některých nebo všech dvou dříve oddělených genů. Genové fúze mohou nastat různými mechanismy; zde je zobrazeno vsunuté vymazání. (C) Genové štěpení. Jediný gen se oddělí a vytvoří dva odlišné geny, například duplikací a diferenciální degenerací dvou kopií. (D) Horizontální přenos genů . Geny získané z jiných druhů horizontálním přenosem procházejí divergencí a neofunkcionalizací. (E) Retropozice. Transkripty mohou být reverzně transkribovány a integrovány jako gen bez intronů jinde v genomu. Tento nový gen pak může projít divergencí.

Zrození genu de novo je proces, při kterém se nové geny vyvíjejí ze sekvencí DNA, které byly předky negenické . Geny de novo představují podskupinu nových genů a mohou být kódující proteiny nebo místo toho mohou působit jako geny RNA. Procesy, které řídínarození genu de novo, nejsou dobře známy, přestože existuje několik modelů, které popisují možné mechanismy, kterýmimůže docházet k narození genu de novo .

Ačkoli k narození genu de novo mohlo dojít v jakémkoli bodě evoluční historie organismu, starověké události narození genu de novo je obtížné detekovat. Většina dosavadních studií genů de novo se tedy zaměřila na mladé geny, typicky taxonomicky omezené geny (TRG), které jsou přítomny v jediném druhu nebo linii, včetně takzvaných sirotčích genů , definovaných jako geny, které postrádají jakýkoli identifikovatelný homolog. Je však důležité poznamenat, že ne všechny osiřelé geny vznikají de novo a místo toho se mohou objevit prostřednictvím poměrně dobře charakterizovaných mechanismů, jako je duplikace genu (včetně retropozice) nebo horizontální přenos genů následovaný divergencí sekvence nebo genovým štěpením/fúzí .

Přestože kdysi bylo narození genů de novo považováno za vysoce nepravděpodobný výskyt, nyní bylo popsáno několik jednoznačných příkladů a někteří výzkumníci spekulují, že narození genu de novo by mohlo hrát hlavní roli v evoluční inovaci.

Dějiny

Již ve 30. letech 20. století JBS Haldane a další navrhli, že kopie stávajících genů mohou vést k novým genům s novými funkcemi. V roce 1970 vydal Susumu Ohno klíčový text Evolution by Gene Duplication . Nějakou dobu poté panoval konsensuální názor, že prakticky všechny geny byly odvozeny z genů předků, přičemž François Jacob v eseji z roku 1977 skvěle poznamenal, že „pravděpodobnost, že se funkční protein objeví de novo náhodnou asociací aminokyselin, je prakticky nulová. "

Ve stejném roce však Pierre-Paul Grassé vytvořil termín „přetisk“, aby popsal vznik genů prostřednictvím exprese alternativních otevřených čtecích rámců (ORF), které překrývají již existující geny. Tyto nové ORF mohou být mimo rámec s nebo existujícím antisense k již existujícímu genu. Mohou také být v rámci se stávajícím ORF, vytvářet zkrácenou verzi původního genu, nebo představovat 3 'rozšíření stávajícího ORF do blízkého ORF. První dva typy přetisku lze považovat za konkrétní podtyp narození genů de novo ; ačkoli se překrývá s dříve kódující oblastí genomu, primární aminokyselinová sekvence nového proteinu je zcela nová a je odvozena z rámce, který dříve neobsahoval gen. První příklady tohoto jevu v bakteriofágech byly popsány v sérii studií od roku 1976 do roku 1978 a od té doby bylo identifikováno mnoho dalších příkladů u virů, bakterií a několika eukaryotických druhů.

Fenomén exonizace také představuje zvláštní případ narození genu de novo , ve kterém například často se opakující intronické sekvence získávají místa sestřihu mutací, což vede k de novo exonům. Toto bylo poprvé popsáno v roce 1994 v kontextu sekvencí Alu nacházejících se v kódujících oblastech mRNA primátů. Zajímavé je, že takové de novo exony se často nacházejí v menších variantách sestřihu, což může umožnit evoluční „testování“ nových sekvencí při zachování funkčnosti hlavních variant (variant) sestřihu.

Přesto si někteří mysleli, že většina nebo všechny eukaryotické proteiny byly konstruovány z omezeného množství exonů „startovacího typu“. S využitím v té době dostupných sekvenčních údajů odhadl v roce 1991 počet unikátních eukaryotických exonů předků na <60 000, zatímco v roce 1992 byl publikován kus s odhadem, že velká většina proteinů patřila do více než 1 000 rodin. Přibližně ve stejnou dobu však byla uvolněna sekvence chromozomu III začínajících kvasinek Saccharomyces cerevisiae , což představuje poprvé, kdy byl sekvenován celý chromozom z jakéhokoli eukaryotického organismu. Sekvenování celého kvasinkového jaderného genomu bylo poté dokončeno počátkem roku 1996 masivním mezinárodním společným úsilím. Bernard Dujon ve svém přehledu projektu genomu kvasinek poznamenal, že neočekávané množství genů postrádajících jakékoli známé homology bylo možná nejnápadnějším zjištěním celého projektu.

V letech 2006 a 2007 poskytla řada studií pravděpodobně první zdokumentované příklady narození genu de novo, které nezahrnovalo přetisk. Tyto studie byly provedeny s použitím transkriptomů pomocných žláz Drosophila yakuba a Drosophila erecta a identifikovaly 20 domnělých genů omezených na linii, které se zdály nepravděpodobné v důsledku duplikace genů. Levine a kolegové identifikovali a potvrdili pět de novo kandidátských genů specifických pro Drosophila melanogaster a/nebo blízce příbuzných Drosophila simulans prostřednictvím přísného přístupu, který kombinoval bioinformatické a experimentální techniky.

Od těchto počátečních studií mnoho skupin identifikovalo specifické případy událostí narození genů de novo v různých organismech. První gen de novo identifikovaný v kvasinkách, gen BSC4, byl identifikován v S. cerevisiae v roce 2008. Tento gen vykazuje důkaz purifikační selekce, je exprimován jak na úrovni mRNA, tak na úrovni proteinu, a když je deletován, je synteticky smrtící s dalšími dvěma kvasinkovými geny, z nichž všechny indikují funkční roli genového produktu BSC4 . Historicky je jedním z argumentů proti pojmu rozšířeného zrození genu de novo vyvinutá složitost skládání bílkovin. Je zajímavé, že později bylo ukázáno, že Bsc4 přebírá částečně složený stav, který kombinuje vlastnosti skládání nativního a nenativního proteinu. V rostlinách byl prvním de novo genem, který byl funkčně charakterizován, QQS , gen Arabidopsis thaliana identifikovaný v roce 2009, který reguluje metabolismus uhlíku a dusíku. První funkčně charakterizovaný gen de novo identifikovaný u myší, nekódující gen RNA, byl také popsán v roce 2009. U primátů informativní analýza z roku 2008 odhadovala, že de novo bylo vytvořeno 15/270 genů pro sirotky primátů . Zpráva z roku 2009 identifikovala první tři de novo lidské geny, z nichž jeden je terapeutickým cílem při chronické lymfocytární leukémii. Od té doby řada studií na úrovni genomu identifikovala velké množství osiřelých genů v mnoha organismech, ačkoli rozsah, v jakém vznikly de novo , a míra, do jaké je lze považovat za funkční, zůstávají diskutovány.

Identifikace

Identifikace nově vznikajících sekvencí

K systematické identifikaci nových genů existují dva hlavní přístupy: genomová fylostratigrafie a metody založené na syntéze . Oba přístupy jsou široce používány, jednotlivě nebo doplňkově.

Genomická fylostratigrafie

Genomická fylostratigrafie zahrnuje zkoumání každého genu ve fokálním nebo referenčním druhu a odvození přítomnosti nebo nepřítomnosti rodových homologů pomocí algoritmů zarovnání sekvence BLAST nebo souvisejících nástrojů. Každému genu v ohniskových druzích lze přiřadit věk (neboli „úroveň zachování“ nebo „genomové fylostratum“), který je založen na předem určené fylogenezi, přičemž věk odpovídá nejvzdálenějšímu druhu, u kterého je detekován homolog. Pokud genu chybí jakýkoli detekovatelný homolog mimo vlastní genom nebo blízké příbuzné, říká se, že jde o nový, taxonomicky omezený nebo osiřelý gen.

Fylostratigrafie je omezena množinou blízce příbuzných genomů, které jsou k dispozici, a výsledky jsou závislé na kritériích vyhledávání BLAST. Kromě toho je často obtížné na základě nedostatku pozorované podobnosti sekvencí určit, zda se nový gen objevil de novo nebo se odchýlil od rodového genu k nepoznání, například po duplikaci. Upozornila na to studie, která simulovala vývoj genů stejného věku a zjistila, že vzdálené ortology mohou být pro rychle se vyvíjející geny nezjistitelné. Na druhé straně, při účtování změn v rychlosti vývoje v mladých oblastech genů, byl fylostratigrafický přístup přesnější při přiřazování genových věků v simulovaných datech. Následné studie využívající simulovanou evoluci zjistily, že fylostratigrafii se nepodařilo detekovat ortolog u nejvzdálenějších příbuzných druhů u 13,9% genů D. melanogaster a 11,4% genů S. cerevisiae . Opětovná analýza studií, které používaly fylostratigrafii v kvasinkách, ovocných muškách a lidech, zjistila, že i při započítávání takové míry chyb a vyloučení obtížně stratifikovatelných genů z analýz nebyly kvalitativní závěry ovlivněny. Dopad fylostratigrafické předpojatosti na studie zkoumající různé rysy genů de novo zůstává diskutován.

Přístupy založené na Synteny

Přístupy založené na syntéze využívají k identifikaci potenciálních předchůdců kandidátských genů de novo pořadí a relativní umístění genů (nebo jiných znaků) . Syntenická zarovnání jsou ukotvena konzervovanými „značkami“. Geny jsou nejběžnějším markerem při definování syntenických bloků, ačkoli se také používají k-mery a exony. Potvrzení, že syntenická oblast postrádá kódovací potenciál u druhů přesahujících skupiny, umožňuje s větší jistotou tvrdit původ de novo . Nejsilnějším možným důkazem vzniku de novo je odvození specifické „umožňující“ mutace (mutací), které vytvořily kódovací potenciál, typicky prostřednictvím analýzy oblastí menší sekvence, nazývaných mikrosyntenické oblasti, blízce příbuzných druhů.

Jednou z výzev při aplikaci metod založených na syntéze je, že syntézu lze obtížně detekovat v delších časových intervalech. Aby se to vyřešilo, byly vytvořeny různé optimalizační techniky, jako je použití exonů seskupených bez ohledu na jejich konkrétní pořadí k definování syntenických bloků nebo algoritmů, které používají dobře konzervované genomové oblasti k rozšíření mikrosyntenických bloků. Existují také potíže spojené s aplikací přístupů založených na syntéze na genomové sestavy, které jsou fragmentované nebo v liniích s vysokou mírou chromozomálních přeskupení, jak je běžné u hmyzu. Přístupy založené na syntéze lze aplikovat na genomová průzkumy genů de novo a představují slibnou oblast algoritmického vývoje pro datování genového narození. Někteří použili přístupy založené na syntéze v kombinaci s hledáním podobností ve snaze vyvinout standardizované, přísné kanály, které lze použít na jakoukoli skupinu genomů ve snaze řešit nesrovnalosti v různých seznamech genů de novo , které byly generovány.

Určení stavu

I když byl stanoven evoluční původ konkrétní kódující sekvence, stále neexistuje shoda na tom, co představuje skutečnou událost narození genů de novo . Jedním z důvodů je nedostatek shody v tom, zda musí být celá sekvence negenického původu. Pro de novo geny kódující proteiny bylo navrženo, aby de novo geny byly rozděleny do podtypů na základě podílu příslušného ORF, který byl odvozen z dříve nekódující sekvence. Kromě toho, aby mohlo dojít k narození genu de novo , musí být dotyčnou sekvencí gen, který vedl ke zpochybnění toho, co tvoří gen, přičemž některé modely stanoví přísnou dichotomii mezi genovými a negenickými sekvencemi a jiné navrhují více tekutinové kontinuum.

Všechny definice genů jsou spojeny s pojmem funkce, protože je obecně dohodnuto, že skutečný gen by měl kódovat funkční produkt, ať už je to RNA nebo protein. Existují však různé pohledy na to, co tvoří funkci, v závislosti na tom, zda je daná sekvence hodnocena pomocí genetických, biochemických nebo evolučních přístupů. Nejednoznačnost pojmu „funkce“ je obzvláště problematická pro rodné pole de novo genu, kde se předměty studia často rychle vyvíjejí. Aby se tyto výzvy vyřešily, Pittsburský model funkce dekonstruuje „funkci“ do pěti významů, aby popsal různé vlastnosti, které získává lokus procházející de novo genovým narozením: exprese, kapacity, interakce, fyziologické implikace a evoluční implikace.

Obecně se uznává, že skutečný gen de novo je exprimován alespoň v určitém kontextu, což umožňuje selekci fungovat, a mnoho studií používá důkaz exprese jako kritérium začlenění při definování genů de novo . Exprese sekvencí na úrovni mRNA může být potvrzena jednotlivě pomocí technik, jako je kvantitativní PCR , nebo globálně prostřednictvím sekvenování RNA (RNA-seq) . Podobně lze expresi na úrovni proteinu určit s vysokou spolehlivostí pro jednotlivé proteiny pomocí technik, jako je hmotnostní spektrometrie nebo westernový přenos , zatímco ribozomální profilování (Ribo-seq) poskytuje globální průzkum translace v daném vzorku. V ideálním případě, aby se potvrdil gen vzniklý de novo , by byla také prokázána nedostatečná exprese syntenické oblasti druhů přeskupení.

Genetické přístupy k detekci specifického fenotypu nebo změny kondice po narušení konkrétní sekvence jsou užitečné pro odvození funkce. K potvrzení biologického účinku pro konkrétní de novo ORF lze také použít jiné experimentální přístupy, včetně screeningu interakcí protein-protein a/nebo genetické interakce .

Evoluční přístupy lze použít k odvození existence molekulární funkce z výpočetně odvozených signatur výběru. V případě TRG je jedním společným podpisem selekce poměr nesynonymních a synonymních substitucí ( poměr dN/dS ), vypočítaný z různých druhů ze stejného taxonu. Podobně v případě druhově specifických genů mohou být data polymorfismu použita k výpočtu poměru pN/pS z různých kmenů nebo populací ohniskových druhů. Vzhledem k tomu, že mladým, druhově specifickým de novo genům podle definice chybí hluboká ochrana, detekce statisticky významných odchylek od 1 může být obtížná bez nereálně velkého počtu sekvenovaných kmenů/populací. Příkladem toho může být Mus Musculus , kde tři velmi mladé de novo geny postrádají podpisy výběru navzdory dobře prokázaným fyziologickým rolím. Z tohoto důvodu se přístupy pN/pS často aplikují na skupiny kandidátských genů, což vědcům umožňuje usoudit, že alespoň některé z nich jsou evolučně konzervovány, aniž by mohli specifikovat které. Místo toho byly použity jiné signatury selekce, jako je stupeň divergence nukleotidů v syntenických oblastech, zachování hranic ORF nebo pro geny kódující proteiny, skóre kódování založené na frekvencích hexamerů nukleotidů.

Prevalence

Odhady čísel

Odhady četnosti a počtu genů de novo v různých liniích se velmi liší a jsou velmi závislé na metodologii. Studie mohou identifikovat de novo geny samotnými metodami založenými na fylostratigrafii/BLAST nebo mohou využívat kombinaci výpočetních technik a mohou nebo nemusí hodnotit experimentální důkaz exprese a/nebo biologické role. Analýzy v genomovém měřítku mohou navíc vzít v úvahu všechny nebo většinu ORF v genomu, nebo mohou místo toho omezit jejich analýzu na dříve komentované geny.

D. melanogaster linie je ilustrativní z těchto odlišných přístupů. Časný průzkum využívající kombinaci vyhledávání BLAST provedených na sekvencích cDNA spolu s ručním vyhledáváním a informacemi o syntéze identifikoval 72 nových genů specifických pro D. melanogaster a 59 nových genů specifických pro tři ze čtyř druhů v komplexu druhů D. melanogaster . Tato zpráva zjistila, že pouze 2/72 (~ 2,8%) nových genů specifických pro D. melanogaster a 7/59 (~ 11,9%) nových genů specifických pro druhový komplex byly odvozeny de novo , přičemž zbytek vznikl duplikací/ retropozice. Podobně analýza 195 mladých (<35 milionů let starých) genů D. melanogaster identifikovaných ze syntenických uspořádání zjistila, že pouze 16 vzniklo de novo . Naproti tomu analýza zaměřená na transkriptomická data ze varlat šesti kmenů D. melanogaster identifikovala 106 fixních a 142 segregujících de novo genů. U mnoha z nich byly identifikovány rodové ORF, ale nebyly vyjádřeny. Novější studie zjistila, že až 39 % osiřelých genů v kladu Drosophila mohlo vzniknout de novo , protože se překrývají s nekódujícími oblastmi genomu. Studie na přírodních populacích Saccharomyces paradoxus zdůraznila rozdíly mezi mezidruhovým a vnitrodruhovým srovnáváním a zjistila, že počet de novo identifikovaných polypeptidů se při zvažování vnitrodruhové rozmanitosti více než zdvojnásobil. U primátů jedna raná studie identifikovala 270 osiřelých genů (jedinečných pro lidi, šimpanze a makaky), z nichž se předpokládalo, že 15 pochází de novo . Pozdější zprávy identifikovaly mnoho dalších de novo genů pouze u lidí, které jsou podporovány transkripčními a proteomickými důkazy. Studie na jiných liniích/organismech také dospěly k různým závěrům, pokud jde o počet genů de novo přítomných v každém organismu, jakož i specifické identifikované sady genů. Vzorek těchto rozsáhlých studií je popsán v tabulce níže.

Obecně lze říci, že se stále diskutuje o tom, zda duplikace a divergence nebo narození genů de novo představují dominantní mechanismus pro vznik nových genů, částečně proto, že geny de novo pravděpodobně vzniknou a budou ztraceny častěji než jiné mladé geny. Ve studii o původu osiřelých genů ve 3 různých eukaryotických liniích autoři zjistili, že v průměru jen asi 30% osiřelých genů lze vysvětlit divergencí sekvencí.

Dynamika

Je důležité rozlišovat mezi frekvencí narození genů de novo a počtem genů de novo v dané linii. Pokud je častý vznik genů de novo , dalo by se očekávat, že genomy budou mít v průběhu času tendenci růst v obsahu genů; genový obsah genomů je však obvykle relativně stabilní. To znamená, že častý proces genové smrti musí vyvážit narození genů de novo , a de novo geny se skutečně vyznačují rychlým obratem vzhledem k zavedeným genům. Na podporu této představy je mnohem pravděpodobnější , že nedávno ztracené geny Drosophila budou ztraceny, především prostřednictvím pseudogenizace , přičemž nejmladší sirotci budou ztraceni nejvyšší rychlostí; to je navzdory skutečnosti, že bylo prokázáno , že některé osiřelé geny Drosophila se rychle staly nezbytnými. Podobný trend časté ztráty mezi mladými genovými rodinami byl pozorován u nematodového rodu Pristionchus . Podobně analýza pěti savčích transkriptomů zjistila, že většina ORF u myší byla buď velmi stará nebo druhově specifická, což znamená časté narození a smrt de novo transkriptů. Srovnatelný trend by mohl ukázat další analýza šesti transkriptomů primátů. V divokých populacích S. paradoxus se objevují de novo ORF a jsou ztraceny podobnou rychlostí. Přesto existuje pozitivní korelace mezi počtem druhově specifických genů v genomu a evoluční vzdáleností od jeho posledního předka. Rychlý zisk a ztráta genů de novo byl také nalezen na populační úrovni analýzou devíti přirozených populací lipnicovitých. Kromě zrození a smrti de novo genů na úrovni ORF, mutační a další procesy také podrobují genomy neustálému „transkripčnímu obratu“. Jedna studie na myších zjistila, že zatímco všechny oblasti rodového genomu byly v určitém bodě transkribovány alespoň u jednoho potomka, část genomu pod aktivní transkripcí v daném kmeni nebo poddruhu podléhá rychlé změně. Obrat transkripce nekódujících genů RNA je zvláště rychlý ve srovnání s kódujícími geny.

Příklad de novo genové tabulky

Organismus/rodokmen Gen Důkaz

de novo původu

Doklad o výběru Fenotypický důkaz Rok objeven Poznámky Ref.
Arabidopsis thaliana QQS N/A Nadbytečný listový škrob v knockdownech RNAi 2009
Drosophila CG9284 Syntenická uspořádání 12 druhů Drosophila Sraz RNAi je smrtelný 2010
Drosophila CG30395 Syntenická uspořádání 12 druhů Drosophila Sraz RNAi je smrtelný 2010
Drosophila CG31882 Syntenická uspořádání 12 druhů Drosophila Sraz RNAi je smrtelný 2010
Drosophila CG31406 tBLASTn oblastí kódujících protein do všech 12 genomů Drosophila a srovnání uspořádání BLASTZ dN/dS <1 indikuje purifikační výběr Srážení RNAi inhibuje plodnost 2013
Drosophila CG32582 tBLASTn oblastí kódujících protein do všech 12 genomů Drosophila a srovnání uspořádání BLASTZ Možný pozitivní výběr, ale není statisticky významný Srážení RNAi inhibuje plodnost 2013
Drosophila CG33235 tBLASTn oblastí kódujících protein do všech 12 genomů Drosophila a srovnání uspořádání BLASTZ dN/dS <1 indikuje purifikační výběr Srážení RNAi inhibuje plodnost 2013
Drosophila CG34434 tBLASTn oblastí kódujících protein do všech 12 genomů Drosophila a srovnání uspořádání BLASTZ dN/dS <1 indikuje purifikační výběr Srážení RNAi inhibuje plodnost 2013
Drosophila melanogaster Goddard Hledání tblastn v celém genomu a analýzy syntenických oblastí na základě LASTZ a Exonerate zásadní pro individualizaci prodloužených spermatid;

Pokusy RNA i knockdown u samců much

2017 Predikce struktury: napůl neuspořádaná, napůl alfa-šroubovicová
Gadidae AFGP Zkoumání Gadidovy fylogeneze Gen se rozmnožil u druhů Gadid na chladnějších stanovištích, ale rozpadl se u druhů, kterým nehrozí zmrazení Zabraňte tvorbě ledu Funkce je podobná jako u jiných nemrznoucích proteinů, které se vyvinuly nezávisle
Mus GM13030 Kombinovaný přístup fylostratigrafie a synteny ORF zachována pouze v M. m. musculus a M. m. populace castaneus ; žádný důkaz o pozitivní selekci Knockout mutant má nepravidelné těhotenské cykly 2019
Mus Poldi Homologní oblast není exprimována v blízce příbuzných a přeskupených druzích Důkaz nedávného selektivního zatažení v M. m. musculus Knockout mutant má sníženou pohyblivost spermií a hmotnost varlat 2009 Gen RNA
Placentální savci ORF-Y PhyloCSF genu POLG v Homo sapiens , zachování synonymních lokalit u savců a tBLASTN savců, sauropsidů, obojživelníků a teleostních ryb Zmizení vylepšené zachování synonymních míst v POLG ORF po stop kodonu ORF-Y a vysoké zachování iniciačního kontextu start kodonu indikuje purifikační selekci 41 Clinvar varianty, které ovlivňují ORF-Y peptid, ale ne aminokyselinovou sekvenci POLG 2020
Saccharomyces

cerevisiae

BSC4 tBLASTN a syntenická uspořádání blízce příbuzných druhů Pod negativním výběrem na základě populačních údajů Má dva syntetické smrtící partnery 2008 Přijme částečně specifickou trojrozměrnou strukturu
Saccharomyces

cerevisiae

MDF1 Pouze identifikované domnělé homology jsou zkráceny, neexprimované, nefunkční ORF Opraveno v 39 různých kmenech, žádný posun rámce nebo nesmyslné mutace Snižuje účinnost párování vazbou MATα2; podporuje růst prostřednictvím interakce se Snf1 2010 Exprese je potlačena jejím antisense genem

Funkce

Obecné rysy

Nedávno objevené de novo geny se liší od zavedených genů v mnoha ohledech. V celé řadě druhů byly mladé a/nebo taxonomicky omezené geny popsány jako kratší než zavedené geny, vyvíjejí se rychleji a jsou méně exprimovány. Ačkoli tyto trendy mohou být důsledkem předpojatosti detekce homologie, opětovná analýza několika studií, které tuto zaujatost zohlednily, zjistila, že dosažené kvalitativní závěry nebyly ovlivněny. Dalším znakem je tendence mladých genů mít méně hydrofobních aminokyselin a mít tyto zbytky více seskupené blízko sebe podél primární sekvence.

Bylo také zjištěno, že exprese mladých genů je více specifická pro tkáň nebo stav než u zavedených genů. Zejména relativně vysoká exprese genů de novo byla pozorována v mužských reprodukčních tkáních u Drosophila , stickleback, myší a lidí a v lidském mozku. U zvířat s adaptivním imunitním systémem může být vyšší exprese v mozku a varlatech funkcí imunitně privilegované povahy těchto tkání. Analýza u myší zjistila specifickou expresi intergenních transkriptů v brzlíku a slezině (kromě mozku a varlat). Bylo navrženo, že u obratlovců musí být de novo transkripty nejprve exprimovány v tkáních bez imunitních buněk, než mohou být exprimovány v tkáních, které mají imunitní dohled.

Několik studií analyzovalo funkce proteinu de novo v různých časových měřítcích, v rozmezí 42,3 až 160 milionů let. Předpokládané vlastnosti sekvence, jako je vnitřní strukturální porucha a sklon k agregaci, překvapivě nevykazovaly významné rozdíly s věkem u savců a primátů. Bylo zjištěno, že mnoho sekvenčních charakteristik genů Drosophila de novo je přechodných k intergenním ORF a konzervovaným genům.

Funkce, které podporují narození genu de novo

Je také zajímavé porovnat rysy nedávno objevených de novo genů se sdružením negenických ORF, ze kterých vznikají. Teoretické modelování ukázalo, že tyto rozdíly jsou výsledkem jak výběru funkcí, které zvyšují pravděpodobnost funkcionalizace, tak neutrálních evolučních sil, které ovlivňují alelický obrat. Experimenty na S. cerevisiae ukázaly, že predikované transmembránové domény byly silně spojeny s příznivými kondičními efekty, když byly mladé ORF nadměrně exprimovány, ale ne když byly vytvořeny (starší) ORF nadměrně exprimovány. Přestože s mladými geny koreluje také mnoho dalších funkcí, toto je první známá funkce sekvence, která je spojena s příznivými účinky na fitness.

Funkce závislé na linii

Vlastnosti genů de novo mohou záviset na druhu nebo linii, která je zkoumána. Zdá se, že to je částečně důsledkem měnícího se obsahu GC v genomech a že mladé geny nesou větší podobnost s negenními sekvencemi z genomu, ve kterém vznikly, než se zavedenými geny. Rysy ve výsledném proteinu, jako je procento transmembránových zbytků a relativní frekvence různých predikovaných sekundárních strukturních znaků, vykazují silnou GC závislost na sirotkových genech, zatímco ve starověkých genech jsou tyto vlastnosti pouze slabě ovlivněny obsahem GC.

Vztah mezi genovým věkem a množstvím predikované vnitřní strukturální poruchy (ISD) v kódovaných proteinech je předmětem značné diskuse. Bylo prohlášeno, že ISD je také rysem závislým na linii, jehož příkladem je skutečnost, že v organismech s relativně vysokým obsahem GC, od D. melanogaster po parazita Leishmania major , mají mladé geny vysokou ISD, zatímco v genomu s nízkým GC jako jsou pučící kvasinky, několik studií ukázalo, že mladé geny mají nízkou ISD. Studie, která vyloučila mladé geny s pochybnými důkazy o funkčnosti, definovaná binárně jako selekční pro uchování genů, zjistila, že zbývající mladé kvasinkové geny mají vysokou ISD, což naznačuje, že výsledek kvasinek může být způsoben kontaminací sady mladých genů s ORF, které nesplňují tuto definici, a proto je pravděpodobnější, že budou mít vlastnosti, které odrážejí obsah GC a další negenické rysy genomu. Kromě nejmladších sirotků tato studie zjistila, že ISD má tendenci klesat s rostoucím věkem genů a že je to primárně způsobeno spíše složením aminokyselin než obsahem GC. V kratších časových měřítcích použití de novo genů, které mají největší validaci, naznačuje, že mladší geny jsou u Lachancea více neuspořádané , ale méně neuspořádané u Saccharomyces .

Role epigenetických modifikací

Zkoumání genů de novo u A. thaliana zjistilo, že jsou oba hypermethylované a obecně bez histonových modifikací. V souladu buď s proto-genovým modelem, nebo s kontaminací ne-geny, byly methylační hladiny de novo genů mezi zavedenými geny a intergenními oblastmi přechodné. Methylační vzorce těchto de novo genů jsou stabilně zděděny a methylační hladiny byly nejvyšší a nejvíce podobné zavedeným genům v de novo genech s ověřenou schopností kódovat protein. U patogenní houby Magnaporthe oryzae mají méně konzervované geny tendenci mít methylační vzorce spojené s nízkou úrovní transkripce. Studie na kvasinkách také zjistila, že de novo geny jsou obohaceny o rekombinační hotspoty , které mají tendenci být oblastmi bez nukleosomů.

U Pristionchus pacificus osiřelé geny s potvrzenou expresí vykazují stavy chromatinu, které se liší od stavů podobně exprimovaných zavedených genů. Místa zahájení genů pro vzácná onemocnění mají epigenetické podpisy, které jsou charakteristické pro zesilovače, na rozdíl od konzervovaných genů, které vykazují klasické promotory. Mnoho neexprimovaných sirotčích genů je zdobeno represivními histonovými modifikacemi, zatímco nedostatek takových modifikací usnadňuje transkripci exprimované podskupiny sirotků, což podporuje představu, že otevřený chromatin podporuje tvorbu nových genů.

Konstrukční vlastnosti

Jak struktura je obvykle více konzervovány než sekvence, srovnání struktury mezi ortology může poskytnout hlubší vnitřky do de novo genu vzniku a vývoje, které přispívají k potvrzení těchto genů jako nativní de novo genů. Přesto bylo dosud strukturálně a funkčně charakterizováno jen velmi málo proteinů de novo .

„Nemrznoucí glykoprotein“ (AFGP) v arktických treskách brání zamrznutí jejich krve v arktických vodách. Ukázalo se, že Bsc4, krátký neesenciální de novo protein v kvasinkách, je budován převážně beta-listy a má hydrofobní jádro. Je spojena s opravou DNA v podmínkách nedostatku živin. Drosophila de novo protein Goddard byl charakterizován poprvé v roce 2017. poražený Drosophila melanogaster samčí mouchy nebyly schopny produkovat spermie. Nedávno bylo možné ukázat, že tento nedostatek byl způsoben selháním individualizace prodloužených spermatid. Použitím výpočetních fylogenomických a strukturních předpovědí, experimentálních strukturálních analýz a buněčných biologických testů bylo navrženo, že polovina Goddardovy struktury je neuspořádaná a druhá polovina je tvořena alfa-helikálními aminokyselinami. Tyto analýzy také ukázaly, že Goddardovy ortology vykazují podobné výsledky. Zdá se, že Goddardova struktura byla od svého vzniku hlavně zachována.

Mechanismy

Všudypřítomný výraz

S rozvojem technologií, jako jsou RNA-seq a Ribo-seq, je nyní známo, že eukaryotické genomy jsou všudypřítomně transkribovány a překládány. Mnoho ORF, které jsou buď anotované, nebo anotované jako dlouhé nekódující RNA (lncRNA) , jsou translatovány na určité úrovni, a to buď podmínkou, nebo způsobem specifickým pro tkáň. I když jsou tyto translační události vzácné, vystavují selekci negenickou sekvenci. Tato všudypřítomná exprese tvoří základ pro několik modelů popisujících narození genu de novo .

Spekulovalo se, že epigenetická krajina genů de novo v raných stádiích formování může být zvláště variabilní mezi populacemi a mezi nimi, což vede k variabilní genové expresi, což mladým genům umožňuje prozkoumat „expresivní krajinu“. QQS gen v A. thaliana je jeden příklad tohoto jevu; jeho exprese je negativně regulována methylací DNA, která, i když je dědičná po několik generací, se ve svých úrovních velmi liší, a to jak mezi přirozenými přístupy, tak v divokých populacích. Epigenetika je také do značné míry zodpovědná za permisivní transkripční prostředí ve varlatech, zejména prostřednictvím začlenění nekanonických variant histonu do nukleosomů, které jsou během spermatogeneze nahrazeny histonovými protaminy .

Pořadí akcí

Aby mohlo dojít ke zrodu genu de novo kódujícího protein, musí být negenická sekvence transkribována a musí být získána ORF, než dojde k translaci. K těmto událostem může dojít v libovolném pořadí a existují důkazy podporující model „nejprve ORF“ a „nejprve transkripce“. Analýza genů de novo, které se segregují v D. melanogaster, zjistila, že sekvence, které jsou transkribovány, mají podobný kódovací potenciál jako ortologické sekvence z linií postrádajících důkaz transkripce. Toto zjištění podporuje představu, že před vyjádřením může existovat mnoho ORF. Nemrznoucí glykoproteinový gen AFGP , který se objevil de novo v arktických treskách, poskytuje definitivnější příklad, ve kterém bylo ukázáno, že de novo vznik ORF předchází promotorové oblasti. Kromě toho jsou v eukaryotických genomech domněle negenické ORF dostatečně dlouhé na to, aby kódovaly funkční peptidy, a očekává se, že se vyskytnou náhodou s vysokou frekvencí. Ve stejné době je transkripce eukaryotických genomů mnohem rozsáhlejší, než se dříve předpokládalo, a existují zdokumentované příklady genomových oblastí, které byly transkribovány před objevením se ORF, který se stal genem de novo . Podíl de novo genů, které kódují proteiny, není znám, ale výskyt „transkripce nejprve“ vedl některé k domněnce, že de novo geny kódující proteiny mohou nejprve existovat jako meziprodukty genu RNA. Případ bifunkčních RNA, které jsou translatovány a fungují jako geny RNA, ukazuje, že takový mechanismus je věrohodný.

Tyto dvě události mohou nastat současně, když je chromozomální přestavba událostí, která urychluje narození genu.

Modely

Bylo popsáno několik teoretických modelů a možné mechanismy narození genu de novo . Modely se obecně vzájemně nevylučují a je možné, že více mechanismů může vést ke vzniku genů de novo .

Hypotéza „Out of Testis“

Časná případová studie narození genu de novo , která identifikovala pět genů de novo v D. melanogaster , zaznamenala preferenční expresi těchto genů ve varlatech a několik dalších genů de novo bylo identifikováno pomocí transkriptomických dat odvozených ze varlat a samčích pomocných žláz z D. Yakuba a D. erecta . To je v souladu s jinými studiemi, které ukázaly, že dochází k rychlé evoluci genů souvisejících s reprodukcí v celé řadě linií, což naznačuje, že sexuální výběr může hrát klíčovou roli v adaptivní evoluci a narození genů de novo . Následná rozsáhlá analýza šesti kmenů D. melanogaster identifikovala 248 varlat exprimovaných de novo genů, z nichž ~ 57% nebylo fixováno. Odporná studie na dvanácti druzích Drosophila navíc identifikovala vyšší podíl de novo genů s expresí zkreslenou varlat ve srovnání s komentovaným proteomem. Bylo navrženo, že velký počet de novo genů s expresí specifickou pro muže identifikovaných v Drosophila je pravděpodobně způsoben skutečností, že tyto geny jsou přednostně zachovány ve srovnání s jinými de novo geny, z důvodů, které nejsou zcela jasné. Zajímavé je, že pro normální mužskou plodnost byly prokázány dva domnělé de novo geny v Drosophile ( Goddard a Saturn ).

U lidí studie, která identifikovala 60 genů de novo specifických pro člověka, zjistila, že jejich průměrná exprese, měřená pomocí RNA-seq, byla nejvyšší ve varlatech. Další studie zkoumající geny specifické pro savce obecněji také zjistila obohacenou expresi ve varlatech. Transkripce v savčích varlatech je považována za obzvláště promiskuitní, částečně kvůli zvýšené expresi transkripčního aparátu a otevřenému chromatinovému prostředí. Spolu s imunitně privilegovanou povahou varlat se předpokládá, že tato promiskuitní transkripce vytváří ideální podmínky pro expresi negenických sekvencí potřebných pro narození genu de novo . Exprese specifická pro varlata se zdá být obecným rysem všech nových genů, protože analýza druhů Drosophila a obratlovců zjistila, že mladé geny vykazují expresi předpojatou ve varlatech bez ohledu na jejich mechanismus vzniku.

Model předzesilovače

Preadaptační model narození genu de novo pomocí matematického modelování ukazuje, že když jsou sekvence, které jsou normálně skryté, vystaveny slabé nebo stíněné selekci, může být výsledný fond „kryptických“ sekvencí (tj. Proto-genů) očištěn od „samozřejmosti“ škodlivé ”varianty, jako jsou ty, které jsou náchylné k agregaci proteinů, a jsou tak obohaceny o potenciální adaptace ve srovnání se zcela neexprimovanou a nevyčištěnou sadou sekvencí. Toto odhalení a čištění kryptických škodlivých negenických sekvencí je vedlejším produktem všudypřítomné transkripce a translace intergenových sekvencí a očekává se, že usnadní zrod funkčních genů kódujících protein de novo . Důvodem je to, že odstraněním nejškodlivějších variant zbývá proces eliminace s větší pravděpodobností adaptivní, než se očekávalo od náhodných sekvencí. Pomocí evoluční definice funkce (tj. Že gen je podle definice čistící selekcí proti ztrátě) model před adaptace předpokládá, že „zrození genu je náhlý přechod k funkčnosti“, ke kterému dochází, jakmile ORF získá čistý prospěšný účinek. Aby se zabránilo tomu, že budou škodlivé, novorozenecké geny očekávají přehnané verze genových vlastností spojených s vyhýbáním se škodám. To je v kontrastu s proto-genovým modelem, který očekává, že novorozenecké geny budou mít vlastnosti mezi starými geny a negeny.

Matematika modelu před adaptace předpokládá, že distribuce efektů kondice je bimodální, přičemž nové sekvence mutací mají tendenci něco rozbít nebo si pohrát, ale jen zřídka mezi tím. Podle této logiky mohou populace vyvíjet buď lokální řešení, ve kterých výběr funguje na každém jednotlivém lokusu a udržuje se relativně vysoká chybovost, nebo globální řešení s nízkou chybovostí, které umožňuje akumulaci škodlivých kryptických sekvencí. Předpokládá se, že u populací, které vyvíjejí lokální řešení, je oblíbený gen de novo , protože relativně vysoká míra chyb bude mít za následek skupinu kryptických variací, která je „předem připravena“ prostřednictvím čištění škodlivých sekvencí. Místní řešení jsou pravděpodobnější v populacích s vysokou efektivní velikostí populace .

Na podporu modelu předběžné adaptace analýza ISD u myší a kvasinek zjistila, že mladé geny mají vyšší ISD než staré geny, zatímco náhodné negenické sekvence mají tendenci vykazovat nejnižší úrovně ISD. Ačkoli pozorovaný trend může částečně vyplývat z podskupiny mladých genů odvozených přetiskem, vyšší ISD v mladých genech je také vidět mezi překrývajícími se páry virových genů. S ohledem na další predikované strukturní znaky, jako je obsah β-vláken a sklon k agregaci, jsou peptidy kódované proto-geny podobné negenickým sekvencím a kategoricky se liší od kanonických genů.

Proto-genový model

Tento proto-genový model souhlasí s preadaptačním modelem o důležitosti všudypřítomné exprese a označuje soubor všudypřítomně exprimovaných sekvencí, které nesplňují všechny definice genu, jako „proto-geny“. Na rozdíl od modelu před adaptace proto-genový model, naznačuje, že novorozené geny mají rysy přechodné mezi starými geny a negeny. Tento model konkrétně předpokládá postupnější proces při výběru z negenického do genového stavu, přičemž odmítá binární klasifikaci genu a ne-genu.

V prodloužení proto-genového modelu bylo navrženo, že jak se proto-geny stávají více genové, jejich potenciál pro adaptivní změnu ustupuje vybraným účinkům; předpokládaný dopad mutací na kondici tedy závisí na evolučním stavu ORF. Tuto představu podporuje skutečnost, že nadměrná exprese zavedených ORF v S. cerevisiae bývá méně prospěšná (a škodlivější) než nadměrná exprese nově vznikajících ORF.

Několik znaků ORF koreluje s věkem ORF, jak bylo stanoveno fylostratigrafickou analýzou, přičemž mladé ORF mají vlastnosti přechodné mezi starými ORF a negeny; toto bylo bráno jako důkaz ve prospěch proto-genového modelu, ve kterém je proto-genový stav kontinuem. Tento důkaz byl kritizován, protože stejné zjevné trendy se očekávají také u modelu, ve kterém je identita jako gen binární. Podle tohoto modelu platí, že když každá věková skupina obsahuje jiný poměr genů oproti negenům, Simpsonův paradox může generovat korelace špatným směrem.

Pomalu rostou a modelují

Model „pomalý růst a línání“ popisuje potenciální mechanismus zrodu genu de novo , zejména u genů kódujících bílkoviny. V tomto scénáři se stávající ORF kódující proteiny rozšiřují na svých koncích, zejména na 3 'koncích, což vede k vytvoření nových N- a C-koncových domén. Nové C-koncové domény se mohou nejprve vyvinout za slabé selekce příležitostnou expresí prostřednictvím přečtené translace, jako v modelu před adaptace, až později se konstitutivně exprimují prostřednictvím mutace, která narušuje stop kodon. Geny s vysokým translačním čtením mívají vnitřně neuspořádané C-konce. Stávající geny jsou navíc často blízké opakujícím se sekvencím, které kódují neuspořádané domény. Tyto nové neuspořádané domény mohou zpočátku poskytovat určitou schopnost nespecifické vazby, která se postupně zpřesňuje výběrem. Sekvence kódující tyto nové domény se mohou příležitostně oddělit od svého rodičovského ORF, což vede nebo přispívá k vytvoření genu de novo . Je zajímavé, že analýza 32 hmyzích genomů zjistila, že nové domény (tj. Ty, které jsou pro hmyz jedinečné) mají tendenci se vyvíjet poměrně neutrálně, pouze s několika místy v rámci pozitivní selekce, zatímco jejich hostitelské proteiny zůstávají pod purifikační selekcí, což naznačuje, že se postupně objevují nové funkční domény a poněkud stochasticky.

Lidské zdraví

Kromě svého významu pro oblast evoluční biologie má narození genu de novo důsledky pro lidské zdraví. Spekulovalo se, že nové geny, včetně genů de novo , mohou hrát mimořádně velkou roli v druhově specifických rysech; mnoha druhově specifickým genům však chybí funkční anotace. Existují však důkazy, které naznačují, že de novo geny specifické pro člověka se podílejí na chorobách, jako je rakovina. NYCM , de novo gen jedinečný pro lidi a šimpanzy, reguluje patogenezi neuroblastomů v myších modelech a primátově specifický PART1 , gen lncRNA, byl identifikován jako supresor nádoru i onkogen v různých kontextech. Několik dalších genů de novo specifických pro člověka nebo primáty , včetně PBOV1 , GR6 , MYEOV , ELFN1-AS1 a CLLU1 , je také spojeno s rakovinou. Někteří dokonce navrhli považovat za vlastní třídu genetických prvků nádorově specificky exprimované evoluční nové geny s tím, že mnoho takových genů je v pozitivní selekci a v kontextu nádorů mohou být neofunkcionalizovány.

Specifická exprese mnoha de novo genů v lidském mozku také zvyšuje zajímavou možnost, že de novo geny ovlivňují lidské kognitivní rysy. Jedním takovým příkladem je FLJ33706 , gen de novo, který byl identifikován v GWAS a vazebných analýzách závislosti na nikotinu a vykazuje zvýšenou expresi v mozku pacientů s Alzheimerovou chorobou. Obecně řečeno, exprese mladých genů specifických pro primáty je obohacena v lidském mozku plodu vzhledem k expresi podobně mladých genů v myším mozku. Většina těchto mladých genů, z nichž několik pochází de novo , je exprimována v neokortexu, který je považován za zodpovědný za mnoho aspektů lidského specifického poznávání. Mnoho z těchto mladých genů vykazuje znaky pozitivní selekce a funkční anotace naznačují, že se podílejí na různých molekulárních procesech, ale jsou obohaceny o transkripční faktory.

Kromě jejich role v rakovinných procesech se de novo pocházející lidské geny podílejí na udržování pluripotence a na imunitní funkci. Preferenční exprese genů de novo ve varlatech také naznačuje roli v reprodukci. Vzhledem k tomu, že funkce mnoha de novo lidských genů zůstává necharakterizovaná, je pravděpodobné, že zhodnocení jejich přínosu pro lidské zdraví a rozvoj bude nadále růst.

Studie genomových měřítek osiřelých a de novo genů v různých liniích.
Organismus/rodokmen Metody detekce homologie Důkaz výrazu? Důkaz výběru? Důkaz fyziologické role? # Orphan/ De Novo Genes Poznámky Ref.
Členovci BLASTP pro všech 30 druhů proti sobě, TBLASTN pouze pro Formicidae , hledáno synteny pro anotované ortology pouze u Formicidae EST, RNA-následující; RT-PCR na vybraných kandidátech 37 ortologů omezených na Formicidae se objevuje pod pozitivním výběrem (modely M1a až M2a a M7 až M8 pomocí testů poměru pravděpodobnosti); jako skupina, Formicidae -restricted orthology mají významně vyšší K / K s rychlost než non-omezené ortology Predikce signálních peptidů a subcelulární lokalizace pro podskupinu sirotků ~ 65 000 osiřelých genů ve 30 druzích Hojnost osiřelých genů závislá na čase od vzniku od společného předka; > 40% sirotků z intergenních shod označujících možný původ de novo
Arabidopsis thaliana BLASTP proti 62 druhům, PSI-BLAST proti neredundantní proteinové databázi NCBI, TBLASTN proti jedinečné databázi transkriptů sestavené pomocí PlantGDB; hledaná syntenická oblast dvou blízce příbuzných druhů Transkriptomická a translatomická data z více zdrojů Alelové frekvence genů de novo korelovaly s jejich hladinami methylace DNA Žádný 782 genů de novo Rovněž byla hodnocena methylace DNA a modifikace histonu
Bombyx mori BLASTP proti čtyřem lepidopteranům , TBLASTN proti lepidopteranským EST sekvencím, BLASTP proti NCBI neredundantní proteinové databázi Microarray, RT-PCR Žádný RNAi na pěti genech de novo neprodukovaly žádné viditelné fenotypy 738 osiřelých genů Pět sirotků identifikovaných jako de novo geny
Brassicaceae BLASTP proti NCBI neredundantní proteinové databázi, TBLASTN proti NCBI nukleotidové databázi, TBLASTN proti NCBI EST databázi, PSI-BLAST proti NCBI neredundantní proteinové databázi, InterProScan Microarray Žádný TRG obohacené o změny exprese v reakci na abiotické stresy ve srovnání s jinými geny 1761 jaderných TRG; 28 mitochondriálních TRG ~ 2% TRG jsou považovány za de novo geny
Drosophila melanogaster BLASTN dotazovaných cDNA proti genomům D. melanogaster , D. simulans a D. yakuba ; provedl také kontrolu syntenické oblasti u sesterských druhů cDNA/ exprimované sekvenční značky (EST) K A / K s poměry vypočtené mezi nerozděleného nových genů a jejich rodičovských genů významně> 1, což ukazuje, většina nových genů jsou funkčně omezené Seznam obsahuje několik genů s charakterizovanými molekulárními rolemi 72 osiřelých genů; 2 de novo geny Dominantní mechanismus genové duplikace pro nové geny; 7/59 sirotků specifických pro komplex druhů D. melanogaster identifikovaných jako de novo
Drosophila melanogaster Přítomnost nebo nepřítomnost ortologů u jiných druhů Drosophila odvozených syntézou na základě zarovnání genomu UCSC a synteny na bázi proteinu FlyBase; TBLASTN proti podskupině Drosophila Nepřímý (RNAi) Nejmladší esenciální geny vykazují znaky pozitivní selekce (α = 0,25 jako skupina) Knockdown s konstitutivní RNAi smrtící pro 59 TRG 195 „mladých“ (> 35 let) TRG; 16 de novo genů Dominantní mechanismus duplikace genů pro nové geny
Drosophila melanogaster RNA-seq v D. melanogaster a blízkých příbuzných; syntenická zarovnání s D. simulans a D. yakuba ; BLASTP proti nerundantní proteinové databázi NCBI RNA-seq Diverzita nukleotidů nižší u neexprimujících příbuzných; Statistiky podobné Hudson-Kreitmanovi-Aguadeovi nižší v pevných de novo genech než v intergenních oblastech Strukturální znaky genů de novo (např. Obohacení dlouhých ORF) připomínající funkci 106 fixních a 142 segregujících de novo genů Specificky vyjádřeno ve varlatech
Drosophila All-vs-all BLASTP; fylostratigrafická analýza Komentované proteomy dvanácti druhů Drosophila Párové hodnoty d N /d S pro všechny jednotlivé exonové fokální ORF Žádný 6297 osiřelých genů; 2467 de novo genů
Homo sapiens BLASTP proti jiným primátům; BLAT proti genomům šimpanzů a orangutanů, ruční kontrola syntenických oblastí u šimpanzů a orangutanů RNA-seq Míra substituce poskytuje určité důkazy pro slabý výběr; 59/60 de novo genů je fixováno Žádný 60 de novo genů Umožňující identifikaci mutací; nejvyšší výraz v mozku a varlatech
Homo sapiens BLASTP proti šimpanzům, BLAT a Hledání syntenické oblasti u šimpanze, ruční kontrola syntenických oblastí u šimpanzů a makaků EST/cDNA Žádné rozdíly v nukleotidové divergenci nezaznamenaly žádné selektivní omezení Jeden z identifikovaných genů má známou roli v leukémii 3 de novo geny Odhaduje se, že lidský genom obsahuje ~ 18 genů de novo specifických pro člověka
Homo sapiens a dalších pět primátů BLAST proti každému ze šesti transkriptomů primátů; analýza syntenických oblastí Transkriptomová data až ze šesti typů tkání Párové poměry d N /d S pro homology lidského šimpanze naznačují většinou neutrální nebo mírnou purifikační selekci Žádný Celkem 29,751 přepsaných nových lidských ORF: 2 749 omezených na člověka, 5 378 omezených na primáty Bylo zjištěno, že nový zisk a ztráta ORF jsou převážně stochastické, nikoli formované výběrem
Lachancea a Saccharomyces BLASTP všech ohniskových druhů proti sobě, BLASTP proti neredundantní proteinové databázi NCBI, PSI-BLAST proti neredundantní proteinové databázi NCBI, HMM profil-profil rodin TRG proti sobě; rodiny se poté sloučily a hledaly ve čtyřech databázích profilů Hmotnostní spektrometrie (MS) K / K s poměry přes Saccharomyces ukazují, že kandidáti jsou pod slabým výběru, který se zvyšuje s věkem genu; u druhů Lachancea s více kmeny jsou poměry pN/pS nižší pro kandidáty de novo než pro „falešné TRG“ Žádný 288 kandidátů de novo TRG v Saccharomyces , 415 v Lachancea MS důkaz o překladu pro 25 kandidátů
Mus musculus a Rattus norvegicus BLASTP krysy a myši proti sobě, BLASTP proti databázi Ensembl Compara; hledal syntenické oblasti u krys a myší Databáze UniGene Podskupina genů vykazuje nízkou nukleotidovou diverzitu a vysokou konzervaci ORF u 17 kmenů Dva myší geny způsobují morbiditu, když jsou vyřazeny 69 de novo genů u myší a 6 genů „ de novo “ u potkanů Umožňující mutace identifikované pro 9 myších genů
Mus musculus BLASTP proti nerundantní proteinové databázi NCBI Microarray Žádný Žádný 781 osiřelých genů Věkově závislé rysy genů kompatibilní s de novo vznikem mnoha sirotků
Mus musculus a další čtyři savci DIAMOND a BLASTP; analýza fylostratigrafie Transkriptomy s vysokým pokrytím Žádný Žádný ~ 60 000 přepsaných nových ORF
Oryza BLAT protein na protein a nukleotid na nukleotid proti osmi druhům Oryza a dvěma druhům skupiny; hledal syntenické oblasti těchto druhů pro kódovací potenciál RNA-seq (všechny de novo TRG); Profilování ribozomu a cílená MS (některé de novo TRG) 22 de novo kandidáti se objeví v negativní selekci, a šest za pozitivní selekce, jak je měřeno K / K s rychlosti Exprese de novo TRG je tkáňově specifická 175 de novo TRG ~ 57% genů de novo má translační důkaz; transkripce ve většině případů předchází potenciálu kódování
Primáti BLASTP proti 15 eukaryotům, BLASTN proti lidskému genomu, analýza syntenických oblastí EST K / K s poměry pro TRGS pod jedním, ale vyšší než zavedených genů; kódovací skóre konzistentní s translatovanými proteiny Několik genů má dobře charakterizované buněčné role 270 TRG Odhaduje se, že ~ 5,5% TRG pochází de novo
Pristionchus pacificus BLASTP a tBLASTN, syntenická analýza RNA-seq 2 případy úplného vzniku genu de novo 27 dalších sirotků s vysokou jistotou, jejichž metody původu zahrnovaly artefakty anotací, chimérický původ, využití alternativního čtecího rámce a rozdělení genů s následným ziskem de novo exonů
Rodentia BLASTP proti nerundantní proteinové databázi NCBI Žádný Myší geny sdílejí 50% identitu s ortologem krys Žádný 84 TRG Druhově specifické geny vyloučeny z analýzy; výsledky robustní až evoluční rychlostí
Saccharomyces cerevisiae BLASTP a PSI-BLAST proti 18 houbovým druhům, HMMER a HHpred proti několika databázím, TBLASTN proti třem blízkým příbuzným Žádný Žádný Většina sirotků charakterizovala fitness účinky 188 osiřelých genů Věkové geny stanovené na úrovni jednotlivých zbytků
Saccharomyces cerevisiae BLASTP, TBLASTX a TBLASTN proti 14 dalším druhům kvasinek, BLASTP proti NCBI neredundantní proteinové databázi Profilování ribosomu Všech 25 de novo genů, 115 proto-genů pod purifikační selekcí (pN/pS <1) Žádný 25 de novo genů; 1891 „proto-genů“ Zrození genu de novo běžnější než nové geny z duplikace; proto-geny jsou jedinečné pro kvasinky Saccharomyces ( Sensu stricto )
Saccharomyces cerevisiae BLASTN, TBLASTX, proti nt/nr, ruční kontrola syntenického zarovnání transkripty, které jsou považovány za nekódující, ruční kontrola stop profilování ribozomů Žádný Žádný 1 de novo kandidátský gen, 217 transkriptů spojených s ribozomy Gen kandidáta de novo je polymorfní. Údaje o ribozomálním profilování jsou stejné jako v
Saccharomyces paradoxus Intergenní ORF (iORF) byly anotovány v ortologických intergenních oblastech identifikovaných pomocí mikrosynteny; Databáze BLASTP proti NCBI proteinům refseq proti 417 druhům, včetně 237 druhů hub. Sekvence Ribo, Sekvence RNA

Test translace in vivo pro podskupinu (45) translatovaných iORFS

Globální poměr dn/ds pro přeložené iORF ve 24 kmenech S. paradoxus neukázal žádný důkaz pro purifikaci selekce. Žádný 447 iORF s významnou translací, které byly specifické pro 3 linie S. paradoxus a 1 linii S. cerevisiae . Účinnost translace iORF byla obecně nižší než u anotovaných genů s významným překrytím; pouze ~ 2% z 19 689 nalezených iORF vykazovaly významnou translaci, ale v populacích divokých kvasinek tvoří až> 8% kanonického proteomu.
Saccharomyces sensu strictu BLASTP proti nerundantní proteinové databázi NCBI, TBLASTN proti deseti druhům přeskupení; BLASTP a phmmer proti 20 druhům kvasinek reannotated pomocí syntenic zarovnání Transkriptové sekvenování izoform (TIF-seq), profilování ribozomu Většina genů slabě omezena, ale podskupina pod silným výběrem, podle Neutrality Index, Direction of Selection, K a /K s a McDonald-Kreitman testů Subcelulární lokalizace prokázána pro pět genů ~ 13 000 genů de novo > 65% genů de novo jsou izoformy starých genů; > 97% z datové sady TIF-seq

Poznámka: Pro účely této tabulky, geny jsou definovány jako vzácná geny (při druhově specifická) nebo TRGS (při omezení na úzce příbuzné skupiny druhů), pokud nebyl zkoumán mechanismus vzniku, a jako de novo geny, když de bylo odvozeno novo vznik, bez ohledu na způsob odvození. Označení genů de novo jako „kandidátů“ nebo „proto-genů“ odráží jazyk používaný autory příslušných studií.

Viz také

Reference

Tento článek byl převzat z následujícího zdroje pod licencí CC BY 4.0 ( 2019 ) ( zprávy recenzenta ): Stephen Branden Van Oss; Anne-Ruxandra Carvunis (23. května 2019). „De novo genové narození“ . PLOS Genetika . 15 (5): e1008160. doi : 10.1371/JOURNAL.PGEN.1008160 . ISSN  1553-7390 . PMC  6542195 . PMID  31120894 . Wikidata  Q86320144 .