MethylGPT deblochează secretele ADN-ului pentru diagnosticul bolii și intervențiile personalizate de sănătate
©
Autor: Airinei Camelia
Metilarea ADN-ului este o modificare epigenetică esențială care reglează expresia genelor prin intermediul proteinelor de legare a metilului și prin modificări ale accesibilității cromatinei. Aceasta contribuie, de asemenea, la menținerea stabilității genomice prin reprimarea elementelor transpozabile.
Un studiu recent, publicat pe serverul de preprint bioRxiv, a prezentat dezvoltarea unui model de tip transformer numit MethylGPT, destinat analizei metilării ADN-ului. Metilarea ADN-ului are potențialul de a fi un biomarker ideal, iar cercetările au identificat semnături specifice de metilare asociate cu diferite stări patologice, facilitând diagnosticarea moleculară. Cu toate acestea, există provocări analitice semnificative care împiedică implementarea pe scară largă a diagnosticelor bazate pe metilare. Metodele actuale se bazează pe modele statistice simple și liniare, care sunt limitate în capacitatea lor de a captura date complexe și neliniare. De asemenea, acestea nu reușesc să ia în considerare efectele contextuale specifice, cum ar fi interacțiunile de ordin superior și rețelele de reglare.
Prin urmare, există o nevoie urgentă de un cadru analitic unificat care să poată modela modele complexe și neliniare în diferite tipuri de țesuturi și celule. Progresele recente în modele de tip foundation și arhitecturi transformer au revoluționat analiza secvențelor biologice complexe. Modele de bază au fost deja introduse în diferite domenii omice, cum ar fi AlphaFold3 și ESM-3 pentru proteomică și Evo și Enformer pentru genomică. Aceste realizări sugerează că și analiza metilării ADN-ului ar putea fi îmbunătățită printr-o abordare similară.
În acest context, cercetătorii au dezvoltat MethylGPT, un model de tip transformer pentru metilomul ADN-ului. Ei au colectat date de la 226.555 de profiluri de metilare a ADN-ului uman, acoperind multiple tipuri de țesuturi, din EWAS Data Hub și Clockbase. După eliminarea duplicatelor și controlul calității, au fost păstrate 154.063 de mostre pentru pre-antrenare. Modelul s-a concentrat pe 49.156 de situri CpG, selectate pe baza asocierilor lor cunoscute cu diverse trăsături, pentru a maximiza relevanța biologică.
MethylGPT a fost pre-antrenat folosind două funcții de pierdere complementare: masked language modeling (MLM) loss și profile reconstruction loss, permițându-i să prezică cu acuratețe metilarea la siturile CpG mascate. Modelul a atins o eroare medie de 0,014 și o corelație Pearson de 0,929 între nivelurile de metilare prezise și cele reale, indicând o precizie ridicată în predicție.
Pentru a evalua dacă modelul poate captura caracteristici biologic relevante ale metilării ADN-ului, cercetătorii au analizat reprezentările învățate ale siturilor CpG în spațiul de încorporare. Au descoperit că siturile CpG s-au grupat în funcție de contexte genomice similare, sugerând că modelul a învățat caracteristicile de reglare ale metilomului. De asemenea, a existat o separare clară între autozomi și cromozomii sexuali, indicând faptul că MethylGPT a capturat și caracteristici cromozomiale de ordin superior.
Analiza spațiilor de încorporare zero-shot a arătat o organizare biologică clară, cu grupări în funcție de sex, tip de țesut și context genomic. Tipurile majore de țesuturi au format clustere bine definite, indicând faptul că modelul a învățat modele de metilare specifice țesuturilor fără supraveghere explicită. Notabil, MethylGPT a evitat și efectele de lot (batch effects), care adesea confundă rezultatele în seturi de date complexe.
Următorul pas a fost evaluarea capacității MethylGPT de a prezice vârsta cronologică pe baza modelelor de metilare. Utilizând un set de date de peste 11.400 de mostre din diverse tipuri de țesuturi, acordarea pentru predicția vârstei a condus la o grupare robustă dependentă de vârstă. Chiar și înainte de fine-tuning, a fost evidentă o organizare intrinsecă legată de vârstă. MethylGPT a depășit metodele existente de predicție a vârstei, cum ar fi ceasul lui Horvath și ElasticNet, obținând o acuratețe superioară și o eroare absolută mediană de 4,45 ani.
Un aspect remarcabil al MethylGPT este rezistența sa la date lipsă. A demonstrat performanțe stabile chiar și cu până la 70% date lipsă, depășind abordările bazate pe perceptron multi-strat și ElasticNet. Această reziliență îl face extrem de util în scenarii din lumea reală, unde seturile de date pot fi incomplete.
Analizând profilurile de metilare în timpul reprogramării celulelor stem pluripotente induse (iPSC), modelul a evidențiat o traiectorie clară de întinerire; mostrele au trecut progresiv către o stare de metilare mai tânără pe parcursul reprogramării. MethylGPT a fost capabil să identifice momentul în timpul reprogramării (ziua 20) când celulele au început să arate semne clare de inversare a vârstei epigenetice.
În final, capacitatea modelului de a prezice riscul de boală a fost evaluată. Modelul pre-antrenat a fost acordat pentru a prezice riscul a 60 de boli și mortalitatea. A atins o arie sub curba (AUC) de 0,74 și 0,72 pe seturile de validare, respectiv de testare. De asemenea, au folosit acest cadru de predicție a riscului de boală pentru a evalua impactul a opt intervenții asupra incidenței bolilor prezise. Intervențiile au inclus renunțarea la fumat, antrenamentul de intensitate ridicată și dieta mediteraneană, fiecare arătând grade variate de eficacitate în diferite categorii de boli. Acest lucru a evidențiat efecte specifice intervențiilor în diferite categorii de boli, subliniind potențialul MethylGPT în prezicerea rezultatelor specifice intervențiilor și în optimizarea strategiilor de intervenție personalizate.
sursa: News Medical
Un studiu recent, publicat pe serverul de preprint bioRxiv, a prezentat dezvoltarea unui model de tip transformer numit MethylGPT, destinat analizei metilării ADN-ului. Metilarea ADN-ului are potențialul de a fi un biomarker ideal, iar cercetările au identificat semnături specifice de metilare asociate cu diferite stări patologice, facilitând diagnosticarea moleculară. Cu toate acestea, există provocări analitice semnificative care împiedică implementarea pe scară largă a diagnosticelor bazate pe metilare. Metodele actuale se bazează pe modele statistice simple și liniare, care sunt limitate în capacitatea lor de a captura date complexe și neliniare. De asemenea, acestea nu reușesc să ia în considerare efectele contextuale specifice, cum ar fi interacțiunile de ordin superior și rețelele de reglare.
Prin urmare, există o nevoie urgentă de un cadru analitic unificat care să poată modela modele complexe și neliniare în diferite tipuri de țesuturi și celule. Progresele recente în modele de tip foundation și arhitecturi transformer au revoluționat analiza secvențelor biologice complexe. Modele de bază au fost deja introduse în diferite domenii omice, cum ar fi AlphaFold3 și ESM-3 pentru proteomică și Evo și Enformer pentru genomică. Aceste realizări sugerează că și analiza metilării ADN-ului ar putea fi îmbunătățită printr-o abordare similară.
În acest context, cercetătorii au dezvoltat MethylGPT, un model de tip transformer pentru metilomul ADN-ului. Ei au colectat date de la 226.555 de profiluri de metilare a ADN-ului uman, acoperind multiple tipuri de țesuturi, din EWAS Data Hub și Clockbase. După eliminarea duplicatelor și controlul calității, au fost păstrate 154.063 de mostre pentru pre-antrenare. Modelul s-a concentrat pe 49.156 de situri CpG, selectate pe baza asocierilor lor cunoscute cu diverse trăsături, pentru a maximiza relevanța biologică.
MethylGPT a fost pre-antrenat folosind două funcții de pierdere complementare: masked language modeling (MLM) loss și profile reconstruction loss, permițându-i să prezică cu acuratețe metilarea la siturile CpG mascate. Modelul a atins o eroare medie de 0,014 și o corelație Pearson de 0,929 între nivelurile de metilare prezise și cele reale, indicând o precizie ridicată în predicție.
Pentru a evalua dacă modelul poate captura caracteristici biologic relevante ale metilării ADN-ului, cercetătorii au analizat reprezentările învățate ale siturilor CpG în spațiul de încorporare. Au descoperit că siturile CpG s-au grupat în funcție de contexte genomice similare, sugerând că modelul a învățat caracteristicile de reglare ale metilomului. De asemenea, a existat o separare clară între autozomi și cromozomii sexuali, indicând faptul că MethylGPT a capturat și caracteristici cromozomiale de ordin superior.
Analiza spațiilor de încorporare zero-shot a arătat o organizare biologică clară, cu grupări în funcție de sex, tip de țesut și context genomic. Tipurile majore de țesuturi au format clustere bine definite, indicând faptul că modelul a învățat modele de metilare specifice țesuturilor fără supraveghere explicită. Notabil, MethylGPT a evitat și efectele de lot (batch effects), care adesea confundă rezultatele în seturi de date complexe.
Următorul pas a fost evaluarea capacității MethylGPT de a prezice vârsta cronologică pe baza modelelor de metilare. Utilizând un set de date de peste 11.400 de mostre din diverse tipuri de țesuturi, acordarea pentru predicția vârstei a condus la o grupare robustă dependentă de vârstă. Chiar și înainte de fine-tuning, a fost evidentă o organizare intrinsecă legată de vârstă. MethylGPT a depășit metodele existente de predicție a vârstei, cum ar fi ceasul lui Horvath și ElasticNet, obținând o acuratețe superioară și o eroare absolută mediană de 4,45 ani.
Un aspect remarcabil al MethylGPT este rezistența sa la date lipsă. A demonstrat performanțe stabile chiar și cu până la 70% date lipsă, depășind abordările bazate pe perceptron multi-strat și ElasticNet. Această reziliență îl face extrem de util în scenarii din lumea reală, unde seturile de date pot fi incomplete.
Analizând profilurile de metilare în timpul reprogramării celulelor stem pluripotente induse (iPSC), modelul a evidențiat o traiectorie clară de întinerire; mostrele au trecut progresiv către o stare de metilare mai tânără pe parcursul reprogramării. MethylGPT a fost capabil să identifice momentul în timpul reprogramării (ziua 20) când celulele au început să arate semne clare de inversare a vârstei epigenetice.
În final, capacitatea modelului de a prezice riscul de boală a fost evaluată. Modelul pre-antrenat a fost acordat pentru a prezice riscul a 60 de boli și mortalitatea. A atins o arie sub curba (AUC) de 0,74 și 0,72 pe seturile de validare, respectiv de testare. De asemenea, au folosit acest cadru de predicție a riscului de boală pentru a evalua impactul a opt intervenții asupra incidenței bolilor prezise. Intervențiile au inclus renunțarea la fumat, antrenamentul de intensitate ridicată și dieta mediteraneană, fiecare arătând grade variate de eficacitate în diferite categorii de boli. Acest lucru a evidențiat efecte specifice intervențiilor în diferite categorii de boli, subliniind potențialul MethylGPT în prezicerea rezultatelor specifice intervențiilor și în optimizarea strategiilor de intervenție personalizate.
Concluzii
Studiul demonstrează că arhitecturile de tip transformer pot modela eficient modelele de metilare a ADN-ului, menținând în același timp relevanța biologică. Organizarea siturilor CpG pe baza caracteristicilor de reglare și a contextului genomic sugerează că modelul a capturat aspecte fundamentale fără supraveghere explicită. MethylGPT a arătat performanțe superioare în predicția vârstei în diferite țesuturi și a demonstrat o performanță robustă în gestionarea datelor lipsă de până la 70%, subliniind potențialul său util în aplicații clinice și de cercetare.sursa: News Medical
Data actualizare: 14-11-2024 | creare: 14-11-2024 | Vizite: 107
Bibliografie
MethylGPT unlocks DNA secrets for age and disease prediction, link: https://www.news-medical.net/news/20241111/MethylGPT-unlocks-DNA-secrets-for-age-and-disease-prediction.aspx ©
Copyright ROmedic: Articolul se află sub protecția drepturilor de autor. Reproducerea, chiar și parțială, este interzisă!
Alte articole din aceeași secțiune:
- Primul embrion modificat genetic şi problemele etice asociate
- Daunele produse asupra ADN-ului patern ar putea fi transmise descendenților
- O nouă metodă de testare genetică a ajutat la identificarea unor gene care cresc riscul de a dezvolta boala Alzheimer
- O nouă descoperire privind bazele genetice ale autismului
Din Ghidul de sănătate v-ar putea interesa și:
Forumul ROmedic - întrebări și răspunsuri medicale:
Pe forum găsiți peste 500.000 de întrebări și răspunsuri despre boli sau alte subiecte medicale. Aveți o întrebare? Primiți răspunsuri gratuite de la medici.- Implant silicon sani
- Pentru cei cu anxietate si atacuri de panica FOARTE IMPORTANT
- GRUP SUPORT PENTRU TOC 2014
- Histerectomie totala cu anexectomie bilaterala
- Grup de suport pentru TOC-CAP 15
- Roaccutane - pro sau contra
- Care este starea dupa operatie de tiroida?
- Helicobacter pylori
- Medicamente antidepresive?
- Capsula de slabit - mit, realitate sau experiente pe oameni