Un equip del Grup de Recerca en Quimioinformàtica i Nutrició de la Universitat Rovira i Virgili (URV) ha desenvolupat PDB-CAT, una nova eina informàtica per analitzar estructures tridimensionals de proteïnes dipositades al Protein Data Bank (PDB), una de les bases de dades de referència de la comunitat investigadora internacional en biologia estructural.
El Protein Data Bank recull estructures tridimensionals de proteïnes, àcids nucleics i macromolècules biològiques obtingudes experimentalment.
Aquestes estructures són fonamentals per entendre el funcionament de les proteïnes i com interaccionen amb altres molècules, així com per dissenyar fàrmacs capaços de modular-ne l’activitat.
Des de la seva creació, el Protein Data Bank ha experimentat un creixement constant del volum de dades. Actualment compta amb prop de 250.000 estructures tridimensionals, amb milers d’entrades noves cada any. Aquest volum d’informació és un recurs clau per a la recerca científica, però també genera dificultats per seleccionar les estructures més útils, especialment en projectes de disseny computacional de fàrmacs.
En molts casos, una mateixa proteïna pot tenir desenes o centenars d’estructures disponibles al PDB. Aquestes poden diferir en si la proteïna està sola o unida a un lligand, en el tipus d’unió (covalent o no covalent) o en la presència de mutacions respecte a la seqüència de referència, explica Ariadna Llop Peiró, doctoranda del Departament de Bioquímica i Biotecnologia de la URV i principal desenvolupadora del programa PDB-CAT. Segons apunta, analitzar manualment totes aquestes estructures és un procés lent i poc viable quan el volum de dades és tan elevat.
PDB-CAT s’ha creat precisament per automatitzar aquesta anàlisi d’estructures proteiques. L’eina permet detectar si una estructura conté un lligand unit a la proteïna, determinar si la unió és covalent o no covalent —una informació clau en el desenvolupament de fàrmacs— i identificar mutacions en la seqüència de la proteïna comparant-la amb una seqüència de referència proporcionada pels usuaris.
Menys temps d’anàlisi, més temps per a la recerca
Una de les principals fortaleses del programari és la seva eficiència computacional. PDB-CAT està paral·lelitzat, fet que permet executar l’anàlisi simultàniament en diversos processadors i reduir el temps necessari per analitzar grans conjunts d’estructures.
Gràcies a aquesta optimització, és possible analitzar tot el contingut actual del Protein Data Bank en poques hores amb un ordinador de sobretaula amb una CPU potent, cosa que converteix PDB-CAT en una eina especialment útil per al disseny computacional de fàrmacs, segons explica Said Trujillo de León, estudiant del doble grau en Enginyeria Informàtica i Biotecnologia de la URV, responsable de la implementació de la paral·lelització del programa.
Per comprovar el potencial de l’eina, PDB-CAT s’ha aplicat a l’anàlisi de totes les estructures de la proteasa principal del SARS-CoV-2, un enzim essencial per a la replicació del virus i una de les principals dianes en la recerca d’antivirals.
Amb aquesta eina, el grup investigador ha pogut classificar sistemàticament les estructures de la proteïna, identificar quines contenen inhibidors, determinar el tipus d’unió amb la proteïna i detectar mutacions i variants, informació clau per avançar en el disseny racional de nous fàrmacs.
L’equip investigador també destaca que PDB-CAT és un programari lliure i de codi obert, disponible públicament a GitHub, i que inclou un tutorial detallat per facilitar-ne l’ús tant a investigadors experts com a usuaris menys familiaritzats amb la programació.