Pesquisadores desenvolvem programa para computação que mapeia mais rapidamente porções específicas do DNA de plantas para serem usadas em melhoramento genético
Pesquisadores da Unicamp desenvolveram um software capaz de mapear, de maneira rápida e econômica, porções específicas do genoma de plantas poliploides – aquelas que têm mais de dois conjuntos de cromossomos, como é o caso da cana-de-açúcar. A ferramenta pode ser útil para projetos que visam ao melhoramento genético de plantas de interesse comercial.
O trabalho, apoiado pela FAPESP, foi coordenado por Marcelo Falsarella Carazzolle, do Laboratório de Genômica e bioEnergia (LGE) do Instituto de Biologia (IB) da Unicamp. Os resultados foram divulgados na revista DNA Research.
Como explicou Carazzolle, o genoma da cana-de-açúcar – composto por 10 bilhões de pares de bases, distribuídos entre 100 e 130 cromossomos – é muito difícil de sequenciar pelos métodos genômicos atuais. "Decifrá-lo exige um aparato computacional muito poderoso. Mesmo em se tratando do estado da arte em termos de processamento, ainda assim é difícil, o custo é muito alto. É um desafio para a bioinformática”, disse.
A título de comparação, o genoma humano é composto por 3,2 bilhões de pares de bases espalhadas por 23 pares de cromossomos. O do trigo (Triticum aestivum), outra planta de grande importância comercial, tem 17 bilhões de bases divididas em 21 pares de cromossomos.
Outro fato complica o estudo do genoma da cana-de-açúcar: a espécie hoje cultivada, Saccharum hybridum, é um híbrido criado a partir do cruzamento de duas espécies – Saccharum officinarum, a cana originalmente domesticada na Índia há 3 mil anos, e uma gramínea chamada Saccharum spontaneum.
Há anos laboratórios em vários países têm tentado sem sucesso mapear o genoma completo da Saccharum hybridum. O Projeto Genoma Cana – conhecido como Projeto FAPESP Sucest, por exemplo, mapeou 238 mil fragmentos de genes funcionais da planta.
Há poucos meses, um consórcio que envolve cientistas de vários países, incluindo o Brasil, obteve sucesso em mapear entre 50% e 60% do genoma monoploide da cana (apenas um cromossomo de cada par). O trabalho, publicado na Nature Communications em 2018, teve a participação de Marie-Anne Van Sluys, professora titular do Departamento de Botânica da Universidade de São Paulo (USP) e membro da Coordenação Adjunta de Ciências da Vida da FAPESP.
A estratégia usada pelo consórcio envolveu computação em larga escala e um grande investimento. Já no artigo recém-publicado na DNA Research, Carazzolle e colegas apresentam uma estratégia diferente, muito mais econômica e veloz, capaz de mapear porções específicas do genoma da cana e de plantas poliploides.
O trabalho contou com uma bolsa de doutorado para Karina Yanagui de Almeida e outra de pós-doutorado para Juliana José, ambas orientadas pelo professor Gonçalo Amarante Guimarães Pereira, do IB-Unicamp.
“Conseguimos desenvolver um software para reconstruir esses genomas complexos e aplicá-lo à cana. Não buscamos montar um genoma completo, como fizeram anteriormente, onde reconstruíram todo o DNA da planta. Nossa estratégia foi focar em pequenas parcelas do genoma, algo entre 1% e 2% do DNA, exatamente onde se encontram os genes de interesse para o melhoramento genômico da planta”, disse Carazzolle.
Com a estratégia não há necessidade de despender dezenas de milhões de dólares com o mapeamento completo da cana. Quando o trabalho foi realizado, o grupo do consórcio ainda não havia publicado seus resultados, de modo que os geneticistas brasileiros tiveram de usar genomas públicos conhecidos – como do sorgo, do arroz e do milho, que são gramíneas aparentadas em maior ou menor grau da cana – para localizar nas regiões análogas do genoma da cana as porções de DNA que desejavam decifrar.
O trabalho por analogia é possível, uma vez que todas as gramíneas contam com um ancestral comum que viveu há mais de 50 milhões de anos. Em outras palavras, decorrido esse longo período, o DNA de qualquer gramínea atual, seja ela a cana-de-açúcar, o trigo, sorgo, arroz ou milho, ainda preserva a filigrana daquele ancestral original, somada aos bilhões de mutações acumulados desde então.
Montador de genes
O resultado do trabalho feito na Unicamp foi a criação de um software denominado Polyploid Gene Assembler (PGA, ou Montador de Genes Poliploides). “O PGA representa uma nova estratégia para realizar a montagem do espaço genético a partir de genomas complexos usando sequenciamento de DNA de baixa cobertura”, disse Carazzolle.
Se o PGA exige menos poder computacional do que o processamento maciço de um DNA poliploide completo, ainda assim para rodar em tempo hábil o programa necessita de um grande aparato computacional. Para isso, entrou em cena o cluster de máquinas do Centro de Engenharia e Ciências Computacionais (CCES), um Centro de Pesquisa, Inovação e Difusão (CEPID) apoiado pela FAPESP. Carazzolle é um dos pesquisadores principais do CCES na área de bioinformática. “O trabalho exigiu o emprego dos computadores de alto desempenho e com muita memória existentes no CCES”, disse.
O novo programa PGA usa como referência loci gênicos (locais fixos no cromossomo onde estão localizados os genes de interesse) conhecidos de genomas públicos, a partir dos quais são empregadas estratégias de montagem para construir sequências genômicas de alta qualidade na espécie investigada. A validação do processo foi realizada com trigo, uma espécie hexaploide, usando como referência a cevada (Hordeum vulgare), que resultou na identificação de mais de 90% dos genes, inclusive vários ainda desconhecidos.
Além disso, o PGA foi usado para montar o conteúdo gênico em Saccharum spontaneum, o capim do mesmo gênero da cana-de-açúcar tradicional (Saccharum officinarum), usado na linhagem parental para cultivares híbridos de cana cultivada atualmente (Saccharum hybridum).
“Identificamos um total de 39.234, dos quais 60,4% agrupados em famílias de genes de gramíneas conhecidas. Trinta e sete famílias de genes foram expandidas quando comparadas com outras gramíneas, três delas destacadas pelo número de cópias de genes potencialmente envolvidas no desenvolvimento inicial e resposta ao estresse”, disse Carazzolle.
“Nossos achados do genoma do S. spontaneum destacaram pela primeira vez as bases moleculares de algumas características notáveis dessa biomassa, como a alta produtividade e a resistência frente ao estresse biótico e abiótico. Esses resultados podem ser empregados em futuros estudos funcionais e genéticos, além de apoiar o desenvolvimento de novas variedades de cana-de-açúcar para a indústria agronômica”, disse.
“Usando o PGA, fornecemos uma montagem de alta qualidade de regiões gênicas em T. aestivum e S. spontaneum, demonstrando que o PGA pode ser mais eficiente do que estratégias convencionais aplicadas em genomas complexos e usando sequenciamento de DNA de baixa cobertura. O baixo requisito de memória do PGA em comparação com a estratégia de montagem convencional também é uma vantagem”, disse Carazzolle.
O pesquisador ressalta que, mesmo com grandes avanços nas tecnologias de sequenciamento, a montagem de genomas complexos ainda representa um gargalo, principalmente devido à poliploidia e alta heterozigosidade.
De acordo com Carazzolle, o desenvolvimento de novos esforços de bioinformática pode contribuir para a superação dessas restrições, especialmente usando genomas completos dos organismos intimamente relacionados, nos quais os métodos baseados em conjuntos de referência possam ser aplicados.
O artigo
O artigo Unraveling the complex genome of Saccharum spontaneum using Polyploid Gene Assembler (doi: https://doi.org/10.1093/dnares/dsz001), de Leandro Costa Nascimento, Karina Yanagui, Juliana José, Eduardo L. O. Camargo, Maria Carolina B. Grassi, Camila P. Cunha, José Antonio Bressiani, Guilherme M. A. Carvalho, Carlos Roberto Carvalho, Paula F. Prado, Piotr Mieczkowski, Gonçalo A. G. Pereira e Marcelo F. Carazzolle, está publicado em https://academic.oup.com/dnaresearch/advance-article/doi/10.1093/dnares/dsz001/5320315.