Um estudo brasileiro publicado na revista Scientific Reports demonstra que, usando algumas técnicas de inteligência artificial, é possível criar modelos eficientes de seleção genômica de cana-de-açúcar e de forrageiras, capazes de predizer, a partir do DNA, a performance em campo dessas gramíneas.
Em termos de acurácia, na comparação com as técnicas tradicionais de melhoramento, a metodologia desenvolvida com apoio da FAPESP apresenta um ganho de 50% na capacidade preditiva. É a primeira vez que o método baseado em aprendizado de máquina foi proposto para plantas poliploides (nas quais as células possuem mais de dois pares de cromossomos), como é o caso das gramíneas estudadas, viabilizando sua seleção genômica com alta eficiência.
Aprendizado de máquina é uma subárea da ciência da computação que envolve métodos de estatística e otimização. Com inúmeras aplicações, seu objetivo é criar algoritmos que consigam extrair de maneira automática padrões de um conjunto de dados.
Pode ser útil para predizer a performance de uma planta – por exemplo, se ela é resistente ou tolerante a algum tipo de estresse biótico (pragas e doenças causadas por insetos, nematoides, fungos ou bactérias) ou abiótico (frio, déficit hídrico, alta salinidade ou deficiência nutricional do solo).
Já o que tradicionalmente se faz nos programas de melhoramento são cruzamentos.
“Você estabelece populações por meio de cruzamentos de plantas que sejam interessantes. No caso da cana, uma que produza muito açúcar com outra que seja mais resistente, por exemplo. Você cruza e avalia a performance dos genótipos oriundos desses cruzamentos em campo”, explica Alexandre Hild Aono, cientista da computação formado pela Universidade Federal de São Paulo (Unifesp) e autor principal do artigo.
Melhoramento da cana tradicional é demorado e custa caro
“ Esse processo de avaliação leva muito tempo e é caro. Já pelo método que a gente propôs, é possível predizer qual será a performance dessas plantas antes mesmo de elas crescerem. Conseguimos por meio do material genético ter uma estimativa de como será o rendimento. Isso é bastante interessante, pois poupa muitos anos de avaliação.”
No caso da cana-de-açúcar, o desafio é extremamente complexo. O melhoramento tradicional leva entre nove e 12 anos e custa muito caro, explica Anete Pereira de Souza, professora titular do Departamento de Biologia Vegetal do Instituto de Biologia da Universidade Estadual de Campinas (Unicamp) que orientou Aono em seu doutorado, realizado no Centro de Biologia Molecular e Engenharia Genética (CBMEG).
“A partir do momento em que o melhorista identifica uma planta interessante, multiplica por clones para que aquele genótipo não seja perdido. Mas isso demora e custa muito. Um exemplo extremo é o melhoramento de seringueira, que leva até 30 anos”, diz Souza.
Para superar tais dificuldades, conta a cientista, é possível recorrer ao “melhoramento de plantas 4.0”, que é altamente dependente da análise de dados e ferramentas computacionais e estatísticas de alta eficiência. Cada genotipagem por sequenciamento pode envolver 1 bilhão de sequências.
O grande desafio que os cientistas enfrentam com as plantas poliploides, caso da cana-de-açúcar e das gramíneas forrageiras, é sua complexidade genômica.
“Neste caso, nem se sabia se a seleção genômica seria possível, em virtude da escassez de recursos e da dificuldade de se trabalhar com essa complexidade”, explica Aono.
Alta complexidade
Os pesquisadores contam que a seleção genômica começou com plantas diploides [células com dois conjuntos de cromossomos], que têm uma genética mais simples. “Só que as nossas plantas tropicais, de grande valor, não são diploides, são poliploides, e aí é complicado”, explica Souza.
Enquanto os seres humanos e quase a totalidade dos animais são diploides, a cana-de-açúcar pode ter até 12 cópias de cada cromossomo. Isso significa que cada indivíduo na espécie humana pode possuir até duas formas variantes de cada gene, uma herdada do pai e outra da mãe.
Já na cana essa complexidade é bem maior, uma vez que um dado gene pode teoricamente possuir muitas variantes no mesmo indivíduo. Dentro do genoma da cana-de-açúcar, há regiões que possuem seis conjuntos cromossômicos e outras com oito, dez, ou até mesmo 12 conjuntos. “A genética fica tão complicada que o melhorista trabalha com a cana como se ela fosse diploide.”
Em 2001, Theo Meuwissen, cientista da Norwegian University of Life Sciences, fez a associação do genoma com o fenótipo (as características visíveis) e foi aí que surgiu o que se chama hoje de seleção genômica.
Isso representou uma vantagem imensa para o melhoramento de plantas, pois passou a associar as características fenotípicas que interessavam – seja volume de produção, quantidade de açúcar ou precocidade da planta – às bases do genoma chamadas SNPs (sigla para single nucleotide polymorphism ou polimorfismo de nucleotídeo simples), explica Souza.
“É a diferença no genoma entre um indivíduo e outro: por exemplo, aquele que tem um A [que corresponde ao nucleotídeo adenina] produz um pouquinho mais do que aquele que tem um G [nucleotídeo guanina] naquele mesmo local do genoma. Isso mudou tudo. A partir do momento em que você encontra associação de algo que você busca, como uma produção alta de açúcar, com SNPs específicos em diferentes locais do genoma, você pode passar a fazer só o sequenciamento daquela população que é o foco do melhoramento.”
Melhorias
Além disso, com o avanço proposto por Aono e colegas, não é mais necessário plantar e fenotipar ao longo de todo o ciclo de melhoramento.
“Fazemos experimentos no campo nos primeiros ciclos do programa para obtermos o fenótipo de interesse de cada clone.
Paralelamente, sequenciamos todos os clones da população de melhoramento de uma forma bastante simples, não sendo necessário termos o genoma completo de cada clone. É o que chamamos de genotipagem por sequenciamento, ou seja, um sequenciamento parcial para buscar as diferenças e semelhanças de bases entre os diferentes clones. Estas se associarão às produções de cada clone.
A associação entre o fenótipo e o genoma permite identificar quem produz mais e quais são os SNPs associados à maior produção. Dessa forma, é possível identificar um clone que tem grande parte dos SNPs que contribuem para a maior produção observada nos experimentos iniciais. Assim, obtemos a variedade mais produtiva de modo mais rápido e com menor custo”, detalha Souza.
Por fim, o artigo A joint learning approach for genomic prediction in polyploid grasses pode ser lido na íntegra em: www.nature.com/articles/s41598-022-16417-7.