Por: Teodoro Laino,
Distinguished RSM, Manager
Para a maioria de nós, a química pode ser apenas uma memória distante da infância que nos leva de volta aos tempos de escola, quando podíamos fazer experimentos com reações químicas. Afinal, quem não amava participar da feira de ciências da escola? Era o momento em que podíamos bagunçar a cozinha misturando bicarbonato de sódio, vinagre, água e tinta vermelha para fazer um vulcão entrar em erupção.
A química está em toda parte. De ingredientes vitais em produtos de consumo como a aspirina, às matérias-primas em produtos como o nylon, a química desempenha um papel essencial em produtos e tecnologias das quais nem conseguimos imaginar viver sem. No entanto, muitos de nós talvez não saibam que leva, em média, pelo menos 10 anos para descobrir e comercializar um novo material, e que os custos estimados de produção giram em torno de US$ 10 milhões. Veja o Nylon, por exemplo: as pesquisas começaram em 1927 e o produto pôde ser utilizado pela primeira vez em escova de dentes apenas em 1938. Ou a vitamina B12, cuja síntese exigiu 12 anos e o trabalho de uma equipe de mais de 100 pessoas, incluindo alunos de doutorado e pós-doutorado.
A química sintética, ou arte de fabricar materiais, é até hoje uma disciplina extremamente tradicional em termos de digitalização e incorporação de novas tecnologias. Os químicos ainda utilizam muitos dos mesmos protocolos e pouco progresso foi feito para modernizar as antigas práticas de tentativa e erro, para permitir uma nova era de descobertas aceleradas.
Para mudar esse cenário, um grupo dinâmico de cientistas de IBM Research está usando ferramentas modernas como inteligência artificial (IA), tecnologia em nuvem e robótica.
Cientistas da IBM mudam o jogo
Tudo começou há três anos, quando passamos a desenvolver modelos de aprendizado de máquina para prever reações químicas. Após alguns meses de desenvolvimento interno, lançamos o serviço gratuitamente através da nuvem da IBM, em agosto de 2018, e a resposta foi incrível. Nós o chamamos de RXN for Chemistry .
A mágica por trás do RXN for Chemistry é um método de tradução neural baseado em aprendizado de máquina de última geração que é capaz de prever o resultado mais provável de uma reação química usando arquiteturas de tradução automática neural. Semelhante a uma tradução do Português para o Inglês, nosso método traduziu a linguagem da química, convertendo reagentes e reativos em produtos, usando a representação SMILE para descrever entidades químicas.
Desde o lançamento, vimos refinando o treinamento da arquitetura e hoje, após dois anos, o RXN for Chemistry ainda é o método de IA baseado em dados com o melhor desempenho para previsão de reações futuras, com mais de 90% de precisão. Mas não somos apenas nós que estamos dizendo isso; basta perguntar aos 15.000 usuários que, no total, geraram mais de 760.000 previsões de reações químicas baseadas em aprendizado de máquina nos últimos dois anos.
Mais recentemente, em 2019, começamos a colaborar com um grupo de especialistas em química orgânica sintética da Universidade de Pisa (Itália) para integrar uma arquitetura retrosintética à ferramenta RXN. Para entender melhor, pense em como uma pizza é feita. A arquitetura retrosintética informa quais são os ingredientes da pizza e fornece instruções gerais para criá-la na ordem correta. Trabalhando com a equipe em Pisa, adicionamos essa capacidade ao RXN for Chemistry em outubro do ano passado.
A pesquisa por trás do laboratório autônomo
Voltando ao exemplo de como fazer uma pizza, as orientações gerais fornecidas pela análise retrosintética podem nem sempre ser suficientes para deixar a pizza no ponto ideal. Existem sempre alguns pequenos ingredientes secretos ou detalhes técnicos que farão a diferença entre uma pizza gourmet e uma normal, como misturar primeiro parte dos ingredientes para fazer uma fermentação especial, depois juntar os demais ingredientes numa segunda etapa. Esse é o tipo de dicas que você pega direto com cozinheiros mais experientes ou lendo seus livros de receita favoritos. Um químico faz a mesma coisa para aprender certas dicas.
E então você pode se perguntar por que é necessário sovar a massa da pizza. Essa é provavelmente a tarefa mais entediante, mas também a mais importante para desenvolver a textura correta. Ainda assim, misturar tudo e girar a massa pode ser divertido uma ou duas vezes, mas fazer isso 50 ou 60 vezes por dia é cansativo e demorado. Esse tempo e energia poderiam ser melhor aproveitados de outra forma. O mesmo vale para um químico que sintetiza moléculas.
Então, como podemos tornar a química divertida de novo? Fizemos isso reinventando a forma como a química é feita. Tudo que precisamos foi uma combinação de IA, tecnologia de nuvem e automação química. Essa mistura levou à criação do RoboRXN – algoritmos de aprendizagem de máquina que, de forma autônoma, projetam (IA) e executam (automação) a produção de moléculas em um laboratório acessível remotamente (nuvem) com o mínimo de intervenção humana possível.
Então, lembra dos segredos para fazer pizza? O principal desafio da química é que muitos detalhes operacionais sobre como “cozinhar” ingredientes químicos são relatados em prosa ou na forma de dados não estruturados, o que dificulta a fácil análise e interpretação. Para poder construir um modelo de IA com capacidade de aprender as etapas corretas dos procedimentos químicos, primeiro tivemos enfrentar o seguinte desafio: projetar um algoritmo que extrai especificamente informações de síntese para química orgânica e as converte em um formato estruturado e adequado para a automação.
Em relação a abordagem completa da estrutura RXN, optamos por um esquema puramente orientado por dados. Isso significa que, uma vez que o algoritmo de aprendizado de máquina adquira exemplos suficientes, ele pode descobrir por si só em quais palavras prestar atenção para extrair as etapas de produção corretas. Para fornecer os dados de treinamento para o modelo de aprendizado de máquina, configuramos uma estrutura de anotações que nos permitiu gerar exemplos de frases relacionadas aos procedimentos de síntese e às operações correspondentes. A principal vantagem dessa abordagem baseada em dados é que ela se baseia apenas em dados. Para melhorá-lo, você simplesmente precisa de mais exemplos.
Ao contrário de outras abordagens, nosso modelo deep learning converte procedimentos experimentais como um todo em um formato estruturado e fácil de automatizar, ao invés de examinar o texto em busca de informações relevantes. Além disso, não se baseia na identificação de entidades individuais em frases, nem exige a especificação de quais palavras ou grupos de palavras correspondem às ações de síntese, o que torna o modelo mais flexível e confiável.
Nosso trabalho pioneiro é apresentado atualmente na revista científica Nature Communications.
O RoboRXN aprende
A construção de um conjunto robusto de dados para procedimentos químicos nos permitiu construir o coração da tecnologia RoboRXN: um modelo de IA que, sendo treinado em um grande número de receitas químicas, aprende as especificidades dos produtos químicos para ser capaz de recomendar a sequência correta de operações para “cozinhar” uma molécula específica.
Voltando à analogia da pizza: imagine um modelo de IA que pode não apenas recuperar suas receitas favoritas quanto você solicitar, mas também pode consultar automaticamente sua base de conhecimento para fornecer uma lista ideal de instruções para fazer aquela pizza gourmet que certamente impressionará seus convidados do jantar.
De uma perspectiva de TI, isso é semelhante a ter uma arquitetura de inteligência artificial que escreve programas para fazer moléculas (ou cozinhar alimentos). Nosso objetivo ao construir o RoboRXN foi usar este modelo de IA para eliminar a entediante tarefa humana de programar hardware de automação comercial. E para tornar o sistema RoboRXN ainda mais conveniente e fácil de usar, implementamos todo o conjunto de serviços em IBM Cloud para torná-lo acessível em qualquer lugar onde haja uma conexão com a Internet.
Revolucionando a química industrial
O resultado é uma infraestrutura confiável e autônoma, que integra tecnologias como nuvem, inteligência artificial e automação para ajudar os químicos não apenas a prever reações químicas, mas também a executar a produção de uma molécula ou substância de qualquer lugar do mundo, o que é particularmente crítico à medida que continuamos a trabalhar de casa.
Quais são as implicações disto? Imagine se um sistema automatizado como o RoboRXN pudesse ajudar os químicos a reduzir pela metade o período de descoberta de um novo tratamento para COVID-19 ou qualquer outro vírus.
Ou o que aconteceria se o RoboRXN pudesse ajudar a acelerar o desenvolvimento de um fertilizante sem ter que consumir de 1% a 2% do suprimento anual de energia mundial para sua produção?
As possibilidades são infinitas quando se trata de humanos + máquinas.