6 lições para o desenvolvimento de modelos de IA aprendidas na pandemia – pelo cientista de dados Youyang Gu

byJoaquim Cardoso

25 de junho de 2022

10 minute read

Esta é uma republicação do artigo abaixo, com o título acima.

Lições do famoso cientista de dados da pandemia, Youyang Gu

Ele criou um modelo de machine learning em uma semana e o usou diariamente em seu laptop (levou apenas uma hora), gerando previsões sobre a Covid-19 incrivelmente precisas.

MIT Technology Review
Julho, 2021

Key messages:

Lição #1: Concentre-se nos fundamentos
Lição #2: Minimize as suposições
Lição #3: Teste a hipótese
Lição #4: Aprenda com os erros
Lição #5: Envolva os críticos
Lição #6: Exercite o ceticismo saudável

O cientista de dados Youyang Gu se considera um realista — ele declara isso em seu perfil no Twitter: “Apresentador de vieses imparciais. Realista.”

Quando ele notou as projeções dispersas de Covid-19 na primavera passada — um modelo projetou 2 milhões de mortes nos EUA até o verão, outro previu 60.000 — Gu se perguntou se elas eram tão boas quanto a modelagem poderia ser.

Decidiu, portanto, tentar e criar ele mesmo um sistema modelo de Covid-19. “Todo o meu objetivo era produzir o modelo mais preciso possível”, diz Gu, de seu apartamento em Manhattan.

“Não ‘se isso’ ou ‘se aquilo’. Basicamente, sem ‘se’. Realmente não importa quais são os cenários. Eu só queria definir: ‘Esta é a previsão mais provável ou realista do que vai acontecer.’”

Em uma semana, ele construiu um modelo de machine learning e lançou seu site de projeções de Covid-19. Ele executou o modelo todos os dias — levou apenas uma hora em seu laptop — e postou projeções de mortes de Covid-19 para 50 estados dos EUA, 34 condados e 71 países.

No final de abril, ele estava atraindo atenção — no final das contas, milhões de pessoas acessavam seu site diariamente. Carl Bergstrom, professor de biologia da Universidade de Washington, percebeu e comentou no Twitter que o modelo de Gu estava “fazendo previsões que parecem tão boas quanto qualquer outra que já vi”.

“Posso ser um pouco cético quanto ao machine learning. Mas, neste caso, não deixe o texto de ‘ machine learning ‘ enganá-lo fazendo-o pensar que isso é uma solução milagrosa”, escreveu Bergstrom.

Graduado do MIT com mestrado em engenharia elétrica e ciência da computação (mais um diploma em matemática), Gu, 27 anos, estava trabalhando em uma startup de análise esportiva quando a pandemia começou. Mas ele pausou esse empreendimento quando os jogos da liga principal foram encerrados. E então, simplesmente pesquisando “epidemiologia” no Google, ele começou sua incursão na modelagem de Covid-19.

“Eu não tinha experiência em modelagem de doenças infecciosas”, diz ele. Mas ele tinha alguns anos de experiência como cientista de dados em finanças, trabalhando com modelos estatísticos que com base em certas suposições, analisam dados e fazem projeções sobre, digamos, qual será o preço de uma ação financeira no futuro.

“Acontece que muitos modelos de doenças infecciosas são basicamente modelos estatísticos”, diz Gu. E a meta de precisão do setor financeiro, orientada para o lucro, serviu-lhe bem no domínio epidemiológico. “Se você não conseguir fazer um modelo preciso em finanças, não terá mais um emprego”, diz ele. Em contraste, o objetivo no meio acadêmico — da perspectiva de Gu, pelo menos — não é tanto fazer modelos precisos, mas sim publicar artigos e elucidar políticas públicas. “Isso não quer dizer que eles não façam modelos precisos — apenas que não tentam otimizá-lo especificamente nessa direção”, diz ele.

O modelo de Gu combina o machine learning com um simulador clássico de doenças infecciosas denominado modelo SEIR (considerando os indivíduos da população que são suscetíveis, expostos, infectados, recuperados ou falecidos).

O componente SEIR usa como entrada um conjunto simulado de parâmetros — uma faixa de melhor estimativa para variáveis como o número de reprodução básico (a taxa em que surgem novos casos em uma população inteiramente suscetível no início de um surto, antes de intervenções ou imunidade), taxa de infecção, data de confinamentos, data de reabertura e número de reprodução efetiva (a taxa em que surgem novos casos após algumas intervenções). Em termos de resultados, o simulador SEIR primeiro calcula as infecções ao longo do tempo e, em seguida, calcula as mortes (multiplicando as infecções pela taxa de mortalidade).

O modelo de machine learning de Gu então gera milhares de combinações diferentes para esses conjuntos de critérios ao tentar encontrar os parâmetros da vida real para cada região geográfica. Ele aprende quais parâmetros geram as projeções de morte mais precisas, comparando as previsões do SEIR com dados reais sobre mortes diárias da Universidade Johns Hopkins. “Ele tenta aprender quais conjuntos de parâmetros geram mortes que mais se aproximam dos dados reais observados, em uma retrospectiva”, diz Gu. “E então ele usa esses parâmetros para prever e fazer projeções sobre as mortes no futuro”.

As previsões provaram ser extremamente precisas. Por exemplo, em 3 de maio, ele apareceu na CNN Tonight e compartilhou as projeções de seu modelo de que os EUA atingiriam 70.000 mortes em 5 de maio, 80.000 mortes em 11 de maio, 90.000 mortes em 18 de maio e 100.000 mortes em 27 de maio. Em 28 de maio, ele escreveu em seu Twitter: “Covid19-projections.com conseguiu acertar as 4 datas”. Com alguns arredondamentos, isso era verdade.

“Não estou dizendo que fui perfeito no ano passado. Eu estive errado muitas vezes. Mas acho que todos nós podemos aprender abordar a ciência como um método de encontrar a verdade, ao invés de encará-la como a própria verdade”.
Youyang Gu

O modelo não era perfeito, é claro, mas impressionou Nicholas Reich, bioestatístico e pesquisador de doenças infecciosas da Universidade de Massachusetts, Amherst, cujo laboratório, em colaboração com os Centros dos EUA para Controle e Prevenção de Doenças, agrega resultados de cerca de 100 equipes internacionais de modelagem.

Entre todos os modelos agregados, Reich observou, o modelo de Gu estava “consistentemente entre os melhores”.

Em 6 de outubro, Gu postou sua previsão final de morte, pouco antes da onda de outono. O modelo projetava 231.000 mortes nos Estados Unidos até 1º de novembro. O total registrado até aquela data: 230.995.

Gu encerrou seu primeiro modelo no início de outubro de 2020 porque havia muitas equipes fazendo boas previsões de mortalidade.

Em vez disso, ele passou a modelar infecções verdadeiras versus infecções relatadas.

Em dezembro, ele começou a monitorar o desdobramento da implantação da vacina e o ardiloso “ caminho para imunidade coletiva”, que no início de 2021 ele renomeou para “o caminho para a normalidade”. Enquanto a imunidade de rebanho é alcançada quando uma porção suficiente da população é imune ao vírus, reduzindo assim a disseminação, Gu define normalidade como “a supressão de todas as restrições relacionadas à Covid-19 para a maioria dos estados dos EUA”.

“Ficou claro que não alcançaremos a imunidade de rebanho em 2021, pelo menos definitivamente não em todo o país”, diz ele. “E eu acho que é importante, especialmente se você está tentando inspirar confiança, que criemos caminhos adequados para quando possamos voltar ao normal. Não deveríamos estar vinculando isso a uma meta irreal, como alcançar a imunidade coletiva. Ainda estou prudentemente otimista de que minha previsão original em fevereiro, de um retorno ao normal no verão, será válida”.

No início de março, ele empacotou tudo — ele percebeu que havia feito todas as contribuições que podia. “Eu queria dar um passo atrás e deixar os outros modeladores e especialistas fazerem seu trabalho”, diz ele. “Não quero perturbar o espaço”.

Ele ainda está de olho nos dados, fazendo pesquisas e análises — nas variantes, no desdobramento da vacina e na quarta onda. “Se eu vir algo que seja particularmente problemático ou preocupante que eu acho que as pessoas não estão falando, irei definitivamente fazer algo”, diz ele.

Mas, por enquanto, ele está se concentrando em outros projetos, como o “ YOLO Stocks “, uma plataforma de análise de cotações da bolsa.

Seu principal trabalho de pandemia é como membro do grupo de assessoria técnica da Organização Mundial da Saúde sobre avaliação de mortalidade da Covid-19, onde ele compartilha sua experiência profissional de fora.

“Eu definitivamente aprendi muito no ano passado”, diz Gu. “Foi muito revelador”.

Lição #1: Concentre-se nos fundamentos
Lição #2: Minimize as suposições
Lição #3: Teste a hipótese
Lição #4: Aprenda com os erros
Lição #5: Envolva os críticos
Lição #6: Exercite o ceticismo saudável

Lição #1: Concentre-se nos fundamentos

“Do ponto de vista da ciência de dados, meus modelos mostraram a importância da simplicidade, que muitas vezes é subestimada”, diz Gu. Seu modelo de previsão de morte era simples não apenas em seu design — o componente SEIR com uma camada de machine learning — mas também em sua abordagem bastante reduzida “de baixo para cima” em relação aos dados de entrada. Isso significa para “começar do mínimo e adicionar complexidade conforme necessário”, diz ele. “Meu modelo usa apenas mortes passadas para prever mortes futuras. Ele não usa nenhuma outra fonte de dados real”.

Gu notou que outros modelos se basearam em uma variedade eclética de dados sobre casos, hospitalizações, testes, mobilidade, uso de máscara, comorbidades, distribuição etária, dados demográficos , sazonalidade de pneumonia, taxa anual de mortalidade por pneumonia, densidade populacional, poluição do ar, altitude, dados de tabagismo, contatos autorrelatados, tráfego de passageiros de companhias aéreas, pontos de atendimento, termômetros inteligentes, publicações no Facebook, pesquisas do Google e muito mais.

“Há essa crença de que se você adicionar mais dados ao modelo ou torná-lo mais sofisticado, o modelo terá um desempenho melhor”, diz ele. “Mas em situações reais como a pandemia, onde os dados são muito ruidosos, você deseja manter as coisas o mais simples possível”.

“Decidi desde o início que as mortes passadas são a melhor previsão de mortes futuras. É muito simples: entrada, saída. Adicionar mais fontes de dados apenas tornará mais difícil extrair o sinal que precisamos do ruído”.

Lição #2: Minimize as suposições

Gu considera que teve uma vantagem em solucionar o problema ao utilizar uma folha em branco. “Meu objetivo era apenas seguir os dados da Covid para aprender sobre o coronavírus”, diz ele. “Esse é um dos principais benefícios da perspectiva de quem está de fora”.

Mas, por não ser um epidemiologista, Gu também precisava ter certeza de que não estava fazendo suposições incorretas ou imprecisas. “Meu papel é projetar o modelo de forma que ele possa aprender as suposições no meu lugar”, diz ele.
“Quando surgem novos dados que vão contra nossas crenças, às vezes tendemos a negligenciar esses novos dados ou ignorá-los, e isso pode causar repercussões no futuro”, observa ele. “Certamente fui vítima disso e sei que muitas outras pessoas também caíram nessa”.

“Portanto, estarmos cientes do potencial preconceito que temos e reconhecê-lo, e sermos capazes de ajustar nossos antecedentes — ajustando nossas crenças se novos dados as refutarem — é muito importante, especialmente em um ambiente de rápida evolução como o que vimos com a Covid-19”.

Lição #3: Teste a hipótese

“O que vi nos últimos meses é que qualquer um pode fazer afirmações ou manipular dados para se encaixar na narrativa do que eles querem acreditar”, diz Gu. Isso destaca a importância de simplesmente fazer hipóteses testáveis.

“Para mim, essa é a base de minhas projeções e previsões. Tenho um conjunto de suposições e, se elas forem verdadeiras, é isso que prevemos que acontecerá no futuro”, diz ele. “E se as suposições acabarem erradas, então é claro que temos que admitir que as suposições que fazemos não são verdadeiras e nos ajustar de acordo. Se você não fizer hipóteses testáveis, não há como mostrar se você está realmente certo ou errado”.

Lição #4: Aprenda com os erros

“Nem todas as projeções que fiz estavam corretas”, diz Gu. Em maio de 2020, ele projetou 180.000 mortes nos Estados Unidos até o início de agosto. “É um número muito mais alto do que vimos”, lembra ele (houve cerca de 155.000 mortes). Sua hipótese testável provou-se incorreta — “e isso me forçou a ajustar minhas suposições”.
Na época, Gu estava usando uma taxa fixa de mortalidade por infecção de aproximadamente 1% como uma constante no simulador SEIR. Quando, no verão, ele reduziu a taxa de mortalidade por infecção para cerca de 0,4% (e depois para cerca de 0,7%), suas projeções voltaram a mostrar um resultado mais realista.

Lição #5: Envolva os críticos

“Nem todo mundo vai concordar com minhas ideias, e eu acolho isso”, diz Gu, que usou o Twitter para postar suas projeções e análises. “Tento responder às pessoas o máximo que posso e defender meu posicionamento, além de debater com elas. Isso força você a pensar sobre quais são suas premissas e por que acha que estão corretas”.

“Isso remete ao viés de confirmação”, diz ele. “Se eu não for capaz de defender meu posicionamento adequadamente, então é de fato a afirmação certa, e eu deveria mesmo estar fazendo essas afirmações? Isso me ajuda a entender, ao me envolver com outras pessoas, como pensar sobre esses problemas. Quando outras pessoas apresentam evidências que contradizem meus posicionamentos, devo ser capaz de reconhecer quando posso estar errado em algumas de minhas suposições. E isso de fato me ajudou tremendamente a melhorar meu modelo”.

Lição #6: Exercite o ceticismo saudável

“Agora sou muito mais cético em relação à ciência — e isso não é ruim”, diz Gu. “Acho importante questionar sempre os resultados, mas de forma saudável. É uma linha tênue. Porque muitas pessoas simplesmente rejeitam a ciência, e essa também não é a maneira de proceder”.

“Mas eu acho que também é importante não apenas confiar cegamente na ciência”, ele continua. “Os cientistas não são perfeitos.” É apropriado, diz ele, se algo não parece certo, fazer perguntas e encontrar explicações. “É importante ter perspectivas diferentes. Se há algo que aprendemos no ano passado, é que ninguém está 100% certo o tempo todo”.
“Não posso falar por todos os cientistas, mas meu trabalho é isolar todo o ruído e chegar à verdade”, diz ele. “Não estou dizendo que fui perfeito no ano passado. Eu estive errado muitas vezes. Mas acho que todos nós podemos aprender a abordar a ciência como um método de encontrar a verdade, ao invés de encará-la como a própria verdade”.

Originally published at https://mittechreview.com.br on June 17, 2021.
Oferecido por SAS Brazil.