Repositório COVID-19 Data Sharing/BR viabiliza descobertas nas áreas da saúde e da computação

Elton Alisson | Agência FAPESP – Um ano depois de ser lançado, o repositório COVID-19 Data Sharing/BR já registrou em torno de 4 mil downloads no acervo de mais de 50 milhões de dados de 800 mil pacientes, por usuários de 36 países.

“Temos a intenção de que o COVID-19 Data Sharing/BR constitua a base sobre a qual consigamos motivar a comunidade científica a compartilhar informações geradas com qualidade para produzir novo conhecimento”, disse Luiz Eugênio Mello, diretor científico da FAPESP. “O compartilhamento de dados é uma nova forma de fazer ciência, dentro da chamada, e a FAPESP pretende caminhar cada vez mais nessa direção.”

Pioneiro na América Latina, o repositório, que é uma iniciativa da FAPESP em cooperação com a Universidade de São Paulo (USP), tem o objetivo de disponibilizar de forma totalmente aberta dados relacionados à COVID-19 que possam contribuir para pesquisas sobre a doença. O material já possibilitou descobertas tanto na área da saúde como da computação.

Alguns dos resultados de pesquisas feitas com base nos registros disponibilizados na plataforma foram apresentados durante o evento on-line “O repositório COVID-19 Data Sharing/BR – dados abertos no combate à pandemia”, realizado em 18 de junho por ocasião do primeiro aniversário da plataforma.

A plataforma conta atualmente com mais de 50 milhões de registros, em sua maior parte de resultados de exames clínicos de mais de 800 mil pacientes, além de mais de 300 mil registros de desfecho.

No Brasil, os dados têm sido utilizados por pesquisadores de todos os Estados do país. “Quase metade dos downloads no Brasil foi feita por usuários fora de São Paulo. Isso, inclusive, possivelmente indica sua adoção em pesquisas colaborativas envolvendo vários centros”, disse Fátima Nunes, professora da USP e participante do projeto.

Os dados incluem informações demográficas e de exames clínicos e laboratoriais anonimizados de pacientes que fizeram algum exame relacionado à COVID-19.

“Os dados são disponibilizados de forma individual, porém os pacientes não podem ser identificados. Por isso, são verificados antes de serem compartilhados, de forma que os dados demográficos dos pacientes só podem ser informados se as combinações permitirem um agrupamento mínimo deles”, explicou Gabriela Barnabé, consultora da FAPESP e coordenadora de ciência de dados da Rede Globo.

A arquitetura do COVID-19 Data Sharing/BR foi fundamentada na Rede de Repositórios de Dados de Pesquisa do Estado de São Paulo, que levou três anos para ser construída e reuniu cem pessoas, entre eles gestores universitários, pesquisadores e técnicos da USP e das universidades estaduais de Campinas (Unicamp) e Paulista (Unesp), das universidades federais de São Paulo (Unifesp), do ABC (UFABC) e de São Carlos (UFSCar) e do Instituto Tecnológico de Aeronáutica (ITA).

“Juntas, essas instituições construíram seus repositórios e exportam seus metadados para uma interface única, que é disponibilizada para o mundo. É uma infraestrutura de dados abertos pioneira na América Latina”, disse Claudia Bauzer Medeiros, professora do Instituto de Computação da Unicamp e coordenadora do projeto da Rede.

Uma vez que a Rede de Repositórios foi projetada para ser extensível e para abertura de dados foi possível, em 15 dias, criar e acoplar o COVID-19 Data Sharing/BR, o que teria levado vários meses em outras situações.

“Até o fim de junho teremos dados muito recentes da maioria dos parceiros, que já estão sendo processados, mas precisam passar por todo um processo de revalidação para serem disponibilizados na plataforma”, disse Medeiros.

“O diferencial para outros repositórios é a variedade de dados, que incluem, por exemplo, centenas de tipos de exames, o que permite estudos de comorbidades. O potencial para o avanço do conhecimento em muitas áreas ainda está sendo explorado”, avaliou a pesquisadora.

Com base nos dados já disponíveis no repositório, pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP desenvolveram ferramentas de visualização de dados interoperáveis sobre COVID-19, manipulados como grafos, para enxergar e entender os relacionamento entre eles.

Uma das técnicas já desenvolvidas, batizada de Interoperable Covid Visualizer² (I-CovidVis), permite acompanhar a evolução de um paciente com a doença durante a internação, integrando os resultados de análises de parâmetros laboratoriais obtidos de diferentes tipos de analitos.

“A ferramenta permite que um especialista visualize os resultados das análises de qualquer conjunto de analitos em uma determinada faixa de tempo. Dessa forma, consegue obter muito rapidamente a informação que precisa para tomada de decisões”, explicou Agma Traina, professora do ICMC-USP e coordenadora do projeto.

Os dados disponíveis no repositório também permitiram a criação de um sistema sofisticado de consultas usando linguagem natural para estabelecer correlações entre os dados laboratoriais e os pacientes.

“Um ponto importante adicional nesse tipo de pesquisa é permitir que não especialistas em computação possam analisar esses dados usando português do Brasil – em vez de linguagens especializadas de programação para dados”, disse Marco Antonio Casanova, professor da Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio).

“O fato de as informações estarem abertas nos permitiu testar e validar nossa plataforma com um grande volume de dados reais”, afirmou.

Maior resposta inflamatória

Outro estudo, na área da saúde, feito com base em dados disponibilizados no repositório por pesquisadores de diversas instituições do Brasil e do exterior, indicou por que homens e idosos têm maior suscetibilidade a desenvolver COVID-19 grave.

Ao analisar os resultados de exames laboratoriais de mais de 178 mil pacientes testados para COVID-19, disponibilizados no repositório, os pesquisadores constataram que a doença induz alterações semelhantes nos parâmetros laboratoriais em homens e mulheres. Os pacientes idosos do sexo masculino, contudo, apresentaram indicadores laboratoriais significativamente mais anormais, incluindo níveis mais elevados de marcadores inflamatórios, em comparação com mulheres idosas.

Os resultados do estudo, apoiado pela FAPESP, foram publicados no International Journal of Infectious Diseases.

“Vimos que os níveis de marcadores de inflamação em pacientes diagnosticados com COVID-19 e em estado grave estavam extremamente elevados e variavam de acordo com o sexo e a idade”, disse Helder Nakaya, vice-diretor da Faculdade de Ciências Farmacêuticas (FCF-USP) e coordenador do estudo.

Logo após a disponibilização da primeira carga de dados no repositório, os pesquisadores analisaram por meio de técnicas de bioinformática os resultados dos exames laboratoriais de mais de 33 mil pacientes com diagnóstico positivo de COVID-19 fornecidos pelo Grupo Fleury e os hospitais Sírio-Libanês e Israelita Albert Einstein.

A maioria dos pacientes foi diagnosticada por meio do teste de RT-PCR – exame considerado padrão-ouro para detecção da doença.

Os resultados das análises indicaram que os níveis de proteína C reativa (PCR) e ferritina – produzidas pelo fígado e cuja concentração sanguínea aumenta em razão de processos inflamatórios ou infecciosos – , por exemplo, estavam aumentados especialmente em homens mais velhos com COVID-19.

Também foram observados níveis anormais de enzimas de função hepática – que indicam a infecção dos rins – em vários grupos de idade, exceto em mulheres jovens.

“O trabalho pode ajudar a orientar novas investigações sobre a patogênese da COVID-19 e contribuir para o desenvolvimento de modelos preditivos de infecção pelo SARS-CoV-2 e de evolução para um quadro grave da doença”, afirmou Nakaya (leia mais em: agencia.fapesp.br/33927).

Os pesquisadores estão desenvolvendo, agora, métodos de aprendizado de máquina para analisar uma nova carga de resultados de exames de pacientes diagnosticados com COVID-19 disponibilizados no repositório, que inclui também dados fornecidos pelo Hospital das Clínicas da Faculdade de Medicina da USP (HC-FM-USP) e da Beneficência Portuguesa de São Paulo (BP).

Um dos objetivos do trabalho será identificar os desfechos e as interações entre vários parâmetros laboratoriais.

“Pretendemos também analisar com maior nível de detalhe o que ocorre com os parâmetros laboratoriais de pacientes diagnosticados com COVID-19 e com outros tipos de infecções, como a dengue”, afirmou Nakaya.

O evento foi coordenado por Roberto Marcondes César, professor da USP e membro da coordenação do programa Centros de Pesquisa, Inovação e Difusão (CEPIDs), da FAPESP, e a moderação das perguntas foi feita por João Eduardo Ferreira, superintendente de tecnologia da informação da USP, ambos membros da coordenação de desenvolvimento técnico do repositório.

Também participaram do evento Luiz Fernando Lima Reis, superintendente de pesquisa do Hospital Sírio-Libanês; Luiz Vicente Rizzo, diretor de pesquisa da Sociedade Beneficente Israelita Brasileira Albert Einstein; Edgar Rizzati, diretor executivo médico e técnico do Grupo Fleury; e Geraldo Busatto, do Hospital das Clínicas da FM-USP, representando as instituições participantes da plataforma.

O evento pode ser assistido na íntegra em www.youtube.com/watch?v=qHlKOMAtM1Q.

Este texto foi originalmente publicado por Agência FAPESP de acordo com a licença Creative Commons CC-BY-NC-ND. Leia o original aqui.