09/10/2017 - 13:45 - 14:40 Apresentações |
19442 - ALGORITMO DE CLASSIFICAÇÃO DE LINKS PARA APOIO AO PROCESSO DE LINKAGE DE BASES DE DADOS DANIEL - UFRJ, VICTOR MARTORELLI - UFRJ, MYRIAN COSTA - UFRJ, VALÉRIA BASTOS - UFRJ, CLÁUDIA MEDINA COELI - UFRJ, REJANE SOBRINO PINHEIRO - UFRJ, FRANCISCA LUCENA - UFRJ, JONAS BERTRAND - UFRJ
Objetivo: Implementar algoritmo que visa auxiliar no processo de julgamento de links oriundos do relacionamento probabilístico de registros.
Método:
O algoritmo, implementado em Java, consiste na aplicação de 20 critérios, elaborados a partir da opinião de especialistas em revisão manual. O algoritmo gera nota, pela soma da pontuação de cada critério. Os critérios se baseiam no nome do paciente, da mãe, data de nascimento e endereço. Os critérios são baseados em cálculos feitos a partir dos fragmentos dos nomes (primeiro, último e nomes do meio) e da data de nascimento (dia, mês e ano), levando-se em consideração: o grau de similaridade entre os fragmentos pela distância de Leveinstein; a "raridade" do nome na base; a quantidade de fragmentos do nome; as abreviações; mudança de dígito nas datas; e comparação do endereço. Alguns critérios pontuam com valores fixos (0 ou 1) e outros, entre 0 e 1, conforme o grau de similaridade entre os campos. O teste do algoritmo foi realizado com uma amostra de 407968 links formados pelo relacionamento probabilístico dos casos de Aids até 2008 com os óbitos por Aids do SIM (2000-2006), com o Reclink.
Resultados:
Nos links classificados automaticamente pelo Reclink como da zona-cinza, o algoritmo novo identificou links como possíveis pares, dos quais 72,8% foram confirmados por revisão manual.
Critérios envolvendo nomes raros e de similaridade ajudaram no julgamento.
Conclusão:
Alguns critérios melhoraram muito a classificação dos links em pares verdadeiros, mostrando a potencialidade do algoritmo na redução da etapa de revisão manual dos links duvidosos.
|