CERTIFICADOS DISPONÍVEIS!
Acesse sua área restrita para imprimir.

PROGRAMAÇÃO CIENTÍFICA
Consulte a grade completa do evento.

CONVIDADOS
Conheça os palestrantes confirmados.

ANAIS DISPONÍVEIS
Clique e confira!
Já é inscrito no EPI 2017?


Página Inicial

Notícias do Congresso

Comissões

Inscrições

Orientações para os Trabalhos

Programação

Cursos e Oficinas

Convidados

Local do Evento

Turismo e Hospedagem

Apoio Institucional

Associe-se à Abrasco

Perguntas Frequentes

Fale Conosco

Está encerrado o prazo para envio de resumos.
Resultado na área restrita do autor.

Notícias




Sessão de Poster

09/10/2017 - 13:45 - 14:40
Apresentações

19442 - ALGORITMO DE CLASSIFICAÇÃO DE LINKS PARA APOIO AO PROCESSO DE LINKAGE DE BASES DE DADOS
DANIEL - UFRJ, VICTOR MARTORELLI - UFRJ, MYRIAN COSTA - UFRJ, VALÉRIA BASTOS - UFRJ, CLÁUDIA MEDINA COELI - UFRJ, REJANE SOBRINO PINHEIRO - UFRJ, FRANCISCA LUCENA - UFRJ, JONAS BERTRAND - UFRJ


Objetivo: Implementar algoritmo que visa auxiliar no processo de julgamento de links oriundos do relacionamento probabilístico de registros.

Método:
O algoritmo, implementado em Java, consiste na aplicação de 20 critérios, elaborados a partir da opinião de especialistas em revisão manual. O algoritmo gera nota, pela soma da pontuação de cada critério. Os critérios se baseiam no nome do paciente, da mãe, data de nascimento e endereço. Os critérios são baseados em cálculos feitos a partir dos fragmentos dos nomes (primeiro, último e nomes do meio) e da data de nascimento (dia, mês e ano), levando-se em consideração: o grau de similaridade entre os fragmentos pela distância de Leveinstein; a "raridade" do nome na base; a quantidade de fragmentos do nome; as abreviações; mudança de dígito nas datas; e comparação do endereço. Alguns critérios pontuam com valores fixos (0 ou 1) e outros, entre 0 e 1, conforme o grau de similaridade entre os campos. O teste do algoritmo foi realizado com uma amostra de 407968 links formados pelo relacionamento probabilístico dos casos de Aids até 2008 com os óbitos por Aids do SIM (2000-2006), com o Reclink.

Resultados:
Nos links classificados automaticamente pelo Reclink como da zona-cinza, o algoritmo novo identificou links como possíveis pares, dos quais 72,8% foram confirmados por revisão manual.
Critérios envolvendo nomes raros e de similaridade ajudaram no julgamento.

Conclusão:

Alguns critérios melhoraram muito a classificação dos links em pares verdadeiros, mostrando a potencialidade do algoritmo na redução da etapa de revisão manual dos links duvidosos.


Realização:


Patrocínio:


Apoio:





Desenvolvido por Zanda Multimeios da Informação