Acessibilidade / Reportar erro

Efeito da remoção de notificações repetidas sobre a incidência da tuberculose no Brasil

Resumos

OBJETIVO: Avaliar o impacto nas taxas de incidência de tuberculose com a exclusão de registros indevidamente repetidos no sistema de notificação. MÉTODOS: Foram analisados dados do Sistema de Informação de Agravos de Notificação do Ministério da Saúde, referentes ao período de 2000 a 2004. Os registros repetidos foram identificados por pareamento probabilístico e classificados em seis categorias excludentes que determinaram suas remoções, vinculações ou permanências na base. RESULTADOS: Verificou-se que 73,7% das notificações eram únicas, 18,9% formavam duplas, 4,7% triplas e 2,7% grupos de quatro ou mais registros. Dentre os registros repetidos, 47,3% foram classificados como transferência entre unidades de saúde, 23,6% reingresso, 16,4% duplicidade verdadeira, 10% recidiva, 2,5% foram inconclusivos e 0,2% tinham dados incompletos. Essas percentagens variaram entre estados. A exclusão de registros indevidamente repetidos resultou em redução na taxa de incidência por 100.000 habitantes de 6,1% em 2000 (de 44 para 41,3), 8,3% em 2001 (de 44,5 para 40,8), 9,4% em 2002 (de 45,8 para 41,5), 9,2% em 2003 (de 46,9 para 42,6) e 8,4% em 2004 (de 45,4 para 41,6). CONCLUSÕES: Os resultados sugerem que as taxas observadas de incidência de tuberculose representem estimativas mais próximas do que seriam os valores reais do que as obtidas com a base em seu estado bruto, tanto em nível nacional como estadual. A prática de pareamento de registros de notificação de tuberculose deve ser estimulada e mantida para melhoria da qualidade dos dados de notificação.

Tuberculose; Notificação de doenças; Registros de doenças; Fontes de dados; Sistemas de Informação Brasil


OBJECTIVE: To evaluate the impact on tuberculosis (TB) incidence rates of removal of improper duplicate records from the notification system. METHODS: Data from the Sistema de Informação de Agravos de Notificação (Brazilian Information System for Tuberculosis Notification) from 2000 to 2004 were analyzed. Repeat records were identified through probabilistic record linkage and classified into six mutually exclusive categories and then kept, combined or removed from database. RESULTS: Of all TB records, 73.7% had no duplicate, 18.9% were duplicate, 4.7% were triplicate, and 2.7% were quadruplicate or more. Of all repeat records, 47.3% were classified as transfer in/out; 23.6% return after default, 16.4% true duplicates, 10% relapse, 2.5% inconclusive and 0.2% had missing data. These proportions were different in Brazilian states. Removal of improper duplicate records reduced TB incidence rate per 100.000 inhabitants by 6.1% in the year 2000 (from 44 to 41.3), 8.3% in 2001 (from 44.5 to 40.8), 9.4% in 2002 (from 45.8 to 41.5), 9.2% in 2003 (from 46.9 to 42.6) and 8.4% in 2004 (from 45.4 to 41.6). CONCLUSIONS: The study results indicate that the observed tuberculosis incidence rates represent estimates that would be closer to the actual rates than those obtained from the raw database at state and country level. The use of record linkage approach should be promoted for better quality of notification system data.

Tuberculosis; Disease Notification; Diseases registries; Data sources; Information Systems; Brazil


ARTIGOS ORIGINAIS

Efeito da remoção de notificações repetidas sobre a incidência da tuberculose no Brasil

Ana Luiza BierrenbachI; Antony Peter StevensI; Adriana Bacelar Ferreira GomesI; Elza Ferreira NoronhaII; Ruth GlattI; Carolina Novaes CarvalhoI; João Gregório de Oliveira JuniorI; Maria de Fátima Marinho de SouzaI

ISecretaria de Vigilância em Saúde. Ministério da Saúde. Brasília, DF, Brasil

IIFaculdade de Medicina. Universidade de Brasília. Brasília, DF, Brasil

Correspondência | Correspondence Correspondência | Correspondence: Ana L Bierrenbach Esplanada dos Ministérios Bloco G Edifício Sede, 1º andar, sala 150 70058-900 Brasília, DF, Brasil Telefone: 061-33153496 E-mail: ana.bierrenbach@saude.gov.br

RESUMO

OBJETIVO: Avaliar o impacto nas taxas de incidência de tuberculose com a exclusão de registros indevidamente repetidos no sistema de notificação.

MÉTODOS: Foram analisados dados do Sistema de Informação de Agravos de Notificação do Ministério da Saúde, referentes ao período de 2000 a 2004. Os registros repetidos foram identificados por pareamento probabilístico e classificados em seis categorias excludentes que determinaram suas remoções, vinculações ou permanências na base.

RESULTADOS: Verificou-se que 73,7% das notificações eram únicas, 18,9% formavam duplas, 4,7% triplas e 2,7% grupos de quatro ou mais registros. Dentre os registros repetidos, 47,3% foram classificados como transferência entre unidades de saúde, 23,6% reingresso, 16,4% duplicidade verdadeira, 10% recidiva, 2,5% foram inconclusivos e 0,2% tinham dados incompletos. Essas percentagens variaram entre estados. A exclusão de registros indevidamente repetidos resultou em redução na taxa de incidência por 100.000 habitantes de 6,1% em 2000 (de 44 para 41,3), 8,3% em 2001 (de 44,5 para 40,8), 9,4% em 2002 (de 45,8 para 41,5), 9,2% em 2003 (de 46,9 para 42,6) e 8,4% em 2004 (de 45,4 para 41,6).

CONCLUSÕES: Os resultados sugerem que as taxas observadas de incidência de tuberculose representem estimativas mais próximas do que seriam os valores reais do que as obtidas com a base em seu estado bruto, tanto em nível nacional como estadual. A prática de pareamento de registros de notificação de tuberculose deve ser estimulada e mantida para melhoria da qualidade dos dados de notificação.

Descritores: Tuberculose, epidemiologia. Notificação de doenças. Registros de doenças. Fontes de dados. Sistemas de Informação Brasil.

INTRODUÇÃO

No Brasil, o Sistema de Informação de Agravos de Notificação (Sinan) é usado para coletar e processar dados sobre doenças de notificação compulsória em todo o território nacional.1 1 Ministério da Saúde. Secretaria de Vigilância em Saúde. Sistema de Informação de Agravos de Notificação. Normas e rotinas. Brasília; 2004. (Série A: normas e manuais técnicos). A presença de registros indevidamente repetidos em um sistema de informação de saúde prejudica a correta interpretação dos dados de vigilância epidemiológica.

Para doenças crônicas como a tuberculose (TB), a geração de notificações repetidas pode decorrer de erros na entrada ou no processamento dos dados. Também, um paciente pode ser notificado repetidas vezes por unidades de saúde diferentes devido a transferências oficiais ou espontâneas entre elas durante o tratamento, ou em tratamentos distintos por recidiva após cura ou reingresso após abandono.2 2 Ministério da Saúde. Fundação Nacional de Saúde. Tuberculose - Guia de vigilância epidemiológica. Brasília; 00. A presença de recidivas e reingressos é considerada legítima nessa base de dados porque são episódios novos de TB, embora correspondam à mesma pessoa. Porém, os demais registros repetidos devem ser removidos.

O objetivo do presente trabalho foi avaliar o impacto nas taxas de incidência de tuberculose, com a exclusão de registros indevidamente repetidos em sistema de notificação.

MÉTODOS

Foram utilizados os registros de notificação de TB de todo o território nacional, ocorridos de 2000 a 2004. Esses dados foram disponibilizados em fevereiro de 2006 pela Gerência Nacional do Sinan-TB, a partir da consolidação dos dados enviados pelas Secretarias Estaduais de Saúde.

A identificação de registros repetidos seguiu as etapas: 1) pré-processamento da base de dados; 2) identificação de registros pareados (matches) utilizando o programa de pareamento Link-Plus; 3) verificação de quais registros pareados se referiam ao mesmo indivíduo (links); 4) pós-processamento, com reagrupamento dos registros pertencentes ao mesmo indivíduo. Os registros pareados pertencentes ao mesmo indivíduo foram considerados registros repetidos.

Durante o pré-processamento da base de dados foram feitas correções e depurações no conteúdo das variáveis "nome do paciente" e "nome da mãe do paciente", visando aumentar a chance de descobrir registros pareados. Os procedimentos adotados incluíram: 1) correção de erros óbvios de digitação; 2) eliminação ou substituição de caracteres especiais (%, /); 3) alteração da fonte dos nomes para letra maiúscula; 4) remoção de qualquer letra que estivesse isolada e de preposições dos nomes, 5) remoção de termos que indicavam a falta de conhecimento sobre o nome do paciente ou da mãe do paciente (e.g. ignorado, desconhecido).

Para a identificação de registros pareados utilizou-se o programa Link-Plus (CDC, Atlanta, Georgia, EUA),3 3 Centers for Disease Control and Prevention. Link Plus fact sheet. Atlanta: 2004 [Acesso em 2 set 2005]. Disponível em: http://ftp.cdc.gov/pub/Software/RegistryPlus/Link_Plus/Link%20Plus.htm por meio de método probabilístico para procurar registros repetidos. Por este método, desenvolvido por Fellegi & Sunter,2 foi calculada a probabilidade de concordância e discordância das variáveis selecionadas para parear os registros (variáveis de pareamento).

Para que o programa encontre registros repetidos é necessário preparar sua configuração. As variáveis "nome do paciente", "nome da mãe" e "data de nascimento" foram adotadas como variáveis de pareamento. A variável "sexo" foi escolhida para ser a variável de blocagem, ou seja, a variável usada para repartir o arquivo em blocos menores, visando a aumentar a rapidez do processo de pareamento.

As probabilidades usadas no processo de pareamento foram extraídas pelo método indireto. Isso significa que a variedade dos registros da base Sinan-TB submetidos ao pareamento determinou o cálculo de tais probabilidades; não foram usadas as probabilidades-padrão sugeridas pelo programa ou predefinidas pelos pesquisadores.

O Link-Plus calcula uma pontuação para cada dupla de registros pareados. Quanto maior a pontuação, maior a probabilidade de a dupla ser referente ao mesmo indivíduo. Valores acima de um determinado ponto de corte dessa pontuação são considerados registros repetidos e valores abaixo do ponto de corte são considerados registros únicos. O valor seis foi escolhido como ponto de corte. Ao final do processo de pareamento, o programa emite relatórios contendo as listas de duplas de registros pareados e de registros únicos.

Três sucessivas depurações manuais foram realizadas com o objetivo de considerar como duplas de registros pareados as que tivessem ambos os registros pertencentes ao mesmo indivíduo. O desmembramento da dupla cujos registros não se referiam ao mesmo indivíduo baseou-se em várias informações e critérios. Por exemplo, a data de nascimento é frequentemente mal preenchida, pois havia inconsistências entre a data de nascimento e a idade do paciente. A presença de registros com datas de nascimento diferentes tem baixo valor preditivo negativo no reconhecimento de uma dupla de registros do mesmo indivíduo, enquanto a presença de datas iguais tem alto valor preditivo positivo. O conhecimento dos pesquisadores a respeito da formação dos nomes próprios no Brasil também foi levado em consideração. Por exemplo, o fato de ser comum famílias darem nomes parecidos aos seus filhos permitiu, pelo programa Link-Plus, o reconhecimento de registros de possíveis irmãos como pertencente a um mesmo indivíduo, e que essa dupla indevida fosse desmembrada durante a depuração manual. Quando em dúvida, os pesquisadores optaram pela alternativa conservadora de não considerar os registros pareados como registros repetidos.

As duas primeiras depurações foram realizadas utilizando somente as variáveis de pareamento e a pontuação atribuída pelo programa. A terceira depuração aconteceu após o reagrupamento dos registros repetidos; foram comparadas outras variáveis de pareamento, como município e unidade de saúde de notificação e município e logradouro de residência. Em todas essas etapas, a pontuação atribuída pelo programa serviu para determinar quais registros mereciam maior atenção na depuração dos registros pareados.

Embora o Link-Plus forneça seus resultados no formato de duplas de registros, existem duplas relacionadas entre si de maneira transitiva. Pela lógica transitiva, se o registro A está relacionado com o registro B e com o C, então os registros B e C também estão necessariamente relacionados. Conseqüentemente, A, B e C foram reagrupados como uma tripla de registros pertencente a um mesmo indivíduo, mesmo que o programa de pareamento não tivesse identificado A e C como uma dupla.

No pós-processamento das duplas de registros repetidos, foram obtidos grupos de três, quatro ou mais registros considerados como um indivíduo. O grupo com maior número de registros repetidos relacionados possuía 15 registros.

Ao final dessas etapas, os registros estavam identificados como únicos (uma notificação sem repetição), duplas (uma notificação com uma repetição), triplas (uma notificação com duas repetições) e assim por diante.

Para classificar os registros repetidos, foram comparados os valores das seguintes variáveis: número de notificação, data de notificação, data do diagnóstico, data de notificação atual, data do início do tratamento atual, data de encerramento da notificação, código do município de notificação, código de identificação da unidade de saúde de notificação, código de identificação da unidade de saúde responsável pelo acompanhamento do paciente, tipo de entrada no sistema, forma clínica e situação de encerramento.

A comparação dos valores e a classificação foram realizadas utilizando-se uma rotina automática escrita no programa Stata 8.2. Os registros repetidos foram classificados em seis categorias mutuamente excludentes, a saber:

- Falta de dados: registros repetidos com valores faltantes nas variáveis referentes à data de notificação e/ou ao tipo de entrada no sistema e/ou ao código da unidade de saúde de notificação.

- Duplicidade verdadeira: registros repetidos com valores idênticos (e não faltantes) na variável referente ao código do município de notificação, que apresentassem a mesma data de notificação ou com intervalo inferior a 60 dias e que fossem provenientes da mesma unidade de saúde de notificação. Havia a possibilidade da concomitância de uso de duas tabelas de códigos de unidades de saúde. Assim, os registros eram considerados provenientes da mesma unidade de saúde caso tivessem códigos iguais ou que o código em uma tabela correspondesse ao código na outra. O mapa de trocas dos códigos de unidades de saúde foi solicitado a todos os estados, mas somente por metade deles foi disponibilizado em tempo de ser incluído no estudo.

- Recidiva: registros repetidos em que as categorias assinaladas nas variáveis relativas ao tipo de entrada no sistema e/ou à situação de encerramento indicassem cura anterior.

- Reingresso: registros repetidos em que as categorias assinaladas nas variáveis relativas ao tipo de entrada no sistema e/ou à situação de encerramento indicassem que abandono anterior.

- Transferência entre unidades de saúde: registros repetidos que tivessem sido notificados por unidades de saúde diferentes e que tivessem valores nas variáveis referentes ao tipo de entrada no sistema e/ou à situação de encerramento indicando que o caso havia sido transferido. Também foram classificados como transferência entre unidades de saúde registros repetidos que, embora possuíssem códigos iguais (ou correspondentes) da unidade de saúde de notificação, tivessem um diferente código da unidade de saúde responsável pelo acompanhamento do paciente.

- Inconclusiva: não foi possível chegar a uma classificação, apesar de as variáveis utilizadas não apresentarem valores faltantes.

Os registros repetidos da categoria transferência entre unidades de saúde foram classificados como: intra-municipais quando as unidades de saúde pertenciam ao mesmo município; inter-municipais se seus registros eram de municípios diferentes do mesmo estado; e inter-estaduais se seus registros eram de estados diferentes.

Após a classificação, os registros repetidos foram ou excluídos ou permaneceram na base de dados, seguindo as normas operacionais do Sinan. Assim, foram mantidos os registros classificados como recidivas, reingressos, inconclusivos. Na categoria de duplicidade verdadeira, o registro mais antigo (ou mais completo, se ambos tinham a mesma data de notificação) permaneceu. Na categoria de transferência entre unidades de saúde, os dados da ficha de notificação do registro mais antigo foram vinculados aos dados da ficha de acompanhamento do registro mais atual.2 2 Ministério da Saúde. Fundação Nacional de Saúde. Tuberculose - Guia de vigilância epidemiológica. Brasília; 00. Denominou-se "completa" a base de dados contendo todos os registros notificados, e de "enxuta" aquela contendo somente os registros não excluídos.

De acordo com as orientações sobre o uso do Sinan para ações de vigilância epidemiológica,1 1 Ministério da Saúde. Secretaria de Vigilância em Saúde. Sistema de Informação de Agravos de Notificação. Normas e rotinas. Brasília; 2004. (Série A: normas e manuais técnicos). foi considerado como caso novo de TB: 1)qualquer notificação em que a variável "entrada no sistema" estivesse preenchida com as categorias de "caso novo" ou "não sabe"; 2) a variável situação de encerramento não estivesse preenchida com a categoria de "mudança de diagnóstico".

As taxas de incidência de TB foram calculadas como número de casos novos de TB residentes em uma área diagnosticados em determinado ano, dividido pela população residente da área no mesmo ano e multiplicado por 100.000. Os dados populacionais foram provenientes do Instituto Brasileiro de Geografia e Estatística (IBGE).4 4 Departamento de Informática do Sistema Único de Saúde. Informações de saúde: demográficas e socioeconômicas. Brasília; 2005. [Acesso em 2 set 2005]. Disponível em: http://w3.datasus.gov.br/datasus/datasus.php?area=359A1B379C6D0E0F359G23HIJd6L26M0N&VInclude =../site/infsaude.php

RESULTADOS

Na base de dados de notificações de TB de 2000 a 2004 havia 482.501 registros, englobando todos os tipos de entrada no sistema e todas as formas clínicas. Desses, mais de 70% eram registros únicos, e a proporção de registros únicos, duplas, triplas e grupos de quatro ou mais não apresentaram tendência nítida (Tabela 1). Para cada região brasileira, a proporção de registros únicos, duplas, triplas e grupos de quatro ou mais também variou ao longo dos anos estudados, mas para alguns estados a variação foi considerada alta.

Na Tabela 2 observa-se que em 2003 os estados com a menor e a maior proporção de registros únicos foram, respectivamente, Goiás (21,1%) e Roraima (86,9%).

A Tabela 3 apresenta a proporção anual das seis categorias de registros repetidos. A categoria de transferências entre unidades de saúde foi a mais prevalente em todos os anos, compreendendo 55,4% dos registros repetidos no primeiro ano da série e estabilizando-se em torno de 47% nos anos seguintes. A proporção de reingressos foi de 12% em 2000 e depois permaneceu estável em torno de 25%. De uma maneira geral, o número de duplicidades verdadeiras diminuiu e de recidivas aumentou ao longo do período estudado.

Do total de 32.341 registros repetidos classificados como transferências entre unidades de saúde, 40,4% correspondiam a transferências intramunicipais, 47,8% intermunicipais e 11,8% interestaduais.

A Tabela 4 apresenta a classificação dos registros repetidos notificados em 2003, por regiões e estados. Houve diferença na proporção de registros repetidos em cada categoria entre os estados, mesmo pertencentes à mesma região. Enquanto Roraima, Amazonas e Amapá apresentaram as maiores proporções de transferências entre unidades de saúde, o Acre apresentou a menor, em que pese o pequeno número de registros repetidos de alguns desses estados. Em Goiás, as duplicidades verdadeiras representavam 74% dos registros repetidos, mais do que o dobro do encontrado na Paraíba, o segundo de maior proporção nessa categoria.

A Tabela 5 compara as taxas anuais de incidência de TB entre as bases de dados completa e enxuta, ou seja, respectivamente, antes e depois da remoção das duplicidades e vinculação dos registros de casos transferidos. Houve diferenças nas taxas anuais de incidência de TB entre as bases para todos os estados ao longo do período estudado, com raras exceções. As diferenças ultrapassaram 10% em pelo menos um ano para os estados de Amapá, Goiás, Paraíba, Piauí, Rio Grande do Norte, São Paulo e Tocantins. Goiás apresentou diferenças acima de 34% em todos os anos estudados. Para o Brasil como um todo, as diferenças observadas entre as taxas de incidência variaram entre as bases, de 6,1% no ano 2000 a 9,4% no ano 2002, sem tendência nítida. Na Tabela 5 também é possível constatar diferenças nas taxas ao longo dos anos e entre regiões e estados que não podem ser explicadas pela presença de registros repetidos no banco de dados e que, portanto, não foram objeto de análise do estudo.

DISCUSSÃO

O Sinan foi desenvolvido no início da década de 90 e tem passado por diversas atualizações no sentido de corrigir suas imperfeições e de continuamente adequá-lo às novas demandas da vigilância epidemiológica. Embora todos os municípios brasileiros enviem suas notificações ao Sinan, a entrada direta de dados informatizados ocorre em cerca de 70%. A atualização das bases dos níveis hierárquicos superiores é realizada rotineiramente por meio de transferências verticais de dados. As normas de operacionalização e a definição das atribuições das três esferas de governo estão regulamentadas em documentos oficiais e estão disponíveis aos usuários.1 1 Ministério da Saúde. Secretaria de Vigilância em Saúde. Sistema de Informação de Agravos de Notificação. Normas e rotinas. Brasília; 2004. (Série A: normas e manuais técnicos).

Coerente com as normas da vigilância epidemiológica, o Sinan dispõe de rotinas específicas para manejo de registros de pacientes de TB notificados mais de uma vez e de ferramentas próprias que facilitam a identificação de possíveis duplicidades e a realização de procedimentos para solucioná-las. Contudo, pelo montante de registros repetidos existentes na base nacional do Sinan-TB, essas rotinas não devem ser executadas com a devida freqüência e/ou o devido cuidado pelos usuários do sistema, especialmente nos municípios. A execução das rotinas é prioritariamente de responsabilidade dos responsáveis pela vigilância do agravo nas esferas administrativas existentes, em colaboração com os responsáveis pela gerência do sistema de informação.3,5 5 Glatt R. Análise da qualidade da base de dados de Aids do Sistema de Informação de Agravos de Notificação (Sinan) [dissertação de mestrado]. Rio de Janeiro: Escola Nacional de Saúde Pública da FIOCRUZ; 2004.

Os resultados mostram problemas na qualidade dos dados do Sinan-TB em todos os estados brasileiros. As reduções nas taxas anuais de incidência de tuberculose conseqüentes ao processo de pareamento, classificação e exclusão de registros, indevidamente repetidos da base de dados do Sinan-TB, poderiam ter sido ainda maiores se não houvesse registros repetidos não classificados e se os mapas de trocas dos códigos de unidades de saúde estivessem disponíveis para todos os estados. Também é possível que registros repetidos não tenham sido detectados pelo programa de pareamento utilizado. Não existe um padrão-ouro que permita a averiguação da sensibilidade do programa Link-Plus. Em estudos preliminares utilizando a base de dados do Sinan (dados não publicados), a sensibilidade alcançada pelo programa Link-Plus foi comparável ao uso da metodologia de distância editorial de Levenshtein, aplicada ao nome do paciente, nome da mãe do paciente e data de nascimento.6 6 Black PE. Levenshtein distance. In: Black PE, editor. Dictionary of algorithms and data structures. Gaithersburg: National Institute of Standards and Technology; 2005. [Acesso em 3 nov 2006]. Disponível em: http://www.nist.gov/dads/HTML/Levenshtein.html

Por outro lado, as reduções nas taxas anuais de incidência de TB podem ter sido superestimadas se registros pareados pertencentes a indivíduos diferentes foram erroneamente considerados como repetidos. Outro fator de superestimação dessa redução seria a classificação errônea de registros repetidos como casos de duplicidade verdadeira ou transferência entre unidades de saúde. Embora possíveis, essas situações são improváveis, devido a metodologia utilizada ser conservadora.

A metodologia probabilística não exige concordância exata entre os valores das variáveis de pareamento para o pareamento de dois registros. Mas, esse aspecto não aumentou indevidamente o número de registros repetidos encontrados, visto que os registros pareados foram subseqüentemente avaliados pelo pesquisador. A rigorosa depuração manual dos registros pareados contribuiu para incrementar a especificidade sem grande prejuízo da sensibilidade de encontrar registros repetidos na base do Sinan-TB.

Quanto à classificação dos registros repetidos, apenas as recidivas, os reingressos após abandono e as transferências entre unidades de saúde localizadas em estados diferentes seriam legitimamente esperados na base de dados de nível nacional. As demais categorias representam falhas na operacionalização e gerenciamento do sistema de informação nas diversas instâncias responsáveis pela vigilância e controle da TB.

Foram encontrados valores faltantes nas variáveis "data de notificação", "tipo de entrada no sistema" e "código de identificação da unidade de saúde", apesar de essas variáveis serem de preenchimento obrigatório no Sinan. Isso pode ocorrer por problemas no sistema, gerando arquivos corrompidos pela utilização inadequada de outras ferramentas que acessam a base de dados original (Sinanw.GDB) e acabam por danificá-lo, ou pela utilização de sistemas paralelos por alguns estados. Os dados gerados por esses outros sistemas são enviados ao Sinan, e muitas vezes não possuem campos de preenchimento obrigatório, gerando bases incompletas.

A geração de registros da categoria duplicidade verdadeira pode ser devida à passagem do paciente por diversos profissionais numa mesma unidade de saúde após a consulta que gerou a primeira notificação, no momento da entrega da amostra para o exame de escarro ou para obtenção do medicamento. Nesses momentos, o profissional de saúde gera uma nova notificação por segurança e ambos os registros são encaminhados para digitação. Entretanto, se há qualquer diferença no valor das variáveis que compõe os campos-chave (número de notificação, data de notificação, município de notificação e unidade notificadora), o sistema não reconhece que os registros são do mesmo paciente, gerando a duplicidade.

A presença de possíveis duplicidades na base de dados pode ser verificada de duas maneiras no Sinan. A primeira, por meio de listas de notificações com os nomes dos pacientes ou de suas mães ordenados alfabeticamente. A segunda maneira é por meio de listas de possíveis duplicidades identificadas por possuírem valores idênticos em uma variável criada automaticamente pelo programa. Estas listas são compostas pela junção do primeiro e último nome do paciente, do sexo e de sua data de nascimento. Cabe ao profissional de saúde responsável pela vigilância do agravo analisar essas listas, investigar as possíveis duplicidades contatando as unidades de saúde notificadoras, de modo a decidir seu encaminhamento adequado. Quando esses procedimentos não são realizados regularmente, as duplicidades se acumulam na base de dados em todos os níveis do sistema.

A existência de registros contendo códigos de unidade de saúde diferentes e valores idênticos nas demais variáveis analisadas foi conseqüente à introdução de uma nova tabela de códigos de unidades de saúde e a uma falha na padronização dos códigos da tabela nova. Isso fez com que registros contendo os códigos antigos não fossem substituídos por registros contendo os códigos novos quando da transferência vertical dos dados, gerando duplicidades. Após a identificação dessa falha de programação, a Gerência Nacional do Sinan encaminhou aos estados uma nota técnica explicativa e um aplicativo corretivo. Atualmente, o número de duplicidades geradas por essa falha e ainda não removidas da base de dados é pequeno. Desse modo, no presente trabalho optou-se por apresentar essa informação com os demais registros repetidos da categoria duplicidade verdadeira. Entretanto, esse aplicativo ainda não havia sido largamente utilizado em Goiás à época da extração da base de dados, resultando em 97,6% das duplicidades verdadeiras apresentadas pelo estado e influenciando suas taxas de incidência.

Em relação às transferências entre unidades de saúde entre os registros repetidos, quase 90% delas eram intramunicipais ou intraestaduais e deveriam ter tido seus registros vinculados pelo nível municipal ou estadual, respectivamente. As rotinas disponíveis no Sinan para identificação e vinculação de registros de pacientes transferidos não são executadas automaticamente. Elas exigem familiaridade com conceitos específicos relativos à vigilância do agravo e necessitam, portanto, da atuação dos responsáveis pela vigilância na gerência dos dados. Os motivos pelos quais as rotinas de vinculação não tem sido executadas devem ser investigados para que se intervenha com propriedade.

É também possível que na categoria de registros repetidos inconclusivos existam transferências entre unidades de saúde ou abandonos não reconhecidos pelo sistema de saúde e consequentemente registrados de forma adequada no Sinan. Isso implica que os técnicos responsáveis pela vigilância da tuberculose deveriam aprimorar o acompanhamento de seus pacientes e informar as unidades de saúde de origem o recebimento de um caso de transferência ou reingresso após abandono.

A comparação da qualidade dos dados da base do Sinan-TB de 2003 entre os estados deve ser criteriosa, pois a responsabilidade pela geração dos registros repetidos é compartilhada entre os níveis de gestão dos dados. Além disso, a interpretação dos dados aqui apresentados se limita à comparação da qualidade desses dados quanto à presença de registros repetidos. A análise da subnotificação de registros, da falta de completitude dos campos e inconsistência de dados e do atraso na remessa de informações não foram objeto de investigação no presente estudo, mas seriam necessárias para se completar o estudo da qualidade dos dados do Sinan-TB.

Não obstante as considerações sobre a metodologia empregada, acredita-se que as taxas anuais de incidência de TB obtidas no presente trabalho representem estimativas mais próximas do que seriam os valores reais do que as obtidas com a base em seu estado bruto, tanto em nível nacional como estadual. A prática de pareamento de registros de notificação de TB por meio da utilização das ferramentas intrínsecas do Sinan ou do uso acoplado de outros aplicativos de pareamento deve, portanto, ser estimulada e mantida para melhoria da qualidade dos dados de notificação.1

O presente estudo faz parte de uma pesquisa de avaliação do Programa Nacional de Controle de Tuberculose coordenada pelo Departamento de Análise de Situação de Saúde da Secretaria de Vigilância do Ministério da Saúde. O pareamento de dados por meio da metodologia utilizada permitiu a obtenção do diagnóstico da linha de base da qualidade dos dados do Sinan-TB de 2000 a 2004 e a elaboração de uma estratégia de intervenção implementada no segundo semestre de 2005.

Recebido: 30/1/2007

Aprovado: 27/3/2007

Nota: Ver Carta ao Editor neste Suplemento.

  • 1. Camargo Jr KR, Coeli CM. Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage. Cad Saude Publica. 2000;16(2):439-47.
  • 2. Fellegi IP, Sunter AB. A theory for record linkage. J Am Stat Assoc1969; 64(328):1183-210.
  • 3. Laguardia J, Domingues CMA, Carvalho C, Lauerman CR, Macário E, Glatt R. Sistema de Informação de Agravos de Notificação (Sinan): desafios no desenvolvimento de um sistema de informação em saúde. Epidemiol Serv Saude. 2004;13(3):135-46.
  • Correspondência | Correspondence:
    Ana L Bierrenbach
    Esplanada dos Ministérios
    Bloco G Edifício Sede, 1º andar, sala 150
    70058-900 Brasília, DF, Brasil
    Telefone: 061-33153496
    E-mail:
  • 1
    Ministério da Saúde. Secretaria de Vigilância em Saúde. Sistema de Informação de Agravos de Notificação. Normas e rotinas. Brasília; 2004. (Série A: normas e manuais técnicos).
  • 2
    Ministério da Saúde. Fundação Nacional de Saúde. Tuberculose - Guia de vigilância epidemiológica. Brasília; 00.
  • 3
    Centers for Disease Control and Prevention. Link Plus fact sheet. Atlanta: 2004 [Acesso em 2 set 2005]. Disponível em:
  • 4
    Departamento de Informática do Sistema Único de Saúde. Informações de saúde: demográficas e socioeconômicas. Brasília; 2005. [Acesso em 2 set 2005]. Disponível em:
  • 5
    Glatt R. Análise da qualidade da base de dados de Aids do Sistema de Informação de Agravos de Notificação (Sinan) [dissertação de mestrado]. Rio de Janeiro: Escola Nacional de Saúde Pública da FIOCRUZ; 2004.
  • 6
    Black PE. Levenshtein distance. In: Black PE, editor. Dictionary of algorithms and data structures. Gaithersburg: National Institute of Standards and Technology; 2005. [Acesso em 3 nov 2006]. Disponível em:
  • Datas de Publicação

    • Publicação nesta coleção
      21 Nov 2007
    • Data do Fascículo
      Set 2007

    Histórico

    • Recebido
      30 Jan 2007
    • Aceito
      27 Mar 2007
    Faculdade de Saúde Pública da Universidade de São Paulo Avenida Dr. Arnaldo, 715, 01246-904 São Paulo SP Brazil, Tel./Fax: +55 11 3061-7985 - São Paulo - SP - Brazil
    E-mail: revsp@usp.br