Falta de mecanismos de dados

Como quase qualquer pesquisador pode atestar, os dados em falta são um problema generalizado. Dados de pesquisas, experiências, e fontes secundárias são muitas vezes faltam alguns dados. O impacto dos dados ausentes sobre os resultados da análise estatística depende do mecanismo que fez com que os dados a serem perdidos e a maneira em que o analista dados lida com ela. Este é o primeiro de uma série de três artigos que discute questões que envolvem dados em falta. Este artigo descreve os mecanismos de dados em falta e alguns de seus impactos. Artigos subseqüentes vou explicar soluções comuns mas problemáticos à falta de dados, novas e melhores soluções, eo software disponível para implementar essas soluções.

Os dados estão em falta por muitas razões. Indivíduos em estudos longitudinais, muitas vezes desistem antes de o estudo estiver concluído, porque eles se mudaram para fora da área, morreu, já não vê benefício pessoal para participar, ou não gosta dos efeitos do tratamento. Opiniões sofrer falta de dados quando os participantes recusar, ou não sabe a resposta para ou acidentalmente ignorar um item. Alguns pesquisadores do inquérito mesmo projetar o estudo de modo que algumas perguntas são feitas de apenas um subconjunto de participantes. Estudos experimentais têm falta de dados quando um pesquisador é simplesmente incapaz de recolher uma observação. Más condições atmosféricas pode tornar impossível a observação em experimentos de campo. Um pesquisador fica doente ou equipamento falha. Os dados podem estar faltando em qualquer tipo de estudo devido a um erro acidental ou entrada de dados. Um pesquisador deixa cair uma bandeja de tubos de ensaio. Um arquivo de dados for corrompido. A maioria dos pesquisadores estão muito familiarizados com um (ou mais) dessas situações.

Os dados em falta são problemáticas porque a maioria dos procedimentos estatísticos exigem um valor para cada variável. Quando um conjunto de dados é incompleta, o analista de dados tem de decidir como lidar com ele. A decisão mais comum é usar análise completa caso (também chamado listwise supressão) - analisando apenas os casos com dados completos. Indivíduos com falta em todas as variáveis ​​dados são descartados da análise. Tem vantagens - é fácil de usar, é muito simples, e é o padrão na maioria dos pacotes estatísticos. Mas ela tem limitações. Ela pode diminuir substancialmente o tamanho da amostra, levando a uma grave falta de poder. Isto é especialmente verdadeiro se houver muitas variáveis ​​envolvidas na análise, cada um com falta para alguns casos de dados. Ela também pode levar a resultados tendenciosos, dependendo de por que os dados estão em falta.

Todas as causas para a falta de dados se encaixam em quatro classes, que são baseados na relação entre o mecanismo de dados em falta e da falta e observados valores. Essas classes são importantes para entender porque os problemas causados ​​pela falta de dados e as soluções para esses problemas são diferentes para as quatro classes.

O primeiro é completamente ausente na Random (MCAR). MCAR significa que o mecanismo de dados perdidos não está relacionado com os valores de todas as variáveis, seja em falta ou observados. Os dados que estão faltando porque um pesquisador deixou cair os tubos de ensaio ou participantes da pesquisa ignorada acidentalmente questões são susceptíveis de ser MCAR. Se os valores observados são essencialmente uma amostra aleatória do conjunto de dados completo, análise de caso completo dá os mesmos resultados que o conjunto de dados completo teria. Infelizmente, os dados mais falta não são MCAR.

No extremo oposto do espectro é Não-Ignorable (NI). NI significa que o mecanismo de dados perdidos está relacionado com os valores em falta. Comumente ocorre quando as pessoas não querem revelar algo muito pessoal ou impopular sobre si mesmos. Por exemplo, se os indivíduos com rendimentos mais elevados são menos propensos a revelá-los em um levantamento do que os indivíduos com rendimentos mais baixos, o mecanismo de dados em falta para a renda não é ignorada. Se a renda está faltando ou observado está relacionado com o seu valor. Análise de caso completo pode dar resultados altamente tendenciosas para NI dados em falta. Se os indivíduos proporcionalmente mais renda baixa e moderada são deixados na amostra, porque as pessoas de alta renda estão faltando, uma estimativa da renda média será menor do que a população efectivamente significam.

Entre esses dois extremos estão faltando na Random (MAR) e co-variável dependente (CD). Ambas as classes exigem que a causa da falta de dados não está relacionado com os valores em falta, mas pode estar relacionada com os valores observados de outras variáveis. MAR significa que os valores em falta são relacionado a um co-variáveis ​​verificadas ou variáveis ​​de resposta, enquanto CD significa que os valores em falta estão relacionadas apenas ao co-variáveis. Como um exemplo de CD de dados em falta, os dados de renda em falta pode estar relacionado com os valores reais de renda, mas estão relacionados à educação. Talvez as pessoas com mais educação são menos propensos a revelar sua renda do que aqueles com menos educação.

A distinção fundamental é saber se o mecanismo é ignorada (ou seja, MCAR, CD, ou MAR) ou não-ignorable. Existem excelentes técnicas de manuseamento dos dados em falta ignorable. Falta de dados não-ignorable são mais difíceis e exigem uma abordagem diferente Restaurant  .;

consultoria de negócios

  1. Como escolher o direito IT Service Company, em Houston
  2. Obrigações de marketing em 2013
  3. SEO Importância nos negócios de hoje
  4. Benefícios da Terceirização e Passos em encontrar a empresa certa Terceirização
  5. Tecnologia de ponta-Turn Up seus sonhos na realidade!
  6. Como assegurar falha em um New Venture
  7. Como usar Imóveis Investimentos Software
  8. Perguntas a perguntar a um Provedor de Processamento ePayment
  9. Escolhendo The Perfect Vendor Mailing List - 10 Grandes Dicas
  10. A relevância dos serviços de transcrição de áudio
  11. Como selecionar o botão direito Whiteboard Marcadores
  12. Seguramente ficando instalação eléctrica em Sheffield
  13. Os muitos nomes de variáveis ​​independentes
  14. Numerosos módulos de negócios se beneficiaram de clientes mercantes de Alto Risco
  15. Previna Paredes danificadas!
  16. 5 Get Started Basics Você deve ter em mente quando contratar e trabalhar com um Design Equipe Site
  17. Escolhendo entre os provedores VoIP
  18. Previsão Cricket
  19. Eu preciso de um Califórnia advogado de ferimento pessoal?
  20. Duas palavras-chave Quando Fornecer suporte ao Software em curso: Seja específico