Limitações de soluções comuns à falta de dados

Um artigo anterior discutimos algumas das causas da falta de dados e algumas das conseqüências da análise de casos só se completa. Este boletim irá discutir algumas outras maneiras comuns de lidar com dados em falta, com uma discussão sobre suas vantagens e desvantagens.

análise caso Disponível (supressão pairwise) calcula cada passo da análise separadamente usando os casos que possuem dados disponíveis para essa etapa. Portanto, um caso com dados perdidos em uma variável vai ser usada somente em etapas que não envolvem essa variável. A vantagem é que o tamanho da amostra para cada análise individual é geralmente mais elevada do que com a análise caso completo, mas os resultados são imparciais apenas se os dados são MCAR. Ele também pode levar a problemas matemáticos no cálculo estimativas de alguns parâmetros, e não é recomendado.

A maioria dos outros métodos envolvem imputação substituindo-os valores ausentes com uma estimativa, em seguida, analisar os definidos como se os valores imputados dados completos foram observados valores reais. Há muitas maneiras de escolher uma estimativa. A seguir, são métodos comuns:

* Média: a média dos valores observados para essa variável
* Substituição: o valor de um novo indivíduo que não foi selecionado para a amostra
* Hot plataforma: um valor escolhido aleatoriamente a partir de um indivíduo que tem valores semelhantes sobre outras variáveis ​​
* deck de frio: um valor sistematicamente escolhido a partir de um indivíduo que tem valores semelhantes em outras variáveis ​​
* regressão: o valor previsto obtidas pela regressão da variável falta de outras variáveis ​​
regressão Stochastic *: o valor previsto de uma regressão mais um valor residual aleatória
* interpolação e extrapolação:.. um valor estimado de outras observações de um mesmo indivíduo

A imputação é popular porque é conceitualmente simples e porque a amostra resultante tem o mesmo número de observações como o conjunto de dados completo. Pode ser muito tentador quando análise completa do caso elimina uma grande proporção do conjunto de dados. Mas ela tem limitações. Alguns métodos de imputação resultar em estimativas de parâmetros preconceituosos, tais como meios e correlações, a menos que os dados são MCAR. O viés é muitas vezes pior do que com a análise completa do caso, especialmente para a média de imputação. A extensão da polarização depende de muitos factores, incluindo o mecanismo de dados em falta, a proporção dos dados que está em falta, e as informações disponíveis no conjunto de dados.

Além disso, todos estes métodos de imputação subestimar erros padrão . Uma vez que as observações são imputadas-se estimativas, têm os seus valores correspondentes de erro aleatório. Apesar disso, os valores imputados são tratados como observações reais em análises. A fonte extra de erro é ignorado, resultando em demasiado pequenos erros padrão e valores de p demasiado pequenas. Além disso, embora imputação é conceitualmente simples, geralmente é difícil de fazer bem na prática. Portanto, esses métodos de imputação não são satisfatórios na maioria das circunstâncias

Dois métodos alternativos manter o tamanho total da amostra e pode resultar em estimativas imparciais sobre parâmetros e erros padrão para ignorable dados em falta:. Imputação múltipla e estimativa de probabilidade máxima. Estas técnicas estão agora disponíveis em software estatístico comum. Boletins subseqüentes irá descrever esses métodos e discutir a sua disponibilidade em pacotes de software
 .;

consultoria de negócios

  1. Fazer chamadas para qualquer pessoa no mundo
  2. O que é um modelo de negócio?
  3. Escolhendo o direito Logo Design Company
  4. Benefícios da formação Limited Liability Company
  5. A Great Car Rental Experience
  6. Modular Home Builders no Sudeste
  7. Como escrever uma carta proposta de negócio eficaz
  8. Plano de Negócios 101: Análise Financeira
  9. Saber quando é hora de pedir falência
  10. Dicas para reservar Caterers
  11. Os 5 Características Pessoais essencial para alcançar o sucesso empresarial
  12. Como ser um contratante de TI
  13. Porta Giratória Síndrome de-pontas em manter seus empregados
  14. Fast Food Logos - O que você pode aprender com os mestres da indústria
  15. Formação Negócios
  16. Voz sobre IP fornecedor de serviços
  17. Entrada de Dados - Os Riscos da Terceirização de Dados Entrada Jobs
  18. Qual é a essência de Organizações sustentadamente competitivo?
  19. Novo modo de comunicação para o seu negócio
  20. O que faz Instalações bancadas de granito Popular da cozinha?