Классические методы работы с данными с пропусками
Авторы:
Белов Юрий Сергеевич
, Фролов Павел Валерьевич
Опубликовано: 06.04.2015
Опубликовано в выпуске:
1/2015 (1)
Рубрика: Информационные технологии
Затронута проблема данных с пропусками. Рассмотрены классические методы обработки пропущенных данных. Произведен обзор методов удаления. Разобраны методы спискового и парного удаления. Указаны их преимущества и недостатки. Перечислены все возможные проблемы, которые могут возникнуть при использовании данных методов. Приведен пример парных замен на основе формулы выборочной ковариации и формулы, определяющей коэффициент корреляции. Произведен обзор методов замены, указаны их преимущества и недостатки. Рассмотрен метод средних арифметических замен. Выявлена его полная несостоятельность. Разобран метод регрессионных замен. Доказана его состоятельность и применимость в большинстве случаев данных с пропусками. Выявлено, что классические методы обработки данных с пропусками являются не точными и дают большую погрешность, что в свою очередь говорит о целесообразности использования методов оценки максимального правдоподобия и множественных замен.