Кодирование данных опроса



Во многих статистических пакетах, на первом шаге данные необходимо ввести в память компьютера.

При этом требуется, чтобы все данные были закодированы. Кодирование – это сопоставление значению переменной некоторого числа, называемого кодом.

Например, для анализа результатов опроса пол опрашиваемых можно закодировать следующим образом:

1 – мужской,

2 – женский.

При анализе ассортимента виды товаров можно закодировать как:

стул –100,

стол – 110,

пуф – 120 и т.д.

Процедура кодировки утомительна, но неизбежна. Заметим сразу, что если значения переменной – числа, то их кодировать не нужно, сами числа будут кодами. Если значения переменной – числа, записанные текстом, то их придется кодировать. Например, если фиксировались ответы на вопрос анкеты о количестве членов семьи (включая опрошенного), и допустимыми ответами были «отказ отвечать», «1», «2», «3», «4 или больше», то возможным вариантом кодировки будет:

  • -9999 – отказ отвечать,
  • 0 – ноль членов семьи, невозможное значение, ошибка анкетера (проводящего анкетирование)
  • 1 – семья из одного человека, то есть респондент живет один,
  • 2 – семья из двух человек,
  • 3 – семья из трех человек,
  • 4 – семья из четырех или большего числа людей.

При этом нельзя вносить в таблицу данных текстовые значения, например нельзя набирать «три» вместо числа «3».

Как обычно, есть важные исключения. Иногда допустимо и даже полезно применять текстовые значения переменной, например, если в качестве именами наблюдений являются фамилии опрошенных или названия фирм-покупателей.

Во всех остальных случаях начинающему аналитику рекомендуем проводить кодировку.

Заметим, что кодировка – элемент обыденной жизни, ничего особенного в ней нет. Для каждого совершеннолетнего номер паспорта – его код. ИНН является другим примером кода. Обратимся к футболу. Номер на майке – код футболиста. Цвета формы команды – тоже код, на этот раз код страны. Таблица перекодировки известна каждому болельщику, например, желто-зеленые цвета – Бразилия, оранжевый цвет – Голландия, бело-голубые - Аргентина.

Имеется много причин, которые побуждают рекомендовать начинать исследование с кодировки значений переменой. Среди них то, что прикладная статистика – раздел математики, и он разрабатывался в первую очередь в расчете на операции с числами. Кроме того, свои требования накладывает использование компьютера, который, в конечном счете, обрабатывает числа. Да и для людей числа наиболее удобны: номера квартир или домов кодируются числами, а не, скажем, цветами.

Процесс кодировки пугает, он выглядит трудоемким, скучным и долгим. Все не так страшно, как кажется. При кодировке переменных можно обойтись без монотонной ручной замены текстовых значений переменных на соответствующие коды, поскольку пакет SPSS содержит средства, облегчающие кодировку переменных. Среди них функции Recode (Перекодировать) и Automatic Recode (Автоматическая перекодировка). В особо тяжелых ситуациях можно рекомендовать не спешить с использованием пакета SPSS, а сначала преобразовать данные, например в Excel’е. При преобразовании данных Excel мощнее SPSS, поскольку именно для таких действий - для манипуляций с таблицами - он и был создан. При статистическом анализе данных заметное преимущество уже у SPSS.