Социология: общий курс. Учебное пособие для студентов высших заведений образования Украины

ЧАСТЬ ЧЕТВЕРТАЯ.

 

МЕТОДОЛОГИЯ И МЕТОДЫ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ

Раздел 10.

 

СТАТИСТИЧЕСКАЯ ОБРАБОТКА И АНАЛИЗ ЭМПИРИЧЕСКОЙ ИНФОРМАЦИИ

10. 2. Подготовка эмпирических данных к обработке и анализу

 

Информация (лат. Informatio — ознакомление, разъяснение, представление, понятие) — сведения о чем-то (о окружающий мир и процессы, в нем происходящие), которые можно хранить, перерабатывать и передавать от одного субъекта наблюдения к другому, и которые уменьшают неопределенность у получателя информации. Для того, чтобы это можно было осуществить, информацию следует структурировать и формализовать.

Структурирование информации предусматривает определение показателей и объектов, на которых следует их измерить, а также индикаторов, которые для этого следует зафиксировать. Формализация обычно включает процедуры построения выборки, доступа к информации и ее фиксации, а также измерительные процедуры. Структуризована и формализованная информация — это данные исследования, а процесс формализации — это сбор данных.

Как правило, статистические программы представляют в виде матриц типа "объект-признак". В матрице данных каждая строка отводится одному объекту (1, 2,.., п), а каждый столбец - одному признаку переменной (X 1, X2,..., Хк). На пересечении i-той строки и j — того столбца находится значение хij . признаки j для объекта с номером и.


Матрица данных

 

 

Можно выделить (условно) несколько этапов подготовки данных к обработке и анализу:

И) сбор и кодирование данных; 2) ввод данных в компьютер; 3) проверка и чистка данных; 4) специальная подготовка данных.

Этап сбора и кодирования данных включает заполнения инструментария: проверку на правильность и полноту заполнения; кодирование открытых вопросов, вопросов со сложной структурой и пропущенных значений. Как правило, качество заполнения инструментария зависит от условий труда анкетерів, интервьюеров, места опроса и других факторов. Контроль за качеством заполнения инструментария начинается с проверки правильности ответа на каждый вопрос и при необходимости ответ корректируется. Например, на вопрос: "знаете Ли вы основные положения Закона "О выборах Президента Украины?" чаще всего отвечают: "Да, знаю".»Но далее в опроснике (анкете) стоит открытое контрольный вопрос: "Если знаете, назовите их, пожалуйста". Он остается незаполненным. Если с респондентом работал интервьюер, анкетер, то у этого вопроса должна стоять отметка: "затруднился ответить", "не знает" и т. п. Тогда становится понятным, что респондент не знаком с содержанием этого документа. Но если респондент заполнял опросник самостоятельно, то здесь получение однозначного ответа затруднено. В этом случае альтернативу "да, знаю" надо зачеркнуть и отметить другую, скорее всего "нет ответа", "затрудняюсь ответить" и т. п. Затем подсчитываются неправильные ответы. При исправлении каждого третьего ответа в опроснике его лучше не готовить к машинной обработке. В случае, если респондент не ответил на 10-15% основных вопросов, против них контролер ставит отметку "нет ответа", и анкета идет на обработку в ЭВМ.

Более строгими являются требования к вопросам, которые касаются социально-демографических характеристик респондентов (пол, возраст, образование и т. д.). Если нет ответов на эти вопросы, инструментарий вынимается из общего массива. Исключается из обработки на ЭВМ документы, заполненные неразборчиво, а также записи, которые не поддаются однозначной трактовке.

Допущенные к обработке документы нумеруются, начиная с № 1,с целью контроля за их прохождением. В дальнейшем массив документов передается кодувальникам. Но перед тем, как передать анкеты в руки операторов, следует закодировать открытые вопросы. На каждый открытый вопрос, как правило, составляют не менее пяти шифров — кодов. Выше уже приводилось одно из открытых вопросов: "Если знаете, назовите, пожалуйста". Ответы на него могут быть самыми разнообразными: от полных, глубоких, обстоятельных - до ответов — схем. Шифры — коды должны отражать шкалу интенсивности ответов на открытый вопрос. Обычно кодирование таких ответов проходит в два — три этапа. Сначала варианты ответов выписываются отдельно, подсчитывают число употреблений каждого варианта — частота его повторения. Потом варианты группируются по смысловой близостью, совпадением. Таких групп, как доказывает практика, набирается четыре — пять, и каждой из них присваивается свой шифр или код.

Кодирование — звено, что связывает качественную и количественную информацию. На данной основе и осуществляются числовые операции с информацией, введенной в память электронной машины. Если во время кодирования происходит сбой, замена или потеря кода, то информация становится неправильной. В относительно простых случаях кодирование иногда сочетают с заполнением или проверкой инструментария; однако в исследованиях сложных и ответственных рекомендуется, чтобы кодирование осуществлялось отдельным исполнителем.

Ввод данных в компьютер осуществляется по специальным макетом, который создается в соответствии с тем или другим статистическим пакетом. Например, макет ввода для пакета SPSS, кроме формата переменных, может предусматривать проверку данных на значение, допускаются, и логическую совместимость, автоматический пропуск вопросов, которые не относятся к респондента, что позволяет значительно сократить количество ошибок ввода.

Проверка данных на значение, допускаются, и логическую совместимость может осуществляться одновременно с введением или после его завершения. В первом случае выявленные ошибки исправляются немедленно, во втором — исправление ошибок выделяют в отдельный этап, который называется чисткой данных.

Специальная подготовка данных представляет собой преобразование их в форму, удобную для обработки и анализа. На этом этапе окончательно формулируют измерительные шкалы, вычисляют вторичные переменные — индексы, осуществляют различные группировки данных.