Критерии качества метода: валидность, надежность. Критерии валидности, применяемые к качественным исследованиям Валидность качественных методов исследования

Валидность метода. Валидность метода исследования и диагностики (буквально означает “полноценный, пригодный, соответствующий”) показывает, в какой мере измеряется то качество (свойство, характеристика), для оценки которого он предназначен. Валидность (адекватность) говорит о степени соответствия метода своему назначению. Чем ближе раскрывается в диагностике тот признак, для обнаружения и измерения которого предназначен метод, тем выше его валидность.

Понятие валидности относится не только к методике, но и к критерию оценки ее качества, критерию валидности. Это основной признак, по которому можно практически судить о том, является ли данная методика валидной.

Выделяют несколько видов валидности диагностических методик.

Теоретическая (концептуальная) валидность определяется по соответствию показателей исследуемого качества, получаемых с помощью данной методики, показателям, получаемым посредством других методик (с показателями которых должна существовать теоретически обоснованная зависимость). Теоретическую валидность проверяют по корреляциям показателей одного и того же свойства, получаемым при помощи разных методик, связанных с одной и той же теорией.

Эмпирическая (прагматическая) валидность проверяется по соответствию диагностических показателей реальному жизненному поведению, наблюдаемым действиям и реакциям испытуемого. Если, например, с помощью некой методики мы оцениваем черты характера у данного испытуемого, то применяемая методика будет считаться практически или эмпирически валидной тогда, когда мы установим, что данный человек ведет себя в жизни именно так, как предсказывает методика, т.е. в соответствии с имеющейся у него чертой характера.

Внутренняя валидность означает соответствие содержащихся в методике заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом. Она считается внутренне невалидной или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов, заданий или субтестов измеряют не то, что требуется от данной методики.

Внешняя валидность – это примерно то же самое, что и эмпирическая валидность, с той лишь разницей, что в данном случае речь идет о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.

Очевидная валидность описывает представление о методе, сложившееся у испытуемого, т.е. это валидность с точки зрения испытуемого. Методика должна восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с медицинским диагностическим инструментарием.

Прогностическая валидность устанавливается с помощью корреляции между показателями методики и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что методика измеряет именно то, для чего она была предназначена.



Содержательная валидность определяется через подтверждение того, что задания методики отражают все аспекты изучаемой области поведения. Содержательную валидность часто называют “логической валидностью” или “валидностью по определению”. Она означает, что методика валидна по мнению специалистов. Обычно она определяется у тестов достижений. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна.

Из описания видов валидности следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность диагностической методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности предлагаемой методики.

Легко заметить прямую связь валидности с надежностью. Методика с низкой надежностью не может обладать высокой валидностью, поскольку неверен измерительный инструмент и нестабилен тот признак, который он измеряет. Такая методика при сопоставлении с внешним критерием может в одном случае показать высокие совпадения, а в другом – крайне низкие. Понятно, что при таких данных никаких выводов о соответствии методики своему назначению сделать невозможно.

Выведение коэффициента валидности – трудоемкая процедура, не обязательная в тех случаях, когда методика используется исследователем в ограниченных пределах и не предполагается ее применение в широком масштабе. К коэффициенту валидности предъявляют те же требования, что и к коэффициенту надежности: чем более методически совершенен критерий, тем выше должен быть и коэффициент валидности. Низкий коэффициент валидности чаще всего отмечается при акцентировании внимания на второстепенных аспектах.

Надежность метода исследования. Надежность – один из критериев качества результата в диагностике, относящийся к степени точности и устойчивости показателей диагностируемого признака. Чем больше надежность методики, тем свободнее она от погрешностей измерения. В самом широком смысле надежность – это характеристика того, в какой степени выявленные у испытуемых различия по результатам проведения методики являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.

В теории диагностики понятие надежности имеет два значения: надежность методики как определенного инструмента (к примеру, пользуясь метром, мы уверены в том, что он остается неизменным, какие бы измерения мы ни производили) и относительная неизменность объекта диагностики (мы должны быть уверены, что в обычных условиях измеренная величина останется неизменной).

Понятие надежности связано с точностью измерений, вернее, с оценкой погрешности и определением на этой основе истинного значения величины.

Существуют три основных приема для оценки надежности диагностической методики.

Прием ретеста, или повторной диагностики, позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте самокорреляции.

Прием деления пополам – подборка однажды выполненных заданий делится пополам (например, в первый полутест входят задания с нечетным порядковым номером, а во второй полутест – с четным), затем устанавливаются результаты каждого испытуемого по обоим полутестам и вычисляется коэффициент корреляции между полученными результатами.

Прием параллельного теста – для измерения одних и тех же знаний конструируются два различных набора заданий, которые по своему содержанию напоминают близнецов; оба параллельных набора заданий предлагаются непосредственно друг за другом или при удобном случае.

Во всех случаях при коэффициенте корреляции методик r > 0,7 методика считается надежной (о коэффициенте корреляции см. в разд. 4.2).

В тестовой методике принято учитывать три коэффициента надежности:

1) коэффициент стабильности, или постоянства, – показатель корреляции между результатами первого и повторного испытаний одним тестом одной и той же выборки испытуемых;

2) коэффициент эквивалентности, или коэффициент корреляции, результатов тестирования одного и того же контингента испытуемых с помощью вариантов одного и того же теста либо разными, но эквивалентными по форме и цели, тестами;

3) коэффициент внутреннего постоянства, или внутренней однородности, который соответствует корреляции результатов частей теста, показанных одними и теми же испытуемыми.

3. Классификации методов педагогического исследования

Существует несколько классификаций методов педагогического исследования. В зависимости от основания классификации методы исследования в педагогике подразделяются на:

· эмпирические и теоретические;

· констатирующие и преобразующие;

· качественные и количественные;

· частные и общие;

· методы сбора эмпирических данных, проверки и опровержения гипотез и теории;

· методы описания, объяснения и прогноза;

· специальные методы, используемые в отдельных педагогических науках;

· методы обработки результатов исследования и др.

К общенаучным методам (используются разными науками) относятся:

· общетеоретические (абстракция и конкретизация, анализ и синтез, сравнение, противопоставление, индукция и дедукция, т. е. логические методы);

· социологические (анкетирование, интервьюирование, экспертные опросы, рейтинг);

· социально-психологические (социометрия, тестирование, тренинг);

· математические (ранжирование, шкалирование, индексирование, корреляция).

К конкретно-научным (конкретно-педагогическим) относятся методы, которые в свою очередь подразделяются на теоретические и эмпирические (практические).

Теоретические методы служат для интерпретации, анализа и обобщения теоретических положений и эмпирических данных. Это теоретический анализ литературы, архивных материалов и документов; анализ основных понятий и терминов исследования; метод аналогий, построение гипотез и мысленного эксперимента, прогнозирование, моделирование и др.

Эмпирические методы предназначены для создания, сбора и организации эмпирического материла - фактов педагогического содержания, продуктов воспитательной деятельности.

К эмпирическим методам относятся, например, наблюдение, беседа, интервьюирование, анкетирование, методы изучения продуктов деятельности учащихся, школьной документации, методы оценивания (рейтинг, педагогический консилиум, самооценка и т. д.), методы измерения и контроля (шкалирование, срезы, тестирование и т. п.), а также педагогический эксперимент и опытная проверка выводов исследования в условиях массовой школы. Как теоретические, так и эмпирические методы обычно используются в комплексе с математическими и статистическими методами, которые применяются для обработки данных, полученных в ходе исследования, а также для установления количественных зависимостей между изучаемыми явлениями.

Математические методы применяются для обработки полученных методами опроса и эксперимента данных, а также для установления количественных зависимостей между изучаемыми явлениями.

Наиболее распространенными математическими методами , применяемыми в педагогике, являются:

· регистрация – выявление наличия определенного качества у каждого члена группы и общий подсчет тех, у кого данное качество имеется или отсутствует (например, число учеников, активно работающих на занятии, и число пассивных);

· ранжирование (ранговая оценка) – расположение собранных данных в определенной последовательности (в порядке убывания или нарастания каких-то показателей) и соответственно определение места в этом ряду каждого исследуемого (например, составление перечня наиболее предпочитаемых одноклассников);

· шкалирование – введение цифровых показателей в оценку отдельных сторон педагогических явлений; для этой цели испытуемым задают вопросы, отвечая на которые они должны выбрать одну из указанных оценок (например, в вопросе о занятии какой-либо деятельностью в свободное время выбрать один из оценочных ответов: увлекаюсь, занимаюсь регулярно, занимаюсь нерегулярно, ничем не занимаюсь).

Статистические методы применяются при обработке массового материала – определения средних величин полученных показателей: среднего арифметического, медианы – показателя середины ряда, подсчет степени рассеивания около этих величин – дисперсии, коэффициента вариации и др.

В широком смысле слова валидность, т. е. обоснованность метода, означает ϲᴏᴏᴛʙᴇᴛϲᴛʙие получаемых с его помощью эмпирических данных основным целям исследования. Вопрос о валидности качественных методов в предшествующие годы был сильно запутан специалистами по математической статистике, кᴏᴛᴏᴩые распространили весьма специфичные статистические критерии валидности на классы задач и исследовательских ситуаций, не имеющих ничего общего с идеальными объектами типа вынимаемых из корзины разноцветных шаров, кᴏᴛᴏᴩыми оперирует теория вероятности.

Прежде, чем перейти к описанию качественных исследований, особенно групповых, следует охарактеризовать их отличия от количественных исследований. Чтобы понять данные отличия полнее, крайне важно разобраться в том, что, собственно говоря, будет «ошибкой» исследования.

Количественные социологические исследования будут разновидностью исследований, в основании кᴏᴛᴏᴩых лежит математическая теория вероятности. В числе аксиоматических предпосылок ϶ᴛᴏй теории имеется весьма важная предпосылка о том, что различия между анализируемыми объектами ограничены фиксированным набором дискретных признаков. К примеру, шары, лежащие в корзине, различаются по цвету, размеру и нарисованным на них цифрам. Люди, ϲᴏᴏᴛʙᴇᴛϲᴛʙенно, могут различаться по ϲʙᴏим демографическим признакам, установкам и т. д. , причем важно отметить, что в любом конкретном анкетном опросе набор признаков ограничен числом квантифицированных вопросов анкеты, а все прочие возможные признаки предполагаются идентичными.

Основным критерием, характеризующим исследование статистического типа, будет надежность, т. е. воспроизводимость полученных результатов. В случае если провести повторный опрос по той же методике в той же самой социальной группе, и результаты обоих опросов будут идентичны - значит, они надежны. Сегодня никто не оспаривает тот факт, что при правильно проведенном массовом репрезентативном опросе с помощью формализованных анкет автоматически достигается высокая степень воспроизводимости результатов. При этом вопрос их валидности данным далеко не исчерпывается.

В математической социологии валидность исследования принято трактовать как степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия средства измерения тому, что подлежало измерению . Словарь поясняет далее, что в строгом смысле слова валидизация возможна исключительно при наличии независимого внешнего критерия, но такая ситуация в социологии будет редкостью. Во всех остальных случаях валидность результатов количественных опросов будет не более чем гипотезой, оценка степени правдоподобия кᴏᴛᴏᴩой не имеет ничего общего с математическими и статистическими процедурами. Низкая степень правдоподобия многих неявных содержательных гипотез, латентно закладываемых исследователями в формулировки и структуру формализованных вопросов, а порой и полное отсутствие такого правдоподобия, будет очень серьезной и плохо осознанной проблемой.

Таким образом, статистическую надежность результатов количественных исследований не следует путать с их надежностью и обоснованностью в широком смысле ϶ᴛᴏго слова. Строго говоря, количественные исследования надежны исключительно в той мере, в какой саму проблему надежности удается свести к ее статистическому толкованию. В случае если такое сведение не удалось или в принципе невозможно, количественные данные становятся крайне ненадежной основой для выводов.

Сравнивая количественные и качественные методы с позиции их валидности, следует прежде всего отметить, что сферы их валидного применения не совпадают друг с другом. Это делает бессмысленным обобщенное сравнение их по критерию валидности. Существуют классы задач, в кᴏᴛᴏᴩых количественные методы обладают высокой, а качественные низкой валидностью. Вместе с тем существуют - и ϶ᴛᴏт аспект обычно слабо подчеркивается даже в специальной литературе - другие классы задач, в кᴏᴛᴏᴩых указанное соотношение прямо противоположно.

В задачу нашего учебника не входит рассмотрение вопросов методологии качественных методов вообще. Специфика фокус-групп, а также индивидуальных глубоких интервью, если они проводятся большими сериями, состоит по сути в том, что к ним, по крайней мере теоретически, также применимы статистические критерии обоснованности, хотя и иные, чем в количественных исследованиях.

Отметим, что текстовые расшифровки серии групповых интервью, проведенных на определенную тему, образуют массив первичных данных объемом в несколько сотен страниц. Этот массив вполне пригоден для анализа с применением статистических методов как с точки зрения его размеров, так и с позиции разнородности. Разнородность массива обеспечивается участием нескольких десятков респондентов, что уже дает основания для приблизительного распределения однотипных ответов по трехчленной или пятичленной шкале: явное меньшинство, меньшинство, примерно поровну, большинство, явное большинство. Главное, однако, состоит не в ϶ᴛᴏм. Специфика массива первичных данных групповых интервью состоит по сути в том, что:

1. Единицей анализа будет не респондент, а высказывание. Поскольку каждый респондент будет носителем многих высказываний, ϶ᴛᴏ, как минимум, на порядок увеличивает массив первичных аналитических единиц, делая его статистически значимым.

2. В задачу качественных исследований не входит определение численности или удельного веса носителей той или иной позиции в обществе или его сегменте. По отношению к такому классу проблем качественные методы невалидны.

Задачей качественных методов будет формирование списка так называемых «гипотез существования», т. е. списка мнений, оценок или высказываний, существующих в обществе и, предположительно, имеющих не нулевую степень распространения. При ϶ᴛᴏм, как отмечает Д. Отметим, что темплтон, предпочтительнее ошибиться, выявив несуществующий или малозначимый фактор, чем упустить высокозначимый.

Математический аппарат, приспособленный для решения задач подобного типа, в принципе хорошо известен. Стоит заметить, что он используется в лингвистке при составлении списков звуков и слогов, а также частотных словарей слов и словосочетаний. Этот же аппарат используется и в социологических исследованиях, осуществляемых с помощью контент-анализа. Применительно к последнему случаю математическая постановка задачи выглядит примерно так: «Имеется кандидат в президенты А, о кᴏᴛᴏᴩом пишут в газетах. Требуется составить как можно более полный список эпитетов, кᴏᴛᴏᴩыми авторы статей характеризуют данного кандидата. Какой объем газетных текстов следует изучить, ɥᴛᴏбы с вероятностью 95% число невыявленных эпитетов не превысило 5% ?»

Как и подавляющее большинство прикладных статистических задач, данная задача не решаема без определенных предварительных знаний о характере частотного распределения искомых эпитетов, а также без некᴏᴛᴏᴩых априорных допущений. Учитывая зависимость от практического удобства выбора той или иной системы допущений сама постановка задачи может варьироваться. Углубление в ϶ᴛᴏт вопрос выходит за рамки нашей темы, поскольку в прикладных исследованиях, осуществляемых с помощью метода фокус-групп, статистический аппарат, подобный описанному выше, если где-то и применяется, то исключительно в узкоспециальных исследованиях, далеких от сферы применения маркетинговых фокус-групп.
Стоит отметить, что основных причин ϶ᴛᴏму видится две. Первая - применение такого аппарата сильно удорожает исследования, а коммерческий заказчик не склонен оплачивать математические «красоты», если они никак не влияют на конечные выводы. По ряду причин, кᴏᴛᴏᴩые будут описаны ниже, и заказчики, и исследователи считают вполне достаточной ориентацию на следующий субъективный критерий: если количество новой информации, получаемой от каждой следующей группы, резко упало, исследование следует прекращать.

Вторая причина гораздо более фундаментальная. Стоит заметить, что она связана с тем, что сегодня строго операциональное и поддающееся автоматизации вычленение из текстов смысловых единиц возможно только на уровне слов и устойчивых словосочетаний. Вычленение, группировка и топологизация более сложных смысловых единиц, осуществляемые на аналитической стадии качественного социологического исследования, могут выполняться только человеком на базе еще не изученных бессознательных интеллектуальных алгоритмов. Быстрый прогресс в развитии компьютерных программ автоматизированного перевода дает возможность предположить, что с течением времени станет осуществимым автоматизированное распознавание все более сложных смысловых единиц. При этом на практику фокус-групповых исследований эта работа пока не оказывает никакого влияния. При изучении литературы по маркетинговым фокус-группам мы ни разу не встречались с упоминанием о применении контент-анализа в какой бы то ни было форме. В области академических исследований такие упоминания имеются , однако изучение данного вопроса требует специальной работы. Отметим здесь же, что в начале 90-х годов наиболее современной работой по методам компьютерного контент-анализа считалась работа Вебера .

Резюмируя, обратимся к вопросу определения областей валидных количественных и качественных исследований. Выше было показано, что данные области принципиально различны, поскольку радикально различны решаемые ими классы задач. Область валидного применения формализованных опросов только на первый взгляд кажется беспредельной или очень широкой. На самом деле она ограничена выявлением степени распространенности тех или иных знаний, мнений или установок, кᴏᴛᴏᴩые:

а) должны быть известны заранее, т. е. до проведения опроса;

б) не должны быть навязываемой респонденту фикцией или псевдосуждениями, не ϲʙᴏйственными его сознанию.

Для выявления самого факта существования знаний, мнений или установок количественные методы непригодны, что хорошо видно из следующего сравнения результатов опроса.

А. Количественное исследование

Вопрос: Что Вы предпочитаете - яблочный пирог или шо­коладный кекс? (% к числу опрошенных)

Яблочный пирог - 26%

Шоколадный кекс - 22%

И то, и другое - 43%

Затрудняюсь ответить - 9%

Б. Качественное исследование

Вопрос: Что Вы предпочитаете - яблочный пирог или шоколадный кекс?

Ответ: Я не знаю. Я люблю и то, и другое.

Вопрос: Хорошо, если Не стоит забывать, что вам надо взять что-то одно, что ϶ᴛᴏ будет? Подумайте.

Ответ: Конечно, пироги различаются. В случае если у меня будет возможность взять яблочный пирог моей мамы, то я предпочту его любому шоколадному кексу. В случае если крайне важно взять какой-то яблочный пирог, то я точно не знаю.

Вопрос: От чего еще может зависеть Не стоит забывать, что ваш выбор?

Ответ: К примеру, ϶ᴛᴏ зависит от того, что я ем на обед. В случае если у меня полный обед, я думаю, что возьму яблочный пирог. Яблочный пирог - ϶ᴛᴏ большой деликатес в моей семье. Но если на обед я ел что-то легкое, типа рыбы, то лучше взять кекс. В случае если холодно, я не откажусь от шоколадного кекса .

Приведенный диалог хорошо иллюстрирует тот факт, что простой ответ «Я выбираю яблочный пирог» зависит от многих факторов, в данном случае - от того, кто приготовил ϶ᴛᴏт пирог, от степени голода, плотности обеда, температуры окружающей среды. Этот список, вероятно, может быть продолжен. Но, как и во многих других случаях, число таких факторов или, по крайней мере, наиболее распространенных из них, по-видимому, не очень велико. Задачей качественного исследования, как уже говорилось, будет выявление списка данных факторов с разумной степенью полноты. В ϶ᴛᴏй области качественные исследования обладают высокой степенью валидности. Уместно отметить, что определение частотного распределения действия выявленных факторов в изучаемой популяции - дело количественного исследования. Не стоит забывать, что важны, однако, две оговорки:

а) с практической позиции затраты на проведение количественного исследования могут превышать ожидаемый риск от принятия волевого решения, основанного на менее точной информации;

б) адекватная трансформация выявленных факторов в вопросы формализованной анкеты часто затруднена или невозможна, причем часто чрезвычайно трудно бывает даже определить возможную степень ϶ᴛᴏй неадекватности.

Эти обстоятельства нередко снижают валидность количественных исследований до такой степени, что их проведение становится нецелесообразным.

Лишь в тех случаях, когда гипотеза о валидности формулировок вопросов формализованных анкет выглядит обоснованной или правдоподобной, количественное исследование может дать валидный результат, позволяющий принять решение, основанное на более точной информации.

Большинство исследователей, работающих с качественными методами, считает, что разные люди обладают разными, но одинаково валидными интерпретациями реальности, сформированными контекстом, в котором они живут, культурой и опытом.

Как же тогда определять валидность инструмента? Есть только одна возможность – всем представителям разных точек зрения попытаться объединить некие единые критерии. Что довольно сложно, учитывая, что разные исследователи исходят из разных посылок и пользуются разными стратегиями. Например, grounded theory должна работать с довольно большой выборкой и основывать анализ на широком ряде данных. А дискурсный анализ, напротив, базируется на глубинном изучении отдельных (немногих) фрагментов текста. В анализе разговора могут исследоваться лингвистические особенности, а могут – глубинные социо-культурные смыслы.

Иногда к качественным методам ошибочно пытаются применять критерии валидности количественных методов, в особенности объективность, надежность и статистическую обобщаемость.

Работая с количественными методами, исследователи применяют множество средств, чтобы исключить байесы, а также устранить личность исследователя (добиться полной объективности и отстраненности). В качественной парадигме исследователи верят, что исследователь НЕИЗБЕЖНО влияет на процесс получения данных, уже тем самым, что формулирует исследовательский вопрос, выбирает метод получения и анализа данных, а также интерпретирует их. Более того, в качественных методах воздействие исследователя необходимо, например, в глубинном интервью, где требуется получить субъективный опыт респондента, или при анализе разговора, цель которого – выявить скрытые или неосознаваемые смыслы. Так что в качественных иссл. исследователи стараются извлечь максимальную выгоду из личной вовлеченности (вместо того, чтобы каждый раз по одной и той же схеме пытаться ее контролировать), одновременно анализируя, как именно воздействовал исследователь на процесс. Так что объективность критерием валидности для Кач. М. не является.

То, что в Кол. М. называется разбросом ошибки и тоже должно быть по максимуму исключено, в Кач. М. именно это иногда является объектом интереса и называется «индивидуальными различиями» или различиями поведения в разных контекстах и представляет собой отдельную тему для изучения. Так что и генерализация данных тоже не может быть критерием валидности в Кач. М.

С другой стороны, и в Кач., и в Колич. М. исследователи надеются, что полученные ими данные можно будет генерализовать. Абсолютно уникальное исследование, неприложимое ни к какой другой ситуации, вряд ли имеет смысл. При этом Кол. М. в целях возможности обобщения собирают данные с большой выборки, тогда как Кач. М. редко работают с большими группами. Исследователи в этом случае идут не по пути статистического обобщения, а по теоретическому, логическому, «вертикальному» пути. Т.е. они не ждут, что обнаруженное ими в точности повторится в другой выборке, но надеются, что их открытия, полученные в одном контексте, будут полезны и в других, но чем-то сходных с первым. Поскольку контексты могут различаться по многим параметрам, но все же сходиться в чем-то одном, понятие обобщаемости в данном случае приобретает широту и гибкость.

На данный момент разработан ряд методов для повышения валидности качественных инструментов. Это не жесткие рамки, которых следует держаться, но набор полезных средств, которыми можно пользоваться, выбирая, в зависимости от своего исследовательского вопроса и метода. Повышение валидности необходимо а) для общего обоснования парадигмы, чтобы показать, что она держится на надежной основе и заслуживает доверия не меньше, чем количественная и б) чтобы вызвать больше доверия у общественности и заказчиков исследований.

·Триангуляция.

Термин взят из навигации, где он означал вычисление местонахождения по трем различным точкам. Таким образом триангуляция в исследованиях – способ подтвердить высказывания (оценки, суждения) одного человека или группы при помощи суждений других. Например, человек связывает свои психологические проблемы с внешними событиями; можно дополнить его рассказ, проинтервьюировав также членов его семьи. Поскольку Кач. Исследователи часто считают, что каждый из их рассказов будет валидным, даже если они все разные, то триангуляция – не способ определить правдивость одного рассказа, но способ расширить понимание описываемого явления, посмотреть на него с разных точек зрения. К примеру, человек дает свое описание каких-то событий как причины его психологических проблем; члены его семьи могут внести свой вклад, рассказав, как личность и жизненный опыт первого респондента повлияли на их собственное переживание данных событий.

Можно собирать информацию о чем-то одном с разных групп (или людей), а можно собирать информацию об одном событии, но в разное время, как лонгитюд.

·Сравнение кодирования, которым пользуются исследователи.

Сравнение способов кодирования, которые используют разные исследователи, - тоже способ триангуляции. Это позволяет удостовериться, что анализ не сводится к чьим-то представлениям и будет доступен и другим людям. Если исследователь занимается кодированием какого-либо материала, ему следует обсуждать способ кодирования с другими участниками исследования, которые имеют доступ к сырому материалу. Это позволяет не пропустить никаких важных мотивов, а также сделать кодировку более ясной, последовательной и удобной для анализа.

Иногда несколько исследователей независимо кодируют данные, а потом результаты сопоставляются, и таким образом определяется inter-rater reliability (не знаю, как перевести). Между двумя кодированиями высчитывается Каппа Коэна (коэффициент согласия экспертов). Если она выше 0,8, надежность очень велика.

·Фидбек от респондентов.

Еще называется respondent validation. Респондентов просят дать свой комментарий относительно проведенного анализа. Это ценный способ для привлечения участников в исследование, а также позволяет удостовериться, что респондентов правильно поняли. Но способ не всегда уместен, например, если анализ должен выявлять противоречия между суждениями респондентов, скрытые значения, лингвистические и прочие особенности их рассказа – все это респонденты просто не могут понять (или им не нужно этого знать).

·Анализ выпадающих случаев.

Качественный анализ обычно представляет собой индуктивный процесс выделения тем и паттернов из массива данных. На этот процесс неизбежно влияют интересы, представления и цели исследователей. Когда такой анализ уже проведен, полезно поискать противоречащие всему случаи (девиантные кейсы), т.е. данные, в которых не появляются общие для всех остальных темы и паттерны (грубо говоря, человек говорит что-то совсем другое, чем все остальные).

Выпадающим случаям нужно уделять большое внимание и фиксировать их, чтобы учесть весь массив данных, а не только те, которые подходят под гипотезу исследования. Например: исследование посвящено воздействию физических упражнений. Вся группа говорит, что от упражнений им круто и весело, а два человека – что им плохо и не нравится. В генеральной совокупности эти два человека представляют гораздо большее количество случаев; к тому же, это дает основания провести новое исследование на тему «при каких условиях физич упражнения вредны или неприятны».

·Бумажный след.

Должен быть способ показать связь между сырыми данными и конечными отчетами (чтобы все было отражено аккуратно). Для этого можно сохранять «бумажный след» анализа, отражающий все стадии анализа (промежуточные документы): как кодировались данные, как ставился исследовательский вопрос, как интерпретировались данные и проч.

Понятие валидности было введено в широкое употребление в психологию Кэмпбеллом (Campbell) и Стэнли (Stanley) в 1960-е годы в отношении результатов исследования, точно репрезентирующих характеристики феномена, подлежащего описанию или объяснению. В общем плане валидность представляет собой соответствие результатов исследования тому, что изучалось в нем. Проблема соответствия изучаемого избранному исследовательскому и теоретическому инструментарию остается дискуссионной и сегодня в силу сложности и многогранности самого объекта - социальнопсихологической феноменологии. В социальной психологии представлены десятки определений валидности, часто пересекающихся с другим, не менее важным понятием, надежности, определяемой как точность исследовательского инструментария и его способность давать стабильные показатели. Также следует отметить, что проблема валидности чаще всего обсуждается в контексте экспериментальной социальной психологии.

Предложенное определение валидности относится к установлению научной строгости и обоснованности выводов исследования и подчеркивает относительный характер истинности знания в социальных науках. Как отмечает Элена Дзуки, в любом научном исследовании исследователь должен уметь находить ответы на, про крайней мере, следующие вопросы: 1)

существует ли зависимость между двумя переменными; 2)

носит ли эта зависимость причинный характер; 3)

является ли данная зависимость значимой; 4)

действительно ли процедуры измерения и наблюдения относятся к исследуемым конструктам; 5)

могут ли быть обобщены причинные зависимости, выявленные в ходе исследования (1997, с. 24).

Нахождение ответов на данные вопросы крайне важно, прежде всего, по той причине, что исследователь часто не задумывается над тем соответствуют ли избираемые им методы и процедуры особенностям изучаемого явления, можно ли говорить по полученным результатам о их адекватности и т.п. По отношению к поставленным вопросам можно говорить о нескольких типах валидности: внутренней и внешней валидности; валидности статистических выводов и процедур исследования; конструктной и экологической валидности. 5.

Внутренняя валидность.

Внутренняя валидность - степень, в которой результаты исследования позволяют сделать причинно-следственные выводы о влиянии одной переменной на другую. Большинство социальнопсихологических исследований эксперименталистского толка заинтересованы в выяснении того как социальные силы, воздействующие на индивида влияют на его социальное поведение и принятие решений. В этом аспекте одним из самых важных типов валидности, является определяющий отношения между зависимыми и независимыми переменными. Эта валидность связана с особым процедурами, которые позволяют определить, насколько выводы, сделанные в данном исследовании, достоверны. После того, как установлено существование зависимости между переменной X и переменной Y, необходимо решить, какая из переменных является причиной, а какая следствием, то есть определить направление данной взаимосвязи. Если Y наблюдается после X, то можно сказать, что X является причиной Y.

Однако может оказаться, что отношение зависимости между X и Y вызвано третьей переменной С. Для установления внутренней валидности необходимо рассмотреть все возможности влияния третьей переменной С на переменные X и Y и исключить их. Считается, что исследование обладает внутренней валидностью, если доказано, что существует зависимость причинно-следственного типа между зависимыми и независимыми переменными.

В отношении внутренней валидности часто возникает два вопроса:

Первый вопрос связан выяснением наличия реального влияния. Ответ на этот вопрос предполагает выяснение того, имеем ли мы основания для вывода о наличии различий в измерении зависимой переменной (т.е., существуют ли реальные статистические различия?).

Второй вопрос связан с выяснением того действительно ли эффект связан с влиянием данной переменной или чего-либо другого? Если различия принимаются как статистически значимые, то можно ли делать вывод о том, что они являются следствием прямого влияния исследуемой переменной.

Причины снижения внутренней валидности исследования: 1)

Смешение переменных. Это одна из наибольших опасностей для валидности эксперимента. Если в ходе эксперимента какой-либо случайный фактор (неэкспериментальная переменная) взаимодействует с зависимой переменной и это взаимодействие не может быть измерено отдельно от взаимодействия зависимой и независимой переменных, то влияние случайной и независимой переменных неразличимо. Проблема смешения переменных является особенно острой в тех исследованиях, где экспериментатор не может контролировать независимую переменную. 2)

Изменения, связанные с испытуемыми. При проверке зависимых переменных изменения, произошедшие между двумя моментами наблюдения, могут быть вызваны не независимыми переменными, а изменениями, произошедшими с самими испытуемыми (например, событиями личной жизни, изменением тех или иных свойств личности и т.д.), то есть факторами «зрелости» и «истории».

Под «зрелостью» понимаются изменения, которые произошли с испытуемым между моментом пред-теста и моментом пост-теста и которые не были связаны с влиянием независимых переменных. Например, в экспериментах по моторной координации у испытуемых может наблюдаться ее улучшение за счет тренировок в период между экспериментами. Данное влияние нельзя смешивать с влиянием независимой переменной. Под фактором «истории» подразумеваются события, которые произошли с испытуемыми и которые повлияли на результаты эксперимента. 1)

Влияние пред - теста. Пред-тест вызывает изменения у испытуемых, и, следовательно, результаты эксперимента в некоторых случаях могут в основном зависеть от него, а не от зависимой переменной. 2)

Изменение навыков исследователя. Например, исследователь, спустя некоторое время, может стать более опытным в наблюдениях и, следовательно, по- другому интерпретировать поведение испытуемых.

Кроме того, на исследователя могут влиять такие факторы, как усталость, что может привести к ошибкам в экспериментах. 3)

Регрессия к среднему. Это явление наблюдается тогда, когда индивиды подвергаются повторным испытаниям относительно одной и той же переменной. Установлено, что если испытуемые получили в первом испытании результаты, по величине близкие к высшим показателям шкалы, то при повторном эксперименте их результаты снижаются и становятся ближе к средним показателям, в то время как испытуемые, которые получили в первом испытании результаты, близкие к низшим, при повторном измерении достигают лучших показателей. Регрессия к среднему наблюдается также в случае ошибок, связанных с изменением переменной. 4)

Отсев. Известно, что в ходе исследования некоторые испытуемые покидают группу. Оставшиеся испытуемые, естественно, отличаются от выбывших.

Предположим, что исследуется два метода модификации поведения для контроля за весом тела. Группе 1 предписана диета. Кроме того, испытуемые первой группы должны ежедневно записывать в дневник все, что они едят, точно взвешивать все блюда и подсчитывать калорийность пищи. Группе 2 была просто предписана диета. Вполне обоснованно можно предположить, что некоторые испытуемые группы с более обременительным заданием выйдут из эксперимента. В конце эксперимента процент испытуемых с высокой мотивацией в этой группе будет больше. У испытуемых с более высокой мотивацией больше вероятность похудения. Поэтому исследователь может прийти к ошибочному выводу о том, что условия в первой группе более эффективны для похудения. 2.

Внешняя валидность.

Под внешней валидностью понимается возможность обобщения результатов исследования, то есть генерализации выводов, полученные на экспериментальной выборке, на всю генеральную совокупность. Социальные психологи стремятся к получению выводов, генерализируемых на очень широкую социальную общность, часто исходя из идеи о наличии универсальных закономерностей глобального характера. Результаты исследований с высокой степенью генерализируемости, соответственно, обладают и высоким уровнем внешней валидности. Внешняя валидность существенно зависит от способа формирования выборки.

Существует три основных типа выборки:

Случайная выборка. Например, результаты исследования группы подростков, сформированной случайным способом, будут справедливы с некоторой степенью вероятности для всех подростков данной национальности. Однако такое исследование может оказаться очень сложным и дорогостоящим, так как выборка должна быть многочисленной и однородной.

Гетерогенная (неоднородная) выборка. В

соответствии с целями исследования выделяются различные группы населения, на которых предполагается получить результаты исследования. Затем анализируется случайная выборка с тем, чтобы убедиться, что она содержит достаточное количество представителей каждой группы.

Выборка типичного случая. Например, дается определение среднего молодого белоруса. Для исследования используется выборка, состоящая из индивидов, удовлетворяющих этому определению. В этом случае, если проводится эксперимент со студентами университета, например, на способность к ведению переговоров, то нельзя рассчитывать на то, что полученные выводы будут применимы для глав государств. Тем не менее, в той же социальной психологии основные выводы получены именно на студенческих выборках, что создает основания для их критики.

Внешнюю валидность снижает также несоответствие между явлениями, наблюдаемыми в лаборатории, и явлениями в естественных условиях. Трудно определить, имеет ли место выявленная зависимость только в лаборатории или она наблюдается и вне лаборатории. Внешняя валидность обеспечивается неоднократным проведением эксперимента в гетерогенных условиях.

Можно говорить, как минимум, о четырех основных возможностях ограничений генерализации результатов исследований или внешней валидности: 1)

Случится ли то же самое с другими группами людей или со всеми людьми то что получено на экспериментальной выборке? 2)

Случится ли то же самое в других местах? 3)

Будет ли то же самое в другое время? 4)

Будет ли то же самое при других типах измерений?

Первый вопрос был связан Брахтом (Bracht) и Глассом (Glass) с популяционной, а второй с экологической валидностью к рассмотрению которых мы и приступим. 3.

Популяционная валидность.

Популяционная валидность обозначает степень генерализируемости результатов исследования на население. Вспомним как часто у нас вызывали состояние напряжения отдельные журнальные статьи о том, что повышенный радиационный фон таким-то образом отражается на новорожденных (приводя примеры детей-уродов и т.п.). точно такое же впечатление создавалось от отдельных экспериментальных «находок» в отношении той или иной биологической подоплеки криминальности, аддиктивности и т.п.

Кончено возможность широких обобщений варьируется от исследования к исследованию, но часто воспринимается как само собой разумеющееся присутствие того или иного признака у всего населения, что столь же часто противоречит реальным фактам и столкновением с очевидностью того, что не все лица «кавказской национальности» криминальны и социально опасны и т.п. безусловно, внешняя валидность крайне важна для прикладных исследований, направленных на выяснение того, как та или иная система воздействия «работает» в принципе и менее заинтересованных в выяснении того, как она реализуется в специфических условиях и в определенных субкультурах и контекстах. С определенной степенью уверенности можно говорить о том, что популяционная валидность становится особенно актуальной сегодня в связи с попытками нахождения оптимальной пропорции идиографии и номотетики или итики и имики, т.е. уникально-специфичного и общего для различных групп населения. По-крайней мере многими исследователями отмечается необходимость отхода от ориентации на выявление абсолютно универсальных закономерностей. Этот вопрос актуален и в контексте проблемы «оживления» социально-психологического знания, предполагающего его соотнесение с тем, что происходит в реальной жизни людей и связываемого с экологической валидностью 4.

Экологическая валидность.

Под экологической валидностью понимается соответствие результатов исследования и используемых процедур и инструментов изучению и объяснению феноменологии в реальных условиях ее существования. Большой проблемой лабораторных экспериментов является генерализируемость их результатов на обстоятельства реальной жизни, естественно происходящих в условиях повседневной практики человека.. исследование обладает высокой экологической валидностью если его результаты подтверждаются в полевых исследованиях. Но и это не дает гарантий для автоматического признания результатов экологически валидными, т.к. предполагает и генерализацию на другие обстоятельства и контексты. Обвинения в адрес многих исследований в низкой экологической валидности часто связаны с невозможностью их повторения в обстоятельствах реальной жизни. Карлсмит (Carlsmith) предложил обозначать высоко экологические исследования термином «мирской реализм», экспериментальные, т.е. проводимые в искусственных условиях, при помощи термина «экспериментальный реализм» (1976). Примерами такого рода исследований являются оригинальное лабораторное исследование конформности Соломона Аша и известные эксперименты Стэнли Милгрэма., вызвавшие целую бурю дискуссий по проблеме психологической этики. Следует отметить и то обстоятельство, что в определенных ситуациях люди ведут себя в реальных условиях так же, как и в лабораторных (например, новорожденные или пассажиры самолета), в то время как в других обстоятельствах они демонстрируют выраженные отличия. Точно так же как одни люди сохраняют постоянство и в реальной жизни и в лаборатории, в то время как другие, демонстрируют выраженные отличия. При всем критическом отношении к экологической валидности классических социально-психологических экспериментов у них нельзя отнять главного достоинства - объективности в ее классическом понимании, обеспечивающей как однозначность трактовок, так и воспроизводимость, т.е. подтверждаемость. Последняя непосредственно связана со статистической валидностью. 5.

Валидность статистических выводов.

Этот тип валидности соответствует проверке статистической значимости зависимости между двумя переменными. Такие выводы всегда являются вероятностными. Тем не менее, в обыденном сознании часто присутствует своеобразная идеализация статистического подтверждения. У исследователей формируется доминанта статистического подтверждения, начисто перекрывающая усилия по валидизации полученных данных.

Можно говорить о двух типах ошибок: выводе о том, что зависимость является значимой, в то время, когда это не соответствует действительности; или выводе о том, что значимая зависимость между переменными отсутствует, в случае когда она, наоборот, имеется.

Существуют некоторые факторы, которые могут снижать валидность статистических выводов: 1)

слабая чувствительность исследований, которая проявляется при недостаточной по численности выборке или при большой изменчивости в сравниваемых группах, то есть испытуемые являются слишком разными и сильно отличаются друг от друга относительно некоторых переменных; 2)

низкая надежность методик измерения или процедур манипулирования переменными, которые используются в исследовании; 3)

факторы помех, присутствующие в условиях эксперимента; 4)

нарушение принятых правил проведения и обработки, которые установлены для различных статистических методов.

Стратегия повышения валидности статистических выводов состоит в уменьшении вариативности ошибки путем применения, например, схемы исследования с повторными пробами или использования однородных групп. Более подробное рассмотрение схем исследования будет представлена в разделе, посвященном методу эксперимента. Статистическая состоятельность исследования может диагностироваться как на стадии проектирования исследования (например, проверка расчета величины выборки), так и после исследования для оценки его результатов. 6.

Валидность процедур.

Третий тип валидности - это валидность процедур, которые позволяют варьировать и измерять переменные. Даже необходимость определить в операциональных терминах концептуальные переменные, значимые для исследования, уже является источником риска. Действительно, «перевод» понятия на уровень конкретных операций может неадекватно отразить теоретические положения исследования.

переменные, связанные только с определенными

операциями, производимыми в данном исследовании. 2)

переменные, связанные с экспериментальными

условиями косвенно, например, с ожиданиями исследователя.

Часто исследователь неосознанно стимулирует ответ, который он ожидает получить. Избежать этого можно, используя стратегии невмешательства в исследования и соответствующие методы измерения. При этом испытуемые не должны знать, что за ними наблюдают, что позволяет снять нежелательную мотивировку по отношению к эксперименту.

2. Конструктная валидность.

Этот тип валидности подобен внутренней валидности и подразумевает соответствие между полученными результатами и теорией, которая лежит в основе исследования. Для того, чтобы оценить конструктную валидность, необходимо исключить другие возможные теоретические объяснения результатов. Если есть сомнения в том, насколько экспериментальные результаты соотносятся с теоретическими, необходимо спланировать новый эксперимент, который позволит выбрать одно из нескольких теоретических объяснений результатов. Этот тип валидности наиболее трудно получить, потому что имеются многочисленные теории, с помощью которых можно объяснить соотношение переменных, полученное в эксперименте.

Рассмотрим две причины снижения конструктной валидности. Первая - слабая связь между теорией и экспериментом. Действительно, во многих психологических исследованиях даются нечеткие операциональные определения теоретических понятий. Вторая причина определяется тем, что, во- первых, испытуемые очень часто начинают играть роль «хорошего» объекта исследования и ведут себя таким образом, чтобы «подыграть» экспериментатору, и во-вторых, тем, что у испытуемых, особенно в экспериментах, замеряющих их интеллектуальные способности или эмоциональную стабильность, развивается высокая тревожность в отношении ожидаемой оценки.

Необходимо решить, какой тип валидности является главным для данного исследования. Действительно, процедуры, используемые для повышения одного типа валидности, могут снижать другие типы валидности.

Например, для повышения валидности статистических выводов исследователь должен использовать максимально разнородные объекты, снижая таким образом возможность ошибки. При этом внешняя валидность уменьшается.

Тип приоритетной валидности зависит от типа проводимого исследования. Например, если в экспериментальном исследовании устанавливается причинно-следственная зависимость между переменными, то в этом случае внутренняя валидность является основной. Наоборот, при вычислении корреляционных связей между переменными невозможно установить направление причинно-следственных отношений, поэтому в данном случае внутренняя валидность не представляет интереса по сравнению с другими типами валидности.

С понятием валидности связано понятие контроля. Под контролем понимается любое средство, используемое для исключения возможности снижения валидности исследования. На практике исследователь проверяет, какие факторы могут снизить валидность исследования и какие методы могут быть использованы для нейтрализации этих факторов.

Различают шесть основных методов контроля. 1.

Одним из наиболее часто используемых методов контроля является проведение эксперимента с группой испытуемых, которые не подвержены влиянию исследуемой переменной и которые сравниваются с испытуемыми, подверженными этому влиянию. Например, исследуется две группы относительно независимой переменной. Группа 1 получает воздействие и называется экспериментальной. Группа 2 не получает воздействия и называется контрольной. Результаты экспериментальной группы сравниваются с результатами контрольной группы. Если две группы были одинаковыми до экспериментального воздействия, то любое различие между ними, зафиксированное после эксперимента, может быть отнесено за счет этого воздействия. Пред-тест Экспериментальное

воздействие Пост

тест Группа 1 (экспериментальная) Да Да Да Группа 2 (контрольная) Да Нет Да Таблица Х.Х. Эксперимент с контрольной группой.

В данной таблице представлена экспериментальная группа 1, в которой проводился пред-тест, то есть предварительное измерение. Затем осуществлялось экспериментальное воздействие

и, наконец, проводился пост-тест. Контрольная группа 2 подвергалась только пред-тесту и пост-тесту и не получала экспериментального воздействия.

Однако для некоторых измерений данная процедура не имеет смысла. Например, при исследовании двух методов преподавания можно использовать группу, которая посещает только лекции, и группу, которая посещает лекции и семинары. Это дает возможность определить, какой метод обучения лучше, не используя группу, которая никогда не посещала лекций. 2.

При втором методе контроля контрольная группа не используется, но имеются две группы испытуемых, которые подвергаются воздействиям, различным по форме или интенсивности. Таким образом, каждая группа используется в качестве контрольной для другой. Вместо того, чтобы группу 1 подвергать воздействию, а группу 2 использовать в качестве контрольной, обе группы подвергаются воздействиям, различным по форме и интенсивности, например, в них используются два различных метода преподавания (см. Табл. Х.Х.). Пред-

тест Экспериментальное

воздействие Пост

тест Группа 1 (экспериментальная) Да 1 Да Группа 2 (контрольная) Да 2 Да

Таблица Х.Х. Эксперимент с группами, подвергающимися воздействиям различной интенсивности. 3.

Третий метод контроля - каждый испытуемый подвергается всем экспериментальным воздействиям. В данном случае вместо контрольной группы имеется только контрольное воздействие, то есть испытуемые служат для контроля самих себя. Данные эксперименты проводятся на одном испытуемом. Третий тип контроля используется в некоторых областях психологии, например, в исследованиях ощущений и восприятия. 4.

Четвертый тип контроля - преобразование помех. Если факторы, которые мешают в эксперименте и влияют на результаты являются трудно устранимыми, то они могут рассматриваться экспериментатором как независимые переменные.

Например, при сравнении студентов-психологов дневного и вечернего обучения факторы, которые определяют разницу между этими группами (студенты вечернего отделения старше, относятся к социальной группе рабочих, устают и т. д.) могут рассматриваться как помехи. Однако эти факторы могут быть преобразованы экспериментатором в независимые переменные. 5.

Пятый способ контроля - статистический контроль. Существуют специальные процедуры статистического контроля, которые осуществляются в основном на уровне данных. 6.

Шестой метод контроля - метод повторения. Он заключается в повторном проведении эксперимента. Количество повторений определяется экспериментатором.

Повторение может быть непосредственным, то есть

эксперимент повторяется без изменений. Но такой тип контроля используется редко, так как является примитивным. Напротив, если повторный эксперимент проводится на испытуемых различного типа или в нем используются различные операциональные определения теоретических понятий, то такой эксперимент может рассматриваться как эффективный метод контроля. Совпадение результатов первого и последующих экспериментов позволяет утверждать, что эксперименты взаимно подтверждаются.

Способы сравнения измерений Имеется два основных способа сравнения. 1.

Сравнение внутри объекта исследования, когда различные испытуемые подвергаются воздействию различных значений независимой переменной, то есть двум различным воздействиям, или один испытуемый подвергается воздействию, а другой нет, и т.д. 2.

Сравнение между объектами исследования, когда одни и те же испытуемые подвергаются воздействию каждого из значений независимой переменной.

Начнем с рассмотрения первого типа, то есть сравнения внутри объекта исследования. В объекте выделяется несколько групп испытуемых. Разные группы подвергаются различным по величине значениям независимой переменной. Этот способ может использоваться как для экспериментальных, так и для корреляционных исследований. Данный подход создает проблемы для внутренней валидности. Действительно, спрашивается, можно ли изменение, которое наблюдается в независимой переменной отнести за счет самой переменной, или это изменение уже определяется существующими различиями в группах испытуемых. Тогда необходимо до манипуляции с независимой переменной сформировать группы испытуемых, которые максимально подобны между собой. Чтобы уменьшить разницу между группами испытуемых при сравнении внутри объектов исследования, то есть в подгруппах, используются три различных метода. 1.

Первый метод - это контроль посредством постоянства, который называется также К-методом. Выбирается только одна величина характеристики субъектов, и все группы имеют эту величину. Например, пол - решено провести исследование всех женщин, то есть выбирается одна величина одной или более характеристик. При этом существует уверенность, что все группы, все индивидуумы показывают эту величину. 2.

Второй метод - это контроль посредством каузальной вариации, так называемый R-метод. В данном случае меняются случайным образом характеристики субъектов, которые могли бы повлиять отрицательно на результаты. Посредством привлечения многочисленных субъектов можно постулировать, что характеристики субъектов распределяются внутри каждой группы согласно тому же самому распределению, которое наблюдается в генеральной совокупности. При достаточно большом количестве объектов исследования вполне вероятно, что вступает в действие закон нормального распределения. 3.

Третий метод - это метод парного контроля, или М- метод. В данном случае субъекты приписываются к различным группам согласно данным систематических изменений их характеристик. Речь идет о систематическом распределении субъектов по группам, при этом следят, чтобы испытуемый, обладающий определенной характеристикой, был представлен также в другой группе и т. д. Следовательно, испытуемые попарно объединены в двух группах или уравнены относительно переменной, которая, как считается, может повлиять на результаты. Таким образом, например, в эксперименте можно предположить, что уровень образования может повлиять на результаты, если в каждой группе будет одинаковое количество лиц с низким, средним и высоким уровнями образования. Таким образом, испытуемые выровнены относительно одной переменной (в данном случае уровня образования).

Второй способ сравнения измерений - сравнение между объектами исследования. Одни и те же испытуемые, как отмечалось выше, подвергаются воздействию каждого значения независимой переменной. Это более чувствительное измерение, потому что разница между независимой переменной не может быть отнесена за счет разницы между самими испытуемыми. Однако данный подход не может использоваться в следующих случаях: 1)

когда независимая переменная исследуется корреляционным методом, например, при установлении зависимости между полом испытуемых и их творческими способностями; 2)

когда при сравнении на всех уровнях имеется риск изменить ответ испытуемого по сравнению с тем, каким мог бы быть ответ, если бы испытуемый не был подвергнут другим воздействиям.

В моей почте накопилось достаточно вопросов, где есть просьбы дать совет как обеспечить достоверность и валидность качественного исследования. Когда в 90-х гг. мы начинали регулярные полевые исследования с применением качественного подхода, сама постановка вопроса об их валидности и достоверности была неожиданной, т.к. эти понятия использовались в основном для количественных исследований.

В широком смысле и чаще всего, под валидностью понимают степень соответствиивсего того, что исследователь делает, изучая свой предмет,тому,что с этим предметом (явлением) происходит в действительности. В количественных исследованиях это обозначает правильность измерения (конструктная валидность) и внятность логических связок между причинами и следствиями (внешняя и внутренняя валидность).

Тем, кто связал в своем вопросе валидность и достоверность, возможно, будет интересно познакомиться со взглядами известных методологов качественного подхода, например, Линкольна, Губы или Паттона, которые трактовали валидность в качественных исследованиях именно как достоверность.Правда, отождествить полностью валидность и достоверность не получается из- за разных подходов авторовк пониманию достоверности. Например, к внутренней валидности еще как-томожно отнести конвенциальную достоверность, как результатконвенции разных исследователейотносительно соответствия выбранных имиметодовцелям и задачам исследования илиобщее согласие с операционализациейосновных понятий и с интерпретацией смысла полученных данных.

Другой подход обеспечения достоверностиуже претендует на объективность, т.к.требует подтверждения результатов исследования сведениями, полученными из разных источников, включая документы, статистику или «свидетельства независимых экспертов».Особое место в вопросе о достоверности качественных исследований занимает необходимость тщательного обоснованияпереноса моделей соц. механизмов и выводов на более широкийсоциальный контекст.

Разберем вопрос о валидности и достоверности на примере, который как-топрижился в нашей «школе-студии полевого исследователя» .

Пример .

Перед исследовательской группой поставлена задача, изучить случай жестокого обращения персонала детского дома с подопечными, понять причины и дать, по возможности,прогноз о вероятности распространенияэтого негативного явления в других заведениях. Для исследователей эта тема новая, только у одного из них был опыт участия в исследовании причин «дедовщины» в армии. Срок исследования – 2 месяца. Группа выбирает качественный метод исследования – интервью и наблюдение, т.к. знания предмета исследования и продуктивных гипотез, годных для проверки в анкетном опросе практически нет.

Посмотримна исследовательский процесс с т.з обеспечения достоверности результатов и их соответствия «реальности»как картину развертывания симптомов «невалидности» и «недостоверности» качественного исследования.Понимание того, что считать невалидностью и недостоверностью в исследовании, должно помочь пониманию того, что делает результаты исследования достовернымии валидными.

Симптом 1.

Первое, что может с самого начала создать проблемы с валидностью и достоверностью– это отсутствие конвенции в исследовательской группе относительно терминов и понятий, их операционализации, теоретических рамокпониманиясоциальных механизмов жестокости, факторов ее возникновения, представлений об институциональном устройстве детского дома, вопросов выборкии проч.Обычно, это проблема неумения или нежелания заняться методической рефлексией своих представлений по теме исследования до выхода в «поле».

Чтобы ни говорили сторонники идти в поле без гипотез, «с чистого листа», невозможно представить полное отсутствие у них обыденных и научных представлении об этом явлении. Особенно умиляет, когда они предъявляют до выхода в поле гайд. Представьте себе список вопросов,за которыми не стоят никакие предположения об изучаемом феномене. Откуда тогда в гайде вопросы о контроле работы персонала, о материальном обеспечении заведения илио контингенте воспитанников?

Это значит, что мы видим первый симптомразвития «недостоверности».Получается, что не вникнув с суть проблемы,исследователи кидаются в поле, не имея достаточного научного и исследовательского багажа по данной проблематике. Они не согласовали ключевые исследовательские вопросыи первичные гипотезы, не построили модели выборки, чтобы избежать «ложного снежного кома». Онине отработали навыки ведения интервью, наблюдения, фиксирования вопросов с учетом специфики объекта и т.п.

Чаще всего этот симптом проявляется в затруднениях исследователя объяснить, зачем он задает эти вопросы, и что будет делать с ответами, почему решил опросить именно этих респондентов, а не других.Если бы время полевого этапа было не ограниченопарой недель, то можно было бы использовать антропологический метод «вживания», т.е. постепенное неторопливое знакомство с объектом исследования.Систематические наблюдения, многократные интервью, случайные беседы,полевые дневники помогли бы выстроить гипотезы, подобрать адекватные инструменты исследования, задуматься над теорией, наметить выборкуи проч.

Но т.к. для этого времени нет, то в результате мы видим, что исследователь сочиняет вопросник как список похода в супермаркет«что бы еще не забыть спросить, вдруг пригодится». Причем, каждый член группы, не смотря на наличие «общего гида», часто задает свои собственные вопросы, называя все это глубинным интервью.Выборка, в этом случае,это случайные «захваты» респондентапо принципу «кого найдем – кто согласилсяотвечать». В результате высокийриск появления «ложных снежных комьев» и «ложной насыщенности», когда в конце исследования выясняется, что опросили не тех, кто нужен или упущены ключевые респонденты по данной теме.Например, много интервью с воспитанниками и администрацией, но отсутствует мнение членов опекунского совета, следователя, проводившего расследование,представителей органов соц. защиты – кураторов заведения и т.п.

Первую проблему Паттон (Patton) называетпроблемой методической строгости(rigorous methods).В нашем случае - это прозрачностьлогики использования методов исследования, соблюдение правил применения и общих принципов выбранного метода в соответствии с ресурсами времени, целями и задачами исследования.

А вторая проблема – это проблеманаличия необходимого знания, навыков, умения, опыта, продуктивности самого исследователя.Паттон наличие такого «бэкграунда» точно обозначил как «достоверностьсамого исследователя» (credibility of the researcher). Это очень важно для понимания специфики понятия достоверность в качественных исследованиях, т.к. дает ответ на вопрос, на основании чего мы должны доверять субъективности исследователя;

Симптом2

Предположим, что все трудности полевого этапа преодолены. Исследователи опросили всех «игроков на этом поле» , согласно своей модели (например, такой какнаша «восьмиоконная выборка»). Они опросили экспертов по насилию детей, администрацию дет.дома, воспитателей, опекунов, самих воспитанников, представителей правопорядка и т.п.В результате стал понятен социальный механизм, который привел к данному случаю. Основные факторы: слабый контроль надзирающих органов за воспитательной работой персонала, нарушения в отборе воспитателей, сокращение бюджета на содержание воспитанников, закрытость заведения от общественности, отсутствие возможности для изоляции (перевода) воспитанников с девиантным (отклоняющимся) поведением, вследствие психосоматических нарушений.

Можно ли доверять этим результатам? Ответ отрицательный.Т.к. согласно К. Попперу теория не фальсифицирована.Нужны доказательства, что именно эти факторы связаны с случаем жестокости.Как их добыть? Очевидно, нам придется отправиться в детдом, где не было подобных случаев и убедиться, что там отсутствуют выделенные нами факторы.Если они не обнаружатся или будут проявляться в значительно меньшей степени, то уровень конвенциальной достоверности к результатам значительно возрастет. Кстати, Максвеллназывал такое установление взаимосвязи между используемыми понятиями «теоретической валидностью».

Симтом 3.

Установлениеустойчивой взаимосвязи между указанными факторами, обнаруженная в двух случаях является важным шагом для обеспечения достоверности всего исследования, но недостаточным для распространения на другие объекты. Мы можем считать, что у нас появилась теория среднего уровня, но надо ее проверить другими методами. В идеале это должна быть методическая триангуляция с применением количественно –качественного подхода. Например, анализ статистики по уголовным делам по сходным случаям, анализ тематический статей в СМИ и Интернете,изучение специальной литературы, экспертный опрос.В общем, мы должны достигнуть подтверждения своих результатов данными из других источников, т.е. «confirmability» и возможности переноса данной объяснительной модели на другие объекты (transferability) по Губе и Линкольну.

Симптом 4.

Предположим, что анализ вторичных данных и экспертное мнение подтвердило наши выводы относительно данного случая, но одной из задач исследования является прогноз на вероятность возникновения новых случаев в различных регионах РФ.Дать такой прогноз – это подвергнуть свою «теорию» наиболее жесткой проверки на достоверность.

Для этого мы отправляемся к чиновникам из министерства посоц. политике, финансов и проч. центральных гос. учреждений курирующих дет. дома и спрашиваем их не на предмет «случаев жестокости», а об изменениях в планируемом бюджете, контроле, решением кадровых вопросов, т.е. по тем факторам, которые мы выявили. Если узнаем, что по факту все останется на прежнем уровне, то идем к экспертам, способным прокомментировать данную ситуацию и дать свой прогноз на ее развитие.Экспертами могут выступать не только гос.служащие, но и представители НКО, журналисты, которые компетентны в данной теме.

Соединяя эти данные, мы делаем прогноз, который может претендовать на достоверность исследования.В случае, если прогноз подтвердится, это можно считать важным свидетельством валидности исследовательских процедур и достоверности полученных данных и выводов. В случае, когда прогноз не подтвердился совсемили частично, то следует пересмотреть свои подходы иимеющиеся модели.

1) Однако бывает так, что методически все выполнено «строго»и «достоверность исследователей»достаточна для решения данных задач, но появились новые обстоятельства, новые факторы, которых не было в период проведения исследования или на тот момент они были малозначимы.Этоважновыяснить, не только для оценки продуктивности исследования, но и для того, чтобы, какписалПаттон, неутратить«philosophical belief in the value of qualitative inquiry». Убежденность исследователя в правильности методологических позиций качественного подхода в исследованиях, егополное принятие теоретических парадигм, на которых базируются эти методы, по мнению Паттона, также является условием достоверности качественного исследования.