Чем объясняются особенности психологического измерения
Чем объясняются особенности психологического измерения
Тема 5. Психологическое измерение
5.1. Элементы теории психологического измерения
Измерение может быть самостоятельным исследовательским методом, но может выступать и как компонент целостной процедуры эксперимента. Как самостоятельный метод измерение служит для выявления индивидуальных различий в поведении субъектов и отражения ими окружающего мира, а также для исследования адекватности отражения и структуры индивидуального опыта.
Измерение в процедуре эксперимента рассматривается как метод регистрации состояния объекта исследования и соответственно изменения этого состояния в ответ на экспериментальное воздействие.
На основе теории измерения строятся психологические тесты.
В психологии различают три основные процедуры психологического измерения. В основе различения лежит объект измерения.
1. Измерение особенностей поведения людей, определение различий между людьми с точки зрения выраженности тех или иных свойств, наличия того или иного психического состояния или для отнесения к определенному типу. Психологическое измерение заключается в измерении испытуемых.
2. Измерение как задача испытуемого, в ходе выполнения которой последний измеряет (классифицирует, ранжирует, оценивает и т. п.) внешние объекты: других людей, стимулы или предметы внешнего мира, собственные состояния. Психологическое измерение в этом случае является измерением стимулов. Под стимулом понимается любой шкалируемый объект.
3. Совместное измерение стимулов и испытуемых. При этом предполагается, что «стимулы» и «испытуемые» могут быть расположены на одной оси. Поведение испытуемого рассматривается как проявление взаимодействия личности и ситуации.
Внешне процедура психологического измерения испытуемых ничем не отличается от процедуры психологического эксперимента. Однако при проведении психологического эксперимента исследователя интересуют причинные связи между переменными, а результатом психологического измерения является лишь отнесение испытуемого либо оцениваемого им объекта к тому или иному классу, точке шкалы или пространству признаков.
Психологическое измерение стимулов является задачей, которую испытуемый решает в ходе психологического эксперимента. В этом случае измерение используется только как методический прием наряду с другими методами психологического исследования; испытуемый же «играет роль» измерительного прибора.
По сути психологическое измерение испытуемых и психологическое измерение стимулов являются качественно различными процедурами, но в психологии принято употреблять понятие «психологическое измерение» применительно к обоим этим случаям. Процедура психологического измерения состоит из ряда этапов, аналогичных этапам экспериментального исследования. Основой психологических измерений является математическая теория измерений – раздел математической психологии.
С математической точки зрения измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (как частный случай – чисел). Правила, на основании которых числа приписываются объектам, определяют шкалу измерения. Шкала (от лат. scala – лестница) в буквальном значении есть измерительный инструмент.
Понятие измерительной шкалы введено в психологию американским ученым С. Стивенсом.[70] Его трактовка шкалы и сегодня используется в научной литературе.
Операции, способы измерения объектов задают тип шкалы. Различают несколько типов шкал (см. 5.2). Шкала, в свою очередь, характеризуется видом преобразований, которые могут быть применены к результатам измерения. Если не соблюдать это правило, то структура шкалы нарушится, а данные измерения нельзя будет осмысленно интерпретировать. Тип шкалы однозначно определяет совокупность статистических методов, которые могут быть применены для обработки данных измерения.
5.2. Измерительные шкалы
Рассмотрим подробнее особенности различных измерительных шкал. С. Стивенсом[71] предложена классификация из четырех типов шкал измерения:
1) номинативная (номинальная, шкала наименований);
2) порядковая (ординальная);
3) интервальная (шкала равных интервалов);
4) шкала равных отношений.
Номинативная (от лат. nomen – имя, название) шкала – это шкала, классифицирующая по названию. Название не измеряется количественно, а лишь позволяет отличить один объект от другого или один субъект от другого. Номинативная шкала – это способ классификации объектов или субъектов, распределения их по ячейкам классификации.
Простейший случай номинативной шкалы – дихотомическая шкала, состоящая из двух наименований. Признак, который измеряется по дихотомической шкале наименований, называется альтернативным. Он может принимать всего два значения (например, леворукий – праворукий). Более сложный вариант номинативной шкалы – классификация из трех и более наименований (например, холерик, сангвиник, флегматик, меланхолик).
Распределив все объекты, реакции или всех испытуемых по классам, можно перейти от наименований к числам, подсчитав количество наблюдений в каждом классе.
Таким образом, номинативная шкала позволяет подсчитывать частоты встречаемости разных наименований или значений признака, а затем работать с этими частотами с помощью математических методов.
Порядковая шкала – это шкала, классифицирующая по принципу «больше – меньше». Если в шкале наименований безразлично, в каком порядке расположены классы, то в порядковой шкале они образуют последовательность от самого малого значения к самому большому (или наоборот).
В порядковой шкале должно быть не менее трех классов (например, положительный ответ – нейтральный ответ – отрицательный ответ). В порядковой шкале неизвестно истинное расстояние между классами, но известно, что они образуют последовательность.
От классов легко перейти к числам, если считать, что низший класс получает ранг 1, средний класс – ранг 2, а высший класс – ранг 3, или наоборот. Чем больше классов в шкале, тем больше возможностей для математической обработки полученных данных и проверки статистических гипотез.
Все психологические методы, использующие ранжирование, построены на применении порядковой шкалы. Если испытуемому предлагается, например, упорядочить 15 потребностей по степени их значимости или проранжировать список личностных качеств учителя, то во всех этих случаях он совершает так называемое принудительное ранжирование, при котором количество рангов соответствует количеству ранжируемых субъектов или объектов (потребностей, качеств и т. п.).
Независимо от того, приписывается ли каждому качеству или испытуемому один из трех-четырех рангов или же совершается процедура принудительного ранжирования, в результате получаются ряды значений, измеренные по порядковой шкале. Однако данные, полученные в разных группах, могут оказаться несопоставимыми, так как группы могут изначально различаться по уровню развития исследуемого качества и испытуемый, получивший в одной группе высший ранг, в другой получил бы лишь средний, и т. п.
Единица измерения в шкале порядка – расстояние в 1 ранг, при этом расстояние между классами и рангами может быть разным.
Интервальная шкала – это шкала, классифицирующая по принципу «больше на определенное количество единиц – меньше на определенное количество единиц». Каждое из возможных значений признака отстоит от другого на равном расстоянии.
Построение интервальной шкалы для измерения психических явлений – дело очень сложное. Даже при получении данных в физических единицах (секундах, сантиметрах и т. п.) результаты психологического измерения не являются измеренными по интервальной шкале. Аналогично значения, полученные испытуемыми в баллах по любой нестандартизованной методике, оказываются измеренными лишь по шкале порядка. На самом деле равноинтервальными можно считать только шкалы в единицах стандартного отклонения и процентильные шкалы – и то лишь при условии, что распределение значений в стандартизующей выборке было нормальным.[72]
Принцип построения большинства интервальных шкал основан на правиле «трех сигм»: примерно 97,7—97,8 % всех значений признака при нормальном его распределении укладываются в диапазон М ± 36. Можно построить шкалу в единицах долей стандартного отклонения, которая будет охватывать весь возможный диапазон изменений признака, если крайний слева и крайний справа интервалы оставить открытыми.
Американский психолог Р. Кеттелл предложил шкалу стенов – «стандартных десяток». Построение такой шкалы начинается с определения среднего арифметического значения в «сырых» баллах, которое принимается за точку отсчета. Вправо и влево отмеряются интервалы, равные 1/2 стандартного отклонения. Справа от среднего значения будут располагаться интервалы, равные 6, 7, 8, 9 и 10 стенам, слева – интервалы, равные 5, 4, 3, 2 и 1 стенам. На оси «сырых» баллов размечаются границы интервалов в единицах «сырых» баллов. Иногда в шкале стенов за разное количество «сырых» баллов будет начисляться одинаковое количество стенов. Шкалу стенов можно построить по любым данным, измеренным по крайней мере в порядковой шкале, при объеме выборки n > 200 и нормальном распределении признака.
Другой способ построения равноинтервальной шкалы – группировка интервалов по принципу равенства накопленных частот (процентильная шкала). При нормальном распределении признака в окрестности среднего значения группируется большая часть всех наблюдений, поэтому в этой области среднего значения интервалы оказываются меньше, уже, а по мере удаления от центра распределения они увеличиваются. Следовательно, такая процентильная шкала является равноинтервальной только относительно накопленной частоты.[73]
Многие исследователи не проверяют степень совпадения полученного ими эмпирического распределения с нормальным распределением и тем более не переводят получаемые значения в единицы долей стандартного отклонения, или процентили, предпочитая пользоваться «сырыми» данными. «Сырые» же данные часто дают скошенное, срезанное по краям или двухвершинное распределение. С такими распределениями приходится встречаться очень часто, и дело здесь не в какой-то ошибке, а в специфике психологических признаков.
Шкала равных отношений – это шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства. В шкалах отношений классы обозначаются числами, которые пропорциональны друг другу: 2 так относится к 4, как 4 к 8. Это предполагает наличие абсолютной нулевой точки отсчета. Однако возможности человеческой психики столь велики, что трудно представить себе абсолютный нуль в какой-либо измеряемой психологической переменной.
Абсолютный нуль может иметь место при подсчете количества объектов или субъектов. По отношению к показателям частот возможно применять все арифметические операции: сложение, вычитание, деление и умножение. Единица измерения в этой шкале отношений – одно наблюдение, один выбор, одна реакция и т. п.
Таким образом, универсальной шкалой измерения в частотах встречаемости того или иного значения признака и единицей измерения, которая представляет собой одно наблюдение, является номинативная шкала. Расклассифицировав испытуемых по признакам номинативной шкалы, можно применить потом высшую шкалу измерения – шкалу отношений между частотами.
5.3. Тестирование и теория измерений
Разновидностью процедуры измерения свойств объекта является психологическое тестирование (подробно о нем см. тему 6).
С теоретической точки зрения тестирование состоит из двух основных компонентов: собственно тестирования – взаимодействия испытуемого с тестом и интерпретации – взаимодействия данных (индикаторов) испытуемого с совокупностью данных.
В зависимости от того, с какими свойствами и индикаторами имеет дело исследователь на множестве испытуемых (определяется природой свойства) или индикаторов (определяется описанием поведения и заданий), получаются разные модели теста. Если свойство не определено, то рассматривается отношение различия на множестве людей. Это отношение порождает новый класс объектов. Такой тест выявляет меру сходства каждого человека с «человеком-эталоном».
Если свойство определено качественно, то оно рассматривается как точечное, что позволяет ограничить класс объектов – выделить людей, обладающих этим свойством, и людей, не обладающих им. В этом случае тест позволяет произвести дихотомическую классификацию.
Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека. Тест позволяет измерить свойство количественно.
Кумулятивно-аддитивная модель теста предложена немецким психологом К. Левиным, который понимал поведение как функцию личности и ситуации. В тесте решается задача восстановить свойство личности по поведению в ситуации. Ситуацией является пункт теста, а поведением – ответ испытуемого. Таким образом, каждый индикатор свойства есть соединение поведения и ситуации. Тем самым личность является производным от совокупности индикаторов. Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. «Сырой» балл считается оценкой, характеризующей испытуемого.
Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. При наличии высокого положительного коэффициента линейной корреляции результатов кумулятивно-аддитивная модель принимается для обработки данных личного опросника.
Вероятностная модель теста. Критическую оценку применения кумулятивно-аддитивной модели дал швейцарский психолог Р. Мейли. Он полагал, что тесты измеряют только вероятность наличия у испытуемого того или иного психологического свойства, а не его интенсивность.[74] По мнению В.Н. Дружинина, критика, с которой выступает Р. Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.[75] С позиции обобщенной модели основное требование к тесту заключается в том, чтобы процедуры измерения и интерпретации были тождественны.
Специфика измерений в психологии, их возможности и трудности, условия их валидности
1. Общее понятие об измерениях в психологии2. Методологические подходы к измерениям в психологии. Сложности измерений в психологии3. Валидность измерений и пути её обеспеченияЛитература
1. Общее понятие об измерениях в психологии
В психологии под измерением понимают выявление количественных характеристик изучаемых психических явлений. Измерение в психологии вводится на рубеже ХIХ-ХХ вв. как следствие общего для всех экспериментальных наук стремления к использованию математических методов. В широком смысле измерение – это особая процедура, посредством которой числа (или по крайней мере порядковые величины) приписываются вещам по определённым правилам. Сами правила состоят в установлении соответствия между некоторыми свойствами чисел и некоторыми свойствами вещей. Возможностью данного соответствия и обосновывается возможность измерения в психологии. Измерение исходит из предположения, что всё, что существует, каким-либо образом проявляется или на что-нибудь действует. Многообразие психических явлений и факторов развития в психологии принято называть переменными, поскольку они отличаются различными величинами у отдельных индивидов или в разное время. Общая задача измерений состоит в том, чтобы определить так называемую мощность одного показателя по сравнению с другим, измеряя его «вес». С точки зрения измерений следует различать три его аспекта:
а) количество или диапазон переменной (число правильных ответов, диапазон интересов и др.);
б) частота некоторого проявления – соответственно, чем оно чаще выявляется, тем выше значение свойства;
в) интенсивность, величина или сила проявления.
В психологии существует два основных направления измерений – психофизическое и психометрическое.
Психофизическое направление – это одно из направлений общей психологии, создание которого связано с именем Г.Т, Фехнера. Специфика психофизики состоит в том, что многообразие наблюдаемых форм поведения и психических состояний объясняется здесь прежде всего различиями вызывающих их физических ситуаций. Наиболее развиты психофизические исследования сенсорных процессов. При этом выделяются два круга проблем: измерение порога ощущений и построение психофизических шкал. Применение современных средств описания работы испытуемого позволяет учитывать наряду с величиной чувствительности сенсорной системы также и особенности внутренней активности, в частности избираемые критерии принятия решения.
Психометрическое направление связано, в основном, с разработкой и использованием различного рода тестов. Тесты применяются для стандартизированного измерения индивидуальных различий. Существуют три основные сферы тестирования:
а) образование – в связи с увеличением продолжительности обучения и усложнением учебных программ;
б) профессиональная подготовка и отбор – в связи с увеличением темпа роста и усложнение производства;
в) психологическое консультирование – в связи с ускорением социодинамических процессов.
Тестирование позволяет с известной вероятностью определить актуальный уровень развития у индивида необходимых навыков, знаний, личностных характеристик и т.д. Процесс тестирования может быть разделён на три этапа:
1) выбор теста (определяется целью тестирования и степенью достоверности и надёжности теста);
2) его проведение (определяется инструкцией к тесту);
3) интерпретация результатов (определяется системой теоретических допущений относительно предмета тестирования).
На всех трёх этапах тестирования необходимо участие квалифицированного психолога.
Большинство социальных и психологических объектов не могут быть строго фиксированы относительно места и времени своего существования и поэтому не поддаются прямому измерению. Поэтому возникает вопрос о специфике числовой системы, которая могла бы соотноситься с эмпирическими данным такого рода. В психологии используется метод моделирования реальных процессов с помощью числовых систем, который получил название шкалирования (от англ. scaling – определение масштаба, единицы измерения).
В психологии шкалирование является одним из основных методов математического анализа изучаемого явления, а также способом организации эмпирических данных, получаемых с помощью наблюдения, изучения документов, анкетного опроса, экспериментов, тестирования. Различные методы шкалирования представляют собой особые приёмы трансформации качественных характеристик в некоторую количественную переменную.
В психологии различные шкалы используются для изучения различных характеристик социально-психологических явлений. Первоначально были выделены четыре типа числовых систем, которые определяют соответственно четыре уровня (или шкалы) измерения: шкала наименований (номинальная), порядка (ординальная), интервалов (интервальная), отношений (пропорциональная).
Их разделение осуществимо на основе тех математических преобразований, которые допускаются каждой шкалой.
Различные уровни измерения какого-либо качества можно проиллюстрировать простым примером. Если подразделить людей только на удовлетворённых и неудовлетворённых своей работой, то тем самым получают номинальную шкалу удовлетворённости работой. Если можно установить также степень удовлетворённости, то строится ординальная шкала. Если фиксируется, насколько и во сколько раз удовлетворённость одних больше удовлетворённости других, то можно получить интервальную и пропорциональную шкалы удовлетворённости работой. Шкалы различаются не только своими математическими свойствами, но разными способами сбора информации. В каждой шкале применяют строго определённые методы анализа данных. В зависимости от типа задач, решаемых с помощью шкалирования, строят либо шкалы оценок, либо шкалы для измерения социальных установок.
Психология 35
Шкала оценок представляет собой методический приём, позволяющий распределить совокупность изучаемых объектов по степени выраженности общего для них свойства. Такое распределение основывается на субъективных оценках данного свойства, усреднённых по группе экспертов. В психологии шкалы оценок стали применяться одними из первых. Простейшим примером такой шкалы является обычная школьная система баллов. Шкала оценок имеет от пяти до одиннадцати интервалов, которые могут быть обозначены числами либо сформулированы вербально (словесно).
Считается, что психологические возможности человека не позволяют ему производить классификацию объектов более чем по 11-13 позициям. Возможность построения шкалы оценок базируется на предположении, что каждый эксперт способен непосредственно давать количественные оценки изучаемым объектам. К основным процедурам шкалирования с помощью шкалы оценок относится парное сравнение объектов, отнесение их к категориям и др.
Шкала установок представляет приём, позволяющий сравнивать индивидов по величине, интенсивности и устойчивости их отношения к изучаемому явлению. В психологии шкала установок применяется в качестве одного из главных средств анализа, так как объектом измерения являются здесь прежде всего личные качества людей. Построение шкалы установок связано с подбором таких суждений, которые выражают весь спектр возможных отношений субъекта к определённому социально-психологическому явлению. По шкале оценок каждое суждение оценивается группой экспертов и получает усреднённый балл. В шкалу установок входят те суждения, которые имеют наиболее высокую оценку; обычно из 300 суждений в готовую шкалу установок входят не более 25. С этими суждениями знакомят лиц, чьи установки предполагается изучить; соответственно по тому, какие суждения выбирает индивид, ему присваивается суммарный балл, который и является его баллом по данной установке.
2. Методологические подходы к измерениям в психологии. Сложности измерений в психологии
Систематизация психологических знаний о личности может быть условно разделена на две исторические фазы: клинико-психологическую и экспериментальную.
Клинико-психологическая фаза является фазой организованных наблюдений и вербальных теорий. Она возникла как стремление лечить и корригировать отклоняющиеся формы поведения. Эта фаза оставила в наследство много известных имён (таких как Адлер, Бехтерев, Блейхер, Жанэ, Корсаков, Крепелин, Кречмер, Лазурский, Фрейд, Юнг и др.) и множество самобытных теорий. Будучи научными по своим целям, эти теории достигли популярности, не имея обоснованности. В них отсутствует экспериментальная основа, имеющаяся в других науках. Эксперимент используется в клиническо-психологической фазе исследования лишь незначительно. Измерение здесь заменено наблюдением, сбор данных – отбором показательных случаев, статистическая обработка – содержательной интерпретацией.
Шкалы измерения переменных
Однако такая бедность экспериментальной процедуры позволяет манипулировать большим числом объясняющих переменных. Важно, что сторонники клинического метода стараются свести в единую систему все переменные, необходимые для формирования понятий о личности, без которых невозможно прийти к установлению реальных закономерностей.
Экспериментальная фаза возникла как реакция на вербальный характер клинико-психологического метода исследования. Эта фаза количественного и экспериментального исследования личности с самого начала чётко разделилась на два течения: двумерное и многомерное. Оба подхода позволяют изучать взаимосвязи между переменными, но разными способами.
Двумерный эксперимент является по существу слепым перенесением в психологию метода исследования, принятого в физических науках. Он предполагает выделение зависимой и независимой переменных с помощью экспериментального контроля либо с помощью иных процедур.
В многомерном же эксперименте одновременно статистически учитываются все измеряемые факторы, взятые во всей их жизненной полноте.
Сторонники двумерного экспериментального метода считают, что выделение двух переменных необходимо для изучения психического феномена в чистом виде. По их мнению, при таком подходе устраняются искажающие влияния одновременно происходящих процессов, однако упускается из виду тот факт, что изучаемый психический процесс никогда не протекает изолированно. Поведение сложно и определяется множеством внутренних и внешних факторов. По этой причине пытаться сформировать две группы лиц, идентичных во всех отношениях, кроме одного, и поставить их в одинаковые условия невозможно даже в лабораторных условиях. Поэтом вместо устранения искажающих эффектов разумнее изучить их самих. Этот принцип и положен в основу многомерных методов исследования. Многомерный эксперимент требует измерения множества сопутствующих признаков, независимость которых заранее не известна. Анализ связей между изучаемыми признаками позволяет выявить небольшое число скрытых структурных факторов, от которых зависят наблюдаемые вариации измеряемых переменных. Такой подход базируется на априорных соображениях, что исходные признаки – это только поверхностные индикаторы, косвенно отражающие скрытые от прямого наблюдения черты личности, знание которых позволит просто и понятно описать индивидуальное поведение. Поскольку скрытых черт значительно меньше, чем поверхностных, то даже полное описание личности остаётся экономным и удобным для практического использования.
Таким образом, многомерный подход к исследованию личности может рассматриваться как синтез двух фаз развития личностных исследований. Он позволяет объединить достоинства целостного подхода, свойственного клиническому методу с достоинствами метрического подхода, присущего двумерному эксперименту. В силу этих особенностей многомерный подход успешно применяется в тех областях, где человеческое поведение рассматривается в естественных условиях. Того, чего невозможно достичь прямой манипуляцией зависимых и независимых переменных, можно добиться с помощью более сложного статистического анализа всего множества существующих переменных. Главным достоинством многомерного подхода является его эффективность в исследовании реальных ситуаций без риска их искажений или загрязнений побочными влияниями, возникающими при создании искусственных экспериментальных условий.
К сожалению, несмотря на очевидные преимущества многомерного эксперимента, психологи ещё недостаточно осознают его потенциальные возможности. Это происходит по двум причинам: во-первых, из-за неспособности вырваться из привычных стереотипов о правилах проведения исследования, во-вторых из-за отсутствия серьёзных публикаций по теории многомерных исследований.
Однако с началом измерения в психологии возникла бурная и беспорядочная активность. Вероятно, в ряде случаев она была связана со стремлением некоторых психологов к оригинальности, к измерению чего-либо такого, что не измерял никто. Однако, большая часть этой хаотической активности объясняется отсутствием обобщённых личностных переменных. Это приводило к тому, что многие исследования оказывались до такой степени новыми, что не имели никакой связи с предыдущем развитием психологической науки.
3. Валидность измерений и пути её обеспечения
Главная проблема теории психологических исследований заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии: специфические и обобщённые (генерализированные).
Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятиям действительно точных (или «выровненных») оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования разработано понятие надёжности. Оно характеризует соотношение наблюдаемого результата и его действительной величины.
Генерализованный (обобщённый) истинный результат – это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-либо исследования. В практики для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из испытуемых тестов лишь частично покрывает исследуемое свойство.
Для характеристики способности исследования измерять действительный уровень психического свойства или качества используется понятие валидности.
Валидность (от англ. valid – пригодный) психологического исследования показывает, в какой мере оно измеряет те качества (свойства, характеристики, способности и т.п.) для оценки которых оно изначально было предназначено. Инвалидные, т.е. не обладающие валидностью тесты не пригодны для практического использования.
А) конструктная валидность теста
Валидность и надёжность – связанные понятия. Их соотношение может быть проиллюстрировано следующим примером. Допустим, имеются два стрелка А и В. Стрелок А выбивает 90 очков из 100, а стрелок В – только 70. Соответственно, надёжность стрелка А равна 0,90, а стрелка В – 0,70. Однако стрелок А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Второй стрелок всегда правильно выбирает мишени. Поэтому валидность стрелка А нулевая, а стрелка В – 0,70, то есть численно равна надёжности. Если стрелок А станет правильно выбирать мишени, то его валидность тоже будет равна его надёжности. Если же он будет продолжать иногда путать мишени, то часть результатов не будет зачтена и валидность стрелка А будет ниже надёжности. В настоящем примере аналогом надёжности является точность, меткость стрелка, а аналогом валидности – тоже точность стрельбы, но не по любой, а по строго определённой «своей» мишени. Поэтому надёжный стрелок может стать валидным, не только сменив мишень, но и сменив команду. В истории известны случаи, когда тесты, признанные инвалидными для измерения одних свойств, оказались валидными для других. Значит, надёжность является необходимым условием валидности. Ненадёжное психологическое исследование не может быть валидным, и, наоборот, валидное исследование всегда надёжно. Надёжность исследования не может быть меньше его валидности; в свою очередь валидность не может превышать надёжности.
В современной психометрии выделяют три основные вида валидности: 1) содержательная (логическая); 2) эмпирическая; 3) концептуальная.
Содержательная валидность (content validation).
Её часто называют «логической валидностью» или «валидностью по определению». Содержательная валидность означает, что исследование является валидным по мнению специалистов.
Содержательную валидность следует отличать от очевидной, лицевой, внешней валидности (face validity).
Очевидная валидность – это валидность с точки зрения испытуемого. Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. В.А. Аванесов приводит пример отказа от выполнения теста испытуемыми из-за отсутствия у теста очевидной валидности. Во время одного социологического опроса моряков рыболовного флота он столкнулся с случаем отказа заполнять анкету под предлогом того, что анкета составлена «не для моряков», в ней нет вопросов, относящихся к морякам, «на морские темы». Если бы опросник содержал «морские термины», то он казался бы «своим» и вызывал бы больше доверия у испытуемых. Именно в силу этого обстоятельства очевидную валидность иногда называют также доверительной валидностью.
Очевидная внешняя валидность может находиться в разных отношениях с содержательной валидностью. В одних случаях содержательная и внешняя валидность совпадают, в других внешняя валидность используется для маскировки содержательной валидности. С этой целью содержанию заданий и инструкции придаётся специальная форма, маскирующая истинную цель исследования. Тем самым предупреждается возникновение установочного поведения при тестировании. Это один из основных тактических приёмов, используемых при создании объективных тестов.
К вопросу о валидности теста Люшера
В отличие от очевидной валидности содержательная валидность всегда связана с оценкой отношения содержания тестового материала к истинной, а не мнимой цели измерения. Для определения содержательной валидности используются экспертные методы. Как и во всякой экспертизе, необходимо решить следующие вопросы: отобрать компетентных экспертов, сформировать экспертную группу, организовать процедуру экспертизы и т.п. Специфичным является объект экспертизы – содержание психологического исследования. Эксперты должны оценить содержание заданий теста по их соответствию психическому свойству, объявляемому в качестве содержания валидизируемого теста. С этой целью экспертам предъявляются спецификации к тесту и список заданий. Если конкретное задание полностью соответствует спецификации, то эксперт обозначает его как соответствующее содержанию теста. В противном случае он бракует задание и письменно обосновывает свою оценку. Если несколько экспертов бракуют одни и те же задания, они признаются несоответствующими спецификации теста. Если между экспертами существует расхождение в оценке заданий, их анонимно знакомят с письменными объяснениями экспертов, забраковавших задания, после этого экспертиза повторяется.
Экспертный критерий предполагает использование экспертных оценок для независимого измерения свойств личности. Хотя экспертному методу измерения особенностей личности в последнее время уделяется значительное внимание, тем не менее применение экспертных оценок для валидизации тестов не имеет достаточно разработанных унифицированных процедур, позволяющих получить достоверную и устойчивую информацию.
В связи с низкой надёжностью и трудностями организации экспертиз экспертные критерии валидности используются редко, преимущественно в случаях, когда невозможно или чрезвычайно затруднительно использовать в качестве внешнего критерия валидности обычные количественные методы измерения. На практике значительно больше распространены экспериментальные критерии. В этих случаях в качестве критерия валидности используются результаты одновременного и независимого тестирования испытуемых другим тестом, предположительно измеряющим то же свойство личности, что и валидизируемый тест. Коэффициент корреляции между результатами двух измерений называется эмпирической взаимной валидностью. Его величина зависит как от степени совпадения содержания измерения, так и от надёжности тестов. Поэтому максимальные коэффициенты эмпирической взаимной валидности имеют параллельные тесты.
Валидность теста
Эмпирическая валидность теста – это всегда валидность по отношению к конкретному критерию. Поэтому процесс конструирования теста часто сопровождается поиском подходящего критерия. Если к моменту проверки валидности такого экспериментального критерия не оказывается, в качестве него используются характеристики реального поведения, которые на основе существующих психологических теорий предполагаются связанными с измеряемым свойством. Например, в качестве жизненных критериев для тестов интеллекта используют показатели успешности обучения, экстравертированности – успешность административной деятельности, тревожности – частота заболеваний неврозом и т.п. Однако успешность обучения, поведения и деятельности редко зависит только от одного-единственного свойства психики. Реальное поведение человека множественно детерминированно, то есть зависит не от одного, а от целого комплекса психических свойств. Поэтому использование жизненных критериев для валидизации тестов имеет смысл только в отношении многомерных тестов.
Концептуальная валидность (construct validity).
Она устанавливается путём доказательства правильности теоретических концепций, положенных в основу теста. Обращение к концептуальной валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа выводов о том, в какой степени испытуемые обладают некоторой определённой психологической характеристикой. Причём измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Примерами таких концепций являются интеллект, черты личности, мотивы, установки и т.д. Концептуальная валидность имеет значение также при разработке принципиально новых тестов, для которых не определены внешние критерии валидности.
По существу проверка концептуальной валидности теста проходит через три основных этапа:
1. Определяется некоторая теоретическая концепция, которая предположительно объясняет выполнение валидизируемого теста.
2. Из теоретической концепции выводятся одна или несколько гипотез, связанных с валидизируемым тестом.
3. Выдвинутые гипотезы подвергаются эмпирической проверке.
Если эмпирические данные подтверждают гипотезу, то тем самым подтверждается психологическая концепция, положенная в основу теста, и способность теста служить инструментом измерения этой концепции. Чем убедительнее эмпирическое подтверждение, тем определённее можно говорить о валидности теста по отношению к психологической концепции, положенной в его основу.
Литература
1. Аванесов В.С. Тесты в социологическом исследовании. – М., 1982. 2. Ананьев Б.Г. Человек как предмет познания. – Л., 1968. 3. Ковалёв А.Г. Психология личности. – М., 1965. 4. Мельников В.М., Ямпольский Л.Т. Введение в экспериментальную психологию. – М., 1985. 5. Психологический словарь / под ред. А.В. Петровского, М.Г. Ярошевского. – М., 1990.