Понятие надежности теста

Зависимость достоверности получаемых психологических данных от надежности и валидности используемых методик

Проблема достоверности получаемой психологической информации

  • Зависимость достоверности получаемых психологических данных от надежности и валидности используемых методик.
  • Понятие надежности теста.
  • Понятие валидности теста.

При анализе и интерпретации результатов психологического исследования, полученных различными методами, всегда остро встает вопрос их достоверности. Решение этой проблемы в большей степени зависит от того, насколько надежны и валидны методы и методики, выбранные исследователем для изучения того или иного психического феномена. Рассмотрим данный вопрос на примере надежности и валидности тестовых методик.
При проведении тестирования, как при любом измерении, возникают три основные класса ошибок:

  • промахи;
  • систематические ошибки;
  • случайные ошибки.

Промахи - следствие грубых нарушений процедуры тестирования. У опытных экспериментаторов промахи встречаются довольно редко. Они могут быть легко выявлены и устранены путем отбрасывания резко отклоняющихся значений.
Систематические ошибки измерения остаются постоянными или закономерно меняются от измерения к измерению. В силу этих своих особенностей они могут быть предсказаны заранее, а в некоторых случаях и устранены.
К этой группе относятся ошибки, возникающие в связи с использованием различных методов сбора данных. Каждый метод сбора данных о личности ("L", "Q" и "T") обладает своими специфическими инструментальными искажениями.
Случайные ошибки имеют место, когда при последовательных измерениях постоянной характеристики получаются различные числовые оценки, т.е. при определении случайных ошибок предполагается, что измеряемая характеристика не изменяется во времени, а все отклонения обусловлены неточностью измерения. (См. дополнительный иллюстративный материал.)

На практике используются три основных метода оценки надежности тестов:

  • повторное тестирование;
  • параллельное тестирование;
  • расщепление.

Рассмотрим каждое из них в отдельности. (См. дополнительный иллюстративный материал.)
Повторное тестирование. Ошибка измерения может быть определена путем многократного тестирования. Поэтому совершенно естественно, что повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени и при одинаковых условиях стало одним из основных методов измерения надежности. Повторное тестирование обычно называют ретестом, а надежность, измеренную таким способом, - ретестовой надежностью. Схема оценки ретестовой надежности имеет следующий вид:


(См. дополнительный иллюстративный материал.)

В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.
Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование не отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или "подгонка" под первоначальные результаты, или, как следствие негативизма, демонстрация "новых" результатов. (См. дополнительный иллюстративный материал.)
В результате оказывается, что, проводя повторное измерение для оценки одних источников ошибок, мы вызываем к жизни другие. Это специфическая психометрическая проблема, так как человек является не только объектом, но и субъектом измерения, активно влияет на результаты тестирования. В качестве одного из эффективных средств устранения ошибок, связанных с повторным применением одного и того же теста, рекомендуется проводить повторное тестирование через достаточно большие интервалы времени, чтобы первоначальные ответы были забыты, а по возможности и сам факт первого измерения изгладился из памяти. Однако при больших интервалах времени между двумя обследованиями могут происходить изменения в самих измеряемых характеристиках личности. В этом случае низкие значения коэффициента надежности будут следствием изменчивости измеряемой характеристики, а не низкой надежности теста. Поэтому, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем, что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.
Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Схема использования параллельных тестов для измерения надежности имеет следующий вид:

Загрузка...


(См. дополнительный иллюстративный материал.)

Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.
Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.
Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура "расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.

где R1,2 - коэффициент корреляции двух половин теста.

Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.
Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.
Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:

  • специфические;
  • обобщенные (генерализированные).

Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или "выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины. (См. дополнительный иллюстративный материал.)
Генерализованный (обобщенный) истинный результат - это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-нибудь теста. В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

49 − 48 =