Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Недостатки тестирования




Как всегда, определенные недостатки метода тестов являются продолжением его достоинств:

1) Опасность «слепых» (автоматических) ошибок. Слепая вера низкоквалифицированных исполнителей, что тест должен сработать правильно автоматически, порождает иногда тяжелые ошибки и казусы: испытуемый не понял инструкцию и стал отвечать совсем не так, как требует стандартная инструкция, испытуемый по каким-то причинам применил иска-

Психодиагностика как научная технология

жающую тактику, возник «сдвиг» в приложении трафаретки-ключа к бланку ответов (при ручном, некомпьютерном подсчете баллов) и т. п. Мораль — пользователь не должен подходить к тесту с «магической установкой», будто этот волшебный «черный ящик» должен всегда работать исправно без всякого контроля со стороны человека/

2) Опасность профанации. Это эффект деятельности «профанов» в буквальном смысле слова. Не секрет, что внешняя легкость проведения тестов прельщает людей, не пригодных ни к какому квалифицированному труду. Оснастившись тестами, им самим непонятного качества, но с громкими рекламными названиями, профаны от тестирования агрессивно предлагают свои услуги всем и вся. В результате все проблемы предполагается решать с помощью 2—3 тестов — «на все случаи жизни». К количественному тестовому баллу приклеивается новый ярлык — заключение, создающее видимость соответствия диагностической задаче. Ходовой пример — повальное использование клинического теста MMPI для отбора кадров в нашей стране. В этом случае высокий балл по восьмой шкале «Шизофрения» интерпретируется как «оригинальность мышления», по четвертой шкале «Психопатия» — как «импульсивность» и т. п. Мысль о том, что нормальный здоровый испытуемый настораживается при виде многих вопросов MMPI, в которых откровенно называются психиатрические симптомы («Я часто слышу голоса») и выдают чисто «защитный» профиль, профанов не тревожит. [Примечание. Модификация MMPI, разработанная американцами для здоровых людей, Калифорнийский перечень CPI, у нас до сих пор не прошел полной психометрической адаптации и вообще используется редко]. Еще раз подчеркнем, что недобросовестная профанация и элементарное невежество идут в области тестирования рука об руку.

Основы психодиагностики

3) «Потеря индивидуального подхода, «стрессо-генность». Тест — самая общая «гребенка», под которую подгоняют всех людей. Возможность упустить уникальную индивидуальность нестандартного человека (тем более ребенка), к сожалению, довольно вероятна. Это чувствуют сами испытуемые, и это их нервирует — особенно в ситуации аттестационного тестирования. У людей с пониженной стрессоустой-чивостью возникает даже определенное нарушение саморегуляции — они начинают волноваться и ошибаться в элементарных для себя вопросах (просто из-за «мандража»). Вовремя заметить такую реакцию на тест — задача, которая под силу квалифицированному и добросовестному исполнителю.

4) Потеря индивидуального подхода, «репродук-тивность». Тесты знаний апеллируют прежде всего к стандартному применению готовых знаний. Отсутствие возможности раскрыть свою индивидуальность при наличии стандартных, заданных ответов — ничем, невосполнимый недостаток метода тестов. С точки зрения выявления творческого потенциала большинство тестов весьма ограничены именно тем, что оги не апеллируют к творческой, конструктивной деятельности. Во всяком случае, отдельные стандартизированные творческие тесты имеют дело с весьма абстрактным материалом, а тесты достижений (знаний), адаптированные на жизненно важном материале (профессионально релевантном), как правило, выполнены в форме стандартного набора заданий с заданным ответом.

5) Отсутствие доверительной обстановки. Бездушный и формализованный характер самой процедуры тестирования, конечно, оборачивается тем, что испытуемый лишается ощущения того, что психолог заинтересован в нем лично, в том, чтобы помочь в его проблемах и трудностях. Диалогические методы

Психодиагностика как научная технология

(беседа, игра и т. п.) в этом плане имеют несомненные преимущества: непосредственно общаясь с испытуемым квалифицированный психолог может установить доверительный контакт, проявить персональное участие, создать атмосферу, снимающую напряжение и защиту.

6) Потеря индивидуального подхода, неадекватная сложность. Иногда неквалифицированные «тес-тологи» обрушивают на ребенка тесты, слишком трудные, сложные для него по возрасту. У него еще не сложились необходимые понятия и понятийные навыки, чтобы адекватно осмыслить как общую инструкцию к тесту, так и смысл отдельных вопросов. В разделе 1.4 «История психодиагностики» мы уже говорили о драматических казусах резкой недооценки умственного развития детей при применении вербальных тестов. Но многие «невербальные» тесты также требуют развития речевого мышления — хотя бы для осмысления того, что говорит взрослый в своей инструкции. Альтернатива «взрослому» тестированию в детской психологии — игровой подход к тестированию, когда тест включается в контекст игры и ребенок выполняет его как бы играя.

Таким образом, тесты нельзя делать единственным исчерпывающим методом любой диагностики (и образовательно-профессиональной и личностной) — они требуют параллельного использования свободных письменных работ (в личностной диагностике место сочинений занимают проективные тесты со свободным ответом), а также устного собеседования (интервью). То есть место тестов — дополнять указанные выше более традиционные методы. В этом качестве тесты незаменимы, так как не имеют многих недостатков, свойственных традиционным методам.

Спокойное рациональное осознание достоинств и

недостатков метода тестирования освобождает всех

/

Основы психодиагностики

(исполнителей, заказчиков, испытуемых) как от чрезмерных упований на метод тестов, так и от пренебрежения к нему.

Лучшая гарантия от профанов и профанации — серьезный и квалифицированный интерес к тому, какую экспериментально-научную работу проделали разработчики теста, как полно эта работа и ее результаты отражены в сопутствующей документации. Это прежде всего вопросы надежности, выносливости и репрезентативности.

Надежность теста

НАДЕЖНОСТЬ — одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

— разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т. п.),

— динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой «врабатываемости» — выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т. п.),

— информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к

Психодиагностика как научная технология

тестам вообще и т. п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как «стандартная ошибка измерения» (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

ОШИБКА ИЗМЕРЕНИЯ (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

(1) R =1 - Se2/Sx2,

где S — дисперсия тестовых показателей X.

Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной- Поэтому на практике применяют корреляционные методы. Самый известный из них — метод перетестирования (тест-ретест) или метод измерения «РЕТЕСТОВОЙ НАДЕЖНОСТИ». На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование X, а затем повторное тестирование Y. Интервал, как правило, — две недели, что гарантирует забывание вопросов теста.

Затем для двух рядов значений X и Y подсчиты-вается, например, линейный коэффициент корреляции (возможный и нередко более корректный вари-

Основы психодиагностики

ант — подсчитывать ранговый коэффициент корреляции):

где Sx, S — стандартные отклонения X и Y,

Cov(X,Y) — ковариация двух переменных X и Y.

В этой книге мы не ставим целью научить студентов-педагогов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы и вычислительные примеры в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике («Общая психодиагностика», 1987; Клайн, 1994).

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция «тест-ретест» по формуле (3), полученной путем простого преобразования формулы (1):

(3) Se = S *VI — R

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция «тест-ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:

Se = 10*VI - 0,5 -7.1.

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И

Психодиагностика как научная технология

если испытуемый набрал на 6 очков больше, чем «средний» испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью, и его нельзя использовать как измерительный инструмент.

Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8 — 0,9.

Метод измерения «ретестовой надежности» пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы «расщепления» теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия.

• ■

Валидность теста

Соответствие теста измеряемому психическому свойству называется ВАЛИДНОСТЬЮ теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно «что-то» измеряет, то высокая валидность указывает,на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случай-

Основы психодиагностики

ные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ «НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежность теста.

Но в отличие от надежности помимо случайных факторов на валидность теста влияют систематические факторы* Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен. У Например, мы хотим измерять «потенциал обучаемости» (важнейший компонент общих интеллектуальных способностей человека). Но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством — «стрессоустойчивостью»: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый «критерий». КРИТЕРИЙ ВАЛИДНОСТИ — это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации

Психодиагностика как научная технология

об измеряемом свойстве — с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии — показатели эффективности той деятельности, ради

прогнозирования которой предпринимается тестирование (см. рис. 3 в 2.1.). В школе самый типичный критериальный показатель — это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе (см. 4.4).

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся здесь чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод «известных групп». К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе пс критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей («высокая» группа по крите-

рию), и заведомо недисциплинированные («низкая» группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют. После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четырехклеточная таблица:

  ВЫСКРИТ. НИЗ. КРИТ
ВЫС.ТЕСТ а b
НИЗ.ТЕСТ с d

Элемент а в этой табличке — это число испытуемых, попавших в «высокую» группу по тесту и по критерию, элемент Ъ — число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т. д.

Очевидно, что при полной валидности теста элементы Ъ и с таблички должны быть равны нулю. То есть тест не должен давать ошибок — говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высоко дисциплинированный (случай с).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi>—0,36. Хотя это, конечно, очень невысокая ва-

Психодиагностика как научная технология

лидность, но все же тест в этом случае дает значимо лучшие результаты, чем случайное гадание. То есть если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Но... Метод «известных групп» обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. Дело в том, что при формировании «известных групп» оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест дня прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они прошли в лучшем случае проверку по методике «известных групп» и не обладают так называемой ПРОГНОСТИЧЕСКОЙ ВАЛИДНОСТЬЮ (или по крайней мере эта валидность строго экспериментально не доказана). Конечно, на местном уровне задачу обеспечения прогностической валидности не решить. Это под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать примерно на порядок больше испытуемых — не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300 попадет в будущем в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников к обучению в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300— 500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать

Основы психодиагностики

критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую ва-лидность. Без этого мы исходим просто из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различение обычной дешевой схемы валидиза-ции теста (по «известным группам») и дорогой прогностической схемы валидизации теста — важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Когда заказчик твердо знает, каких доказательств эффективности предлагаемого теста можно потребовать от тестолога, он будет надежно застрахован от профанации.

в






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных