Основы теории тестов 1. Основные понятия теории тестов 2. Надежность тестов и пути ее определения
Контрольные вопросы 1. Что называется тестом? 2. Какие требования предъявляются к тесту? 3. Какие тесты называются аутентичными? 4. Что называется надежностью теста? 5. Перечислить причины, вызывающие вариацию результатов при повторном тестировании. 6. В чем отличие внутриклассовой вариации от межклассовой? 7. Как практически определить надежность теста? 8. В чем отличие согласованности тестов от стабильности? 9. В чем заключается эквивалентность тестов? 10. Что такое гомогенный комплекс тестов? 11. Что такое гетерогенный комплекс тестов? 12. Пути повышения надежности тестов.
Тест - это измерение или испытание, проводимое с целью определения состояния или способностей человека. Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям. К ним относятся: 1. стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста); 2. надежность; 3. информативность; 4. наличие системы оценок.
Требования тестов: n Информативность - степень точности, с которой он измеряет свойство (качество, способность, характеристику), для оценки которой используется. n Надежность - степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. Согласованность - (разные люди, но одинаковые приборы и одинаковые условия). n n Стандартность условий - (однаковые условия при повторных измерениях). n Наличие системы оценок - (перевод в систему оценок. Как в школе 5 -4 -3. . .).
Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (греч. аутентико - достоверным образом)
Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение - результатом тестирования (или результатом теста). Например, бег 100 м - это тест, процедура проведения забегов и хронометража - тестирование, время забега - результат теста.
Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными. Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т. п.), либо физиологические и биохимические показатели.
Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов.
Один и тот же тест, примененный к одним и тем же исследуемым, должен дать в одинаковых условиях совпадающие результаты (если только не изменились сами исследуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, исследуемый, только что показавший в тесте становой динамометрии результат 215 к. Г, при повторном выполнении показывает лишь 190 к. Г.
Надежность тестов и пути ее определения Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.
Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой. Четыре основные причины вызывают эту вариацию: 1. Изменение состояния исследуемых (утомление, врабатывание, «научение» , изменение мотивации, концентрации внимания и т. п.). 2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т. п.), т. е. все то, что объединяется термином “случайная ошибка измерения”.
Четыре основные причины вызывают эту вариацию: 3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим). 4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).
Понятие об истинном результате теста является абстракцией (в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов.
Если зарегистрировать у исследуемых их результаты в какомлибо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации: а) от испытуемого к испытуемому; n б) ото дня ко дню; n в) от экспериментатора к экспериментатору; n г) от попытки к попытке. Дисперсионный анализ дает возможность выделить и оценить эти вариации. n
Таким образом, чтобы оценить практически надежность теста надо, n во-первых, выполнить дисперсионный анализ, n во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).
Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность. n n Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.
Если все тесты, входящие в какойлибо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое -то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).
Надежность тестов может быть повышена до определенной степени путем: n n n а) более строгой стандартизации тестирования; б) увеличения числа попыток; в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений; г) увеличения числа эквивалентных тестов; д) лучшей мотивации исследуемых.
Первый компонент, теория тестов, содержит описание статистических моделей обработки диагностических данных. Здесь содержатся модели анализа ответов в тестовых заданиях и модели подсчета суммарных результатов теста. Мелленберг (1980, 1990) назвал это «психометрией». Классическая теория тестов, современная теория тестов (или модель анализа ответов на задания тестов - IRT) и модель
выборки заданий составляют три наиболее важных типа моделей теории тестов. Предметом рассмотрения психодиагностики являются первые две модели.
Классическая теория тестов. На основе этой теории разработано большинство интеллектуальных и личностных тестов. Центральным понятием этой теории является понятие «надежности». Под надежностью понимается согласованность результатов при повторном оценивании. В справочных пособиях это понятие обычно представляется очень кратко, а затем дается подробное описание аппарата математической статистики. В этой, вводной, главе мы представим сжатое описание основного значения отмеченного понятия. В классической теории тестов под надежностью понимается повторяемость результатов нескольких процедур измерения (преимущественно измерений при помощи тестов). Понятие надежности предполагает вычисление ошибки измерения. Результаты, полученные в процессе тестирования, могут быть представлены как сумма истинного результата и ошибки измерения:
Xi = Ti + Еj
где Xi - оценка полученных результатов, Ti - истинный результат, а Еj - ошибка измерения.
Оценка полученных результатов - это, как правило, количество правильных ответов на задания теста. Истинный результат можно рассматривать как истинную оценку в платоновском смысле (Gulliksen, 1950). Широко распространенным является понятие ожидаемых результатов, т.е. представлений о баллах, которые могут быть получены в результате большого числа повторений процедур измерения (Lord & Novich, 1968). Но проведение одной и той же процедуры оценивания с одним человеком не представляется возможным. Поэтому необходим поиск других вариантов решения проблемы (Witlman, 1988).
В рамках этой концепции делаются некоторые допущения относительно истинных результатов и ошибок измерения. Последние принимаются в качестве независимого фактора, что, конечно, является вполне обоснованным предположением, так как случайные колебания результатов не дают ковариаций: r ЕЕ =0.
Предполагается, что корреляции между истинными баллами и ошибками измерения не существует: r EE =0.
Суммарная ошибка равна 0, т.к. в качестве истинной оценки берется среднее арифметическое значение:
Эти допущения приводят нас в итоге к известному определению надежности как отношения истинного результата к общей дисперсии или выражению: 1 минус отношение, в числителе которого ошибка измерения, а в знаменателе - общая дисперсия:
, ИЛИ
Из этой формулы определения надежности получаем, что дисперсия ошибки S 2 (E) равна общей дисперсии в числе случаев (1 – r XX "); таким образом, стандартная ошибка измерения определяется по формуле:
После теоретического обоснования надежности и его производных необходимо определить индекс надежности того или иного теста. Существуют практические процедуры оценивания надежности тестов, такие как использование взаимозаменяемых форм (параллельные тесты), расщепление заданий на две части, повторное тестирование и измерение внутренней согласованности. Каждый справочник содержит индексы постоянства тестовых результатов:
r XX ’ =r(x 1 , x 2)
где r XX ’ - коэффициент стабильности, а x 1 и x 2 - результаты двух измерений.
Понятие надежности взаимозаменяемых форм введено и разработано Гулликсеном (1950). Данная процедура достаточно трудоемка, поскольку связана с необходимостью создания параллельной серии заданий
r XX ’ =r(x 1 , x 2)
где r XX ’ - коэффициент эквивалентности, а x 1 и x 2 - два параллельных теста.
Следующая процедура - расщепление основного теста на две части А и В - более проста в использовании. Показатели, полученные по обеим частям теста, коррелируются. С помощью формулы Спирмена-Брауна оценивается надежность теста в целом:
где А и В - две параллельные части теста.
Следующий метод - определение внутренней согласованности выполнения заданий теста. Этот метод основан на определении ковариаций отдельных заданий. Sg - дисперсия произвольно выбранного задания, и Sgh - ковариация двух произвольно выбранных заданий. Наиболее часто используемый коэффициент для определения внутренней согласованности - это «коэффициент альфа» Кронбаха. Используются также формула КР20 и λ-2 (лямбда-2).
В классической концепции надежности определяются ошибки измерения, возникающие как в процессе тестирования, так и в процессе наблюдений. Источники этих ошибок различны: это могут быть и личностные особенности, и особенности условий тестирования, и сами тестовые задания. Существуют конкретные методы вычисления ошибок. Мы знаем, что наши наблюдения могут оказаться ошибочными, наши методические инструменты несовершенны так же, как несовершенны и сами люди. (Как не вспомнить Шекспира: «Ненадежен ты, чье имя человек»). То, что в классической теории тестов ошибки измерения эксплицируются и объясняются, является важным положительным моментом.
Классическая теория тестов имеет ряд существенных особенностей, которые можно рассматривать и как ее недостатки. Некоторые из этих характеристик отмечаются в справочниках, но их значение (с житейской точки зрения) подчеркивается нечасто, как не отмечается и то, что с теоретической или методической точки зрения их следует считать недостатками.
Первое. Классическая теория тестов и понятие надежности ориентированы на подсчет суммарных тестовых показателей, представляющих собой результат сложения оценок, полученных в отдельных заданиях. Так, при работе
Второе. Коэффициент надежности предполагает оценку величины разброса измеряемых показателей. Отсюда следует, что коэффициент надежности будет ниже, если (при равенстве других показателей) выборка является более однородной. Не существует единого коэффициента внутренней согласованности заданий теста, этот коэффициент всегда «контекстуален». Крокер и Альджина (1986), например, предлагают специальную формулу «коррекции для гомогенной выборки», предназначенную для самых высоких и самых низких результатов, полученных проходящими тестирование. Для диагноста важно знать характеристики вариаций в выборочной совокупности, иначе он не сможет использовать коэффициенты внутренней согласованности, указанные в руководстве к данному тесту.
Третье. Феномен сведения к показателю среднего арифметического является логическим следствием классической концепции надежности. Если оценка в тесте колеблется (т.е. она недостаточно надежна), то вполне возможно, что при повторении процедуры субъекты, имеющие низкие показатели, получат более высокие баллы, и наоборот, субъекты с высокими показателями - низкие. Этот артефакт процедуры измерения нельзя ошибочно принять за истинное изменение или проявление процессов развития. Но в то же время разграничить их нелегко, т.к. никогда нельзя исключить возможность изменения в ходе развития. Для полной уверенности необходимо"сравнение с контрольной группой.
Четвертая характеристика тестов, разработанных в соответствии с принципами классической теории,- это наличие нормативных данных. Знание тестовых норм позволяет исследователю адекватно интерпретировать результаты тестируемых. Вне норм тестовые оценки лишены смысла. Выработка тестовых норм - это достаточно дорогостоящее предприятие, поскольку психолог должен получить результаты тестирования на репрезентативной выборке.
2 Я. тер Лаак
Если говорить о недостатках классической концепции надежности, то здесь уместно привести высказывание Сий-тсма (1992, р. 123-125). Он отмечает, что первое и главное предположение классической теории тестов состоит в том, что тестовые результаты подчиняются интервальному принципу. Однако никаких исследований, подтверждающих это предположение, нет. По сути, это «измерение по произвольно установленному правилу». Данная особенность ставит классическую теорию тестов в менее выгодное положение по сравнению со шкалами измерения установок и, конечно же, по сравнению с современной теорией тестов. Многие методы анализа данных (дисперсионный анализ. регрессионный анализ, корреляционный и факторный анализ) основаны на допущении существования интервальной шкалы. Однако оно не имеет твердого обоснования. Рассматривать шкалу истинных результатов как шкалу значений психологических характеристик (например, арифметических способностей, интеллекта, нейротизма) можно только предположительно.
Второе замечание касается того, что результаты выполнения теста - это не абсолютные показатели той или иной психологической характеристики тестируемого, их необходимо рассматривать лишь как результаты выполнения того или иного теста. Два теста могут претендовать на изучение одних и тех же психологических характеристик (например, интеллекта, вербальных способностей, экстраверсии), но это не означает, что эти два теста равноценны и обладают одинаковыми возможностями. Сравнение показателей двух людей, прошедших тестирование разными тестами, некорректно. То же относится и к заполнению двух разных тестов одним испытуемым. Третье замечание относится к предположению, что стандартная ошибка измерения одинакова применительно к любому уровню измеряемых способностей индивида. Однако не существует эмпирической проверки этого предположения. Так, например, нет гарантии того, что тестируемый с хорошими математическими способностями при работе с относительно простым арифметическим тестом получит высокие баллы. В этом случае высокую оценку скорее получит человек с низкими или средними способностями.
В рамках современной теории тестов или теории анализа ответов в заданиях теста содержится описание большого
количества моделей возможных ответов респондентов. Эти модели различаются положенными в их основу допущениями, а также требованиями по отношению к получаемым данным. Модель Раша часто рассматривается в качестве синонима теорий анализа ответов в заданиях теста (1RT). На самом деле это только одна из моделей. Представленная в ней формула для описания характеристической кривой задания g выглядит следующим образом:
где g - отдельное задание теста; ехр - функция экспоненты (нелинейная зависимость); δ («дельта») - уровень трудности теста.
Другие задания теста, например h, также получают собственные характеристические кривые. Выполнение условия δ h >δ g (g означает, что h - более трудное задание. Следовательно, для любого значения показателя Θ («тета» - латентные свойства способностей тестируемых) вероятность успешного выполнения задания h меньше. Эта модель называется строгой, поскольку очевидно, что при низкой степени выраженности черты вероятность выполнения задания близка к нулю. В этой модели нет места угадыванию и предположениям. Для заданий с вариантами выбора нет необходимости делать предположения о вероятности успеха. Кроме того, эта модель строга в том смысле, что все задания теста должны иметь одинаковую дискриминатив-ную способность (высокая дискриминативность отражается в крутизне кривой; здесь возможно построение шкалы Гут-тмана, согласно которой в каждой точке характеристической кривой вероятность выполнения задания меняется от О до 1). Из-за этого условия не все задания могут быть включены в тесты, созданные на основе модели Раша.
Существует несколько вариантов этой модели (например, Birnbaura, 1968, См. Lord & Novik). Она допускает существование заданий с различной дискриминативной
способностью.
Голландский исследователь Моккен (1971) разработал две модели анализа ответов в заданиях теста, требования которых не так строги, как в модели Раша, и поэтому, возможно, более реалистичны. В качестве основного усло-
вия Моккен выдвигает положение о том, что характеристическая кривая задания должна следовать монотонно, без обрывов. Все задания теста при этом направлены на изучение одной и той же психологической характеристики, измерять которую должна в. Допускается любая форма этой зависимости, пока она не прервется. Следовательно, форма характеристической кривой не определяется какой-либо специфической функцией. Такая «свобода» позволяет использовать больше заданий теста, и уровень оценивания при этом оказывается не выше, чем обычный.
Методология моделей ответов на задания теста (IRT) отличается от методологии большинства экспериментальных и корреляционных исследований. Математическая модель предназначена для изучения поведенческих, когнитивных, эмоциональных характеристик, а также феноменов развития. Эти рассматриваемые феномены часто ограничиваются ответами на задания, что позволило Мел-ленбергу (1990) назвать теорию IRT «мини-теорией о мини-поведении». Результаты исследования могут быть в определенной степени представлены как кривые согласованности, особенно в тех случаях, когда теоретические представления об изучаемых характеристиках отсутствуют. До сих пор в нашем распоряжении имеются лишь единицы тестов интеллекта, способностей и личностных тестов, созданных на основе многочисленных моделей теории IRT. Варианты модели Раша чаще используются при разработке тестов достижений (Verhelst, 1993), а модели Моккена больше подходят для феноменов развития (см. также гл. 6).
Ответ тестируемого на задания теста является основной единицей моделей IRT. Тип ответа определяется степенью выраженности у человека изучаемой характеристики. Такой характеристикой могут быть, например, арифметические или пространственные способности. В большинстве случаев это тот или иной аспект интеллекта, характеристики достижений или личностные особенности. Предполагается, что между положением данного конкретного человека в некотором диапазоне изучаемой характеристики и вероятностью успешного выполнения того или иного задания существует нелинейная зависимость. Нелинейность этой зависимости в определенном смысле интуитивно понятна. Известные фразы «Всякое начало трудно» (медленный не-
линейный старт) и «Стать святым не так просто», означают что дальнейшее совершенствование после достижения определенного уровня идет трудно. Кривая медленно приближается, но почти никогда не достигает 100%-го уровня успеха.
Некоторые модели скорее противоречат нашему интуитивному пониманию. Возьмем такой пример. Человек с индексом выраженности произвольной характеристики равным 1,5 имеет 60-процентную вероятность успеха при выполнении задания. Это противоречит нашему интуитивному пониманию такой ситуации, ведь можно либо успешно справиться с заданием, либо не справиться с ним вообще. Возьмем такой пример: 100 раз человек пытается взять высоту 1м 50 см. Успех сопутствует ему 60 раз, т.е. он имеет 60-процентную вероятность успеха.
Для оценки степени выраженности характеристики необходимо, по крайней мере, два задания. Модель Раша предполагает определение выраженности характеристик вне зависимости от трудности задания. Это также противоречит нашему интуитивному пониманию: предположим, что человек имеет 80-процентную вероятность прыгнуть выше 1,30 м. Если это так, то в соответствии с характеристической кривой заданий он имеет 60-процентную вероятность прыгнуть выше 1,50 м и 40-процентную вероятность прыгнуть выше 1,70 м. Следовательно, вне зависимости от значения независимой переменной (высоты) можно оценить способность человека прыгать в высоту.
Существует около 50 моделей IRT (Goldstein & Wood, 1989).Имеется множество нелинейных функций, описывающих (объясняющих) вероятность успеха в выполнении задания или группы заданий. Требования и ограничения этих моделей различны, и эти различия могут быть обнаружены при сопоставлении модели Раша и шкалы Моккена. К требованиям этих моделей можно отнести:
1) необходимость определения исследуемой характеристики и оценку позиции человека в диапазоне этой черты;
2) оценку последовательности заданий;
3) проверку конкретных моделей. В психометрии разработано множество процедур для проверки модели.
В некоторых справочных пособиях теория IRT рассматривается как форма анализа заданий теста (см., например,
Croker& Algina, J 986). Можно, однако, отстаивать ту точку зрения, что теория IRT - это «мини-теория о мини-поведении». Сторонники теории IRT замечают, что если-несовершенны концепции (модели) среднего уровня, то что же можно сказать о более сложных конструктах в психологии?
Классическая и современная теории тестов. Люди не могут не сравнивать вещи, которые выглядят почти одинаково. (Возможно, житейский эквивалент психометрии и состоит, главным образом, в сравнении людей по значимым характеристикам и выборе между ними). Каждая из представленных теорий - и теория измерения ошибок оценивания, и математическая модель ответов на задания теста - имеет своих сторонников (Goldstein & Wood, 1986).
Модели IRT не вызывают упреков в том, что это «оценивание по правилам», в отличие от классической теории тестов. Модель IRT ориентирована на анализ оцениваемых характеристик. Характеристики личности и характеристики заданий оцениваются с помощью шкал (порядковых или интервальных). Более того, возможно сопоставление показателей выполнения разных тестов, направленных на изучение сходных характеристик. Наконец, надежность неодинакова для каждого значения на шкале, а средние показатели обычно являются более надежными, чем показатели, расположенные в начале и в конце шкалы. Таким образом, модели IRT в теоретическом отношении представляются более совершенными. Существует и различия в практическом использовании современной теории тестов и классической теории (Sijstma, 1992, стр. 127-130). Современная теория тестов более сложна по сравнению с классической, поэтому она реже используется неспециалистами. Более того, IRT предъявляет особые требования к заданиям. Это означает, что задания должны быть исключены из теста, если они не удовлетворяют требованиям модели. Данное правило относится далее к тем заданиям, которые входили в состав широко используемых тестов, построенных по принципам классической теории. Тест становится короче, и, следовательно, надежность его снижается.
IRT предлагает математические модели для изучения реальных феноменов. Модели должны помочь нам понять ключевые аспекты этих феноменов. Однако здесь кроется основной теоретический вопрос. Модели можно рассматри-
ватькак подход к изучению сложной реальности, в которой мы живем. Но модель и реальность - не одно и то же. Согласно пессимистическому взгляду, возможно моделирование лишь единичных (и притом не самых интересных) типов поведения. Также можно встретить утверждение, что реальность вообще не подлежит моделированию, т.к. она подчиняется не одним лишь причинно-следственным законам. В лучшем случае возможно моделирование отдельных (идеальных) поведенческих феноменов. Существует и другой, более оптимистичный, взгляд на возможности модели-рования. Приведенная выше позиция блокирует возможность глубокого постижения природы феноменов человеческого поведения. Применение той или иной модели поднимает некоторые обшие, фундаментальные вопросы. На наш взгляд, не подлежит сомнению, что IRT является концепцией теоретически и технически превосходящей классическую теорию тестов.
Практическим назначением тестов, на какой бы теоретической основе они не создавались, является определение значимых критериев и установление на их основе характеристик тех или иных психологических конструктов. Имеет ли модель IRT преимущества и в этом отношении? Вполне возможно, что тесты, созданные на основе этой модели, не дают более точного прогноза по сравнению с тестами, созданными на основе классической теории, и возможно, что их вклад в разработку психологических конструктов не является более весомым. Диагносты предпочитают такие критерии, которые непосредственно относятся к отдельному человеку, институту или сообществу. Модель, более совершенная в научном отношении, «ipso facto»* не определяет более подходящий критерий и в определенной степени ограничена в объяснении научных конструктов. Очевидно, что разработка тестов на основе классической теории будет продолжаться, но вместе с тем будут создаваться и новые модели IRT, распространяющиеся на изучение большего числа психологических феноменов.
В классической теории тестов различаются понятия «надежности» и «валидности». Тестовхяе результаты должны быть надежны, т.е. результаты первоначального и повторного тестировании должны согласовываться. Кроме того,
* ipso facto (лак) - сама по себе (прим. перев.).
результаты должны быть свободны (насколько это возможно) от ошибок оценивания. Наличие валидности - одно из требований, предъявляемых к полученным результатам. При этом надежность рассматривается как необходимое, но еще не достаточное условие валидности теста.
Понятие валидности предполагает, что полученные результаты относятся к чему-либо важному в практическом или теоретическом отношении. Выводы, сделанные на основе тестовых оценок, должны быть валидными. Наиболее часто говорят о двух видах валидности: прогностической (критериальной) и конструктной. Существуют также и другие виды валидности (см. гл. 3). Кроме того, валидность может быть определена и в случае квазиэкспериментов (Cook & Campbell, 1976, Cook & Shadish, 1994). Однако основным видом валидности все же является прогностическая валидность, под которой понимается возможность предсказывать по тестовому результату нечто существенное о поведении в будущем, а также возможность более глубокого понимания того или иного психологического свойства или качества.
Представленные типы валидности обсуждаются в каждом справочнике и сопровождаются описанием методов анализа валидности теста. Факторный анализ более подходит для определения конструктной валидизации, а уравнения линейной регрессии используются для анализа прогностической валидности. Те или иные характеристики (успеваемость, эффективность терапии) могут быть предсказаны на основе одного или нескольких показателей, пол-ученных при работе с интеллектуальными или личностными тестами. Такие техники обработки данных, как корреляционный, регрессионный, дисперсионный анализ, анализ частичных корреляций и дисперсий, служат для определения прогностической валидности теста.
Также часто описывается содержательная валидность. Предполагается, что все задачи и задания теста должны принадлежать специфической области (психических свойств, поведения и т.д.). Понятие содержательной валидности характеризует соответствие каждого задания теста измеряемой области. Содержательная валидность иногда рассматривается как часть надежности или «обобщаемость» (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однако при
выборе заданий для тестов достижений в конкретной предметной области важно также обращать внимание на правила включения заданий в тест.
В классической теории тестов надежность и валидность рассматриваются относительно независимо друг от друга. Но существует и другое понимание соотношения этих понятий. Современная теория тестов основывается на применении моделей. Параметры оцениваются внутри некоторой модели. Если задание не соответствует требованиям модели, то в рамках этой модели оно признается невалидным. Конструктная валидизации представляет собой часть проверки самой модели. Эта валидизации относится главным образом к проверке существования одномерной латентной исследуемой черты с известными шкальными характеристиками. Шкальные оценки, несомненно, могут быть использованы для определения соответствующих критериев, и возможна их корреляция с показателями других конструктов для сбора информации о конвергентной и дивергентной валидности конструкта.
Психодиагностика аналогична языку, описываемому как единство четырех компонентов, представленных на трех уровнях. Первый компонент, теория тестов, аналогичен синтаксису, грамматике языка. Порождающая (генеративная) грамматика - это, с одной стороны, остроумная модель, с другой - система, подчиняющаяся правилам. С помощью этих правил на основе простых утвердительных предложений строятся сложные. При этом, однако, данная модель оставляет в стороне описание того, как организован процесс коммуникации (что передается и что воспринимается), и с какими целями он осуществляется. Для понимания этого требуются дополнительные знания. То же можно сказать и о теории тестов: она является необходимой в психодиагностике, но она не способна объяснить, что психодиагност делает и каковы его цели.
1.3.2. Психологические теории и психологические конструкты
Психодиагностика - это всегда диагностика чего-то конкретного: личностных характеристик, поведения, мышления, эмоций. Тесты предназначены оценивать индивидуальные различия. Существует несколько концепций
индивидуальных различий, каждая из которых имеет свои отличительные особенности. Если признается, что психодиагностика не ограничивается только оценкой индивидуальных различий, то тогда и другие теории приобретают существенное значение для психодиагностики. Примером является оценка различий процессов психического развития и различий в социальном окружении. Хотя оценка индивидуальных различий не является непременным атрибутом психодиагностики, тем не менее существуют определенные традиции исследования в этой области. Психодиагностика начиналась с оценки различий интеллекта. Основной задачей тестов было «определение наследственной передачи гениальности» (Gallon) или отбор детей для обучения (Binet, Simon). Измерение коэффициента интеллектуальности получило теоретическое осмысление и прак-тическую разработку в трудах Спирмена (Великобритания) и Терстоуна (США). Раймонд Б.Кеттел сделал подобное для оценки личностных характеристик. Психодиагностика становится неразрывно связанной с теориями и представлениями об индивидуальных различиях в достижениях (оценка предельных возможностей) и формах поведения (уровень типичного функционирования). Эта традиция продолжает оставаться эффективной и сегодня. В учебных пособиях по психодиагностике гораздо реже оцениваются различия в социальном окружении по сравнению с рассмотрением особенностей самих процессов развития. Для этого не существует каких-либо разумных объяснений. С одной стороны, диагностика не ограничивается определенными теориями и понятиями. С другой стороны, она нуждается в теориях, поскольку именно в них определяется диагностируемое содержание (т.е. «что» диагностируется). Так, например, интеллект может рассматриваться и как общая характеристика, и как основание для множества независимых друг от друга способностей. Если психодиагностика пытается «уйти» от той или иной теории, то тогда основой психодиагностического процесса становятся представления здравого смысла. В исследованиях применяются различные способы анализа данных, и общая логика исследований определяет выбор той или иной математической модели и определяет структуру используемых психологических понятий. Такие методы математической статисти-
ки, как дисперсионный анализ, регрессионный анализ, факторный анализ, подсчет корреляций предполагают существование линейных зависимостей. В случае некорректного применения этих методов они «привносят» свою структуру в полученные данные и используемые конструкты.
Представления о различиях в социальном окружении и о развитии личности почти не оказали влияния на психодиагностику. В учебных пособиях (см., например, Murphy & Davidshofer, 1988) рассматривается классическая теория тестов и обсуждаются соответствующие методы статистической обработки, описываются известные тесты, рассматриваются вопросы использования психодиагностики в практике: в психологии управления, при отборе персонала, при оценке психологических характеристик человека.
Теории индивидуальных различий (а также представления о различиях между социальным окружением и о психическом развитии) аналогичны изучению семантики языка. Это изучение и сущности, и содержания, и значения. Значения структурируются определенным образом (подобно психологическим конструктам), например, по сходству или контрасту (аналогия, конвергенция, дивергенция).
1.3.3. Психологические тесты и другие методические средства
Третий компонент предложенной схемы - тесты, процедуры и методические средства, с помощью которых происходит сбор информации о характеристиках личности. Дрене и Сийтсма (1990, стр. 31) дают следующее определение тестам: «Психологический тест рассматривается как классификация согласно определенной системе или как процедура измерения, которая позволяет вынести определенное суждение об одной или нескольких эмпирически выделенных или теоретически обоснованных характеристиках конкретной стороны поведения человека (за рамками тестовой ситуации). При этом рассматривается реакция респондентов на определенное число тщательно подобранных стимулов, а полученные ответы сравниваются с тестовыми нормами».
Диагностике необходимы тесты и методики для сбора надежной, точной и валидной информации об особенностях
и характерных чертах личности, о мышлении, эмоциях и поведении человека. Помимо разработки тестовых процедур в этот компонент входят также следующие вопросы: как создаются тесты, как формулируются и отбираются задания, как протекает процесс тестирования, каковы требования к условиям проведения тестирования, как учитываются ошибки измерения, как подсчитываются и интерпретируются тестовые результаты.
В процессе разработки тестов различаются рациональная и эмпирическая стратегии. Применение рациональной стратегии начинается с определения основных понятий (например, понятия интеллекта, экстраверсии), и в соответствии с этими представлениями формулируются задания теста. Примером такой стратегии может служить концепция аспектного анализа (the facet theory) Гуттмана (1957, 1968, 1978). Сначала определяются различные аспекты основных конструктов, затем подбираются задачи и задания таким образом, чтобы был учтен каждый из этих аспектов. Вторая стратегия состоит в том, что задания подбираются на эмпирической основе. Например, если исследователь попытается создать тест профессиональных интересов, который бы позволял дифференцировать медиков от инженеров, то процедура должна быть такой. Обе группы респондентов должны ответить на все задания теста, и те пункты, в ответах на которые обнаружены статистически значимые различия, входят в окончательный вариант теста. Если, например, между группами существуют различия в ответах на утверждение «Я люблю ловить рыбу», то это утверждение становится элементом теста. Основным положением этой книги является то, что тест связан с концептуальной или таксономической теорией, определяющей эти характеристики.
Назначение теста обычно определено в инструкции по его применению. Тест должен быть стандартизирован для того, чтобы с его помощью можно было оценить различия между людьми, а не между условиями тестирования. Существуют, однако, отклонения от стандартизации в процедурах, называемых «тестированием границ возможностей» (testing the limits) и «тесты оценки потенциальных возможностей в обучении» (learning potential tests). В этих условиях респонденту оказывается помощь в процессе
тестирования и затем оценивается влияние такой процедуры на результат. Подсчет баллов за ответы на задания объективен, т.е. осуществляется в соответствии со стандартной процедурой. Интерпретация полученных результатов также строго определена и осуществляется на основе тестовых норм.
Третий компонент психодиагностики - психологические тесты, инструменты, процедуры - содержит определенные задания, которые являются наименьшими единицами психодиагностики и в этом смысле задания аналогичны фонемам языка. Число возможных сочетаний фонем ограничено. Лишь определенные фонематические структуры могут образовывать слова и предложения, обеспечивающие доведение информации до слушателя. Также и тестовые задания: лишь в определенном сочетании друг с другом они могут стать эффективным средством оценки соответствующего конструкта.
ГЛАВА 3. СТАТИСТИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ
Статистическая обработка результатов тестирования позволяет с одной стороны, объективно определить результаты испытуемых, с другой – оценить качество самого теста, тестовых заданий, в частности оценить его надежность. Проблеме надежности уделено много внимания в классической теории тестов. Эта теория не потеряла своей актуальности и в настоящее время. Несмотря на появление, более современных теорий, классическая теория продолжает сохранять свои позиции.
3.1. ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОЙ ТЕОРИИ ТЕСТОВ
3.2. МАТРИЦА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ
3.3. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ТЕСТОВЫХ БАЛЛОВ
3.4. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
3.5. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
3.6. ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ ИСПЫТУЕМЫХ
3.7. КОРРЕЛЯЦИОННАЯ МАТРИЦА
3.8. НАДЕЖНОСТЬ ТЕСТА
3.9. ВАЛИДНОСТЬ ТЕСТА
ЛИТЕРАТУРА
ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОЙ ТЕОРИИ ТЕСТОВ
Создателем классической теории тестов (Classical Theory of mental tests) является известный британский психолог, автор факторного анализа, Чальз Эдвард Спирмен (Charles Edward Spearman) (1863-1945 г.) 1 . Он родился 10 сентября 1863 года, и четверть своей жизни прослужил в британской армии. По этой причине, степень доктора философии он получил только в возрасте 41 года 2 . Диссертационное исследование Ч.Спирмен выполнял в Лейпцигской лаборатории экспериментальной психологии под руководством Вильгельма Вундта (Wilhelm Wundt). В тот период на Ч.Спирмена сильное влияние оказали работы Фрэнсиса Гальтона (Francis Galton) по тестированию интеллекта человека. Учениками Ч.Спирмена были R.Cattell и D.Wechsler. В числе его последователей можно назвать A.Anastasi, J. P. Guilford, P.Vernon, C.Burt, A.Jensen.
Большой вклад в развитие классической теории тестов внес Льюис Гуттман (Louis Guttman, 1916-1987) 3 .
Всесторонне и полно классическая теория тестов впервые изложена в фундаментальном труде Гарольда Гулликсена (Gulliksen H., 1950 г.) 4 . С тех пор теория несколько видоизменялась, в частности совершенствовался математический аппарат. Классическая теория тестов в современном изложении приведена в книге Crocker L., Aligna J. (1986 г.) 5 . Из отечественных исследователей впервые описание этой теории дал В.Аванесов (1989 г.) 6 . В работе Челышковой М.Б. (2002 г.) 7 приведены сведения о статистическом обосновании качества теста.
Классическая теория тестов основывается на следующих пяти основных положениях.
1. Эмпирически полученный результат измерения (X) представляет собой сумму истинного результата измерения (T) и ошибки измерения (E) 8:
X = T + E (3.1.1)
Величины T и E обычно неизвестны.
2. Истинный результат измерения можно выразить как математическое ожидание E(X):
3. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю, то есть ρ TE = 0.
4. Ошибочные компоненты двух любых тестов не коррелируют:
5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста:
Кроме этого, основу классической теории тестов составляют два определения – параллельных и эквивалентных тестов.
ПАРАЛЛЕЛЬНЫЕ тесты должны соответствовать требованиям (1-5), истинные компоненты одного теста (T 1) должны быть равны истинным компонентам другого теста (T 2) в каждой выборке испытуемых, отвечающих на оба теста. Предполагается, что T 1 =T 2 и, кроме того, равны дисперсии s 1 2 = s 2 2 .
Эквивалентные тесты должны соответствовать всем требованием параллельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и ту же константу с .
Условие эквивалентности двух тестов записывается в следующем виде:
где c 12 - константа различий результатов первого и второго тестов.
На основе приведенных положений построена теория надежности тестов 9,10 .
то есть, дисперсия полученных тестовых баллов равна сумме дисперсий истинных и ошибочных компонентов.
Перепишем это выражение в следующем виде:
(3.1.3)
Правая часть этого равенства представляет собой надежность теста (r ). Таким образом надежность теста можно записать в виде:
На основе этой формулы в последующем были предложены различные выражения для нахождения коэффициента надежности теста. Надежность теста представляет собой его важнейшую характеристику. Если неизвестна надежность, то результаты тестирования невозможно интерпретировать. Надежность теста характеризует его точность как измерительного инструмента. Высокая надежность означает высокую повторяемость результатов тестирования в одинаковых условиях.
В классической теории тестов важнейшей проблемой является определение истинного тестового балла испытуемого (T). Эмпирический тестовый балл (X) зависит от многих условий – уровня трудности заданий, уровня подготовленности испытуемых, количества заданий, условий проведения тестирования и т.д. В группе сильных, хорошо подготовленных испытуемых, результаты тестирования будут как правило, лучше,. чем в группе слабо подготовленных испытуемых. В этой связи остается открытым вопрос о величине меры трудности заданий на генеральной совокупности испытуемых. Проблема заключается в том, что реальные эмпирические данные получают на вовсе не случайных выборках испытуемых. Как правило, это учебные группы, представляющие собой множество учащихся достаточно сильно взаимодействующих между собой в процессе учения и обучающиеся в условиях, часто не повторяющихся для других групп.
Найдем s E из уравнения (3.1.4)
Здесь в явной форме показана зависимость точности измерения от величины стандартного отклонения s X и от надежности теста r .
Описание презентации по отдельным слайдам:
1 слайд
Описание слайда:
2 слайд
Описание слайда:
Физическими качествам принято называть врожденные (генетически унаследованные) морфофункциональные качества, благодаря которым возможна физическая (материально выраженная) активность человека, получающая свое полное проявление в целесообразной двигательной деятельности. К основным физическим качествам относят силу, быстроту, выносливость, гибкость, ловкость.
3 слайд
Описание слайда:
Двигательные способности- это индивидуальные особенности, определяющие уровень двигательных возможностей человека (В. И. Лях, 1996). Основу двигательных способностей человека составляют физические качества, а форму проявления - двигательные умения и навыки. К двигательным способностям относят силовые, скоростные, скоростно-силовые, двигательно-координационные способности, общую и специфическую выносливость
4 слайд
Описание слайда:
Схема систематизации физических (двигательных) способностей Физические (двигательные) способности Кондиционные (энергетические) Силовые Сочетания кондиционных способностей Выносливость Скоростные Гибкость Координационные (информационные) КС, относящиеся к отдельным группам двигательных действий, специальные КС Специфические КС Сочетания координационных способностей Сочетания кондиционных и координационных способностей
5 слайд
Описание слайда:
ПОЛУЧИТЬ ТОЧНУЮ ИНФОРМАЦИЮ ОБ УРОВНЕ РАЗВИТИЯ ДВИГАТЕЛЬНЫХ СПОСОБНОСТЕЙ /высокий, средний, низкий/ МОЖНО С ПОМОЩЬЮ ТЕСТОВ /или контрольных упражнений/.
6 слайд
Описание слайда:
С помощью контрольных испытаний (тестов) можно выявить абсолютные (явные) и относительные (скрытые, латентные) показатели этих способностей. Абсолютные показатели характеризуют уровень развития тех или иных двигательных способностей без учета их влияния друг на друга. Относительные показатели позволяют судить о проявлении двигательных способностей с учетом этого влияния.
7 слайд
Описание слайда:
Вышеназванные физические способности можно представить как существующие потенциально, т. е. до начала выполнения какой-либо двигательной деятельности или деятельностей (их можно называть потенциальными способностями) и как проявляющиеся реально в начале (в том числе при выполнении моторных тестов) и в процессе выполнения этой деятельности (актуальные физические способности).
8 слайд
Описание слайда:
С определенной долей условности можно говорить об ЭЛЕМЕНТАРНЫХ и физических способностях СЛОЖНЫХ физических способностях
9 слайд
Описание слайда:
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПОЗВОЛЯЮТ РАЗЛИЧАТЬ СЛЕДУЮЩИЕ ФИЗИЧЕСКИЕ СПОСОБНОСТИ СПЕЦИАЛЬНЫЕ СПЕЦИФИЧЕСКИЕ ОБЩИЕ КС
10 слайд
Описание слайда:
Специальные физические способности относятся к однородным группам целостных двигательных действий или деятельностей: бегу, акробатическим и гимнастическим упражнениям на снарядах, метательным двигательным действиям, спортивным играм (баскетболу, волейболу).
11 слайд
Описание слайда:
О специфических проявлениях физических способностей можно говорить как о компонентах, составляющих их внутреннюю структуру.
12 слайд
Описание слайда:
Так, основными компонентами координационных способностей человека являются: способности к ориентированию, равновесию, реагированию, дифференцированию параметров движений; способности к ритму, перестроению двигательных действий, вестибулярной устойчивости, произвольному расслаблению мышц. Эти способности являются специфичными.
13 слайд
Описание слайда:
Основными компонентами структуры скоростных способностей считают быстроту реагирования, скорость одиночного движения, частоту движений и скорость, проявляемую в целостных двигательных действиях.
14 слайд
Описание слайда:
К проявлениям силовых способностей относят: статическую (изометрическую) силу, динамическую (изотоническую) силу - взрывную, амортизационную силу.
15 слайд
Описание слайда:
Большой сложностью отличается структура выносливости: аэробная, требующая для своего проявления кислородных источников расщепления энергии; анаэробная (гликолитический, креатинфосфатный источники энергии - без участия кислорода); выносливость различных мышечных групп в статических позах - статическая выносливость; выносливость в динамических упражнениях, выполняемых со скоростью 20-90% от максимальной.
16 слайд
Описание слайда:
Менее сложными являются проявления (формы) гибкости, где выделяют активную и пассивную гибкость.
17 слайд
Описание слайда:
Под общими физическими способностями следует понимать потенциальные и реализованные возможности человека, определяющие его готовность к успешному осуществлению различных по происхождению и смыслу двигательных действий. Специальные физические способности - это возможности человека, определяющие его готовность к успешному осуществлению сходных по происхождению и смыслу двигательных действий. Поэтому тесты дают информацию прежде всего о степени сформированности специальных и специфических физических (скоростных, координационных, силовых, выносливости, гибкости) способностей.
18 слайд
Описание слайда:
Специальные физические способности - это возможности человека, определяющие его готовность к успешному осуществлению сходных по происхождению и смыслу двигательных действий. Поэтому тесты дают информацию прежде всего о степени сформированности специальных и специфических физических (скоростных, координационных, силовых, выносливости, гибкости) способностей.
19 слайд
Описание слайда:
Задачи тестирования выявлять уровни развития кондиционных и координационных способностей, оценивать качество технической и тактической подготовленности. На основе результатов тестирования можно: сравнивать подготовленность как отдельных учащихся, так и целых групп, проживающих в разных регионах и странах; проводить спортивный отбор для занятий тем или иным видом спорта, для участия в соревнованиях; осуществлять в значительной степени объективный контроль за обучением (тренировкой) школьников и юных спортсменов; выявлять преимущество и недостатки применяемых средств, методов обучения и форм организации занятий; наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.
20 слайд
Описание слайда:
Наряду с вышеназванными задачами в практике разных стран задачи тестирования сводятся к следующему: научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений; стимулировать учащихся к дальнейшему повышению своего физического состояния (формы); знать не столько исходный уровень развития двигательной способности, сколько его изменение за определенное время; стимулировать учащихся, добившихся высоких результатов, но не столько за высокий уровень, сколько за запланированное повышение личных результатов.
21 слайд
Описание слайда:
Тест - это измерение или испытание, проводимое для определения способностей или состояния человека.
22 слайд
Описание слайда:
В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным требованиям: должна быть определена цель применения любого теста (или тестов); следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования; необходимо определить надежность и информативность тестов; результаты тестов могут быть представлены в соответствующей системе оценки
23 слайд
Описание слайда:
Тест. Тестирование. Результат тестирования Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение - результатом тестирования (теста).
24 слайд
Описание слайда:
В основе тестов, используемых в физической культуре, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными или моторными.
25 слайд
Описание слайда:
Известна классификация тестов по их структуре и по их преимущественным показаниям различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака (координационной или кондиционной способности).
26 слайд
Описание слайда:
27 слайд
Описание слайда:
С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности. например, прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту).
28 слайд
Описание слайда:
29 слайд
Описание слайда:
ТЕСТЫ могут быть кондиционные тесты для оценки силовых способностей для оценки выносливости; для оценки скоростных способностей; для оценки гибкости координационные тесты для оценки координационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности; для оценки специфических координационных способностей - способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи), вестибулярной устойчивости, произвольному расслаблению мышц).
30 слайд
Описание слайда:
Каждая классификация – это своеобразные ориентиры для выбора (или создания) того типа тестов, которые в большей мере соответствуют задачам тестирования.
31 слайд
Описание слайда:
КРИТЕРИИ ДОБРОТНОСТИ ДВИГАТЕЛЬНЫХ ТЕСТОВ понятие «двигательный тест» отвечает своему назначению тогда, когда тест удовлетворяет соответствующим основным критериям: надежности, стабильности, эквивалентности, объективности, информативности (валидности), а также дополнительным критериям: нормированию, сопоставляемости и экономичности. Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными, или аутентичными (достоверными).
32 слайд
Описание слайда:
Под надежностью теста понимают степень точности, с которой он оценивает определенную двигательную способность независимо от требований того, кто ее оценивает. Надежность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном проведении контрольного упражнения. Другими словами, ребенок в группе обследуемых по результатам повторных тестирований (например, показателей прыжков, времени бега, дальности метания) устойчиво сохраняет свое ранговое место. Надежность теста определяется с помощью корреляционно-статистического анализа путем расчета коэффициента надежности. При этом используют различные способы, на основании которых судят о надежности теста.
33 слайд
Описание слайда:
Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определенное время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надежности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших детей - результаты стабильнее, чем у более младших. Ретест обычно проводится не позднее, чем через неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.
34 слайд
Описание слайда:
Эквивалентность теста Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов. Например, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м. Отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надежность оценок или выводов исследования, тогда целесообразно использовать два и больше эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, тогда следует применять только один из эквивалентных тестов. Такая батарея, как отмечалось, является гетерогенной, так как входящие в нее тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов является бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м.
35 слайд
Описание слайда:
Надежность тестов определяют также по сопоставлению средних оценок четных и нечетных попыток, входящих в тест. Например, среднюю точность бросков в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надежности называется методом удвоения, или расщеплением. Он используется преимущественно при оценке координационных способностей и в том случае, если число попыток, образующих тестовый результат, не меньше шести.
36 слайд
Описание слайда:
Под объективностью (согласованностью) теста Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами). Для повышения объективности тестирования необходимо соблюдение стандартных условий проведения теста: время тестирования, место, погодные условия; единое материальное и аппаратурное обеспечение; психофизиологические факторы (объем и интенсивность нагрузки, мотивация); подача информации (точная словесная постановка задачи теста, объяснение и демонстрация). Это так называемая объективность проведения теста. Говорят еще об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.
37 слайд
Описание слайда:
В целом, как отмечают специалисты, надежность тестов можно повысить различными путями: более строгой стандартизацией тестирования, увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов. Фиксированных значений показателей надежности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95 - 0,99 - отличная надежность; 0,90 -- 0,94 -- хорошая; 0,80 -- 0,89 -- приемлемая; 0,70 - 0,79 - плохая; 0,60 - 0,69 - для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых.
38 слайд
Описание слайда:
Информативность теста это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной (и отечественной) литературе используют вместо слова «информативность» термин «валидность» (от англ. validity-обоснованность, действительность, законность). Фактически, говоря об информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения. Различают несколько видов валидности: логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную.
39 слайд
Описание слайда:
Важными дополнительными критериями тестов, как отмечалось, являются нормирование, сопоставляемостъ и экономичность. Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики. Сопоставляемостъ теста заключается в возможности сравнивать результаты, полученные по одному или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов. Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников.
40 слайд
Описание слайда:
ОРГАНИЗАЦИЯ ТЕСТИРОВАНИЯ ПОДГОТОВЛЕННОСТИ ДЕТЕЙ ШКОЛЬНОГО ВОЗРАСТА Второй важной проблемой тестирования двигательных способностей (напомним, что первая - отбор информативных тестов, является организация их применения. Учитель физической культуры должен определить: в какие сроки лучше организовать тестирование, как осуществлять его на уроке и как часто следует проводить тестирование. Сроки тестирования согласуются со школьной программой, которая предусматривает обязательное двухразовое тестирование физической подготовленности учащихся.
41 слайд
Описание слайда:
Знание годичных изменений в развитии двигательных способностей детей позволяет учителю вносить соответствующие коррективы в процесс физической культуры на следующий учебный год. Однако учитель должен и может проводить более частое тестирование, вести так называемый оперативный контроль. Это целесообразно делать для того, чтобы определить, например, изменение уровня скоростных, силовых способностей и выносливости под влиянием уроков легкой атлетики в течение первой четверти. С этой целью учитель может применить тесты для оценки координационных способностей детей в начале и в конце освоения материала программы, например, по спортивным играм, для выявления изменения показателей развития этих способностей.
42 слайд
Описание слайда:
Следует учитывать, что разнообразие решаемых педагогических задач не позволяет предоставить учителю унифицированную методику тестирования, одинаковых правил проведения тестов и оценки результатов тестирования. Это требует от экспериментаторов (учителей) проявления самостоятельности в решении теоретико-методологических и организационных вопросов тестирования. Тестирование на уроке необходимо увязать с его содержанием. Другими словами, примененный тест или тесты при соблюдении соответствующих требований (как к методу исследования) должны органически входить в состав запланированных физических упражнений. Если, допустим, у детей требуется определить уровень развития скоростных способностей или выносливости, то необходимые тесты следует запланировать в ту часть урока, в которой будут решаться задачи развития соответствующих физических способностей.
43 слайд
Описание слайда:
Частота проведения тестирования во многом определяется темпами развития конкретных физических способностей, возрастно-половыми и индивидуальными особенностями их развития. Например, чтобы добиться существенного прироста быстроты, выносливости или силы, требуется несколько месяцев регулярных занятий (тренировок). В то же время для того, чтобы получить достоверный прирост гибкости или отдельных координационных способностей, требуется всего 4-12 тренировок. Достичь улучшения физического качества, если начинать «с нуля», можно и за более короткий срок. А для того, чтобы улучшить это же качество, когда оно у ребенка высокого уровня, требуется больше времени. В этой связи учитель должен глубже изучить особенности развития и совершенствования разных двигательных способностей у детей в разные возрастно-половые периоды.
44 слайд
Описание слайда:
При оценке общей физической подготовленности детей можно использовать самые разнообразные батареи тестов, выбор которых зависит от конкретных задач тестирования и наличия необходимых условий. Однако в связи с тем, что полученные результаты тестирования можно оценивать лишь путем сравнения, целесообразно выбирать тесты, которые широко представлены в теории и практике физического воспитания детей. Например, опираться на те, которые рекомендованы в программе по ФК. Для сравнения общего уровня физической подготовленности ученика или группы учащихся с помощью комплекса тестов прибегают к переводу результатов тестирования в очки или баллы. Изменение суммы очков при повторных тестированиях позволяет судить о прогрессе как отдельного ребенка, так и группы детей.
49 слайд
Описание слайда:
Важной стороной тестирования является проблема выбора теста для оценки конкретной физической способности и общей физической подготовленности.
50 слайд
Описание слайда:
Практические рекомендации и советы. ВАЖНО: Определить (выбрать) батарею (или совокупность) необходимых тестов с подробным изложением всех деталей их проведения; Установить сроки тестирования (лучше - 2-3 недели сентября - 1-е тестирование, 2-3 недели мая - 2-е тестирование); В соответствии с рекомендацией точно определить возраст детей на день тестирования и их пол; Разработать единые протоколы регистрации данных (возможно на основе использования ИКТ); Определить круг помощников и осуществить саму процедуру тестирования; Сразу провести математическую обработку данных тестирования - вычисление основных статистических параметров (средняя арифметическая, ошибка средней арифметической, стандартное отклонение, коэффициент вариации и оценки достоверности различий между средними арифметическими показателями, например параллель классов одной и той же и разных школ детей такого-то возраста и пола); Одним из значительных этапов работы может быть перевод результатов тестирования в очки или баллы. При регулярном тестировании (2 раза в год, в течение нескольких лет) это позволит учителю иметь представление о прогрессе результатов.
51 слайд
Описание слайда:
Москва «Просвещение» 2007 Книга содержит наиболее распространённые двигательные тесты по оценке кондиционных и координационных способностей учащихся. Пособие предусматривает индивидуальный подход учителя физической культуры к каждому конкретному ученику с учётом его возраста и телосложения.
Проблема тестирования физической подготовленности человека разработанных в теории и методике физического воспитания, спортивной метрологии, антропомоторике, биомеханике, спортивной медицине и других науках. За примерно 130-140 лет истории этой проблемы накоплен огромный и самый разнообразный материал, который всегда вызывал и продолжает вызывать к себе большой интерес не только со стороны научных работников, но и учителей физической культуры, тренеров, учащихся, их родителей.
Первая статья, посвященная рассматриваемой проблеме, - вводная. В ней раскрываются основы теории тестов и тестирования, без ознакомления с которыми учителю трудно решать задачи применения тестов в практике своей работы. Назовём хотя бы некоторые из возникающих вопросов. Что такое «тест»? Какова классификация тестов? Зачем и нужно ли проводить тестирование физической подготовленности учащихся? Как определить уровень (высокий, средний, низкий) развития физических качеств и подготовленности? Что считать нормой при тестировании и как её устанавливать? Если учитель придумал новый двигательный тест или батарею тестов для определения физической подготовленности детей, то на что он должен обратить внимание или какие необходимые условия (требования, критерии) при этом выполнить? Тестирование физического состояния учащихся предполагает обязательное ознакомление учителя с элементарными методами математической статистики. С какими из них?
В наших статьях мы представим также исторические сведения о возникновении тестов и теории тестирования физической подготовленности человека. Скажем, когда и где появились первые тесты, в том числе батареи тестов по оценке физической подготовленности. Каковы наиболее распространенные тесты для определения кондиционных (силовых, скоростных, выносливости, гибкости) и координационных способностей детей школьного возраста? Какие батареи (программы) тестов для оценки физической подготовленности детей и подростков являются наиболее популярными в разных странах? Мы обсудим и такую важную практическую проблему, как соотношение результатов тестирования и оценок (отметок) по предмету «Физическая культура». Говоря конкретнее, если ученик при выполнении тестов неизменно показывает высокий уровень, означает ли это автоматически отличную оценку по нашему предмету? И так далее.
В данной статье мы обсудим: 1) задачи тестирования; 2) понятие «тест» и классификацию двигательных (моторных) тестов; 3) критерии добротности двигательных тестов; 4) организацию тестирования физической подготовленности детей школьного возраста.
1. Задачи тестирования. Тестирование двигательных возможностей человека является одним из наиболее важных направлений деятельности научных работников и педагогов в области физической культуры и спорта. Оно помогает решению ряда сложных педагогических задач по выявлению уровней развития кондиционных и координационных способностей, оцениванию качества технической и тактической подготовленности. На основе результатов тестирования можно сравнивать подготовленность как отдельных учащихся, так и целых групп учеников, проживающих в разных регионах и странах; проводить соответствующий отбор для занятий тем или иным видом спорта, для участия в соревнованиях; осуществлять достаточно объективный контроль за обучением (тренировкой) школьников и юных спортсменов; выявлять преимущества и недостатки применяемых средств, методов обучения и форм организации занятий; наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.
а) научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений;
б) стимулировать учащихся к дальнейшему улучшению своего физического состояния
(формы);
в) знать не столько исходный уровень развития двигательной способности, сколько его изменение за определённое время;
г) стимулировать учащихся, добившихся высоких результатов, но не столько за достигнутый высокий уровень физической подготовленности, сколько за реализацию запланированного повышения личных результатов.
Специалисты подчеркивают, что традиционный подход к тестированию, когда данные стандартизированных тестов и нормативов сравниваются с показанным результатом, вызывает у многих учеников, особенно с низким и средним уровнями физической подготовленности, негативное отношение. Тестирование же должно способствовать повышению интереса у школьников, приносить им радость, а не вести к развитию комплекса неполноценности. В этой связи предлагаем следующие подходы:
1) результаты тестов ученика определяют не исходя из сравнения с нормативами, а на основании изменений, произошедших за определённый период времени;
2) все компоненты теста модифицируются, используются облегчённые варианты упражнений (задания, составляющие содержание теста, должны быть достаточно лёгкими, чтобы вероятность их успешного выполнения была велика);
3) нулевая оценка или со знаком «минус» исключены, правомочно только получение положительных результатов.
Итак, при тестировании важно сближение научных (теоретических) задач и лично значимых, положительных для школьника мотивов участия в данной процедуре.
2. Понятие «тест» и классификация двигательных (моторных) тестов. Термин тест в переводе с английского языка означает проба, испытание. Тесты применяются для решения многих научных и практических задач. Среди способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае - двигательных, или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах - «учении о движениях», теории и методике физического воспитания.
Тест - это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много, в том числе на основе использования самых разнообразных физических упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов следует использовать лишь те испытания (пробы), которые отвечают специальным требованиям и в соответствии с которыми должны быть:
а) определена цель применения любого теста (или тестов);
б) разработаны стандартизированная методика измерения результатов в тестах и процедура тестирования;
в) определена надёжность и информативность тестов;
г) реализована возможность представления результатов тестов в соответствующей системе оценки.
Система использования тестов в связи с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение - результатом тестирования (теста).
Например, прыжок в длину с места - это тест; процедура проведения прыжков и измерение результатов - тестирование; длина прыжка - результат теста.
В основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными, или моторными.
В настоящее время еще не существует единой классификации двигательных тестов. Известна классификация тестов по их структуре и преимущественным показаниям (см. таблицу 1).
Различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака(координационной или кондиционной способности). Поскольку структура каждой координационной или кондиционной способности является сложной, то с помощью такого теста оценивается обычно только один компонент данной способности (например, способность к равновесию, быстрота простой реакции, сила мышц рук).
С помощью учебного теста оценивают способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).
Тестовая серия даёт возможность один и тот же тест использовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, данную разновидность единичного теста пока недостаточно широко используют как в науке, так и на практике.
С помощью комплексного теста оценивают несколько признаков или компонентов разных способностей или одной и той же способности (например, прыжок вверх с места - со взмахом рук, без взмаха рук, на заданную высоту). На основании такого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).
Тестовый профиль состоит из нескольких отдельных тестов, на основании которых оценивают или несколько различных физических способностей (гетерогенный тестовый профиль), или несколько проявлений одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что даёт возможность
Формы тестов и возможности их применения (по Д.-Д.Блюме, 1987)
Таблица 1
Тип | Измеряемая способность | Признак структуры | Пример |
Единичный тест | |||
Элементарный тест, содержащий одну двигательную задачу | Одна задача теста, одна окончательная оценка теста | Тест на равновесие, тре-мометрия, тест для оценки способности к соединению, тест на оценку ритма, прыжок на точность приземления | |
Учебный тест | Одна способность или аспект (компонент) способности | Одна или несколько задач теста. Одна окончательная оценка теста (педагогический период) | Общий учебный тест |
Тестовая серия | Одна способность или аспект (компонент) способности | Одна задача тестов с вариантами или несколько задач повышающейся трудности | Тест для оценки способности к соединению (связи) |
Комплексный тест | |||
Комплексный тест, содержащий одну задачу | Несколько способностей или аспектов (компонентов) одной способности | Одна задача теста, несколько окончательных оценок | Прыжковый тест |
Тест многоразовых задач | Несколько тестовых задач, выполняющихся последовательно, несколько окончательных оценок | Тест многоразовых реакций | |
Тестовый профиль | Несколько способностей или аспектов одной способности | Несколько тестов, несколько окончательных оценок | Координационная звезда |
Тестовая батарея | Несколько способностей или аспектов одной способности | Несколько тестов, одна тестовая оценка | Тестовая батарея для оценки способности обучаться движениям |
быстро сравнить индивидуальные и групповые результаты.
Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных шкал (подробнее об этом во второй статье). Как и в тестовом профиле, здесь различают гомогенную и гетерогенную батареи.
Гомогенная батарея, или гомогенный профиль находят применение в оценке всех компонентов комплексной способности (например, способности к реагированию). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (коррелировать).
Гетерогенный тестовый профиль или гетерогенная батарея служат оценке комплекса (совокупности) различных двигательных способностей. Например, такие батареи тестов используют для оценки силовых, скоростных способностей и способностей к выносливости - это батареи тестов физической подготовленности.
В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно выполняемые задания прыжкового теста (таблица 2).
В определении двигательных тестов указывается, что они служат оценке двигательных способностей и частично моторных навыков. Поэтому в самом общем виде выделяют кондиционные тесты, координационные тесты и тесты для оценки двигательных умений и навыков (техники движений). Такая систематизация является, однако, ещё слишком общей.
Классификация двигательных тестов по преимущественным их показаниям вытекает из систематизации физических (двигательных) способностей. В этой связи различают кондиционные тесты (для оценки силы: максимальной, скоростной, силовой выносливости; для оценки выносливости; для оценки скоростных способностей; для оценки гибкости: активной и пассивной) и координационные тесты (для оценки коор
динационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности; для оценки специфических координационных способностей - способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи), вестибулярной устойчивости, произвольному расслаблению мышц.
Разработано большое число тестов для оценки двигательных навыков в разных видах спорта. Они приведены в соответствующих учебниках и пособиях и в настоящей статье не рассматриваются.
Таким образом, каждая классификация служит своеобразным ориентиром для выбора (или создания) того типа тестов, который в большей мере соответствует задачам тестирования.
3. Критерии добротности двигательных тестов. Как отмечалось выше, понятие «двигательный тест» отвечает своему назначению, если тест удовлетворяет соответствующим основным критериям: надежности, стабильности, эквивалентности, объективности, информативности, а также дополнительным критериям: нормированию, сопоставляемости и экономичности.
Тесты, удовлетворяющие требованиям надёжности и информативности, называют добротными или аутентичными (достоверными).
Под надёжностью теста понимают степень точности, с которой он оценивает определённую двигательную способность независимо от требований того, кто её оценивает. Надёжность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном выполнении контрольного упражнения. Другими словами, школьник в группе обследуемых по результатам повторных тестирований (например, показателям прыжков, времени бега, дальности метания) устойчиво сохраняет своё ранговое место.
Надёжность теста определяется с помощью корреляционно-статистического анализа путем расчёта коэффициента надёжности. При этом используют различные способы, на основании которых судят о надёжности теста.
Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определённое время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надёжности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших школьников - результаты стабильнее, чем у более младших. Ретест обычно проводят не позднее, чем через одну неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.
Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов. Например, критерий эквивалентности применяют, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м.
То или иное отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надёжность оценок или выводов исследования, тогда целесообразно использовать два и более эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, то следует использовать только один из эквивалентных тестов.
Таблица 2 Последовательно выполняемые задания прыжкового теста (по Д.-Д.Блюме, 1987)
№№ п/п | Задача теста | Оценка результата | Способность |
Прыжок на максимальную высоту без взмаха рук | Высота, см | Прыжковая сила | |
Прыжок на максимальную высоту со взмахом рук | Высота, см | Прыжковая сила и способность к соединению (связи) | |
Прыжок на максимальную высоту со взмахом рук и подскоком | Высота, см | Способность к соединению (связи) и прыжковая сила | |
10 прыжков со взмахом рук на расстояние, равное 2/3 от максимальной высоты прыжка, как в задаче 2 | Сумма отклонений от заданной отметки | Способность к дифференцированию силовых параметров движений | |
Разность между результатами решений одной задачи и двух задач | ... см | Способность к соединению (связи) |
Такая батарея, как отмечалось, является гетерогенной, поскольку входящие в неё тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов являются бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м. Другие примеры подобных комплексов будут представлены в отдельной публикации.
Надёжность тестов определяют также по сопоставлению средних оценок чётных и нечётных попыток, входящих в тест. Например, среднюю точность бросков мяча в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надёжности называется методом удвоения, или расщеплением, и применяется он преимущественно при оценке координационных способностей и в том случае, если число попыток, образующих тестовый результат, не менее шести.
Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами).
а) время тестирования, место, погодные условия;
б) единое материальное и аппаратурное обеспечение;
в) психофизиологические факторы (объем и интенсивность нагрузки, мотивация);
г) подача информации (точная словесная постановка задачи теста, объяснение и демонстрация).
Соблюдение данных условий создаёт так называемую объективность проведения теста. Говорят ещё об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.
В целом, как отмечают специалисты, надёжность тестов можно повысить различными путями: более строгой стандартизацией тестирования (см. выше), увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.
Фиксированных значений показателей надёжности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95-0,99 - отличная надёжность; 0,90-0,94 - хорошая; 0,80-0,89 - приемлемая; 0,70-0,79 - плохая; 0,60-0,69 - для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых. Информативность теста - это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной и отечественной литературе используют вместо слова «информативность» термин «валидность» (от англ. validity - обоснованность, действительность, законность). Фактически, применительно к информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения.
Различают валидность логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную. Более подробная информация на эту тему содержится в ставших уже классическими учебниках для студентов физкультурных вузов (Спортивная метрология / Под ред. В.М.Зациорского. - М.: ФиС, 1982. - С. 73-80; Годик М.А. Спортивная метрология.- М.: ФиС, 1988), а также в ряде современных пособий.
Важными дополнительными критериями тестов, как отмечалось, являются нормирование, сопоставляемость и экономичность.
Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики (об этом речь пойдёт в отдельной статье).
Сопоставляемость теста заключается в возможности сравнивать результаты, полученные по одному тесту или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов.
Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников. Например, батарею из шести тестов для определения физической подготовленности, рекомендованную в «Комплексной программе физического воспитания учащихся I-XI классов» (М.: Просвещение, 2005-2006), учитель с двумя помощниками может провести за один урок, обследовав 25-30 детей.
Организация тестирования физической подготовленности детей школьного возраста.Второй важной проблемой тестирования двигательных способностей (напомним, что первая - отбор информативных тестов - рассмотрена ранее) является организация их применения.
Учитель физической культуры должен определить: в какие сроки лучше организовать тестирование, как осуществлять его на уроке и как часто следует проводить тестирование.
Срони тестирования устанавливают в соответствии со школьной программой, которая предусматривает обязательное двухразовое тестирование физической подготовленности учащихся. Первое тестирование целесообразно проводить во вторую-третью неделю сентября (после того как учебный процесс войдёт в нормальное русло), а второе - за две недели до окончания учебного года (в более поздние сроки могут иметь место организационные трудности, вызванные приближающимися экзаменами и каникулами).
Знание годичных изменений в развитии двигательных способностей школьников позволяет учителю вносить соответствующие коррективы в процесс физического воспитания на следующий учебный год. Однако учитель может и должен проводить более частое тестирование, осуществлять так называемый оперативный контроль. Данную процедуру целесообразно выполнять, например, для того, чтобы определить изменение уровня скоростных, силовых способностей и выносливости под влиянием уроков лёгкой атлетики в течение I четверти и т.п. С этой целью учитель может применить тесты для оценки координационных способностей детей в начале и в конце освоения учебного материала школьной программы, например, по спортивным играм, для выявления изменения показателей развития этих способностей.
Следует учитывать, что разнообразие решаемых педагогических задач не даёт возможности предоставить учителю унифицированную методику тестирования, одинаковых правил проведения тестов и оценки результатов тестирования. Это требует от экспериментаторов (учителей) проявления самостоятельности в решении теоретико-методологических и организационных вопросов тестирования.
Тестирование на уроке необходимо увязать с его содержанием. Другими словами, применённый тест (или тесты) при соблюдении соответствующих требований к нему как к методу исследования должен (должны) органически входить в состав запланированных физических упражнений. Если, допустим, у школьников требуется определить уровень развития скоростных способностей или выносливости, то необходимые тесты следует запланировать в ту часть урока, в которой будут решаться задачи развития соответствующих физических способностей.
Частота проведения тестирования во многом определяется темпами развития конкретных физических способностей, возрастно-половыми и индивидуальными особенностями их развития.
Например, чтобы добиться существенного прироста быстроты, выносливости или силы, требуется несколько месяцев регулярных занятий (тренировок). В то же время, чтобы получить достоверный прирост гибкости или отдельных координационных способностей, требуется всего 4-12 тренировок. Достичь улучшения того или иного физического качества, если начинать «с нуля», можно и за более короткий срок. А вот чтобы улучшить это же качество, когда оно у школьника достигает высокого уровня, требуется больше времени. В данной связи учитель должен глубже изучить особенности развития и совершенствования различных двигательных способностей у детей в разные возрастнополовые периоды.
При оценке общей физической подготовленности учащихся, как отмечалось, можно использовать самые разнообразные батареи тестов, выбор которых зависит от конкретных задач тестирования и наличия необходимых условий. Однако в связи с тем, что полученные результаты тестирования можно оценивать лишь путем сравнения, целесообразно выбирать тесты, которые широко представлены в теории и практике физического воспитания детей. Например, опираться на те из них, которые рекомендованы в «Комплексной программе физического воспитания учащихся I-XI классов общеобразовательной школы» (М.: Просвещение, 2004-2006).
Для сравнения общего уровня физической подготовленности ученика или группы учащихся с помощью комплекса тестов прибегают к переводу результатов тестирования в очки или баллы (об этом подробнее поговорим в очередной статье). Изменение суммы очков при повторных тестированиях позволяет судить о прогрессе как отдельного ребенка, так и группы детей.
Физическая культура в школе,2007,№6
Введение
Актуальность. Проблема тестирования физической подготовленности человека - одна из наиболее разработанных в теории и методике физического воспитания. За последние десятилетия накоплен огромный и самый разнообразный материал: определение задач тестирования; обусловленность результатов тестирования разными факторами; разработка тестов для оценки отдельных кондиционных и координационных способностей; программы тестов, характеризующие физическую подготовленность детей и подростков от 11 до 15 лет, принятые в Российской Федерации, в других странах СНГ и во многих зарубежных странах.
Тестирование двигательных качеств школьников является одним из наиболее важных и основных методов педагогического контроля.
Оно помогает решению ряда сложных педагогических задач: выявлять уровни развития кондиционных и координационных способностей, оценивать качество технической и тактической подготовленности. На основе результатов тестирования можно:
сравнивать подготовленность как отдельных учащихся, так и целых групп, проживающих в разных регионах и странах;
проводить спортивный отбор для занятий тем или иным видом спорта, для участия в соревнованиях;
осуществлять в значительной степени объективный контроль за обучением (тренировкой) школьников и юных спортсменов;
выявлять преимущество и недостатки применяемых средств, методов обучения и форм организации занятий;
наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.
Наряду с научными задачами в практике разных стран задачи тестирования сводятся к следующему:
научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений;
стимулировать учащихся к дальнейшему повышению своего физического состояния (формы);
знать не столько исходный уровень развития двигательной способности, сколько его изменение за определенное время;
стимулировать учащихся, добившихся высоких результатов, но не столько за высокий уровень, сколько за запланированное повышение личных результатов.
В данной работе мы будем опираться на те тесты, которые рекомендованы в «Комплексной программе физического воспитания учащихся 1 -- 11 классов общеобразовательной школы» подготовленные В.И. Ляхом и Г.Б. Мейксоном.
Цель исследования: обосновать методику тестирования физических качеств учащихся основной школы.
Гипотеза исследования: использование тестирования является точным, информативным методом определения развития физических качеств.
Объект исследования: тестирование как метод педагогического контроля.
Предмет исследования: тестирование качеств учащихся.
Глава 1. ПРЕДСТАВЛЕНИЯ О ТЕОРИИ ТЕСТОВ ФИЗИЧЕСКОЙ ПОДГОТОВЛЕННОСТИ
1.1 Краткие исторические сведения о теории тестирования двигательных способностей
Измерениями двигательных достижений человека люди интересуются с давних пор. Первые сведения об измерении расстояния, на которое совершали прыжки в длину, относятся к 664 г. до н. э. На XXIX Олимпийских играх древности в Олимпии Хионис из Спарты прыгнул на расстояние в 52 стопы, что равно примерно 16,66 м. Ясно, что здесь идет речь о неоднократном прыжке.
Известно, что один из родоначальников физического воспитания -- Гутс-Мутс (J. Ch. F. Guts-Muts, 1759--1839) измерял моторные достижения своих учеников и осуществлял точные записи их результатов. А за улучшение достижений награждал их «премиями» -- дубовыми венками (G. Sorm, 1977). В тридцатые годы XIX в. Эйселен (Е. Eiselen), сотрудник известного немецкого педагога Яна (F. L. Yahn), на основании выполненных измерений составил таблицу для определения достижений в прыжках. Как видно, она содержит три градации (табл. 1).
Таблица 1. - Результаты в прыжках (в см) мужчин (источник: К. Mekota, P. Blahus, 1983)
начальный
Через козла
Заметим, что уже в середине XIX в. в Германии при определении длины или высоты прыжка рекомендовали учитывать параметры тела.
Точные измерения спортивных достижений, в том числе рекордных, ведутся с середины XIX в., а регулярно -- с 1896 г., с Олимпийских игр современности.
Достаточно давно люди пытаются измерить и силовые способности. Первая любопытная информация по этому поводу относится к 1741 г., когда, используя простые приборы, удалось измерить силу борца Томаса Тофама. Он поднял вес, масса которого превышала 830 кг (G. Sorm, 1977). Силовые возможности учеников измеряли уже Гутс-Мутс и Ян, используя для этого простые силомеры. А вот первый динамометр, прародитель современного динамометра, сконструировал Райнигер во Франции в 1807 г. В практике физического воспитания учащихся гимназии в Париже его применил Ф. Аморос (F. Amoros) в 1821 г. В XIX в. для измерения силы использовали также поднимание туловища в висе на перекладине, сгибание и разгибание рук в упоре, поднимание тяжестей.
Предвестниками современных батарей тестов для определения физической подготовленности являются спортивно-гимнастические многоборья. В качестве первого выделяют античное пятиборье, введенное в практику на XVIII Олимпийских играх древности в 708 г. до н. э. В его состав входило метание диска, копья, прыжок, бег и борьба. Десятиборье, которое мы знаем, впервые было включено в программу соревнований на III Олимпийских играх (Сент-Луис, США, 1904), а современное пятиборье -- на V Олимпийских играх (Стокгольм, Швеция, 1912). Состав упражнений в этих конкуренциях гетерогенен; спортсмену нужно проявить подготовленность в разных дисциплинах. Итак, он должен быть разносторонне физически подготовлен.
Вероятно, с учетом этой идеи примерно в эти же сроки (начало XX в.) для детей, молодежи и взрослых ввели в практику комплексы упражнений, всесторонне определяющие физическую подготовленность человека. Впервые такие комплексные испытания были введены в Швеции (1906), затем в Германии (1913) и еще позднее -- в Австрии и СССР (России) -- комплекс «Готов к труду и обороне» (1931).
Предшественники современных двигательных тестов возникли в конце XIX -- начале XX в. В частности, Д. Саржент (D. A. Sargent) ввел в практику Гарвардского университета «силовой тест», который, кроме динамометрии и спирометрии, включал в себя отжимание рук в упоре, поднимание и опускание туловища. Уже с 1890 г. этот тест стал использоваться в 15 университетах США. Француз Г.Хеберт (G. Hebert) создал тест, публикация о котором появилась в 1911 г. В его состав входит 12 двигательных заданий: бег на разные дистанции, прыжок с места и с разбега, бросок, многократное поднимание 40-килограммового снаряда (веса), плавание и ныряние.
Кратко остановимся еще на источниках информации, в которых рассматриваются результаты научных исследований врачей и психологов. Исследования врачей вплоть до конца XIX в. были ориентированы чаще всего на изменение внешних морфологических данных, а также на идентификацию асимметрии. Используемая в этих целях антропометрия шла в ногу с применением динамометрии. Так, бельгийский врач А. Кветелет (A. Quetelet), проведя обширные исследования, в 1838 г. опубликовал работу, согласно которой средние результаты становой силы (позвоночника) 25-летних женщин и мужчин равны соответственно 53 и 82 кг. В 1884 г. итальянец А. Моссо (A. Mosso) исследовал мышечную выносливость. Для этого он применил эргограф, который позволил ему наблюдать развитие утомления при многократном сгибании пальца.
Современная эргометрия берет свое начало с 1707 г. Тогда уже был создан прибор, позволявший измерить пульс в минуту. Прототип сегодняшнего эргометра сконструировал Хирн (G. A. Him) в 1858 г. Циклоэргометры и беговые дорожки были созданы позднее, в 1889--1913 гг.
В конце XIX -- начале XX в. начинаются систематические исследования психологов. Изучается время реакции, разрабатываются тесты для определения координации движений и ритма. Понятие «время реакции» ввел в науку австрийский физиолог С. Экс-нер (S. Ехпег) в 1873 г. Ученики основателя экспериментальной психологии В. Вундта (W. Wundt) в созданной в 1879 г. лаборатории в Лейпциге провели обширные измерения времени простой и сложной реакций. Первые испытания координации движений включали в себя теппинг и разные виды прицеливания. Одной из первых попыток изучения прицеливания является тест X. Френкеля (Н. S. Frenkel), предложенный им в 1900 г. Суть его состояла в том, чтобы удерживать указательный палец во всякого рода отверстиях, кольцах и т. п. Это прототип современных тестов «на статический и динамический тремор».
Пытаясь определить музыкальный талант, в 1915 г. Сишор (С. Е. Seashore) исследовал способность к ритму.
Теория тестирования ведет свой отсчет, однако, с конца XIX -- начала XX в. Именно тогда были заложены основы математической статистики, без которой современная теория тестов обойтись не может. На этом пути несомненные заслуги принадлежат генетику и антропологу Ф. Гальтону (F. Galton), математикам Пирсону (Pearson) и У. Йоле (U. Youle), математику-психологу Спирмену (С. Spearman). Именно эти ученые создали новую ветвь биологии -- биометрию, в основе которой измерения и статистические методы, такие, как корреляция, регрессия и др. Созданный Пирсоном (1901) и Спирменом (1904) сложный математико-статический метод -- факторный анализ -- позволил английскому ученому Барту (С. Burt) применить его в 1925 г. к анализу результатов моторных тестов учащихся лондонских школ. В результате были идентифицированы такие физические способности, как сила, быстрота, ловкость и выносливость. Выделился также фактор, названный «общая физическая подготовленность». Несколько позднее вышла в свет одна из наиболее известных работ американского ученого Мак Клоя (С.Н.McCloy, 1934)-- «Измерение общих двигательных способностей». К началу 40-х гг. ученые приходят к выводу о сложной структуре двигательных способностей человека. Используя разные моторные тесты в сочетании с применением параллельно разрабатываемых математических моделей (одно- и многофакторный анализ), в теорию тестирования прочно вошли понятия о пяти двигательных способностях: силе, быстроте, координации движений, выносливости и гибкости.
Двигательные тесты в бывшем СССР были использованы для разработки контрольных нормативов комплекса «Готов к труду и обороне» (1931). Известен тест двигательных способностей (главным образом координации движений), который для детей и молодежи предложил Н. И. Озерецкий (1923). Работы по измерению двигательных способностей детей, молодежи примерно в эти же сроки появились в Германии, Польше, Чехословакии и других странах.
Значительные успехи в развитии теории тестирования физической подготовленности человека приходятся на конец 50-х и 60-е гг. XX в. Основоположником этой теории, вероятнее всего, является американец Мак Клой, выпустивший в соавторстве с М. Юнгом (М. D. Young) в 1954 г. монографию «Тесты и измерение в здравоохранении и физическом воспитании», на которую впоследствии опирались многие авторы подобных работ.
Большое теоретическое значение имела и до сих пор имеет книга «Структура и измерение физических способностей» известного американского исследователя Е.А. Флейшмана (1964). В книге не только отражены теоретические и методологические вопросы проблемы тестирования данных способностей, но и изложены конкретные результаты, варианты подходов, исследования надежности, информативности (валидности) тестов, а также представлен важный фактический материал по факторной структуре двигательных тестов различных двигательных способностей.
Большое значение для теории тестирования физических способностей имеют книги В.М. Зациорского «Физические качества спортсмена» (1966) и «Кибернетика, математика, спорт» (1969).
Краткие исторические сведения по тестированию физической подготовленности в бывшем СССР можно найти в публикациях Е.Я. Бондаревского, В. В. Кудрявцева, Ю.И. Сбруева, В.Г. Панаева, Б.Г. Фадеева, П.А. Виноградова и др.
Условно можно выделить три этапа тестирования в СССР (России):
1-й этап -- 1920--1940 гг.-- период массовых обследований с целью изучения основных показателей физического развития и уровня двигательной подготовленности, появление на этой основе нормативов комплекса «Готов к труду и обороне».
2-й этап -- 1946--1960 гг.-- изучение двигательной подготовленности в зависимости от морфофункциональных особенностей с целью создания предпосылок для научно-теоретического обоснования их взаимосвязи.
3-й этап -- с 1961 г. по настоящее время -- период комплексных исследований физического состояния населения в зависимости от климатогеографических особенностей регионов страны.
Исследования, выполненные в этот период, показывают, что показатели физического развития и двигательной подготовленности людей, проживающих в различных регионах страны, обусловлены влиянием биологических, климатогеографических, социально-экономических и других как постоянных, так и переменных факторов. По разработанной единой комплексной программе, состоящей из четырех разделов (физическая подготовленность, физическое развитие, функциональное состояние основных систем организма, социологическая информация), в 1981 г. было проведено комплексное обследование физического состояния населения разного возраста и пола различных регионов СССР.
Несколько позже наши специалисты отметили, что уже более 100 лет изучается уровень физического развития и подготовленности человека. Однако, несмотря на относительно большое число работ в этом направлении, провести глубокий и всесторонний анализ полученных данных не представляется возможным, так как исследования проводились с различными контингентами, в разные сезонные периоды, с использованием различных методик, программ тестирования и математико-статистической обработки полученной информации.
В этой связи основной упор был сделан на разработку методологии и организации унифицированной системы сбора данных с учетом метрологических и методических требований и создание банка данных на ЭВМ.
В середине 80-х гг. прошлого века было проведено массовое всесоюзное обследование около 200000 человек от 6 до 60 лет, которое подтвердило выводы предыдущего исследования.
С самого начала возникновения научных подходов к тестированию физической подготовленности человека исследователи стремились получить ответы на два основных вопроса:
какие тесты должны быть отобраны для оценки уровня развития конкретной двигательной (физической) способности и уровня физической подготовленности детей, подростков и взрослых;
сколько нужно тестов, чтобы получить минимальную и вместе с тем достаточную информацию о физическом состоянии человека?
Единых представлений в мире по этим вопросам пока не выработано. Вместе с тем представления о программах (батареях) тестов, характеризующих физическую подготовленность детей и подростков от 6 до 17 лет, принятые в разных странах, все более сближаются.
1.2 Понятие «тест» и классификация двигательных (моторных) тестов
Термин тест в переводе с английского языка означает «проба, испытание».
Тесты применяются для решения многих научных и практических задач. Среди других способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае -- двигательных или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах («учении о движениях», теории и методике физического воспитания).
Тест -- это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много, в том числе на основе использования самых разнообразных физических упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным требованиям:
должна быть определена цель применения любого теста (или тестов);
следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования;
необходимо определить надежность и информативность тестов;
результаты тестов могут быть представлены в соответствующей системе оценки.
Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называются тестированием, а полученное в ходе измерений числовое значение -- результатом тестирования (теста). Например, прыжок в длину с места -- это тест; процедура проведения прыжков и измерение результатов -- тестирование; длина прыжка -- результат теста.
В основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными или моторными.
В настоящее время еще не существует единой классификации двигательных тестов. Известна классификация тестов по их структуре и по их преимущественным показаниям (табл. 2).
Как следует из таблицы, различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака (координационной или кондиционной способности). Поскольку, как видим, структура каждой координационной или кондиционной способности является сложной, то с помощью такого теста оценивается, как правило, только один компонент такой способности (например, способность к равновесию, быстрота простой реакции, сила мышц рук).
Таблица 2. - Формы тестов и возможности их применения (по Д.Д. Блюме, 1987)
Измеряемая способность
Признак структуры
Единичный тест
Элементарный тест, содержащий одну двигательную задачу
Одна способность или аспект (компонент) способности
Одна задача теста, одна окончательная оценка теста
Тест на равновесие, тремометрия, тест для оценки способности к соединению, тест на оценку ритма
Учебный тест
Одна или несколько задач теста. Одна окончательная оценка теста
Общий учебный тест
Тестовая серия
Одна задача тестов с вариантами или несколько задач повышенной трудности
Тест для оценки способности к соединению (связи)
Комплексный тест
Комплексный тест, содержащий одну задачу
Несколько способностей или аспектов (компонентов) одной способности
Одна задача теста, несколько окончательных оценок
Прыжковый тест
Тест многоразовых задач
Несколько тестовых задач, выполняющихся последовательно, несколько окончательных оценок
Тест многоразовых реакций
Тестовый профиль
Несколько тестов, несколько окончательных оценок
Координационная задача
Тестовая батарея
Несколько тестов, одна тестовая оценка
Тестовая батарея для оценки способности обучаться движения
С помощью учебного теста оценивается способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).
Тестовая серия дает возможность один и тот же тест использовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, эта разновидность теста пока недостаточно используется как в науке, так и на практике.
С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности, например прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту). На основании этого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).
Тестовый профиль состоит из отдельных тестов, на основании которых оцениваются или несколько различных физических способностей (гетерогенный тестовый профиль), или разные проявления одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что дает возможность сравнивать индивидуальные и групповые результаты.
Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных шкал (см. главу 2). Как и в тестовом профиле, различают гомогенную и гетерогенную батареи. Гомогенная батарея, или гомогенный профиль, находит применение в оценке всех компонентов комплексной способности (например, способности к реакции). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (должны коррелировать).
В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно решаемые задания прыжкового теста (табл. 3).
Таблица 3. - Последовательно решаемые задания прыжкового теста
Задача теста
Оценка результата
Способность
Максимальный прыжок без взмаха рук
Прыжковая сила
Максимальный прыжок вверх со взмахом рук
Прыжковая сила и способность к соединению (связи)
Максимальный прыжок вверх со взмахом рук и подскоком
Способность к соединению (связи) и прыжковая сила
10 прыжков со взмахом рук на расстояние, равное 2/3 от максимальной высоты прыжка, как в задаче 2
Сумма отклонений от заданной отметки
Способность к дифференцированию силовых параметров движений
Разность между результатами за решение одной задачи и двух задач
Способность к соединению (связи)
(по Д.Д. Блюме, 1987)
В определении двигательных тестов указывается, что они служат оценке двигательных способностей и частично моторных навыков. В самом общем виде выделяют кондиционные тесты, координационные тесты и тесты для оценки двигательных умений и навыков (техники движений). Такая систематизация является, однако, еще слишком общей. Классификация двигательных тестов по преимущественным их показаниям вытекает из систематизации физических (двигательных) способностей.
В этой связи различают:
1) кондиционные тесты:
для оценки силы: максимальной, скоростной, силовой выносливости;
для оценки выносливости;
для оценки скоростных способностей;
для оценки гибкости -- активной и пассивной;
2) координационные тесты:
для оценки координационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности;
для оценки специфических координационных способностей -- способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи),
вестибулярной устойчивости, произвольному расслаблению мышц.
Понятие «тесты для оценки двигательных навыков» в настоящей работе не рассматриваются. Примеры тестов приведены в Приложении 2.
Таким образом, каждая классификация -- это своеобразные ориентиры для выбора (или создания) того типа тестов, которые в большей мере соответствуют задачам тестирования.
1.3 Критерии добротности двигательных тестов
Понятие «двигательный тест» отвечает своему назначению тогда, когда тест удовлетворяет соответствующим требованиям.
Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (достоверными).
Под надежностью теста понимают степень точности, с которой он оценивает определенную двигательную способность независимо от требований того, кто ее оценивает. Надежность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном проведении контрольного упражнения. Другими словами, ребенок в группе обследуемых по результатам повторных тестирований (например, показателей прыжков, времени бега, дальности метания) устойчиво сохраняет свое ранговое место.
Надежность теста определяется с помощью корреляционно-статистического анализа путем расчета коэффициента надежности. При этом используют различные способы, на основании которых судят о надежности теста.
Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определенное время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надежности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших детей результаты стабильнее, чем у более младших. Ретест обычно проводится не позднее чем через неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.
Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов (например, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м).
Отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надежность оценок или выводов исследования, то целесообразно использовать два и больше эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, следует применять только один из эквивалентных тестов. Такая батарея, как отмечалось, является гетерогенной, так как входящие в нее тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов является бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м.
Надежность тестов определяют также по сопоставлению средних оценок четных и нечетных попыток, входящих в тест. Например, среднюю точность бросков в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надежности называется методом удвоения или расщеплением. Он используется преимущественно при оценке координационных способностей и в том случае, если количество попыток, образующих тестовый результат, не меньше 6.
Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами).
Для повышения объективности тестирования необходимо соблюдение стандартных условий проведения теста:
время тестирования, место, погодные условия;
единое материальное и аппаратурное обеспечение;
психофизиологические факторы (объем и интенсивность нагрузки, мотивация);
подача информации (точная словесная постановка задачи теста, объяснение и демонстрация).
Это так называемая объективность проведения теста. Говорят еще об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.
В целом, как отмечают специалисты, надежность тестов можно повысить различными путями: более строгой стандартизацией тестирования (см. выше), увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.
Фиксированных значений показателей надежности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95--0,99 -- отличная надежность; 0,90--0,94 -- хорошая; 0,80--0,89 -- приемлемая; 0,70--0,79 -- плохая; 0,60-- 0,69 -- для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых.
Информативность теста -- это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной (и отечественной) литературе используют вместо слова «информативность» термин «валидность» (от англ. validity -- обоснованность, действительность, законность). Фактически, говоря об информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения?
Различают несколько видов валидности: логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную (2)
Важными дополнительными критериями тестов, являются нормирование, сопоставляемость и экономичность.
Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики.
Сопоставляемость теста заключается в возможности сравнивать результаты, полученные по одной или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов.
Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников.
Заключение
Предшественники современных двигательных тестов возникли в конце XIX -- начале XX в. С 1920 года в нашей стране проводились массовые обследования с целью изучения основных показателей физического развития и уровня двигательной подготовленности. На этой основе этих данных были разработаны нормативы комплекса «Готов к труду и обороне».
В теорию тестирования прочно вошли понятия о пяти двигательных способностях: силе, быстроте, координации движений, выносливости и гибкости. Для их оценки разработан целый ряд различных тестовых батарей.
Среди способов оценки физического состояния человека метод тестов является главным. Различают единичный и комплексный тесты. Также в связи со систематизацией физических (двигательных) способностей тесты классифицируют на кондиционные и координационные.
Все тесты должны отвечать специальным требованиям. К основным критериям относятся: надежность, стабильность, эквивалентность, объективность, информативность (валидность). К дополнительным критериям относятся: нормирование, сопоставляемость и экономичность.
Поэтому при выборе определенных тестов необходимо соблюдать все эти требования. Для повышения объективности тестов следует придерживаться более строгой стандартизацией тестирования, увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.
Глава 2. Задачи, методы и организация исследования
2.1 Задачи исследования:
1. Изучить сведения о теории тестирования по данным литературных источников;
2. Проанализировать методику тестирования физических качеств;
3. Сравнить показатели двигательной подготовленности учащихся 7а и 7б классов.
2.2 Методы исследования:
1. Анализ и обобщение литературных источников.
Осуществлялся на протяжении всего исследования. Решение данных задач на теоретическом уровне осуществляется на изучении литературы по: теории и методики физического воспитания и спорта, воспитанию физических качеств, спортивной метрологии. Было проанализировано 20 литературных источников.
2. Словесное воздействие.
Проводился инструктаж о последовательности выполнения двигательных тестов и мотивационная беседа для настроя на достижение лучшего результата.
3. Тестирование физических качеств.
бег 30 метров (с высокого старта),
челночный бег 3 х 10 метров,
прыжки в длину с места,
6-минутный бег (м),
наклон вперёд из положения сидя (см),
подтягивания на перекладине (девочки на низкой).
4. Методы математической статистики.
Использовались для проведения расчетов, которые использовались при сравнительном анализе учащихся 7а и 7б классов.
2.3 Организация исследования
На первом этапе, в апреле 2009 года, производился анализ научно-методической литературы:
· изучение содержания программ по физическому воспитанию учащихся общеобразоват