Оглавление:
Состояние объекта оценивается по определенным критериям. Критериями могут быть: успеваемость студентов, эффективность управления учебным заведением и т.д.
Оценки измеряются по той или иной шкале. Шкала — это правило, по которому объектам присваиваются числа, отражающие различные свойства этих объектов.
Существуют шкалы отношений, интервальные шкалы, порядковые (ранговые) шкалы и номинальные (именные) шкалы.
Давайте рассмотрим свойства четырех основных типов шкал, перечислив их в порядке убывания силы.
Шкала отношений — самая мощная шкала. Он позволяет оценить, во сколько раз измеряемый объект больше (меньше) другого объекта, принятого за эталон, за единицу измерения. Для шкал отношений существует естественное начало (ноль), но нет естественной единицы измерения.
С помощью шкал соотношений измеряются практически все физические величины — время, меры длины, площади, объема, силы тока и т.д. Шкалы соотношений используются в учебных измерениях, например, при измерении времени, затраченного на выполнение конкретного задания (в секундах, минутах, часах и т.д.), количества ошибок или числа правильно решенных задач. В некоторых случаях, включая изучение труда и профессиональное обучение, оценки также используются при измерении физических величин — размер погрешностей в миллиметрах, например, при токарной обработке деталей, величина силы, с которой ученик давит на металлообрабатывающий инструмент, в ньютонах (килограммах), величина электрической активности мышц в милливольтах и т.д.
Интервальная шкала используется редко и характеризуется тем, что не имеет ни естественного происхождения, ни естественной единицы измерения. Примером интервальной шкалы является температурная шкала Цельсия, Реомюра или Фаренгейта. Шкала Цельсия, как известно, была создана следующим образом: Точка замерзания воды была принята за ноль, 100 градусов — точка ее кипения, и соответственно интервал температур между замерзанием и кипением воды был разделен на 100 равных частей. Уже здесь утверждение, что температура 30° C в три раза выше, чем 10° C, было бы неверным. Справедливо говорить о температурных интервалах — температура 30°C на 20°C больше, чем температура 10°C.
Порядковая шкала (шкала рангов) — это шкала, относительно значений которой нельзя сказать, во сколько раз измеряемая величина больше (меньше) другой или во сколько раз она больше (меньше). Такая шкала упорядочивает объекты только путем присвоения им определенных рангов (результатом измерений является нестрогий порядок объектов).
Например, так построена шкала твердости Мооса: Приводится набор из 10 эталонных минералов для определения относительной твердости путем подсчета баллов. Тальк принимается за 1, гипс — за 2, кальцит — за 3 и так далее до 10 минералов, а алмаз — за 10. Твердость каждого минерала может быть четко определена. Например, если изучаемый нами минерал царапает кварц (7), но не топаз (8), его твердость будет равна 7. Шкала силы ветра Бофорта и шкала землетрясений Рихтера имеют схожую структуру.
Порядковые шкалы широко используются в образовании, психологии, медицине и других науках, которые не так точны, как, скажем, физика и химия. В частности, повсеместно распространенная шкала перевода школьных оценок в отметки (пятибалльные, двенадцатибалльные и т.д.) может быть связана со шкалой упорядочивания. В некоторых странах школы используют другую оценку успеваемости ученика (в виде сводки): рейтинг конкретного ученика в конкретном классе (степени). Это также шкала порядка.
Частным случаем порядковой шкалы является дихотомическая шкала, где есть только две упорядоченные градации — например, «не прошел тест», «прошел».
Действительно, шкала наименований (номинальная шкала) уже не имеет ничего общего с понятием «ценность» и используется только для того, чтобы отличить один объект от другого: Имена студентов, номера машин, номера телефонов и т.д.
Допустимые преобразования
Результаты измерений необходимо анализировать, а для этого часто приходится строить на их основе производные показатели, т.е. применять то или иное преобразование к экспериментальным данным. Используемый масштаб определяет набор преобразований, допустимых для результатов измерений в этом масштабе.
Начнем с самой слабой шкалы, шкалы наименований, которая различает парные классы объектов. Например, шкала наименований измеряет значения атрибута «пол»: «девочки» и «мальчики». Эти классы различимы независимо от различных обозначений или знаков, используемых для них: «женщина» и «мужчина», или «девочка» и «мальчик», или «A» и «B», или «1» и «2», или «2m и «3», и т.д. Следовательно, все взаимооценочные преобразования применимы к шкале наименований, поскольку они сохраняют четкое различие между объектами (самая слабая шкала, шкала наименований, допускает самый широкий спектр преобразований).
Разница между порядковой шкалой (шкалой рангов) и шкалой наименований заключается в том, что в шкале рангов классы (группы) объектов упорядочены. Поэтому нельзя произвольно менять значения признаков — порядок объектов (порядок, в котором одни объекты следуют за другими) должен быть сохранен. Следовательно, для порядковой шкалы приемлемо любое монотонное преобразование. Например, если студент Иванов получил 5 баллов, а студент Сидоров — 10 баллов, то их порядок не изменится, если мы умножим количество баллов на положительное число, одинаковое для всех студентов, или прибавим к числу, одинаковому для всех студентов, или возведем в квадрат и т.д. (например, вместо «1», «2», «3», «4», «5» мы используем «3», «5», «9», «17», «102», соответственно). Это изменяет разницу и соотношение «очков», но порядок остается прежним. В некоторых школах используются ранжированные нечисловые шкалы, например, A соответствует A или, скажем, пятиугольнику, B соответствует B или четырехугольнику и т.д. , и студенты знают, что А лучше, чем Б, Б лучше, чем В и т.д.
Для интервальных шкал допустимо не любое монотонное преобразование, а только такое, которое сохраняет отношение разностей оценок, то есть линейное преобразование — умножение на положительное число и прибавление постоянного числа. Например, если к значению температуры в градусах Цельсия прибавить минус 273°C, то получится температура Кельвина, а разница любых двух температур в обеих шкалах равна.
Наконец, в самой мощной шкале, шкале отношений, могут применяться только преобразования подобия — умножение на положительное число. С точки зрения содержания это означает, что, например, отношение масс двух объектов не зависит от единиц, в которых эти массы выражены — граммах, килограммах и так далее.
Как уже упоминалось выше, результаты любого измерения обычно относятся к одному из основных типов шкал (перечисленных выше). Однако результаты измерений не являются самоцелью; их необходимо анализировать, а для этого на их основе часто приходится строить производные показатели. Эти производные показатели могут измеряться в иных шкалах, чем исходные. Например, для оценки знаний студентов можно использовать 100-балльную шкалу. Но она слишком детализирована и может быть перестроена в пятибалльную шкалу (за 1 балл в пятибалльной шкале мы берем от «1» до «20» в десятибалльной; 3а 2 балла в пятибалльной шкале мы берем от «20» до «40» в десятибалльной и т.д.) или двухбалльную (например, положительная оценка — все, что выше 50 баллов, отрицательная — 50 и меньше). Таким образом, возникает проблема, какие преобразования могут быть применены к каким исходным данным. Другими словами, какой переход от какой шкалы к какой шкале является правильным. Эта проблема называется проблемой адекватности в теории измерений.
Для решения проблемы адекватности можно воспользоваться свойствами связи между шкалами и их допустимыми преобразованиями, поскольку при обработке сырых данных допустима не каждая операция. Например, такая распространенная операция, как формирование среднего арифметического, не может быть использована, когда измерения проводятся в порядковой шкале. Общий вывод заключается в том, что всегда можно перейти от более сильной шкалы к менее сильной, но не наоборот (например, можно построить точечные оценки в порядковой шкале на основе оценок, полученных в шкале отношений, но не наоборот).
Применение шкал и измерений в образовательных исследованиях
Наиболее распространенной мерой оценки образования является шкала для оценки знаний и навыков учащихся в классах. Школьные оценки (отметки) — это удобный прибор для педагогической практики, который выполняет не только оценочные, но и определенные воспитательные функции (стимулирование одних учеников, «наказание» других и т.д.).
В образовательных исследованиях используются и другие шкалы оценки (порядковые шкалы). Например, выявляя какие-либо уровни воспитания у студентов определенных личностных качеств или овладения определенным видом деятельности, исследователь задает этим уровням соответствующие значения баллов: «1», «2», «3» и т.д., или «0», «10», «100», что в принципе безразлично. Однако использование порядковой шкалы для оценки результатов образовательных исследований нежелательно, хотя и не невозможно. Суть здесь заключается в характеристиках масштаба заказа. По этой шкале мы не можем ничего сказать о равномерности или неравномерности интервалов между соседними значениями оценок. Например, мы не имеем оснований утверждать, что знания ученика, получившего оценку «5», отличаются от знаний ученика, получившего оценку «4», в большей степени, чем знания, получившие оценку «4», отличаются от знаний, получивших оценку «3». Точно так же можно присвоить баллам не значения «1», «2», «3», «4», «5», а, например, «1», «10», «100», «1000», «10000». Поэтому совершенно неправильно использовать столь широко распространенное значение среднего балла (по классу, группе учащихся и т.д.), поскольку усреднение предполагает сложение значений, а операция суммы для порядковых шкал не может быть определена корректно. Соответственно, все остальные арифметические и алгебраические операции не могут быть определены.
Поэтому, например, утверждение о том, что знания учащихся экспериментальных классов в среднем на 0,5 балла выше, чем в контрольных классах, является неправомерным и ложным. Более того, при использовании балльных оценок неправильно (даже абсурдно) делать заявления типа: «эффективность экспериментальной методики в 2,6 раза выше, чем контрольной».
Чтобы продемонстрировать, чего можно достичь при «среднем» результате, приведем гипотетический пример. Предстоит изучить сравнительную эффективность двух методов обучения, А и В. В каждой из контрольной и экспериментальной групп было по 80 студентов. Они оценивались по двум шкалам: пятибалльной и десятибалльной. Предположим, что оценки по десятибалльной шкале могут быть преобразованы в пятибалльную: Присвойте оценкам «10» и «9» оценку «5», «8» и «7» — «4» и так далее. Пусть оценки по пятибалльной шкале распределились следующим образом (в числителе указано количество студентов, получивших соответствующую оценку в группе, обученной по методике А, в знаменателе — по методике В).
Ни один из них не получил оценку «3», «2» или «1».
Соответственно, «средний балл» составит 7,50 (метод А) и 7,25 (метод В). Кажется, мы можем сделать вывод, что метод А лучше, чем метод В. Давайте рассчитаем значения по пятибалльной шкале, в том же порядке:
Средний балл в этом случае составит 3,750 в группе с методом A и 4,125 в группе с методом B. Таким образом, мы имеем своего рода обратный «результат»: метод B лучше, чем метод A.
Обратите внимание, что этот «парадокс» не имеет никакого отношения к статистической достоверности различий — он будет иметь место даже при очень больших выборках данных (количество студентов). Это просто свойство слабой шкалы измерений. Вышесказанное относится и ко всем другим критериям оценки, в которых используется порядковая шкала.
Можно сказать, что преобразование, использованное в приведенном выше примере (из десятибалльной в пятибалльную шкалу), является ложным, поскольку оно не является взаимно однозначным. Итак, давайте рассмотрим еще один пример, где «парадокс» проявляется во взаимно уникальной трансформации. Для простоты предположим, что экспериментальная и контрольная группы состоят из двух студентов. Студенты первой группы имеют следующие значения: x1 = 2, x2 = 5. Во второй группе y1 = 3, y2 = 4. «Среднее значение» экспериментальной группы: 3,5 = (2+5)/2 равно «среднему значению» контрольной группы: 3,5 = (3+4) / 2. Применим строго монотонное (возрастающее) преобразование: «2» — «»6». «З» — » «8», «4» — » «12». «5» — » «15». Средний показатель экспериментальной группы (10,5 = (6 + 15) / 2) стал значительно больше среднего показателя контрольной группы (10 = (8 + 12) / 2). ‘ Таким образом, несмотря на то, что для порядковой шкалы допускается строго монотонное преобразование (см. выше), соотношение между «средними» изменилось. Это связано с тем, что операция вычисления среднего арифметического в порядковой шкале некорректна.
Последний пример также можно объяснить с математической точки зрения.
В принципе, шкала оценок, как и другие порядковые шкалы, может быть использована в образовательных исследованиях, но в этом случае необходимо применять соответствующие методы обработки данных». без вычисления «среднего балла». Правильной характеристикой набора оценок является медиана (такое значение оценки, справа и слева от которого в упорядоченной совокупности находится одинаковое количество оценок). Однако для порядковых шкал с небольшим количеством «нот» медиана не очень значима.
По указанным выше причинам целесообразно использовать такие методы оценки, которые позволяют использовать шкалу отношений или интервальную шкалу, а не порядковую (шкалы наименований практически не используются в образовательных исследованиях). Например, использовать тесты — набор коротких и точно сформулированных вопросов, заданий и т.д., на которые студент должен дать короткие и однозначные ответы, в правильности (или неправильности) которых нельзя сомневаться. Результатом будет количество правильных ответов, которое уже можно измерить в шкале отношения. Аналогичным образом можно построить письменные тесты, результаты обработки анкет (процент студентов, положительно ответивших на определенный вопрос) и т.д.
В целом, однако, можно выделить следующие характеристики, измеряемые в шкале установок:
- Время (время на выполнение действия, процедуры, время реакции. Время на исправление ошибки и т.д.)
- Скорость (производительность труда. скорость реакции, движения и т.д.)
- Точность (величина ошибки в измерениях физических величин (миллиметры, углы и т.д.). Количество ошибок, вероятность ошибки, вероятность правильного ответа, действия и т.д.);
- информация (объем материала, который необходимо усвоить, информация, которую необходимо обработать, объем восприятия и т.д.).
Различают два типа шкал. Можно выделить:
- дискретные шкалы (где набор возможных значений оцениваемой величины конечен, например, школьная оценка в баллах — «1», «2», «3», «4», «5»).
- непрерывные шкалы, например, время, которое требуется студентам для выполнения задания, в минутах.
Критерий Макнамары
Критерий Макнамары был разработан для сравнения распределений объектов из двух популяций в отношении выраженности какого-либо свойства на основе измерений этого свойства в двух зависимых выборках из рассматриваемых популяций.
Данные. В образовательных исследованиях часто возникает проблема сравнения состояния признака у членов двух зависимых выборок, когда этот признак может быть измерен только с помощью шкалы наименований. Например, отношение группы студентов к определенной профессии до и после интервью по карьерному консультированию измеряется с помощью шкалы наименований со следующими категориями: совсем не нравится — не нравится — безразлично — нравится — очень нравится. В этом случае необходимо сравнить ответы одних и тех же студентов до и после интервью, так как полученные результаты позволят оценить эффективность данного интервью в плане изменения мнения о данной профессии в ту или иную сторону.
Для случаев, когда измерение состояния исследуемого объекта производится по именованной шкале, включающей только две категории, был разработан специальный критерий для сравнения результатов двух зависимых выборок. Этот критерий называется критерием Макнамары. Он может быть использован в исследовании, рассмотренном выше, когда используются только две категории: нравится — не нравится. Обозначим один из них как «0», а другой — как «1».
Предположим, что случайная величина X характеризует состояние некоторого свойства в рассматриваемом множестве объектов во время первичного измерения этого свойства. А случайная величина Y характеризует состояние того же свойства в том же наборе объектов во время вторичного измерения.
Пусть даны две серии измерений случайных величин X и Y, полученных путем рассмотрения двух зависимых выборок. Формируется N пар вида (xi, yi), где xi, yi — результаты двух измерений одного и того же свойства на одном и том же объекте.
В педагогических исследованиях пары (xi, yi) могут быть результатами измерения состояния одного и того же признака у одного и того же ученика до и после применения педагогического инструмента, где xi — состояние признака до применения этого инструмента, а yi — после применения этого инструмента.
Например, при изучении эффективности интервью по карьерному консультированию уравнение (5) можно интерпретировать следующим образом: Вероятность изменения негативного отношения к профессии на позитивное после интервью равна вероятности изменения позитивного отношения на негативное. Уравнение (6) можно интерпретировать следующим образом: вероятность положительного отношения к профессии одинакова до и после интервью, а уравнение (8) — вероятность отрицательного отношения к профессии одинакова до и после интервью.
Критериальная статистика. Для проверки статистических гипотез с помощью критерия Макнамары вычисляется значение случайной переменной, называемой статистикой критерия.
Проверялось влияние формы контроля знаний студентов по некоторым разделам учебной программы на результаты контрольного опроса. На этом же материале была проведена обычная письменная работа с 3 заданиями и тест из 20 вопросов. По результатам заполнения каждой формы студенты были разделены на 2 категории: освоил — не освоил. Что касается письменных работ, то в первую группу вошли студенты, набравшие «3», «4» и «5» по стандартам, разработанным экспериментаторами. Для проведения теста в первую группу вошли студенты, которые правильно ответили на 13 и более вопросов. Оставшиеся студенты были отнесены ко второй группе.
100 учащихся были случайным образом отобраны из разных школ. Каждый из них поочередно выполнял обе формы контрольной работы. Результаты проверки знаний этих студентов дважды представляют собой измерения по шкале наименований с двумя категориями (освоил — не освоил) уровня знаний студентов по данному разделу. В этих условиях можно применить критерий Макнамары для выявления значимости различий в распределении уровня знаний студентов при разных формах контроля.
Проверяется гипотеза H0: Форма контроля, используемая для освоения этой части программы, не повлияет на распределение студентов по уровню знаний. В контексте цели эксперимента альтернативная гипотеза H1 формулируется следующим образом: Распределение студентов по уровню знаний отличается при разных формах контроля.
Для уровня значимости α=0,05 критическое значение T1critical=3,84. Следовательно, неравенство T1observed>T1critical верно. Таким образом, нулевая гипотеза отвергается при уровне значимости α=0,05, а альтернативная гипотеза принимается. Таким образом, из результатов проведенного эксперимента можно сделать вывод, что форма контроля за освоением части программы существенно влияет на распределение студентов по уровню знаний.
Критерий Пирсона
Предположим, что в результате 70 наблюдений выяснилось, что 51 человек выбрал правую полосу движения и только 19 человек — левую. Используя критерий, мы можем определить, отличается ли это распределение выбора от равномерного распределения, при котором обе полосы будут выбираться с одинаковой частотой. Это вариант сравнения полученного эмпирического распределения с теоретическим. Такая задача может быть поставлена, например, в прикладных психологических исследованиях, связанных с дизайном в архитектуре, системах обмена сообщениями и т.д.
Но представим, что наблюдатель решает совсем другую задачу: его гораздо меньше интересует согласие полученного распределения с равномерным распределением, чем согласие или несогласие его данных с данными других исследователей. Он знает, что люди с доминированием правой ноги склонны образовывать круг против часовой стрелки, а люди с доминированием левой ноги — по часовой стрелке, и что в исследовании, проведенном коллегами, доминирование левой ноги было обнаружено у 26 человек из 100 опрошенных.
Этот метод позволяет ему сравнить два эмпирических распределения: соотношение 51: 19 в его собственной выборке и соотношение 74: 26 в выборке других исследователей.
Это вариант сравнения двух эмпирических распределений по простейшей альтернативной характеристике (разумеется, простейшей с математической точки зрения, а вовсе не с психологической).
Аналогичным образом можно сравнить распределения выбора из трех или более альтернатив. Например, если в выборке из 50 человек 30 человек выбрали ответ (a), 15 человек выбрали ответ (b) и 5 человек выбрали ответ (c), мы можем использовать метод для проверки, отличается ли это распределение от равномерного распределения или от распределения ответов в другой выборке, в которой ответ (a) выбрали 10 человек, ответ (b) выбрали 25 человек, а ответ (c) выбрали 15 человек.
В случаях, когда признак измеряется количественно, например, в пунктах, секундах или миллиметрах, нам может потребоваться объединить все множество значений признака в несколько цифр. Например, если время решения задачи варьируется от 10 до 300 секунд, мы можем ввести 10 или 5 цифр в зависимости от размера выборки. Например, это будут цифры: 0-50 секунд; 51-100 секунд; 101-150 секунд и т.д. Затем мы будем использовать метод для сравнения частот появления различных разрядов признака, но в остальном основная схема не меняется.
При сравнении эмпирического распределения с теоретическим определяется степень расхождения между эмпирическими и теоретическими частотами.
При сравнении двух эмпирических распределений определяется степень отклонения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы, если бы два эмпирических распределения были одинаковыми. Формулы для расчета теоретических частот приведены конкретно для каждого варианта сравнения.
Чем больше расхождение между двумя сравниваемыми распределениями, тем больше эмпирическое значение.
Возможны несколько вариантов гипотез, в зависимости от целей, которые мы ставим.
В гениальной комедии Гоголя «Свадьба» у купеческой дочери Агафьи Тихоновны было пять женихов. Одного она сразу же исключила, потому что, как и она сама, он имел купеческий чин. Из остальных она не знала, кого выбрать: «Так трудно определиться. Если бы губы Никанора Ивановича поставить рядом с носом Ивана Кузьмича, если бы взять развязность Балтазара Балтазарыча и добавить красивое лицо Ивана Павловича, я бы сразу выбрал. Подумайте об этом! У меня даже голова начинает болеть. Я думаю, что лучше бросить жребий» (Н. Гоголь, 1959, с.487). И вот Агафья Тихоновна положила в перекрестье бумажки с четырьмя именами, пошарила в перекрестье рукой и вытащила их все, вместо одного!
Она хотела, чтобы жених соединил в себе достоинства всех четырех, и, вытащив все бумаги вместо одной, она бессознательно выполнила процедуру выведения среднего значения. Но вывести среднее из четырех мужчин невозможно, и Агафья Тихоновна в растерянности. Она влюблена, но не знает в кого. «Такая неприятная ситуация для девушки, особенно когда она все еще влюблена.
Проблема была в том, что ни Агафья Тихоновна, ни ее тетка, ни сваха Фекла Ивановна не знали критерия! Это был критерий, который мог помочь им решить их проблему. С его помощью можно попытаться определить, в кого больше влюблена Агафья Тихоновна. Но для этого не нужно измерять ни губы Никанора Ивановича, ни нос Ивана Кузьмича, ни объем талии грудастого красавца Ивана Павловича, не нужно проводить опасные эксперименты, чтобы выяснить, как далеко может зайти хвастовство Балтазара Балтазарыча. Мы воспринимаем эти достоинства как должное только потому, что они нравятся Агафье Тихоновне. Мы воспринимаем их как признаки одного и того же знака, как направление взгляда Агафьи Тихоновны: как часто она смотрела на губы Никанора Ивановича? Нос Ивана Кузьмича? Благосклонно ли она смотрела на грузного Ивана Павловича или легкомысленного Балтазара Балтазаровича? Наблюдательная сваха или тетушка вполне могли заметить этот знак. Предположим, что в течение получасового наблюдения она записала следующее.
На странице курсовые работы по психологии вы найдете много готовых тем для курсовых по предмету «Психология».
Читайте дополнительные лекции:
- Диагностика задержки психического развития
- Вклад Б. В. Зейгарник в формирование патопсихологии
- Агрессия у человека и животных
- Понятие нормы и отклонения в педагогике
- Профессиональный стандарт психолога. Основные трудовые функции
- Практика наблюдений и организации различных видов деятельности и общения детей
- Психоанализ в психологии
- Педагогика свободы л.Н. Толстого
- Психологический анализ детского рисунка
- Перспективы клинической психологии