НОУ ИНТУИТ | Введение в практическое тестирование. Лекция 4: Оценивание тестирования

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

|

Вам нравится? Нравится 84 студентам

| Поделиться |

Поддержать программу

Задача 2.

Даны результаты тестирования для каждого из n тестированных и теста длины в виде матрицы , а также вектор эталонных ответов B=(b_1, b_2, …, b_m) , где b_j – эталонный ответ на задание номер . Необходимо определить "вес" (меру сложности) конкретного задания теста.

Простейший алгоритм решения этой задачи состоит из следующих этапов.

Определяем для очередного задания теста по матрице количество тестированных, давших правильный ответ на данное задание.
В качестве "веса" задания берется дробь : знаменатель – количество тестированных, числитель – количество тестированных, давших правильные ответы на все задания.
Вычисляем смежные веса : знаменатель – количество всех тестированных, давших неправильный ответ на данное задание номер , числитель – количество тестированных, давших неправильные ответы на все задания. Иногда в знаменателе берется количество всех тестированных.
Находится вектор весов выполнения для заданного вектора эталонных ответов.
Находим вектор весов невыполнения для заданного вектора эталонных ответов.
Оцениваем дисперсию каждого -го задания и стандартное отклонение $\sigma_j = \sqrt{D_j}$ .
Конец алгоритма.

Задача 3.

Даны результаты тестирования для каждого из тестированных и теста длины в виде матрицы , а также вектор эталонных ответов B=(b_1, b_2, …, b_m) , где b_j – эталонный ответ на задание номер . Необходимо оценить валидность каждого задания теста.

Простейший алгоритм решения этой задачи состоит из следующих этапов.

Определяем для очередного задания теста по матрице количество тестированных, давших правильный ответ на -ое задание и находим их средний балл .
Находим аналогично количество тестированных, давших неправильный ответ на j-ое задание и их средний балл .
Находим дробь : знаменатель – количество тестированных, давших правильный ответ на данное задание номер , числитель – количество тестированных.
Находим дробь : знаменатель – количество тестированных, давших неправильный ответ на данное задание номер , числитель – количество тестированных.
Оцениваем дисперсию каждого -го задания и стандартное отклонение $\sigma_j =\sqrt{D_j}$ .
Находим стандартное отклонение $\sigma=\sqrt{D}$ по всему тесту.
Находим коэффициент корреляции (меру валидности задания):
$r_j=\frac{(x_j-y_j)\sigma_j}{\sigma}$
Если , то задание считаем валидным, иначе – не валидным (отметим, что с точки зрения критериальной валидности, задания, выполненные всеми или невыполненные никем, не являются валидными).
Конец алгоритма.

Задача 4.

Даны результаты нормативно-ориентированного тестирования для каждого из тестированных и теста длины в виде матрицы , а также вектор эталонных ответов B=(b_1, b_2, …, b_m) , где b_j – эталонный ответ на задание номер . Необходимо оценить надежность теста (степень устойчивости результатов тестирования каждого испытуемого, если тестирование было проведено в совершенно одинаковых условиях).

Для вычисления надежности нормативно-ориентированного теста используем коэффициент корреляции между результатами двух параллельных тестов. Сравнивая коэффициенты корреляции, делаем заключение о надежности (внутренней) теста. Если две половины теста коррелированны, то и тест надёжен; в противном случае – не надёжен (или необходимо применить другой, более тонкий математический аппарат исследования надежности).

Простейший алгоритм решения этой задачи состоит из следующих этапов.

Делим тест на две равные части и , например, по четным и нечетным номерам заданий. Этот метод называется методом расщепления теста. Таким образом, мы имеем данные по двум параллельным тестам и – индивидуальные баллы , , где – количество тестированных.
Для каждого задания группы выполняем предыдущий алгоритм.
Для каждого задания группы выполняем предыдущий алгоритм.
Находим коэффициент корреляции и по формуле:
$r_{XY}=\frac{\sum\limits_{i=1}^{n}x_iy_i-\frac{1}{n}\sum\limits_{i=1}^{n}x_i\sum\limits_{i=1}^{n}y_i}{\sqrt{\sum\limits_{i=1}^{n}x_i^2-\frac{1}{n}(\sum\limits_{i=1}^{n}x_i)^2}\cdot\sqrt{\sum\limits_{i=1}^{n}y_i^2-\frac{1}{n}(\sum\limits_{i=1}^{n}y_i)^2}}.$
Находим надежность всего теста по формуле (Спирмена-Брауна):
$r=\frac{2r_{XY}}{1+r_{XY}}$
Конец алгоритма.

Задача 5.

Необходимо на основе имеющихся результатов тестирования (матрица ) получить для каждого из тестированных интегральный (обобщенный) показатель выполнения теста длины , а затем по вычисленным значениям этого интегрального показателя разбить всех тестированных на заданное количество групп (задача классификации).

Алгоритм решения этой задачи состоит из следующих этапов.

Если для -го задания увеличение значений результатов измерения свидетельствует об улучшении соответствующего свойства, то с ним свяжем признак , а если свидетельствует об ухудшении – признак .
Выполняем нормирование элементов исходной матрицы так, чтобы в каждом столбце они изменялись в "одном направлении": для каждого задания (при фиксированном ) и для каждого испытуемого вычислим новое значение
$a_{ij}:=\frac{a_{ij}-m_j}{M_j-m_j},$

где , – наибольшее и наименьшее значения элементов -го столбца и применяем преобразование вида

$a_{ij}:= \begin{cases} a_{ij}, z_j=1\\ 1-a_{ij},z_{ij}=-1 \end{cases}$ .
Для каждого столбца полученной новой матрицы (нормированной) вычисляется среднее квадратичное отклонение по формуле
$c_i=\sqrt{\frac{\sum\limits_{i=1}^n (a_{ij}-\bar a_j)^2}{n-1}},$

где $\bar a_j$ – среднее арифметическое элементов -го столбца.
Вычисляется классификационный интегральный показатель
$y_i=\sum\limits_{j=1}^{m} a_{ij}c_i$ ,

где – значение интегрального показателя для -го обучаемого , – весовой коэффициент -го задания в тесте или в банке всех заданий, $a_{ij}$ – элемент матрицы или его преобразованное (нормированное, например, по отношению к максимальному элементу или к норме матрицы).
Находим наименьшее $y_{min}$ и наибольшее $y_{max}$ значения интегрального показателя (по всем тестированным). Отрезок $[y_{max};y_{min}]$ делим на заданное число интервалов. Часто берут (при построении, например, гистограммы) . Всех тестированных, для которых вычисленные значения интегрального показателя попадают в один и тот же интервал, отождествляем и относим к одному классу.
Выдаем результаты: значения интегрального показателя для каждого тестированного, а также его класс (или классификацию тестированных по интегральному показателю).
Конец алгоритма.

Задача 6.

Дана интегральная норма тестовых результатов. Необходимо разбить группу тестированных на несколько групп по их интегральным показателям (по отношению их к норме).

Приведем простейший алгоритм решения этой задачи.

Первый алгоритм решения этой задачи состоит из следующих этапов.

Ввод входных данных: .
Для каждого тестированного определяем суммарный балл:
$b_i=\sum\limits_{i=1}^{m} a_{ij}$ .
Разбиваем всю выборку тестированных на три группы: группа 1 с высокими баллами (нижняя граница суммарного балла для попадающих в эту группу равна $min\{b_i\}+b(max\{b_i\}–b_i)$ , группа 2 со средними баллами и группа 3 с низкими баллами (верхняя граница суммарного балла для попадающих в эту группу равна $min/{b_i/}+(1–b)(max/{b_i/}–b_i)$ , где – масштабирующий коэффициент, .
Конец алгоритма.

Задача 7.

Необходимо отсеять первичные ("сырые") результаты в группах, т.е. по данным x_1, x_2, …, x_n (процент выполнения, валидность и т.д.) выяснить задания (тесты, результаты), которые не согласуются с общей картиной тестирования.

Алгоритм решения задачи состоит из следующих этапов.

Вычисляется средняя величина
$\bar x=\frac{x_1+x_2+...+x_n}{n}.$
Вычисляются наибольшее $x_{max}$ и наименьшее $x_{min}$ в группе.
Вычисляются наибольшее отклонение в группе:
$d_{max}=| x_{min (max)} — \bar x|.$
Вычисляется относительное отклонение:
$w=d_{max} / \bar x.$
Находим по таблице распределения Стьюдента процентные точки для и . Таблица Стьюдента имеется практически во всех справочниках по математической статистике.
Вычисляем соответствующие точки , .
Если , то отсеиваем рассматриваемое данное и пересчитываем все заново (повторяем заново пункты 1-6).
Конец алгоритма.