5.2 Индуктивная статистика
5.2.2 Сила связи между переменными в перекрёстных таблицах
Меры силы связи между переменными
Тест χ2 показывает только значимость взаимосвязи между переменными, но он никак не характеризует силу этой взаимосвязи.
Простое доказательство: если удвоить все числа в таблице, то и значение χ2 удвоится.
Меры силы взаимосвязи:
- Фи-коэффициент (φ)
- Коэффициент сопряженности признаков (C)
- Коэффициент Крамера (V)
- Коэффициент лямбда (λ)
Фи-коэффициент
Чем выше φ, тем сильнее взаимосвязь между переменными.
Значения больше 0,30 считаются существенными.
Проблемы:
- φ не стандартизовано, то есть оно зависит от количества строк и столбцов таблицы; верхний предел = 1 существует только в таблицах 2х2
- значения φ разных исследований нельзя сравнивать
Взаимосвязь не очень сильна
Коэффициент сопряженности признаков
Чем выше C, тем сильнее взаимосвязь между переменными.
Значения больше 0,30 считаются существенными.
Верхний предел C=1, но он не может быть достигнут.
Проблемы:
- C не стандартизован, то есть зависит от количества размерности таблицы
- значения C разных исследований нельзя сравнивать
Взаимосвязь не очень сильна
Коэффициент Крамера
r – количество строк в таблице
c – количество столбцов в таблице
Чем выше V, тем сильнее взаимосвязь между переменными.
Значения больше 0,30 считаются существенными.
Верхний предел V=1, но он может быть достигнут только на таблицах размерности 2х2.
Проблемы:
- V не стандартизован, то есть зависит от количества размерности таблицы
- значения V разных исследований нельзя сравнивать
Взаимосвязь не очень сильна
Коэффициент лямбда
r – индекс строк
c – индекс столбцов
Показывает выраженное в процентах улучшение возможности прогнозирования значения зависимой переменной при заданном значении независимой переменной.
Значения стандартизированы и лежат в пределах от 0 до 1
(1 – прогноз может быть сделан без ошибки, 0 – улучшения в прогнозировании нет).
Значения λ разных исследований можно сравнивать.
Знание пола увеличивает нашу способность прогнозирования на коэффициент 0,333, т.е. улучшает ее на 33,3%
Пол | |||
Пользование интернетом |
Мужской |
Женский |
Сумма по строке |
редко |
5 |
10 |
15 |
часто |
10 |
5 |
15 |
Сумма по столбцу |
15 |
15 |
n=30 |
редко = r = 1
часто = r = 2
мужской = с = 1
женский = с = 2