Показаны сообщения с ярлыком шкала оценки. Показать все сообщения
Показаны сообщения с ярлыком шкала оценки. Показать все сообщения

понедельник, 29 декабря 2025 г.

Управленческая теория измерений. Часть 2. Шкалы и накладываемые ими ограничения

 

Андрей Мицкевич

Различные измерения и показатели используются в каждой фирме, в любой организации. Выбор подходов к оценке степени достижения некоторого показателя (например, плана продаж) огромен: тут сколько людей, фирм, ситуаций, видов работ, столько и мнений. Задача этой статьи не придумывать что-либо своё, а попытаться классифицировать доминирующее большинство существующих подходов к измерению показателей.
В соответствии с теорией измерений при моделировании реального явления следует прежде всего установить типы шкал, в которых измеряются или должны быть измерены те или иные переменные. Что такое шкала? Какими они бывают? Какие ограничения накладываются на числа, используемые для измерений? Как правильно пользоваться шкалами, чтобы получить достоверные первичные измерения? Какие интегральные и комплексные показатели могут быть построены на множестве измерений, выполненных в различных шкалах?

Шкалы и их классификации

Шкалы используются как для первичных измерений, так и для перевода разных измерений (в нашем случае — различных показателей) в единую шкалу. Как выбрать единую шкалу? Начнём с трёх определений.

Шкалой называют систему чисел или иных элементов и отношений между ними, принятых для измерения или оценки каких-либо величин (объектов, качеств и т. д.).

Шкалирование — это:

  • выбор шкалы для первичных измерений;
  • перевод измерения из одной шкалы в другую.

Нормирование (или единообразное шкалирование) — это перевод всех переменных, показателей, отражающих разные объекты измерений, в одну шкалу.

Первая классификация шкал была предложена С. Стивенсом в 1946 г. и от современной общепринятой классификации принципиально не отличается.
Шкалы, как правило, объединяют в три основные группы:

  •  номинальные — для качественных измерений;
  •  порядковые — для отражения отношения порядка (больше, лучше, важнее, проще, правильнее и т. п.);
  •  количественные — оперируют с числами так, как мы привыкли со школьных времен (например, 10 в 2 раза больше, чем 5).

Иногда все шкалы измерения делят на два класса:

  •  шкалы качественных признаков (порядковая шкала и шкала наименований);
  •  шкалы количественных признаков (количественные шкалы).

Далее мы последовательно разберём все типы шкал.


Номинальные шкалы

Номинальная шкала (nominal scale), или шкала наименований 1, сопоставляет каждый объект с определённым признаком. В результате объект либо обладает этим признаком, либо нет. Номинальная шкала состоит из названий — это самое простое и в то же время верное понимание номинальной шкалы.
Пример. Красное или чёрное — это измерение в некой цветовой гамме. Многие классификации, ответы на вопросы анкеты — всё это примеры номинальных измерений. С них начинается работа создателей сбалансированной системы показателей, а закончиться она должна цифрами. Но здесь важно не переборщить и оставить номинальные измерения только там, где они предпочтительнее формальной оцифровки.

Как правильно пользоваться шкалами, чтобы получить достоверные первичные измерения? Это не такой простой вопрос, как кажется на первый взгляд.

Допустимые преобразования. В номинальной шкале допустимыми преобразованиями (см. врезку) являются все взаимно-однозначные преобразования 2. Например, red — это «красный». Никаких отношений, кроме «равно» и «неравно», здесь нет. В этой шкале числа используются лишь как метки (как, например, при сдаче белья в прачечную), то есть лишь для различения объектов.


Порядковые шкалы

Порядковая шкала отражает более высокий уровень измерений, учитывающий, к какой категории принадлежит объект и в каком отношении он находится с другими объектами. В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между ними.
Пример. Простейшим примером порядковой шкалы служат оценки знаний учащихся. Символично, что в средней школе применяются оценки 2, 3, 4, 5, а в высшей школе тот же смысл выражается словесно — «неудовлетворительно», «удовлетворительно», «хорошо», «отлично». Этим подчёркивается «нечисловой» характер оценок знаний студентов.
Фактически измерение по порядковой шкале представляет собой операцию упорядочения. Предполагаются сравнения «больше — меньше» или «лучше — хуже». Например, мнения экспертов часто выражаются в порядковой шкале, то есть эксперт может сказать (и обосновать), что один показатель качества продукции важнее, чем другой; первый технологический объект опаснее, чем второй, и т. д. Но он не в состоянии сказать, во сколько раз или насколько он более важен, или, соответственно, более опасен.
Допустимые преобразования. Порядковая шкала допускает любое возрастающее преобразование, то есть такое, которое не меняет порядок шкалы.
Типы порядковых шкал. Используют два типа порядковых шкал, которые различны с практической точки зрения:

  • ранговая шкала, которая предполагает присвоение объектам рангов (ранжирование);
  • балльная шкала, в которой применяются баллы.

Обдумывание измерений некоторых показателей следует начать с выбора между ранговым и балльным типами шкал.

Ранговые порядковые шкалы

Ранговые шкалы — это шкалы, где числа служат только для присвоения мест. Экспертов часто просят ранжировать (упорядочить) объекты экспертизы, то есть расположить их в порядке возрастания (или убывания) интенсивности исследуемой характеристики. Ранг — это номер объекта экспертизы в упорядоченном ряду значений характеристики у различных объектов. Формально ранги выражаются числами 1, 2, 3.... Важно помнить, что измерения 1, 2, 3 и 6, 10, 50 означают одно и то же: первая альтернатива заняла первое место, вторая — второе место и т. д. В ранговых шкалах нет информации о величине различий между оцениваемыми объектами. Такие шкалы используются тогда, когда объект трудно описать несколькими характеристиками, которые потом оцениваются качественно (баллами, например) или количественно. В практике менеджмента рейтинги часто основаны на ранговых шкалах.

Ранговые измерения (процедуры ранжирования). Различают несколько основных типов алгоритмов ранжирования:

  1. процедура непосредственного ранжирования, когда эксперт должен просто упорядочить объекты. При ранжировании он располагает объекты в порядке предпочтения, руководствуясь знаниями, собственными соображениями и пр. — по сути, расставляет объекты в определённом порядке, пользуясь своим собственным алгоритмом и не объсняя, почему он выбрал именно этот вариант;
  2. процедура опосредованного ранжирования, когда эксперт должен упорядочить объекты и дать пояснения;
  3. процедура последовательного непосредственного ранжирования, когда эксперт сначала должен отнести объекты к одному из нескольких классов, которым заранее присвоил ранги, а затем упорядочить объекты внутри каждого класса. Метод используется при большом количестве объектов ранжирования;
  4. «метод пузырька» взят из программирования, где он применятется для сортировок. Эксперт должен найти место (N+1)-ого объекта в ряду уже упорядоченных N-объектов. Такая процедура весьма экономна и точна;
  5. процедура парных сравнений заключается в том, что эксперт устанавливает порядок объектов путём сравнения всех возможных их пар. Это самый точный, но и самый трудоёмкий метод. Перевод результатов таких парных сравнений в ранги не так прост, пример неверного перевода результатов парных сравнений в ранги приведен во врезке.

Корректные методы перевода результатов парных сравнений в шкалу интервалов. Они существуют. Считая предпочтение некоторой случайной величиной, отражающей истинное соотношение характеристик объектов сравнения, можно решить задачу определения вероятности истинного соотношения сравниваемых объектов (модели Брэдли-Терри, Терстоуна-Мостеллера, Льюса и др.). Пример такого корректного перевода дан во врезке. Большого практического значения он не имеет, и чтобы понять его суть, надо хорошо знать математическую статистику 3. Но важно понимать, что такие методы существуют и у них есть обоснование, пусть и небесспорное. В результате метод парных сравнений позволяет определить значимость различий положения тех или иных объектов в иерархии, а также решать другие сходные задачи.


Балльные порядковые шкалы

Балльные шкалы используются очень часто, примеры мы уже приводили. Однако важно понимать, что каждому баллу необходимо присвоить качественную характеристику, в противном случае может пострадать корректность. Приведу пример: в конце 1990-х гг. я был назначен ответственным преподавателем (качество, контроль, апелляции) на устном экзамене по экономике для абитуриентов НИУ ВШЭ. Только что на ректорате ввели 10-балльную шкалу. Экспромт не удался — первый блин, как обычно, вышел комом. Моя работа заключалась, в том числе, и в „обеспечении справедливости”, то есть чтобы за примерно одни и те же ответы преподаватели в разных комиссиях ставили одинаковые баллы. Разброс в оценках оказался ужасающим — от 4 до 7 за похожие ответы. Буквально на следующий день ошибка в дефиниции шкалы была исправлена, а получившаяся шкала (см. таблица 2) успешно работает до сих пор (с небольшим изменением). Многие вузы взяли её на вооружение. Обращаю внимание читателей, что в соответствии со спецификой каждого предмета преподаватель конкретизирует шкалу.

Таблица 2. Пример 10-балльной шкалы для оценки успеваемости студентов.
БаллКачественная характеристика
10Пять с плюсом — исключительные знания (кое-что из ответа студента даже преподаватель не знал)
9Отлично, твёрдая пятёрка
8Пять с минусом
7Четыре с плюсом
6Четыре, твёрдая четвёрка
5Четыре с минусом
4Три с плюсом
3Три, твёрдая оценка «удовлетворительно»
2Три с минусом
1Неудовлетворительно

Важный вопрос: какова идеальная размерность балльной шкалы? Ответ: сколько качеств, столько и баллов. Баллы обозначают упорядоченные качества, и каждому качеству присваивают свой балл. Обратное неверно: если взять за основу 10-балльную шкалу и каждому баллу попытаться „присвоить” определённое качество, то можно столкнуться с ситуацией, что качеств может оказаться не 10, а всего 7. Поэтому следует отталкиваться именно от количества качеств, которые вы можете выделить.

Если нет обоснования логики присвоения баллов, будем считать измерение некорректным. Это необходимо для корректного выставления балльных оценок.

Балльные измерения. Балльные измерения формально просты, но коварны возможностью допустить необоснованные оценки и тем самым всё испортить. Существует два подхода к выставлению балльных оценок:

  1. непосредственная балльная оценка представляет собой приписывание объектам баллов на основании субъективного представления. Такая оценка используется в социологии, но в управлении компанией применяться не должна (за исключением, пожалуй, начальной стадии разработки системы показателей). Причина проста — слишком произвольно баллы приписываются объектам, трудно объяснить, почему мы по 10-балльной шкале ставим 5, а не 6, например;
  2. балльная оценка с обоснованием — это процедура приписывания объектам баллов на основании степени близости к описанным баллами качествам. На мой взгляд, это необходимо для корректного выставления балльных оценок. Примем следующее правило если нет обоснования логики присвоения баллов, будем считать измерение некорректным.

Перевод результатов балльных оценок в весовые коэффициенты. Если такой перевод делается одним экспертом — это операция сомнительная, но популярная. Во врезке приведён один из популярных методов — метод последовательных сравнений.

Перевод рангов в весовые коэффициенты одним экспертом. Метод последовательных сравнений

Продолжим пример, приведённый во врезке. Итак, эксперт проводит оценку четырёх целей, связанных с решением кадровой проблемы. Варианты ранжируются таким образом: Z1, Z3, Z4, Z2.
Шаг 1. Все оцениваемые объекты располагаются в порядке убывания их важности. Назначаются предварительные оценки важности, сумма которых отличается от 100. При этом первый объект массива получает оценку 100, остальные — в соответствии с их важностью. Выставляем предварительные оценки (условные баллы):
p1 = 100, p3 = 60, p4 = 40, p2 = 10.
Шаг 2. Первый объект массива сравнивается со всеми возможными комбинациями нижестоящих объектов, причём в каждой комбинации берётся по два таких объекта. Считается, что комбинацию можно рассматривать как сумму, то есть оба объекта „реализуются”. При необходимости оценка первого объекта корректируется.
Выполним сравнение целей и корректировку их оценок: Z1 сравниваем с (Z3 и Z4) (то есть цель Z1 сравниваем с комбинацией Z3 и Z4), затем Z1 сравниваем с (Z3 и Z2) и так далее. Допустим, эксперт полагает, что Z1 лучше, чем Z3 и Z4 вместе взятые, но Z3+Z4 в сумме составляют 100 условных баллов, поэтому корректируем оценку: p1 = 125.
Шаг 3. Второй объект массива сравнивается со всеми возможными комбинациями нижестоящих объектов, причём в каждой комбинации снова берётся только по два таких объекта. При необходимости корректируется оценка второго объекта и т. д.
Например, Z3 сравниваем с (Z4 и Z2). Остальные сравнения не приносят ничего нового.
Шаг 4. Производятся нормирование скорректированных оценок и расчёт на их основе весов объектов. Запишем скорректированные оценки и вычислим веса целей:
p1 = 125; p3 = 60; p4 = 40; p2 = 10;
v1 = 125/сумма всех оценок = 0,54; v3 = 0,25; v4 = 0,17; v2 = 0,04.
Теперь эти веса можно использовать в аддитивной функции полезности 4.
Корректность вычислений вам предстоит оценить позже, после знакомства с количественными шкалами и оценками, получаемыми на основе измерений в них.


Количественные шкалы

Количественные шкалы отражают более высокий уровень измерений, учитывающий не только то, в каком отношении измеряемый объект находится с другими объектами, но и степень их различия. Примеры использования количественных шкал мы видим повсюду.
Допустимые преобразования. Количественные шкалы определены с точностью до преобразований, которые не меняют единицы измерения (линейных или иных функциональных преобразований).
Типы количественных шкал. Различают количественные шкалы:

  • интервалов;
  • степеней;
  • отношений;
  • разностей;
  • абсолютную шкалу.

Расположение шкал в этом списке не случайно. Первая (шкала интервалов) — самая слабая по информативности и самая сильная в плане надёжности оценок, последняя (абсолютная шкала) — наиболее информативная (измерения могут быть очень надёжными), но при этом допускающая наименее надёжные оценки. Оценка степени соответствия некоторому идеалу максимально затруднена — помните разницу между оценкой и измерением?
Шкала интервалов (интервальная шкала) точно определяет величину интервала между точками на шкале. Для проведения измерений необходимо задать интервал (2 точки). Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования вида: F(Х) = а · Х + b, где а > 0. 

Шкала степенная. Шкала степеней (степенная) допускает степенное преобразование (F(Х) = АХВ). В области техники она вполне адекватна — у неё тоже две степени свободы, как у шкалы интервалов. В экономике она, напротив, является исключением, поэтому подробно рассматривать её не будем.

Шкала интервалов — самая слабая по информативности и дающая самые надёжные оценоки. Абсолютная шкала — наиболее информативная, но допускающая наименее надёжные оценки. Оценка степени соответствия некоторому идеалу в абсолютной шкале максимально затруднена — помните разницу между оценкой и измерением?

Шкала отношений. Из количественных шкал в науке и практике наиболее распространены шкалы отношений. В них есть естественное начало отсчёта — ноль (то есть отсутствие величины), но нет естественной единицы измерения.
Примеры использования шкалы отношений:

  • измерение большинства физических единиц: массы тела, длины, а также цены в экономике;
  • любое процентное соотношение — это измерение в шкале отношений;
  • простые индексы типа Выручка текущего года/Выручка прошлого года также представляют собой измерение в шкале отношений.

Шкала отношений допускает преобразования, изменяющие только масштаб, то есть преобразования подобия: F(Х) = аХ, где а > 0 (линейные возрастающие преобразования без свободного члена).
Примеры преобразования шкалы отношений:

  • пересчёт цен из одной валюты в другую по фиксированному курсу;
  • перевод массы из килограмм в фунты.

Базовая точка в шкале отношений одна — «единица». Эта условная «единица» может быть, например, 100 (проценты) или 1 (доли). Таким образом, измерения в долях и процентах эквивалентны, что очевидно и без всякой теории.
Однако выводы, которые делаются по результатам процентных измерений, могут быть ошибочными (см. врезку). Возникают сопутствующие вопросы:

  • встречаются ли в практике управления подобные сравнения?
  • какие проценты можно сравнивать друг с другом и для чего?
  • какие действия с процентами можно производить?
  • какие действия можно производить с индексами?

Корректность процентных измерений. Рейтинг путина vs стоимость свинины

  •  Рейтинг путина: в январе 2014 — 60,6%, в июне 2014 — 87,4%.
  •  Цена свинины: в январе — 116 руб/кг, в июне — 195 руб/кг.

Вывод: по темпам роста (в научной терминологии «прироста») свинина побеждает путина: 44% vs 68%.
Корректны ли эти измерения? Решите сами и объясните (что гораздо сложнее). Точно сформулировать, насколько такие сравнения корректны, удается лишь 10% слушателей программ МВА. Это ещё один довод в пользу изучения шкал. Хотя бы на уровне знакомства.

Шкала разностей допускает преобразование сдвига: F(Х) = Х + в. В такой шкале есть естественная единица измерения, но нет естественного начала отсчета. Базовая точка в шкале разностей тоже одна — условный „ноль”, своеобразная точка отсчёта. Пример: по шкале разностей измеряется время, если естественной единицей измерения принимаем год (или сутки — от полудня до полудня). На современном уровне знаний естественное начало отсчёта указать нельзя. Даже дату сотворения мира различные авторы рассчитывают по-разному, как и дату рождения Иисуса Христа.
Абсолютная шкала — это шкала, которая запрещает преобразования 5Только для абсолютной шкалы результаты измерений (числа) используются в привычном смысле именно как числовые значения. В качестве примера измерений по абсолютной шкале можно привести число работников компании или выручку. При этом оценка выручки может отличаться от самой выручки (допустим, 20 млн руб. — „хорошо”, 24,5 млн руб. — „отлично”).
Кроме перечисленных шести основных типов количественных шкал, иногда используют и иные шкалы.

Степени свободы шкал

Для проведения измерений в шкалах отношений и разностей мы должны задавать одну точку. В шкале отношений она „играет роль единицы”, то есть соответствует переводу базового эмпирического элемента в единицу действительной оси. Для шкалы разностей это „нулевая точка”, то есть нужно задать отношение таким образом, чтобы „точка отсчёта” эмпирической системы превращалась в числовой ноль.
В этой связи математики различают шкалы по степеням свободы:

  • 2 степени свободы имеют шкалы интервалов, степеней;
  • 1 степень — шкалы отношений и разностей;
  • 0 степеней — абсолютная шкала.

Иерархия шкал измерений

Напомним, что все шкалы делят на две большие группы: качественные и количественные. Наиболее распространённая классификация шкал — континуальная (рис. 3). В ней шкалы упорядочены по мере повышения их способности удовлетворять требованиям информативности и надёжности проведения оценок. Слева — самая слабая по информативности и самая надёжная, справа — наиболее информативная и наименее надёжная.



Рис. 3. Иерархия шкал измерений


https://tinyurl.com/mpt5zkym


Часть 1 - https://bit.ly/4ojmRoh

среда, 8 июля 2020 г.

Технология Assessment Center: шесть отличий от подделки



Ирина Грабская
Как-то в детстве на пляже я услышала забавный диалог. Цыганка зычно рекламировала изделия из эпоксидной смолы: «Янтарь! Янтарь!». Когда кто-то из отдыхающих заметил: «Это же не настоящий янтарь!», цыганка быстро нашлась: «Ну, не янтарь, так из-под янтарь».
В нашей семье, сталкиваясь с какой-то подделкой, еще долго вспоминали ее слова. Именно эта цыганка вспомнилась мне, когда редакция предложила написать о профессиональных стандартах при проведении Центров оценки. Уж очень часто на украинском рынке присутствует что-то «из-под ассессмент», которое серьезно компрометирует очень полезный инструмент.

В статье мы не обсуждаем цели и границы применимости метода, а сосредоточимся на стандартах технологии, понимание  которых поможет отличить профессиональное проведение Центра оценки и развития от фальсификаций.
Подделку можно распознать уже на первой встрече с провайдером услуги, задав ему несколько
вопросов и ознакомившись с инструментами, а также примером программы и т.н. слепого отчета
(отчет без имени участника и названия компании).
Приведем эти вопросы.

1. По каким критериям Вы будете оценивать участников?

Метод создан в концепции подхода по компетенциям и в ходе Центра оценки и развития могут оцениваться только компетенции. Если в компании разработана модель компетенций, то оценка проводится в соответствии с профилем компетенций данной должности. Если профиля нет или он требует пересмотра, то его необходимо разработать. При разработке профиля не достаточно просто использовать стандартные определения из библиотеки компетенций, важно проделать специальную работу по выделению ключевых факторов успеха именно в данной должности в конкретной компании.
В разработанном профиле каждая компетенция описывается через определение, а также 5–8 поведенческих индикаторов. Поведенческие индикаторы – это конкретные действия, поэтому они формулируются в глагольной форме. Например, для компетенции «принятие решений» одним из индикаторов будет «рассматривает альтернативы».  Только при таком описании легко наблюдать и оценивать конкретные действия участника.

Типичная подделка – «портрет». Часто у оценщиков нет перечня поведенческих индикаторов или их перечень является неполным: например, в компетенции «ориентация на результат» все индикаторы связаны с активностью и отсутствуют индикаторы, связанные с постановкой целей, использованием ресурсов.
Часто профиль компетенций используется формально, но критерии оценки подменяются субъективными впечатлениями. Отчет выглядит как своеобразный «психологический портрет», со словами (цитирую!) «он бессознательно стремится», «эгоцентризм», «заложенные в нем»  и т.п. В таких цветистых «портретах» явно проступают краски фантазий и эмоционального отношения «оценщиков-импрессионистов» к участнику.

2. Какие инструменты Вы планируете использовать?

В Центре оценки и развития применяется несколько инструментов: бизнес-кейсы, интервью по компетенциям, тесты и личностные опросники.
Бизнес-кейсы – необходимые инструменты Центра оценки и развития. Без них очень трудно оценить важные для бизнеса компетенции. Бизнес-кейс моделирует деятельность некоей условной компании. Его уровень сложности соответствует реальным проблемам, которые решаются на определенном уровне менеджмента. «Папка документов», которую получает участник, включает разноплановые материалы: финансовую документацию, отчеты, электронную переписку и т.п. На основании их анализа сотрудник анализирует проблемы, принимает решения, определяет возможности для изменений. В структуре кейса заложена возможность проявить определенные компетенции. Хороший кейс похож на детектив: в нем есть внутренняя драма, конфликты интересов, возможность нескольких разноплановых решений.

Типичный подлог – «тренинговый квест» – использование в Центре оценки и развития тренингового упражнения. Любимое упражнения непрофессионалов – «Кораблекрушение». Что можно оценить в этом упражнении? Вероятно, коммуникативную активность, экспрессивность, частично – влияние. А какие далеко идущие выводы делают «оценщики» из этого упражнения! В результате такого кораблекрушения» за бортом оказываются, например, вдумчивые интроверты, которых не вдохновила игра. Ведь, как правило, «оценщики» не сообщают участникам такой игры, для чего используется упражнение, что на самом деле они измеряют. Может быть, потому что сами не всегда об этом догадываются?

Тренинговые упражнения не подходят для Центра оценки и развития по нескольким причинам:

•    они созданы с целью обучения конкретным навыкам, а не с целью проявления компетенций;
•    в них мало простора для проявления компетенций;
•    тренинговые упражнения предполагают ограниченное  количество решений, в них часто заложено одно правильное решение;
•    мотивация участников тренинга отличается от мотивации участников Центра оценки.

3. Как построена программа Центра оценки?

Для того чтобы оценить компетенцию на определенном уровне, ее необходимо наблюдать многократно, в разных контекстах. Поэтому инструментов должно быть несколько. Например, в бизнес-кейсах перед менеджером высшего звена могут стоять следующие задания: разработать стратегию компании, решить определенные проблемы, спланировать рабочую неделю, провести встречу с подчиненным, руководителем или клиентом. Чтобы человек смог проявиться, контексты упражнений также должны быть разноплановыми: интервью, групповая дискуссия, письменное упражнение, презентация, ролевая игра, в которой партнерами по игре являются специально подготовленные профессионалы.

Принцип построения программы – одна компетенция должна оцениваться, как минимум, в двух разных заданиях. В одном задании оценивается порядка четырех компетенций. Таким образом, в течение дня при напряженной программе реально оценить не более восьми компетенций.

Типичная подделка – «рулетка»: программы нет, все компетенции наблюдаются во всех упражнениях по принципу «а вдруг проявится?». В упражнениях не заложена возможность обнаружить каждую из компетенций. На основании одной фразы участника делаются далеко идущие выводы сразу о нескольких компетенциях, и наоборот, какие-то признаки наличия компетенции упускаются. Это приведет к большому количеству низких оценок и комментариям: «участник не умеет», «он не делает». Такой подход проявится также в «плоских профилях», когда человек получает одинаковые оценки по разным компетенциям. Причина в т.н. эффекте ореола, когда оценки базируются не на конкретных поведенческих проявлениях компетенции, а на общем впечатлении. Жаль только, что ошибки становятся очевидными для многих, когда оценка уже проведена. А ведь анализ инструментов и программы может предотвратить подобные проблемы.

4. Как будет осуществляться коммуникация участникам?

Профессиональный подход состоит в том, что участников заранее и полно информируют об оценивании. Если оценивание осуществляется внешним провайдером, то на старте проекта обсуждается коммуникация со стороны компании и со стороны провайдера. Организация должна обязательно проинформировать участников о целях и последствиях оценивания. Провайдер сообщает также о том, какие компетенции будут оцениваться и какими инструментами.

Типичный подлог «Мистерия». Если не выстроена коммуникация, участники приходят с неверным представлением о целях, недоверием в отношении метода. Для них оценка покрыта тайной и вызывает опасения. Не понимая, какое поведение сочтут эффективным, участники то отмалчиваются, то, наоборот, говорят общими фразами, проявляют бессодержательную активность и т.п.

Иногда оценщики сознательно скрывают информацию, например, об оцениваемых компетенциях.
Они опасаются, что, зная критерии оценки, участники получат подсказки. Это ложное опасение и верный признак того, что оценщики не ориентированы на оценку действий, они боятся обмануться «рассказом о компетенциях». Если  эксперт оценки в интервью по компетенциям спрашивает участника о конкретных ситуациях и его действиях, а не довольствуется общими подходами по принципу «я обычно», то получает достаточно материала для точной оценки компетенций.

5. Как будут представлены результаты? Какие рекомендации получат участники?
 
По результатам Центра оценки и развития участники получают отчет.  Заранее оговаривается, кто, помимо участника, является владельцем конфиденциальной информации отчета (например, руководитель и HR).
В отчете содержатся оценки по компетенциям, описание каждой компетенции (сильные стороны и зоны развития), а также рекомендации по развитию. Если проводился Центр оценки (а не Центр развития), рекомендации могут не предоставляться.
Советы формулируются в форме конкретных действий, например: «Отмечайте не только ошибки,
сделанные подчиненными, но указывайте, какого именно поведения вы ожидаете от них в будущем».

Типичный подлог «Проповедь», когда рекомендации формулируются в терминах «будьте более внимательным», «развивайте концептуальное мышление». Без указания конкретных действий они становятся бесполезными для развития.

6. Сколько и какие эксперты оценки вовлечены в проект? 

Оценивание компетенций требует высокого уровня квалификации, поэтому эксперты оценки должны быть специально обучены.
При внутренней оценке важно, чтобы оценщиками не были специалисты, которые по уровню менеджмента ниже, чем оцениваемые. Даже при их высокой квалификации доверие к процедуре и результатам не будет высоким.
Для обеспечения объективности одного участника должны наблюдать два–три эксперта оценки.
Поэтому программа строится таким образом, чтобы в различных упражнениях принимали участие разные эксперты оценки. Встреча экспертов для обсуждения оценок должна быть обязательно предусмотрена в расписании Центра оценки и развития.

Типичный подлог: «Мистификация». Эксперты оценки не обучены и не сертифицированы, апеллируют к опыту, интуиции, иногда – к психологическому образованию. Все это еще не является гарантией их высокого уровня как специалистов.
Каковы же признаки профессионального проведения Центра оценки и развития?
1. Оценка проводится на основании профиля компетенций, который соответствует ключевым факторам успеха в данной должности.
2. Компетенции полно определены через поведенческие индикаторы, поведенческие индикаторы сформулированы в глагольной форме.
3. Эксперты оценки оснащены программой, оценочными формами.
4. Используются разные типы инструментов: бизнес-кейсы, интервью по компетенциям, тесты и личностные опросники.
5. Тесты и опросники прошли специальную проверку. Проверка осуществлялась на выборке, соответствующей участникам оценивания, есть статистические нормы и математическое подтверждение валидности и надежности тестов.
6. Бизнес-кейс моделирует бизнес-ситуацию, в нем нет однозначных решений.
7. Кейс  дает возможность проявить несколько компетенций, причем на разном уровне (а не по принципу делает/не делает).
8. Оценивается поведение, а не общее впечатление.
9. Принцип построения программы и оценивания:
a. одна компетенция оценивается, как минимум, в двух разных заданиях;
b. одно проявление – оценка по одной компетенций;
c. одного участника оценивают разные эксперты.
Итоговая оценка – результат обсуждения.
10. Центр оценки и развития – самодостаточный инструмент, это не тренинг. Участники четко информируются о целях и последствиях оценки, критериях оценивания и особенностях метода.
11. По итогам Центра оценки и развития участники получают полный отчет и обратную связь.
12. Эксперты оценки прошли обучение и сертификацию.

Центр оценки и развития: взвесим риски непрофессионализма

1. Первый и очевидный риск для компании – неверное определение потенциала кандидатов и ошибочные кадровые решения.
2. Даже если оценка не влияет на кадровые решения непосредственно, а результаты используются исключительно в целях развития, необходимо учитывать риски для участников – бесполезные рекомендации, а часто и психологические травмы.
3. Центр оценки – это всегда важное для участников событие. Как показывает практика, недооценка настолько демотивирует, что после нее сотрудники часто задумываются о том, чтобы покинуть компанию.
4. Однако и высокие оценки талантов при отсутствии возможностей для развития и роста снижают лояльность.
5. Результаты Центра оценки – это еще и некоторый месседж. Например, если в пул талантов попали не самые потенциальные сотрудники, у персонала формируется искаженное представление о том, что ценится в компании.
6. И последний риск – авторитет HR-а или консультанта, когда позднее результаты показывают низкую прогностическую валидность, т.е. попросту не проходят проверки временем.
Хотите ли вы этим рисковать?

понедельник, 15 апреля 2019 г.

Малые выборки в конкурентной разведке

Не так давно я прочитал замечательную книгу Дугласа Хаббарда «Как измерить всё, что угодно. Оценка стоимости нематериального в бизнесе». Несколько тем меня заинтересовали, и я решил вернуться к их более подробному изучению позже. Сегодня – одна из таких тем: определение количества элементов генеральной совокупности на основании наблюдения нескольких номеров выборки. Например, имея на руках несколько счетов (накладных) конкурента за определенный период, можно определить количество всех счетов, выписанных им за этот период. По номерам билетов метро (автобуса, электрички) можно оценить число перевозимых пассажиров.
Для начала фрагмент упомянутой книги Хаббарда.
* * *
Серийная выборка
В учебниках по статистике метод серийной выборки [1] обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации [2]. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Магк V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?
Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпушено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.
Таблица демонстрирует данные о выпуске танков «Магк V» по сведениям разведки и расчетам статистиков в сравнении с фактическим производством (сведения из захваченных после войны документов). Сравнение подтверждает эффективность статистического метода, основанного на анализе серийных номеров захваченных машин.
Производство немецких танков «Магк V» в период Второй мировой войны
Месяц, годОценка разведкиРасчеты статистиковФактическое производство*
Июнь, 19401000169122
Июнь, 19411550244271
Август, 19421550327342
* Согласно захваченным после войны документам.
Более того, дать оценку, значительно более точную, чем исходные данные разведки, наверное, можно было по номерам нескольких танков. Рисунок 1 показывает, как по случайной выборке предметов с серийными номерами определяют размер всей генеральной совокупности. Следуя указаниям рисунка, рассмотрим пример, когда число трофеев составляет восемь объектов (которыми могут быть товары конкурирующей фирмы, найденные в мусоре страницы ее отчета и т.д.). Самый большой серийный номер — 100 220, а самый маленький — 100 070, так что в результате этапа 1 мы получаем 150. Результат этапа 2 — около 1,0 (в этой точке кривая верхней границы пересекает вертикальную линию для нашего размера выборки — 8). На этапе 3 мы производим простые вычисления (1 + 1,0) х 150 = 300 и получим значение верхней границы CI. Повторив эти шаги для нижней границы и среднего значения, получаем 90%-ный доверительный интервал 156–300 со средним значением 195 (обратите внимание, что среднее — это не середина диапазона, поскольку распределение асимметрично). Так что статистики могли сделать свои выводы, располагая всего восемью номерами захваченных танков.
Рис. 1. Выборочное обследование серийных номеров
Два предостережения: если захвачены машины одной бронетанковой части, ни одна из них не может считаться отобранной случайно, поскольку у них могут быть близкие номера. Однако обычно это сразу видно по самим номерам. Кроме того, когда на самом деле нумерация серии не совсем последовательная (то есть каждый следующий номер присваивался не следующему танку) и какие-то номера пропущены, данный метод требует определенной модификации. Отметим: необходимо, чтобы распределение используемых номеров легко обнаруживалось. Например, если используются только четные номера или номера, отличающиеся друг от друга на пять, то это должно быть очевидным из выборки.
Как это можно применить в бизнесе? «Серийные номера» (то есть последовательные серии) можно найти в современном мире где угодно. Так, компании бесплатно предоставляют конкурентам информацию о своем объеме производства, просто указывая на товарах серийные номера, которые может увидеть любой покупатель. (Однако, чтобы быть случайной, такая выборочная совокупность должна состоять из товаров, купленных в разных магазинах.) Аналогичным образом несколько страниц из выброшенного отчета конкурента или цифр из квитанции могут многое рассказать об остальных страницах отчета или обо всех квитанциях за данный день. Я вовсе не призываю вас копаться в отбросах, но исследование содержимого мусорных контейнеров нередко позволяет решить интересные задачи по измерению.
* * *
Эта же статистическая проблема подробно описана в Википедии: German tank problem. Страница доступна только на английском языке. В общем виде задача формулируется следующим образом. Имеется несколько наблюдений номеров, входящих в генеральную совокупность номеров, созданных за какой-то период. Чему равно количество номеров генеральной совокупности за этот период?

где N – оценка общего количества элементов генеральной совокупности, m – самый большой из наблюдаемых номеров (выборочный максимум); k — количество наблюдаемых номеров (объем выборки).
Дисперсия рассчитывается по формуле:


а для k << N




 * * *
А теперь небольшой эксперимент. Мне нравятся книги, которые издает «Альпина Паблишер» (ранее «Альпина Бизнес Букс»), и у меня довольно много книг этого издательства. Каждой книге присваивается уникальный номер – ISBN (рис. 2).

Рис. 2. Расшифровка уникального кода книги – ISBN: группа а (978) – признак товара: книга; b (5) – язык книги: русский; c (9614) – признак издательства: Альпина Паблишер; d (0942) – номер, присвоенный издательством конкретной книге; e (0) – контрольная цифра.
Кроме того, в течение последнего года я приобрел несколько книг издательства «Манн, Иванов и Фербер». Так вот, оценкой годового выпуска издательств мы сейчас и займемся. В таблице на рис. 3 представлены данные по году издания и части ISBN, относящейся к группе d – номер, присвоенный издательством конкретной книге. А на рис. 4 представлены вычисления, позволяющие применить методику Хаббарда (см. рис. 1).



 Рис. 3. Годы выпуска и части номеров ISBN, относящиеся к конкретному изданию

Рис. 4. Вычисления, позволяющие применить метод Хаббарда, изложенный на рис. 1. Дельта – разность между максимальным и минимальным номером в течение года.
Для первой строки (см. рис. 4; Альпина Паблишер за 2005 год) получаем (см. инструкции на рис. 1):
  1. Вычтите из самого большого самый маленький серийный номер в выборке – 119
  2. Найдите размер выборки на горизонтальной оси (5) и соответствующую ему точку на кривой верхней границы
  3. Найдите на вертикальной оси значение А, самое близкое к этой точке на кривой (2,0), и добавьте к нему 1; умножьте полученный итог на результат шага 1. Это — верхняя граница 90%-ного интервала для всех предметов, имеющих серийные номера: (2,0 + 1) * 119 = 360
  4. Повторите шаги 2 и 3 для среднего значения (0,5 + 1) * 119 = 180 и нижней границы (0,08 + 1) * 119 = 130. Подробности вычисления представлены в Excel-файле


Рис. 5. Оценка числа книг, выпущенных издательствами «Альпина Паблишер» и «Манн, Иванов и Фербер»: точки – средние значения, вертикальные линии простираются от минимума до максимума.
Насколько адекватной является оценка? Если для издательства «Альпина Паблишер» суммировать средние значения за 2005–2011, то получим 2067, в то же время (см. рис. 3) за 2012-й год уже есть один ISBN за номером 1793. То есть, наша оценка средних значений приблизительно на 15% завышена… Много это или мало, при таком простом методе оценки, решать вам!
[1] На мой взгляд, либо автор выбрал неудачный термин, либо переводчики что-то начудили. Но… термин использован неудачно: имелось ввиду исследование серийных номеров на основе случайной выборки, а получилась серийная выборка. Вот как определяется последняя, например, здесь: «В серийной выборке вместо случайного отбора единиц генеральной совокупности осуществляется отбор групп (серий, гнезд). Внутри отобранных серий производится сплошное наблюдение».
[2] Leo A. Goodman. SERIAL NUMBER ANALYSIS // Journal of the American Statistical Association, Vol. 47, No. 260 (Dec., 1952), pp. 622-634