객관적인 채용 면접을 위한 획기적 실험

🔔 HR insight 컨텐츠를 더 보시려면 경영/HR 탭을 눌러보세요.

🔎 객관적인 채용 면접을 위한 획기적 실험

포스트잇과 세 명의 지원자

채용 면접은 공정할까요? 인사 청탁 같은 예외 상황을 제외하고 생각해봅시다. 만약 면접이 동시에 여러 곳에서 진행돼 모든 지원자가 같은 평가위원으로부터 평가를 받을 수 없는 상황이라면 어떨까요? 특정 성별에게 점수를 관대하게 부여하는 등 평가위원의 특성이 점수에 반영된다면요? 

면접평가는 선발을 위한 여러 과정 중 실제로 지원자와 소통하며 평가를 할 수 있다는 측면에서 중요한 과정입니다. 하지만 검사 도구를 활용하는 선발 과정보다 객관성 및 신뢰성을 확보하기 어렵죠. 투입된 평가위원들의 점수 차이가 클 수도 있고, 위원별로 평가 영역에 대한 중요도가 다를 수도 있습니다. 아무리 사전교육을 통해 기준에 맞춰 평가점수를 부여하도록 훈련할지라도요. 평가위원이 많은 경우 스포츠 경기에서처럼 극단값을 제외하고 평균을 내는 방법도 있겠지만, 이는 임시방편일 뿐 면접평가의 근본적인 객관성 문제는 해결할 수 없습니다.

면접평가가 여러 해 진행됐다면 지원자의 특성과 관계없이 일관성 있게 점수를 부여한 사람들만 추려서 평가위원을 구성할 수도 있겠죠. 하지만 일관성을 판단하는 것조차 주관적일 수밖에 없습니다. 그래서 준비했습니다. 객관적인 면접을 위해 면접평가에서 발생할 수 있는 여러 요인들의 효과를 통제한 상태에서 지원자의 점수를 산출하는 방법을 소개합니다.

다국면 rasch 모형의 원리

다국면 rasch 모형(multi-facet rasch model)을 활용하면 면접평가에서 평가위원의 주관성을  최대한 배제할 수 있으며, 어떤 평가위원이 엄격하게 평가했는지 등의 정보를 알 수 있습니다. 여기서 국면(facet)이란, 지원자의 능력, 평가위원의 엄격성 등 평가에 영향을 미치는 요인으로 이해해볼 수 있습니다. 실제 평가에서는 여러 가지 요인들이 국면으로 설정되므로 다국면 rasch 모형이라고 부릅니다.

예시를 통해 수식을 살펴보겠습니다. 지원자가 받게 되는 점수는 지원자의 능력에 의해 추정되는 것이 기본입니다. 지원자의 능력이 과제의 난이도보다 높다면 높은 점수를 받을 것이라 기대해볼 수 있고, 지원자의 능력이 과제의 난이도보다 낮다면 낮은 점수를 받을 것으로 예측할 수 있겠죠. 이때 다국면 rasch 모형을 도입한다면 평가위원의 엄격성을 추가로 고려할 수 있습니다. 수식으로 표현하면 다음과 같습니다.

왼쪽 항은 n이라는 지원자가 i라는 과제에서 평가위원 j에게 점수 k-1보다 높은 점수 k를 받을 확률을 log로 변환한 값을 말합니다. 여기서 log변환은 척도 비교를 위한 것인데요. 간단히 말하자면 평가위원이 어떤 항목에서 1점에서 5점 사이로 평가를 한다고 할 때, 2점보다는 3점을, 3점보다는 4점을 받도록 영향을 미치는 요인들을 등호의 오른쪽에서 고려했다는 의미입니다.

이번엔 오른쪽 항을 볼까요. 먼저 ‘Bn’은 위에서 기술한대로 k-1보다 높은 점수 k를 받기 위해서 영향을 미치는 지원자의 능력을 말합니다. 물론 과제 i의 난이도 ‘Di’가 영향을 미칠 수 있겠죠. 지원자의 능력은 높을수록 점수를 높일 수 있지만, 과제의 난이도가 높을수록 점수를 낮출 수 있으므로 Di 앞의 부호는 -부호입니다.

‘Cj’는 평가위원의 엄격성을 뜻합니다. 평가위원이 평가를 엄격하게 할수록 점수가 낮아지므로 이 역시 앞의 부호가 -입니다. 마지막으로 ‘Fk’는 해당 과제에서 k-1보다 높은 점수 k로 향상시키기 위한 어려움 정도인데요. 어려움이 클수록 점수를 높이기 어려우므로 이 역시 앞의 부호가 -입니다. 

이렇게 여러 평가 국면을 고려하면서 객관적인 수치로 지원자, 평가위원, 과제 등에 대해 알아볼 수 있습니다. 지금부터는 간단한 예시와 함께 다국면 rasch 모형의 결과를 확인해보겠습니다.

FACETS 프로그램을 통한 분석 

다국면 rasch 모형은 FACETS 프로그램을 통해 분석할 수 있습니다. 예를 들어볼까요. A사에서 사원을 선발하는데 최종 면접 단계까지 10명의 지원자가 선발됐다고 합시다. 일정상 첫날에 3명의 지원자를 평가위원 A, B가 평가하고, 둘째 날에 4명의 지원자를 평가위원 B, C가 평가하며, 마지막 날에 3명의 지원자를 평가위원 A, C가 평가한다고 가정해봅시다.

이렇게 교차설계를 하면 평가위원이 달라지더라도 지원자에 대한 평가가 일관성 있게 이루어질 수 있습니다. 즉 각 면접평가 현장에 공통의 평가위원을 두면, 모든 지원자를 같은 척도에서 비교될 수 있게 되는 거죠. 각 평가위원은 아래 표와 같은 평가 결과를 제출했다고 합시다.

대략적인 점수 분포에서 확인할 수 있듯이, 평가위원 C는 다른 평가위원에 비해 엄격하게 점수를 준 편입니다. 평가항목 3이 전반적으로 점수가 낮은 편이네요. 이러한 요소들이 분석 결과에서 어떻게 보이는지 확인해보겠습니다. 예시에서는 첫 번째 국면을 지원자의 능력으로, 두 번째 국면을 평가위원의 엄격성으로, 세 번째 국면을 평가항목의 특성으로 볼 예정입니다.

FACETS 프로그램 분석 결과

측정 국면 분포도 : 아래 그림은 본 예시의 3가지 국면을 동일한 척도에 위치시켜서 제시한 측정 국면 분포도의 일부입니다. 가장 왼쪽의 ‘Measr’는 로짓(logits)의 단위를 가진 측정치이며, 다음 칸의 ‘ratee’가 위의 데이터에서 지정한 1번부터 10번까지의 지원자입니다. 지원자의 번호가 능력 수준에 따라 분포되어 있는데, ratee 앞의 부호가 +이므로, 능력 수준이 높을수록 상위에 표시됐습니다. 이 그래프에 의하면, 상위 2명을 사원으로 선발할 경우 10번 지원자와 6번 지원자를 선발하면 되겠습니다.

그다음 항목은 ‘rater’인데, 부호가 -이므로 엄격할수록 상위에 표시됩니다. 의도했던 것처럼 평가위원 C가 가장 엄격하게 평가했네요. 다음 국면은 ‘items’로 평가항목을 의미하는데, 가장 위에 있는 평가항목 3이 가장 점수를 받기 어려운 항목입니다.

지원자 국면 정보 : 다음으로 지원자, 평가위원, 평가항목의 국면별로 적합도를 좀 더 자세히 살펴보겠습니다. 아래 표는 지원자 국면의 정보 중 일부를 요약한 것인데요. 아래로 내려갈수록 상위에 랭크된 지원자를 의미합니다. 지원자들의 점수는 Measure에서 확인할 수 있는데, 로짓점수로 계산된 값으로 이를 그대로 사용해도 무방하나, 불편할 경우 변환해 사용할 수 있다. 가령 0에서 100점 사이로 변환할 수 있겠죠.

계산된 로짓점수에 의한 순서와 평가위원들의 평가를 단순히 합산한 Total Score를 비교해볼까요? 3번 지원자는 총 18점, 5번 지원자는 총 15점을 받았으나 5번 지원자가 더 아래에 랭크돼 있습니다. 이는 면접평가의 다른 국면을 통제한 상태에서 5번 지원자가 더 높은 점수를 받았음을 의미합니다. 아래 1번과 4번 지원자도 마찬가지입니다.

일반적으로 지원자를 평가할 때 평가위원들의 점수를 합산한 총점을 많이 사용하지만, 평가위원의 효과를 통제하면 위와 같이 순위가 바뀔 수도 있습니다. 이처럼 다국면 rasch 모형을 적용하면, 평가위원이 다름에도 동일 척도에서 지원자들의 점수를 계산하여 비교할 수 있게 됩니다. 

평가위원 국면 정보 : 다음은 평가위원 국면의 정보 중 일부를 요약한 것인데요. 아래로 내려갈수록 엄격하게 평가한 평가위원임을 의미합니다. 평가위원의 적합도 통계치는 이론적인 모형에 의해 기대되는 평가와 실제 평가를 비교한 것으로, 채점의 일관성을 확인할 수 있습니다.

내적합도 지수(Infit Mpsq)와 외적합도 지수(Outfit Mpsq)가 0.5~1.5로짓 범위에 있으면 적절하다고 볼 수 있습니다. 만약 지수가 1.5를 넘으면 부적합, 0.5보다 작으면 과적합을 나타내는데, 보다 심각한 문제가 되는 것은 부적합이므로 여기서는 지수가 1.5를 넘는 경우만을 다루도록 하겠습니다. 예시의 Infit, Outfit을 보면 모두 0.5~1.5로짓 범위 내에 있는데요, 이는 평가위원들이 일관성 있게 평가했음을 의미합니다.

지원자와 평가위원의 상호작용 정보 : 아래 표는 평가위원과 지원자 간의 상호작용 정보 중 일부를 요약한 것인데요. t값이 +2보다 크거나 -2보다 작은지 확인해 평가위원이 특정 지원자에게 점수를 더 관대하게, 혹은 더 엄격하게 부여했는지 측정할 수 있습니다.

예시에서는 평가위원 B와 5번 지원자, 평가위원 C와 5번 지원자의 값이 기준값을 넘었는데요. 이 경우 해당 평가위원과 지원자 간의 상호작용이 발생했다고 볼 수 있습니다. 만약 두 명의 평가위원이 지원자의 특성에 따라 점수를 관대하게 부여하거나 엄격하게 부여했다면 엄격성 수준을 떠나 일관성을 상실한 것이므로 해당 평가위원을 제외하거나 재교육해야 합니다. 

평가항목 국면 : 마지막으로 다국면 rasch 모형에서는 평가항목 국면의 정보도 확인할 수 있습니다. 평가항목이 적절한지 판단할 수 있다는 거죠. 표로 제시하지는 않았으나, 예시에서는 평가항목 1, 2, 3의 순서대로 Infit은 1.21, 0.40, 1.15, outfit은 1.33, 0.37, 1.00으로 나타났습니다. 평가항목 2의 경우 과적합으로 볼 수 있으나 크게 문제되는 상황은 아니라고 볼 수 있습다. 만약 1.5를 넘는 항목이 나온다면, 해당 항목은 다음 면접평가부터 제외하거나 다른 항목으로 지원자들을 평가해야 할 겁니다.

✍🏻 홍세희 : 고려대학교 교육학과 교수, ​장유나 : 고려대 교육학과 박사과정

사람의 행복과 기업의 성장이 함께하는 국내 최고의 HR 전문지


🔔 HR Insight가 리멤버에 제공하는 경영/HR 컨텐츠입니다.