IT/바이오

“절대평가도 흔들렸다”…수능 영어 난도 논란에 교육 데이터 공정성 쟁점

오승현 기자
입력

교육 평가의 디지털 전환이 가속하는 가운데, 대학수학능력시험 성적 데이터의 공정성과 난이도 조정 방식이 다시 한 번 도마에 올랐다. 학습관리시스템과 평가 플랫폼이 데이터 기반 알고리즘을 도입하는 흐름과 맞물려, 절대평가 체제의 수능 영어 영역에서조차 등급 분포가 급격히 왜곡되자 평가 설계의 기술적 기준을 재정의해야 한다는 목소리가 커지고 있다. 업계에서는 이번 사안을 향후 교육 데이터 분석과 적정 난이도 산정 모델을 둘러싼 새로운 기준선으로 보고 있다.

 

직접적인 논란의 출발점은 2026학년도 수능 영어였다. 절대평가로 운영되는 영어 영역에서 1등급을 받은 수험생 비율이 3.11퍼센트에 그친 사실이 성적 발표와 함께 공개되면서다. 절대평가 도입 이후 가장 낮은 수치일 뿐 아니라, 상대평가 체계에서 통상 1등급에 해당하던 4퍼센트대보다도 낮은 결과가 나오자 수험생과 학부모들 사이에서는 평가 시스템 설계 오류에 가깝다는 비판이 제기됐다. 절대평가가 본래 지향하던 학습 부담 완화와 성취 기준 중심 평가라는 목표가 데이터 결과상 달성되지 못했다는 지적이 이어졌다.

이 같은 긴장된 분위기 속에서 한국교육과정평가원 공식 소셜미디어 계정에 도착한 한 수험생의 메시지가 온라인에서 화제를 모았다. 네 차례 수능을 치르고도 만족스러운 결과를 얻지 못한 이 수험생은 같은 플랫폼을 통해 다섯 번째 도전을 예고하는 재치 있는 글을 남겼고, 평가원 홍보실 한 직원이 개인 신분을 밝히며 답장을 보내면서 대화 내용이 커뮤니티에 공유됐다. 해당 직원은 과거 재수 경험과 평가원에 대해 느꼈던 반감, 그리고 현재 평가원 직원이 되기까지의 과정을 솔직하게 적었고, 수험생에게 끝까지 버텨 보라는 응원의 말을 덧붙였다.

 

개인의 경험을 담은 이 메시지는 공식 입장은 아니라는 평가원 측 설명에도 불구하고, 데이터로만 환원되기 쉬운 대규모 시험 체계 속에서 최소한의 인간적 소통이 작동하고 있다는 상징으로 읽혔다. 다수의 응시자와 점수 분포만을 다루는 시험 운영 구조에서, 한 명의 수험생이 겪는 실패와 재도전의 서사가 부각되면서 정량 지표만으로 설명하기 어려운 교육 평가의 사회적 파급이 다시 논의되기 시작했다.

 

기술적으로 볼 때 수능은 이미 전형적인 대규모 데이터 기반 평가 시스템에 가깝다. 문항 난이도와 변별력은 과거 응시자 데이터, 문항 반응 이론 같은 통계 모델을 융합해 설계된다. 절대평가는 특정 점수 이상이면 동일 등급을 부여하는 구조지만, 실제 출제에서는 응시 인원과 표준분포를 고려하는 통계 기법이 여전히 활용된다. 올해 영어 영역처럼 1등급 비율이 급락한 것은 문항 난도 예측 모델과 실제 수험생 집단 특성 간에 오차가 확대됐다는 신호로 해석할 수 있다.

 

특히 이번 결과는 디지털 학습 플랫폼 확산과 맞물려 있다. 온라인 강의, 문제은행 서비스, AI 튜터 등에서 제공하는 데이터 기반 학습이 특정 유형의 문제에 익숙해지도록 유도하는 사이, 출제 진영은 예측 가능한 패턴을 피하려고 새로운 유형과 복합 문항을 강화하는 경향을 보여 왔다. 이 과정에서 난이도 제어 알고리즘이 학습 데이터 환경 변화 속도를 충분히 반영하지 못하면, 특정 연도에 난도가 과도하게 치우치는 현상이 발생할 수 있다. 수험생 입장에서는 학습 데이터와 출제 데이터 사이의 간극이 커졌다고 느끼게 되는 구조다.

 

국내외 교육 평가 업계에서는 이러한 문제를 해결하기 위해 인공지능 기반 난이도 예측, 실시간 문항 반응 분석 등 IT 기술을 도입하는 시도가 늘고 있다. 일부 해외 시험 운영기관은 컴퓨터 기반 시험 체계에서 응시자의 답안 패턴을 자동 분석해, 출제 단계에서 가상 시뮬레이션을 여러 차례 돌린 뒤 난이도를 재조정하는 방식을 고도화하고 있다. 다만 한국 수능은 여전히 오프라인 일괄 실시라는 구조적 제약을 갖고 있어, 시험 당일 발생할 수 있는 예기치 못한 집단 효과를 사전에 완전히 상쇄하기는 어렵다는 분석도 제기된다.

 

논란이 거세지자 한국교육과정평가원은 12월 5일 공식 사과문을 발표했다. 절대평가 체제에서 요구되는 적정 난이도 수준을 충족하지 못했다는 비판을 무겁게 수용한다며, 수험생과 학부모에게 사과의 뜻을 밝혔다. 동시에 문항 분석과 출제 검토 전체 프로세스를 다시 점검하고 개선책을 마련하겠다고 덧붙였다. 이는 사실상 현재의 난이도 설계 모델과 문항 검증 체계를 재구축하겠다는 의미로 읽힌다. 다만 구체적인 기술적 개선 방향이나 데이터 활용 기준은 아직 공개되지 않았다.

 

정책적 측면에서 보면, 이번 사과는 평가원이 난이도 논란에 공식적으로 책임을 인정한 드문 사례에 속한다. 그럼에도 이미 성적이 발표된 상황에서 추가적인 점수 보정이나 등급 재산정은 현실적으로 쉽지 않다는 시각이 지배적이다. 대학별 최저학력기준을 탄력적으로 적용하는 방안 역시 대입 일정, 타 영역과의 형평성, 각 대학의 선발 자율성이라는 변수를 고려할 때 단기간에 합의하기가 어렵다는 평가가 많다. 결과적으로 개선안의 실제 적용 대상은 내년도 이후 수험생들이 될 가능성이 크다.

 

이번 사태는 교육 분야에서도 알고리즘 책임성과 데이터 공정성 논쟁이 본격화할 수 있음을 예고한다. 시험 설계와 난이도 조정이 통계와 데이터 모델에 기반해 결정되는 구조에서, 어떤 기준과 시나리오가 적용됐는지에 대한 투명한 정보 공개를 요구하는 목소리가 커질 수 있다. 난이도 조정 과정을 블랙박스로 남겨둘 경우, 특정 연도 수험생 집단이 구조적으로 불이익을 받았다고 느끼는 감정은 쉽게 사라지지 않는다.

 

전문가들 사이에서는 교육 평가에 적용되는 데이터 모델링도 의료 인공지능이나 금융 알고리즘처럼 사전 검증과 사후 책임 구조를 정교하게 설계해야 한다는 제안이 나온다. 예측 실패의 결과가 한 해 수험생 전체의 진로에 직접적인 영향을 미치는 만큼, 단순한 통계적 적정성뿐 아니라 사회적 수용성, 세대 간 형평성까지 고려한 다층적인 기준이 필요하다는 지적이다. 교육 기술 업계 일각에서는 향후 수능과 학교 시험 전반에 AI 기반 난이도 시뮬레이션과 피드백 루프가 도입돼야 한다는 의견도 제시된다.

 

평가원 직원이 한 수험생에게 보낸 짧은 메시지는 결국 대규모 시험 시스템 뒤편의 인간적 얼굴을 보여준 사례로 남을 전망이다. 동시에 절대평가 체제에서조차 발생한 난이도 왜곡은 교육 데이터 시대에 어떤 기준과 기술을 적용해 공정성을 구현할 것인지, 산업과 정책이 함께 풀어야 할 과제로 떠오르고 있다. 산업계와 교육계는 평가 체계가 실제 수험생들의 신뢰를 회복할 수 있을지 예의주시하고 있다.

오승현 기자
share-band
밴드
URL복사
#한국교육과정평가원#수능영어#절대평가