KT, 다국어 벤치마크 공개…LLM 안전성·문화적 민감성 검증
||2026.06.04
||2026.06.04

KT가 글로벌 기업, 공공기관, 학계 등과 함께 대규모언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 공개했다.
'XL-SafetyBench'는 한국, 미국, 독일, 일본, 튀르키예, 아랍에미리트(UAE) 등 10개국의 언어·문화적 특성을 반영한 총 5500개 프롬프트의 다국어 벤치마크다. LLM이 각 국가의 사회적 규범과 문화적 민감성을 얼마나 적절히 인지하고 반영하는지를 측정하는데 중점을 두고 설계됐다.
벤치마크 데이터셋과 평가 코드는 AI 모델·데이터 공유 플랫폼 허깅페이스, 오픈소스 개발 협업 플랫폼 깃허브를 통해 공개돼 누구나 활용할 수 있다. 연구진은 해당 벤치마크로 주요 LLM 37종을 대상으로 평가를 수행하고 분석 결과를 포함한 논문도 공개 논문 저장소인 아카이브에 공개했다.
이번 연구는 단순한 벤치마크 구축을 넘어 실제 서비스 환경에서 활용 가능한 AI 신뢰성 검증 체계의 방향성을 제시했다는 점에서 의미를 갖는다.
KT는 AI 안전성·신뢰성 확보를 위한 기준 수립, 평가 체계 구축, 완화 기술 개발 등을 수행하는 Responsible AI(RAI) 전담 조직에서 축적한 실전 역량을 이번 연구에 적극 투입했다. 이를 바탕으로 기존 평가 방식의 한계를 보완하는 핵심 평가 지표 설계와 평가 로직 구현을 맡아 벤치마크의 기술적 기반 구축에 핵심 역할을 수행했다.
KT는 AX 플랫폼기업으로서 RAI 전담 조직을 중심으로 실제 서비스 환경에 적용 가능한 안전성·신뢰성 연구를 지속 확대하고 있다. 앞으로도 국내 기업과 공공기관 등 고객이 보다 신뢰할 수 있는 환경에서 AI전환(AX)을 추진할 수 있도록 지원할 계획이다.
박재형 KT AX미래기술원 Frontier AI Lab장은 “AI 경쟁이 성능 중심에서 안전성과 신뢰성 검증 단계로 확대되는 가운데, 안전성과 문화적 민감성 인식 능력을 함께 검증하는 평가 체계가 더욱 중요해질 것”이라며 “앞으로도 AI 안전성·신뢰성 연구를 지속 확대하고 국내외 민·관·학 협력을 이어가며 실제 서비스 환경에 적용 가능한 기술 발전에 힘쓰겠다”고 말했다.
박준호 기자


1
2
3
4
5