
AI 안전 및 책임성에 대한 요구가 점점 더 높아지고 있음에도 오늘날의 테스트 및 벤치마크는 새 보고서에 따르면 충분하지 않을 수 있습니다.
생성 모델 AI 모델 - 텍스트, 이미지, 음악, 비디오 등을 분석하고 출력할 수 있는 모델 -은 실수를 일으키고 일반적으로 예측할 수 없는 방식으로 행동할 가능성이 있어 점점 더 비판을 받고 있습니다. 이제, 공공기관부터 대형 기술 기업까지 새로운 벤치마크를 제시하여 이러한 모델의 안전성을 테스트하려는 움직임이 있습니다.
작년 말에 설립된 스타트업 Scale AI는 모델이 안전 가이드라인과 얼마나 일치하는지를 평가하는 데 특화된 실험실을 설립했습니다. 이번 달에는 NIST와 영국 AI 안전연구소가 모델 리스크를 평가하는 데 사용되는 도구를 공개했습니다.
그러나 이러한 모델 조사 테스트와 방법은 부족할 수 있습니다.
영국 기반 비영리 AI 연구 기관인 에이다 러블레이스 연구소(ALI)는 학술 연구소, 시민 사회 및 공급 업체 모델을 생산하는 전문가들과의 인터뷰를 수행하고 최근 AI 안전 평가에 대한 조사를 심사했습니다. 공저자들은 현재의 평가가 유용할 수 있지만 전반적인 성격이 아니며 쉽게 조작될 수 있으며 모델이 실제 시나리오에서 어떻게 행동할지를 반드시 보여주지 않을 수 있다는 결론을 내렸습니다.
ALI의 시니어 연구원이자 보고서의 공저자인 엘리엇 존스는 “스마트폰, 처방약 또는 자동차와 같이 우리가 사용하는 제품들은 안전하고 신뢰할 수 있는 것을 기대합니다. 이러한 분야에서는 제품이 배포되기 전에 안전성이 철저하게 테스트됩니다. 하지만 현재의 AI 안전 평가 방법의 한계를 조사하고, 현재 어떻게 평가가 사용되고 있으며 정책 제정자 및 규제 기관에게 도구로서의 역할을 탐색하는 것을 목표로 한 우리의 연구는 한계를 진단하고 개선하는 데 도움이 될 수 있습니다.”라고 TechCrunch에 말했습니다.
벤치마크 및 레드 팀
연구의 공저자들은 먼저 학술 문헌을 조사하여 오늘날 모델이 가진 피해와 위험의 개요와 기존 AI 모델 평가의 상태를 수립했습니다. 그들은 그런 다음 4명의 미공개 기술 기업 직원을 포함한 16명의 전문가들을 인터뷰했습니다. 이들은 생성 모델 AI 시스템을 개발 중인 기술 회사 직원 4명을 포함한 16명의 전문가들을 인터뷔했습니다.
연구는 최고의 메소드와 분류를 위한 AI 산업 내에서의 강한 의견 차이를 발견했습니다.
몇몇 평가는 모델이 연구 목적을 위해 개발된 테스트를 그대로 채택하며, 실제 세계 사용자에게 모델이 어떻게 영향을 끼칠 수 있는지를 테스트하지 않았습니다. 다른 사람들은 벤치마크가 모델의 성능을 추정하기 어렵게 만드는 일므으로 모델이 특정 능력을 가지고 있는지를 나타내지 않을 수 있다는 문제를 지적했습니다. 예를 들어, 모델이 주어진 주택법 시험에서 성능이 우수하더라도, 그 모델이 더 개방적인 법적 도전 과제를 해결할 수 있는지를 보증하지 않는다는 것입니다.
전문가들은 벤치마크 결과로 모델의 성능을 추론하는 것이 어려우며, 벤치마크가 모델이 특정 기능을 갖고 있는지를 보여줄 수 있는지 여부가 명확하지 않다고 지적했습니다. 예를 들어, 모델이 일반적인 시험에서 성능이 우수하게 나오더라도, 보다 개방적인 법적 도전 과제를 해결할 수 있는지를 보증하지는 않습니다.
전문가들은 평가 도구를 선택하는 조직의 편의 및 사용의 용이성을 위해 발전 모델이 평가에 사용된 데이터와 동일한 데이터로 교육받은 경우 모델의 성능을 과대평가할 수 있다는 데이터 오염 문제를 지적했습니다. 많은 경우에, 벤치마크는 평가가 최상의 도구로 선정되는 것이 아니라 개발자들에 의해 조작될 위험이 있습니다. 다른 경우에는 기업들이 평가하는 데 사용해야 하는 평가 항목을 전략적으로 선택하거나, 모델의 버전이 평가되는지가 중요합니다. 작은 변경 사항은 행동이 예측할 수 없이 변경되며 내장된 안전 기능을 무효화할 수 있습니다.”
에이다 러블레이스 연구소의 연구는 “레드 팀이라고 하는 실무성을 평가하거나 우회적으로 테스팅하는 실천을 발견했습니다. 여러 회사들이 모델을 평가하기 위해 레드 팀을 사용하고 있지만, 레드 팀을 위한 합의된 표준이 없기 때문에 지정된 노력의 효과를 평가하는 것이 어려울 수 있습니다.”라고 공저자들에게 전문가들이 말했습니다.
전문가들은 연구의 공저자들에게 레드 팀을 구성하기 위한 필요한 기술과 전문 지식을 가진 사람을 찾는 것이 어렵다고 하며, 레드 팀의 수동적인 특성은 소규모 조직에 리소스가 부족한 경우 장벽이 될 수 있다고 지적했습니다.
가능한 해결책
모델을 더 빨리 출시하는 압력 및 출시 전 이슈를 발견할 수 있는 테스트를 수행하는 것을 꺼리는 주된 이유로 인해 AI 평가가 개선되지 않았습니다.
ALI 연구에서 작업 중인 한 회사 직원은 “파운데이션 모델 개발에 참여하고 있는 회사에서 내부적으로 모델을 빠르게 출시할 필요성이 더 많다는 압력을 느꼈다고 했습니다. 이로 인해 평가를 진지하게 수행하는 데 어려움이 있었습니다.”라고 말했습니다. “대규모 AI 연구실은 모델을 출시할 속도가 사회나 우리의 안전을 보장할 능력을 뛰어넘는 속도로 출시하고 있습니다.”
ALI 연구에 참여한 한 참가자는 모델 안전성을 평가하는 것을 “결코 해결할 수 없는” 문제라고 설명했습니다. 그렇다면 이 분야의 산업 - 그리고 규제기관 -은 어떤 해결책을 가질 수 있을까요?
ALI 연구원인 마히 하르달업은, 공공기관들의 더 많은 참여가 필요하지만, 해결책이 있다고 믿습니다.
“규제기관과 정책 제정자들은 평가로부터 무엇을 원하는지 명확하게 표현해야 합니다.”라고 그는 말했습니다. “동시에 평가 커뮤니티는 현재의 한계와 평가의 잠재력에 대해 투명해야 합니다.”
하르달업은 정부가 평가의 개발에 공개 참여를 강제하고 필요한 모델과 데이터 집합에 대한 정기적인 액세스를 보장하기 위한 프로그램을 비롯한 제삼자 테스트의 '생태계'를 지원하는 조치를 시행하라고 제안합니다.
존스는 “모델이 어떤 프롬프트에 어떻게 응답하는지를 테스트하는 것을 넘어선 ‘문맥 특정’ 평가를 개발할 필요성이 있다고 생각합니다. 모델이 어떤 타입의 사용자(특정 배경, 성별 또는 인종의 사람)에 영향을 줄 수 있는지와 모델에 대한 공격이 안전장치를 무력화시키는 방법을 살펴보아야 합니다.”라고 덧붙였습니다.
“이는 어떤 모델이 안전한지를 확신할 수 있다는 보장이 없을 수 있습니다.”라고 하르달업은 말했습니다. “‘안전함’은 모델의 속성이 아닙니다. 모델이 ‘안전한지’를 결정하기 위해서는 모델이 사용되는 맥락, 누구에게 판매되거나 접근 가능한지, 그리고 그 위험을 줄이기 위해 어떤 안전장치가 있는지를 이해해야 합니다. 기초 모델의 평가는 잠재적인 위험요소를 식별할 수 있는 탐색적 목적을 수행할 수 있지만, 모델이 안전하다고 보장할 수 없으며 더구나 ‘완벽하게 안전하다’고 할 수 없습니다. 대부분의 인터뷰 대상들은 평가가 모델이 안전하다는 것을 증명할 수 없으며 모델이 안전하지 않다는 것만을 나타낼 수 있다고 동의했습니다.”