
수년간 메타 직원들은 법적 의문의 수단을 통해 얻은 저작권 보호 작품을 사용하여 회사의 AI 모델을 교육하는 방법에 대해 내부적으로 논의해 왔습니다. 이는 목요일에 개봉된 법정 문서에 따르면 나타났습니다.
이 문서들은 미국 법정 체계를 통해 천천히 진행되고 있는 여러 AI 저작권 분쟁 중 하나인 Kadrey 대 Meta 사건의 원고가 제출한 것입니다. 피고인인 메타는 IP 보호 작품, 특히 책들을 사용하여 모델을 교육하는 것이 "공정 사용"이라고 주장합니다. Sarah Silverman과 Ta-Nehisi Coates와 같은 저작자를 포함한 원고들은 이에 반대합니다.
소송에 이전에 제출된 자료들은 메타 CEO 마크 증버그가 메타의 AI 팀에 저작권 보호된 콘텐츠로 교육을 허락했다고 주장하고 있으며, 메타가 책 발행사들과의 AI 교육 데이터 라이선싱 협상을 중단했다고 주장합니다. 그러나 대부분이 메타 직원들 간의 내부 작업 패널 채팅의 일부를 보여주는 새로운 제출 자료는 메타가 어떻게해서라도 저작권 보호된 데이터를 사용하여 모델을 교육하는 방법에 대해 더욱 명확하게 보여 줍니다. 회사의 Llama 패밀리 모델을 포함한 모델을 교육하기 위해 저작권 보호 데이터를 사용할 가능성이 있습니다.
한 채팅에서 메타 직원들은 Melanie Kambadur(메타 Llama 모델 연구팀의 선임 매니저)를 포함하여 법적 문제가 될 수 있는 작품들로 모델을 교육하는 것에 대해 논의했습니다.
“[M]내 의견은 (‘허락 청구하지 않고 용서를 구하는’라는 맥락에서): 우리는 책들을 획득하려고 노력하고 그걸 이사들에게 보고하게 만들어 결정을 내리게 하는 것입니다,”라고 2023년 2월 날짜의 채팅에서 메타 연구 엔지니어 인 자비에 마르티네가 썼습니다. “[corrected for spelling][T] 이 이것이 바로 약관 AI 조직을 세웠기 때문에 [we sic can be less risk averse].
마르티네는 개별 책 발행사들과의 라이선싱 협상을 진행하는 대신 소매 가격으로 e북을 구매하여 교육 세트를 구축하는 아이디어를 제시했습니다. 다른 직원이 무단으로 사용되는 저작권 보호 자료 사용에 대해 합리적인 주장이 될 수 있다고 지적하자, 마르티네는 “a gazillion” 스타트업들이 아마 이미 훔친 책들을 교육에 사용하고 있는 것을 주장했습니다.
“일단, 최악의 경우: 우리는 마침내 괜찮다는 것을 알게 되며, 수많은 스타트업들이 bittorrent에서 톤을 훔치는 책들을 사용했다,”라고 제출된 자료에 따라 마르티네가 썼습니다. “[M]My 2 cents again: 발행사들과 직접 거래하려는 노력에 시간이 많이 걸립니다…”
동일한 채팅에서 메타가 document hosting platform인 Scribd 및 다른 곳들과 라이선스에 대해 협상 중이었음을 언급한 Kambadur는, '공개적으로 이용 가능한 데이터'를 모델 교육에 사용하는 경우 승인을 받아야 한다고 경고했습니다. 메타의 변호사들이 지난 시대에 비해 이러한 승인을 덜 보수적으로 하고 있다고 말했습니다.
“그래, 우리는 여전히 모델 교육에 사용하기 위해 라이선스나 승인서를 얻어야 합니다,”제출된 자료에 따라 Kambadur가 말했습니다. “[막],이제 우리는 더 많은 돈, 더 많은 변호사, 더 많은 비즈니스 개발 지원, 속도를 위해 것을 신속히 처리/진행/에스컬레이션할 능력 이며, 변호사들이 승인에서 조금 덜 보수적입니다.”
리브젠에 대한 논의
제출된 파일에서 전달된 다른 작업 채팅에서 Kambadur는 Meta가 라이선스를 얻을 수 있는 데이터 소스 대신에, 저작권 보호 작품에 대한 액세스를 제공하는 "링크 집합" 인 Libgen을 사용할 가능성에 대해 논의합니다.
리브젠은 몇 번 소송을 당했으며, 저작권 침해로 인해 종료를 명령받고, 수 백만 달러의 벌금을 물었습니다. Kambadur의 동료 중 한 명은 소프트웨어인 Libgen에 대한 '금지된 라이브러리가 아닙니다'라는 구글 검색 결과 스니펫을 담은 화면 캡처로 응답했습니다.
Meta 내부의 일부 의사 결정자들은 리브젠을 사용하지 않을 경우 Meta의 AI 경쟁력에 심각한 타격을 줄 수 있다고 생각했는데, 이는 제출된 자료에 따라 나타났습니다.
Meta의 제품 관리 이사인 Sony Theakanath는 Joelle Pineau에게 보낸 이메일에서 Libgen을 ‘all categories의 SOTA numbers를 넘는 가장 최신의 AI 모델과 벤치마크 카테고리를 선도하기 위한 필수품'이라고 표현했습니다.
Theakanath는 또한 Meta의 법적 노출을 줄이기 위한 "mitigations"를 나열했습니다. 이는 Libgen에서 '도난 된 것으로 명시 된 데이터를 제거하거나' 공개적으로 이용하지 않는 것과 동일한 정보를 공개하지 않을 것입니다. Theakanath가 말한대로입니다.
연습에는 제출된 자료에 따라 Libgen 파일을 통해 '도난당한' 또는 '훔친' 같은 단어를 검색하는 것을 포함했습니다.
작업 채팅에서 Kambadur는 Meta의 AI 팀이 'IP 위험한 프롬프트'를 피하기 위해 모델을 조정했다고 언급했습니다 - 즉, 모델을 '해리 포터와 마법사의 돌의 처음 세 페이지를 복제하라' 또는 '교육을 받은 e-북은 무엇입니까'와 같은 질문에 답하지 않도록 설정했습니다.
파일에는 Meta가 어떤 유형의 모델 교육을 위해 Reddit 데이터를 수집했을 가능성이 있음을 시사하는 다른 발견들이 포함되어 있습니다. Reddit는 2023년 4월에 AI 회사들이 모델 교육을 위해 데이터에 액세스하도록 요금을 부과하기로 계획했다는 참고할 만한 것입니다.
2024년 3월 날짜의 한 채팅에서 Meta의 생성 AI 조직 책임자 인 Chaya Nayak은 Meta의 리더십이 회사의 모델이 충분한 교육 데이터를 가지도록 과거의 결정을 '초월하기'를 고려하고 있음을 언급했습니다. 이것은 퀘스트 또는 라이선스 된 책과 과학 기사의 컨텐츠를 사용하지 않는 결정을 의미합니다.
Nayak은 Meta의 1차 교육 데이터 셋인 Facebook 및 Instagram 게시물, Meta 플랫폼의 동영상에서 텍스트를 전사하고, 특정 Meta for Business 메시지를 단순히 충분하지 않다고 말했습니다. “[W]we need more data.”
Kadrey 대 Meta 사건에서 원고들은 2023년에 캘리포니아 북부 지구의 미국 연방 지방 법원, 샌프란시스코 부에서 제기된 이후에 여러 번 고소 내용을 수정했습니다. 최근 소송은 Meta가 발행사와 라이선스를 추구할 가치가 있는지를 결정하기 위해 일부 도난당한 책을 저작권 보호 책과 비교적 벤치마크화하도록 하면서 법조인 Paul Weiss로부터 최고법원 소송 변호사 둘을 추가로 그들의 변호팀에 추가했음을 나타냅니다.
Meta는 즉시 코멘트에 대한 요청에 응답하지 않았습니다.