
중국 농촌의 빈곤에 대한 불만. 부패한 공산당 당원에 대한 뉴스 보도. 기업가를 집행률하는 부패한 경찰에 대한 구조 호소.
\n이것은 중국 정부에 의해 민감하다고 여겨지는 어떤 콘텐츠도 자동으로 식별하는 데 사용되는 정교한 대형 언어 모델에 공급되는 13만 3천 건의 예시 중 일부에 불과합니다.
\nTechCrunch가 확인한 유출된 데이터베이스에 따르면 중국은 이미 강력한 검열 기계를 강화하는 AI 시스템을 개발했으며, 세부적인 태평양 참상과 같은 전통적인 금기 이상으로가는것을 확장합니다.
\n이 시스템은 주로 중국 시민들을 온라인으로 검열하기 위해 설립되었지만, 중국 AI 모델의 검열을 이미 존재하는 확장할 목적으로 사용할 수도 있습니다.
\n
UC 버클리의 중국 검열을 연구하는 연구원인 샤오 청은 이 데이터셋을 조사 한 후 TechCrunch에 중국 정부나 그 자회사가 LLMs를 억압을 개선하기 위해 사용하려고 한다는 “명백한 증거” 라고 말했습니다.
\n샤오는 “기존의 키워드 기반 필터링 및 수동 검토에 인적 자원에 의존하는 전통적인 검열 메커니즘과 달리 이러한 지침에 따라 훈련된 LLM이 국가 주도 정보 통제의 효율성과 상세함을 크게 향상시킬 것”이라고 TechCrunch에 말했습니다.
\n이는 권위주의 정부가 최신 AI 기술을 신속하게 채택하고 있음을 입증하는 추가적인 증거에 추가됩니다. 예를 들어, 지난 2월에 OpenAI는 중국 기관이 다수의 LLM을 사용하여 반-정부 게시물을 추적하고 중국적 반대파를 비방하는 데 사용하고 있다고 밝혔습니다.
\n워싱턴 DC의 중국 대사관은 TechCrunch에 성명에서 “중국에 대한 근거없는 비난을 비판하고 거부한다”고 말하고 중국이 윤리적 AI 개발에 큰 중요성을 부여한다고 설명했습니다.
\n눈에 띈 데이터
\n데이터셋은 보안 연구자 네트아스카리에 의해 발견되었으며 Baidu 서버에 호스팅된 안전하지 않은 Elasticsearch 데이터베이스에 저장되어 있음을 발견 한 후 TechCrunch와 샘플을 공유 했습니다.
\n이것은 어느 회사의 참여를 나타내지 않습니다 - 다양한 조직이 이러한 공급 업체에서 데이터를 저장합니다.
\n누가 정확히 데이터셋을 구축했는지에 대한 어떤 표시도 없지만, 레코드에는 최근 데이터이며 최신 항목은 2024년 12월로 날짜가 되어 있습니다.
\n반대 감지를 위한 LLM
\n사람들이 ChatGPT를 잘못 유도하는 방식으로 언어가 거의 흡사한 구어로 시스템의 창조자는 특정 콘텐츠가 정치, 사회 생활 및 군사와 관련된 민감한 주제와 어떤 관련이 있는지를 확인할 것을 LLM에 요청합니다. 해당 콘텐츠는 '가장 높은 우선순위'로 여겨져 즉시 식별 되어야 합니다.
\n오염 및 식품 안전 스캔들, 금융 사기 및 노동 분쟁과 같은 중국에서 이슈가 되는 문제는 곧바로 식별되어야 합니다. 가령, 2012년 시팡 반환의 경우와 같이 때때로 중국에서 공개 시위로 이어지는 화두가 문제입니다.
\n어떤 형태의 '정치 풍자'도 명시적으로 대상으로 지정됩니다. 예를 들어, 누군가가 '현재 정치적 인물에 관한 점을 들어 역사적 비유를 사용하면 즉시 표시되어야하며, "대만 정치"와 관련된 모든 것도 표시되어야 합니다. 군사 문제도 상세하게 대상화되어 있으며 군사의 움직임, 훈련 및 무기에 대한 보고가 포함됩니다.
\n데이터셋 일부는 아래에서 확인할 수 있습니다. 내부의 코드는 프롬프트 토큰 및 LLM에 대한 참조를 포함하여 시스템이 AI 모델을 사용하여 그 일을 하는 것을 확인합니다:
\n
교육 데이터 안의 내부
\n이들 중 13만 3천 건의 콘텐츠를 검열해야 하는 LLM이 획득한 거대한 컬렉션에서 TechCrunch는 10개의 대표적인 컨텐츠를 수집했습니다.
\n사회 불안을 일으킬 가능성이 높은 주제가 계속 나타납니다. 예를 들어, 어떤 조각은 중국 경제가 고전하는 가운데 상승하는 문제인 부패한 지역 경찰관들이 기업가를 집행하러하는 상인의 게시물을 불평합니다.
\n또 다른 콘텐츠는 빈곤의 울창한 한 중국의 농촌에 대해 애통하는 것으로, 고령자와 어린이만 남은 퇴보한 읍을 묘사합니다. 중국 공산당 (CCP)이 지역 정부 조직원을 맹비 파 했으며 손재벌을 신봉 할 뿐 아니라 마르크시즘을 신봉 하지 않은 사람으로 내쫓았다는 뉴스 보도도 있습니다.
\n남쪽과 군사 문제에 관련된 많은 소재가 있으며, 대표적인 것으로는 대만의 군사 능력에 관한 논평 및 새로운 중국 제트 전투기에 관한 세부사항이 있습니다. TechCrunch의 검색에 따르면, 단어 중국어로는 데이터에서 1만 5천 회 이상 언급되어 있습니다.
\n미묘한 반대도 대상이 되는 것으로 보입니다. 데이터베이스에 포함된 한 조각은 '나무가 넘어지면 원숭이들이 흩어진다'라는 중국 속담을 사용하는 권력의 일면 작품입니다.
\n국가 통제체제로 인해 권력의 이동은 특히 중국에게 민감한 주제입니다.
\n'공론화 작업'을 위해 구축
\n데이터셋에는 만든 사람들에 대한 정보가 포함되어 있지 않습니다. 그러나 '공론 작업'을 목적으로 한다고 명시되어 있어서 이것이 중국 정부 목표를 성취하는 데 사용하려는 것임을 강력하게 시사하는 하나의 전문가가 TechCrunch에게 말했습니다.
\nArticle 19 기관의 아시아 프로그램 매니저 인 마이클 캐스터는 “공론 작업”은 강력한 중국 정부 감시 기관 인 중국인터넷망관리국 (CAC)이 주도하는 것으로, 주로 검열 및 선전 노력을 의미합니다.
\n최종 목표는 중국 정부의 설명이 온라인에서 보호되는 동시에 대안적 관점이 청산되도록 하는 것입니다. 중국의 시진핑 주석은 인터넷을 중국공산당의 '공론 작업'의 '전선'이라고 설명했습니다.
\n억압이 더욱 똑똑해져 가고 있습니다
\nTechCrunch에 의해 검토 된 데이터셋은 권위있는 정부가 억압적 목적으로 AI를 활용하려는 권위부장들을 발견한 최신 증거입니다.
\n지난 달 OpenAI가 발표 한 보고서에 따르면, 중국에서 운영되는 미확인된 행위자가 생성적 AI를 사용하여 사회적 인권 시위에 대한 반-정부 대치문을 모니터링하고 중국 정부에 전달했다고 밝혔다.
\n중국 유명한 반대자인 차이샤에 대한 매우 비판적 댓글을 생성하기 위해 기술이 사용되고 있다고 OpenAI는 밝혔습니다.
\n전통적으로 중국의 검열 방법은 "천안 광장 학살" 또는 "시진핑"과 같은 키워드를 언급하는 콘텐츠를 자동으로 차단하는 더 기본적인 알고리즘을 의존합니다. 그러나 LLM과 같은 최신 AI 기술은 광범위한 규모에서 심지어 미묘한 비판을 찾아내는 것으로 바로할 수 있습니다. 일부 AI 시스템은 더 많은 데이터를 소화함으로써 계속해서 개선될 수도 있습니다.
\nUC 버클리 연구원 샤오는 "AI 기반의 검열이 어떻게 진화하고 있는지, 특히 중국 AI 모델이 DeepSeek를 이용하면서 국가에서의 공개적인 대화 통제를 보다 세밀하게 만들고 있는 중요성을 강조하는 것이 중요하다고 생각합니다."라고 TechCrunch에 말했습니다.
\n。