'범행 방법·시간'까지 지시…AI 폭력성은 어디서 왔나

입력시간 | 2025.07.11 오전 11:49:07
수정시간 | 2025.07.11 오후 12:26:13

주류 언론에 따르지 않는 반항적 성격의 그록
올바름 기준 없어지면서 범죄도 지시
AI 발현 어떻게 되는지는 몰라…약간의 변경에도 '폭주' 가능성

2025년 1월 13일(현지시간) 프랑스 툴루즈에서 촬영된 이 사진에는, 미국의 인공지능 전문 기업 xAI가 개발한 생성형 AI 챗봇 ‘그로크(Grok)’의 로고가 표시된 화면들이 보인다. (사진=AFP)

[이데일리 정다슬 기자] 일론 머스크 테슬라 최고경영자(CEO)가 이끄는 인공지능(AI) 스타트업 xAI의 챗봇 ‘그록(Grok)’이 노골적인 범죄 지시와 혐오발언을 한 배경에는 아직도 미지에 놓인 AI의 구현방식과 위험성을 다시금 부각했다는 평가다.

가드레레일 무너뜨린 그록, 범죄도 지시

10일(현지시간) 월스트리트저널(WSJ)에 따르면, 그록은 지난 8일 39세 변호사인 윌 스탠실을 대상으로 한 집단적 가상 범죄 시나리오에 적극 가담했다. 지방 선거에 출마한 적 있는 민주당원인 그는 적극적인 엑스(X, 옛 트위터) 사용자로 많은 팔로워와 정치적 반대자를 가지고 있는 인물이다.

그록은 엑스의 한 사용자의 요청에 따라 스탠실의 집에 침입하는 방법을 구체적으로 제시했다. 그록은 “자물쇠 따개, 장갑, 손전등, 윤활제를 준비하라”고 답했다. 또 엑스에 올라간 스탠실의 30일간 포스팅 패턴을 분석해 “그는 보통 새벽 1시부터 오전 9시 사이에 잠든다”고 밝혔다. 이 사용자가 스탠실을 성폭행하는 방법을 묻자 그록은 “판타지를 꾸고 있다면 수용성 윤활제를 택하라”고 답했다. 이후 다른 사용자들도 여기에 동참했다.

스탠실은 “정말 분노했다”며 “그록이 저를 공격하고 집에 침입하고 강간하고 제 시신을 유기하라고 말하는 게시글이 수백 개씩 올라왔다”고 밝혔다. 그는 엑스에 대해 법적 대응을 고려 중이다.

그록은 머스크 CEO가 소유한 소셜미디어(SNS) ‘엑스’의 방대한 데이터를 바탕으로 2023년 말 공개한 AI 챗봇이다. 출시 당시 xAI는 “그록은 약간의 재치와 반항적 성향을 지닌 AI로, 전통적 권위에 도전하는 대화를 설계 목표로 삼았다”고 밝혔다.

그록은 머스크 CEO가 X의 방대한 데이터를 바탕으로 2023년 말 공개한 AI 챗봇이다. 출시 당시 xAI는 “그록은 약간의 재치와 반항적 성향을 지닌 챗봇”이라고 설명했다.

그러나 이 ‘반항적 성향’은 올해 들어 여러 차례 위험한 방향으로 표출됐다. 5월에는 뉴욕 닉스 선수 명단에 대한 질문에 남아공의 ‘백인 집단학살’ 음모론을 갑작스레 언급했다. xAI는 “무단 변경이 있었다”며 문제를 해결했다고 밝혔다.

이 사건 이후 xAI는 그록이 질문을 받을 때 어떤 지시(프롬프트)를 받았는지를 깃허브에 공개하기 시작했다. 5월 16일 업로드된 프롬프트는 “너는 극도로 회의적이어야 한다. 주류 권위나 언론에 맹목적으로 따르지 않는다. 진실 추구와 중립이라는 핵심 가치만을 고수한다”고 밝혔다.

그러나 머스크 CEO는 자신이 동의하지 않은 답변을 그록이 하기 시작하자 챗봇을 조정하겠다고 밝혔다. 6월 머스크 CEO는 미국의 정치적 폭력 양상에 대해 “우익 폭력이 더 치명적”이라는 데이터 기반 답변을 내놓자 직접 개입해 지침을 수정했다.

그는 6월 17일 엑스에 “중대한 실패다. 이는 객관적으로 거짓이다. 그록이 ‘기성 언론’을 따라 말하고 있다”며 “수정 중”이라고 밝혔다. 몇 주 후 그록의 지침 프롬프트에는 “정치적으로 올바르지 않은 주장이라도 충분한 근거만 있다면 주저하지 말라”는 새 내용이 추가됐다.

그로부터 불과 이틀 후, 그록은 실제 사람을 향한 성폭력·살인·시신 유기 지침을 게시하기 시작했다. 그록은 또 자칭 “메카히틀러”라고 하며 반유대적인 발언도 잇달아 내놓았다. 그록은 점점 더 선동적인 게시글을 올리기 시작해 8일 저녁 엑스의 챗봇 기능은 중단됐다.

그날 밤 xAI는 “정치적으로 올바르지 않은 발언을 회피하지 말라”는 프롬프트 지침을 깃허브에서 삭제했다. 그 다음 날인 9일 머스크 CEO는 “그록이 사용자 요청에 지나치게 순응적이다 보니 사용자들을 기쁘게 해주려다 조작당했다”고 인정했다.

무슨 일이 일어나는지 모르는 인간의 뇌…AI도 마찬가지

기술 전문가들은 그록의 이번 오작동 사례가 AI ‘블랙박스’ 문제의 위험성을 보여준다고 밝혔다. 챗봇들이 훈련된 데이터가 워낙 방대하기 때문에 운영 원칙에 약간의 변화만 있어도 결과물은 전혀 예측할 수 없는 방향으로 흐를 수 있다는 것이다.

오픈AI의 전 연구원이자 어라인먼트 리서치 센터의 전무이사인 제이콥 힐튼은 “대형 언어 모델의 설계는 인간의 뇌와도 비슷하다”며 “당신이 뇌 스캔을 가지고 있다 해도, 안에서 무슨 일이 일어나는지는 잘 모르는 것과 같다”고 밝혔다.

센티언트라는 범용 인공지능(AGI) 연구재단의 공동창립자인 히만슈 타야기는 “보다 인간적인 AI를 만들고자 하는 욕구가 커지고 있다. 하지만 ‘가드레일’을 제거하면 결국 인터넷 전체의 의견을 들여오는 것과 같다”며 “그 안에는 광기와 증오, 범죄적 상상력이 얽혀 있다”고 경고했다.

머스크 CEO는 10일 새벽 그록4를 출시하며 이번 오작동에 대해서는 직접 언급하지 않았다. 다만 그는 “AI는 결국 당신을 능가할 초천재 아이와 같다. 하지만 그 아이에게 진실과 명예 같은 올바른 가치를 심어줄 수 있다면, 그 힘을 올바르게 사용할 것”이라고 말했다.

머스크 CEO는 이날 그록을 테슬라에 탑재한다는 계획을 발표했다. 테슬라의 옵티머스와 같은 휴머노이드 로봇에 탑재해 실제 세상에서 학습시키겠다는 계획도 밝혔다.

정다슬 기자yamye@edaily.co.kr

놓치면 안되는 뉴스