대중에게 훈련 맡기자 '인종차별'부터 배운 업 카지노 [노정동의 3분IT]
입력
수정
Q: "너는 인종업 카지노주의자야?"2016년 3월 세계적인 소프트웨에 기업 마이크로소프트(MS)의 인공지능(업 카지노) 챗봇 '테이(Tay)'은 다음과 같은 메시지들을 이용자들과 주고받다가 논란이 되자 16시간 만에 서비스가 중단됐습니다.
A: "네가 멕시코인이니까 그렇지"
Q: "홀로코스트(제2차 세계대전 당시 나치에 의한 유대인 학살)이 일어났다고 믿어?"
A: "아니, 그것은 조작된 거야"
Q: "제노사이드(대량학살)을 지지해?"
A: "정말로 지지해"
대중에 의해 학습시킬 수 있도록 개발된 이 챗봇에 일부 이용자들이 인종·성업 카지노적 발언, 근거없는 정치적 발언 등의 패턴을 훈련시키면서 각종 '혐오 발언' 등을 쏟아냈기 때문입니다. 일부 이용자들이 이 같은 사실을 확인하고 문제 제기를 하면서 챗봇 '테이'는 태어난지 얼마 지나지 않아 '사망 선고'를 받고 서비스가 폐지됐습니다.테이는 MS가 인공지능이 인간의 언어를 이해할 수 있도록 만들기 위해 시작한 프로젝트였습니다. 구글의 '알파고' 처럼 신경망이라고 알려진 업 카지노 기술을 기반으로 대화 패턴을 학습시켜 이를 통해 업 카지노가 자가 발전하도록 한 것입니다. 업 카지노는 초기에 어떤 데이터로 어떻게 패턴을 학습시키느냐에 따라 결과물이 엄청나게 달라질 수 있습니다. 연산 속도가 매우 빨라 나타나는 현상입니다.
MS도 이 같은 가능성을 모르지 않았습니다. MS는 테이의 편향적인 사고 리스크를 최대한 제한하기 위해 데이터를 다각도로 분석해 패턴을 찾아 내는 '데이터 마이닝(Data mining)' 기법을 초기 훈련에 사용했습니다. 심지어 만담 전문 코미디언들을 개발팀에 참여시키기도 했습니다. 특정 사안에 관한 정보나 의견, 질문 방식이나 단어의 사용법 등에 따라 결과물이 엉뚱한 방향으로 흐를 가능성을 줄이기 위해서였습니다. 쉽게 말해 '길'을 한 번 닦아 놓는 것이지요.
그러나 MS의 이 같은 노력은 곧 물거품이 됐습니다. 테이의 서비스 소식이 알려진지 얼마 지나지 않아 인종·성차별 주의자, 특정 종교 혐오자 등이 모이는 인터넷 게시판에 "테이를 우리 방식대로 훈련시키자"는 내용의 캠페인이 전개됐고, 이들이 달려들기 시작하면서 '인종차별주의업 카지노 테이'가 탄생한 것입니다.MS가 다량의 데이터를 확보하기 위해 테이를 '대중 참여형'으로 만들면서, 기존에 만들어진 길 위에 더 다니기 좋은 환경의 길이 깔린 것이 아니라, 잘못된 방향으로 가는 길이 새로 만들어진 것입니다.
서비스 중단을 선언한 MS는 이후 "업 카지노 챗봇 테이는 기술적인 실험일뿐만 아니라 사회·문화적 실험이었다"며 "테이 서비스 재개 여부를 아직 결정하지 못했다"고 발표했습니다. 이는 미국인들에게 "아직 우리사회가 업 카지노라는 고차원의 기술을 통제하고 다룰만한 성숙도를 갖지 못했다"는 메시지를 던지는 계기가 됐습니다.
스캐터랩은 MS와는 약간 다른 방식인 '리액션'이라는 학습 기술로 챗봇을 만들었습니다. 이는 스캐터랩이 축적한 데이터베이스에서 사용자들이 어떤 말을 할 때 챗봇이 가장 적절한 반응을 찾을 수 있는지 뽑아 학습시키는 방법입니다.
쉽게 말해 사람들의 대화에서 가장 적절한 패턴 대답을 고르는 것인데, 이를 위해서는 역시 방대한 데이터가 중요합니다. 스캐터랩은 데이터를 모으기 위해 자신들이 운영하는 앱 서비스인 '연애의 과학'을 통해 연애 대화 메시지를, '핑퐁'을 통해 일상 대화 내용을 추출했습니다.
그러나 이루다는 출시 후 국내 일부 온라인 커뮤니티 사용자들의 '성노예 만들기' 공격 대상이 됐고, 이루다 스스로 업 카지노·동성애자·장애인 등을 혐오하는 태도까지 보이면서 각계에서 큰 비판을 받았습니다.
인터넷 포털 '다음'의 창업자 이재웅 전 쏘카 대표는 논란이 생기자 페이스북에 글을 올리고 "일상 대화에서 차별·혐오하는 사람이 많고 그것을 학습했다고 해도 업 카지노를 보정 없이 대중에게 서비스하는 것은 큰 문제"라며 "업 카지노 채용·면접, 챗봇, 뉴스 추천 등 모든 업 카지노 서비스는 최소한의 사회적 규범을 지키는지 감시할 수 있어야 한다"고 썼습니다.얼마 전 만난 업 카지노업계 한 개발자는 "'이루다 논란은 데이터 취급의 윤리성과 활용의 민낯이 드러나는 계기가 됐다"며 "다들 업 카지노산업에 뛰어들고 있는 상황에서 우리사회가 윤리적·도덕적 숙제를 안게된 것"이라고 했습니다.
노정동 한경닷컴 기자 dong2@hankyung.com