본문 바로가기

Information Security

딥페이크의 시대, 인공지능 이용한 사기 ‘안보위협’ 가능성

미국 프린스턴대의 ‘과학과 국제안보 연구소’는 지난 9월 9일(현지시간) 유튜브에 핵전쟁 시뮬레이션 결과를 공개했다. 러시아가 칼리닌그라드 인근 기지에서 처음 쏘아올린 핵무기 하나가 지구적인 핵전쟁으로 이어져 5시간도 채 지나지 않아 사망자 3410만명을 비롯해 9130만명의 인명피해를 가져올 것이라는 내용이다. 영상에서는 누가 최초에 핵무기 발사를 명령했는지 나오지 않는다.

여기서 상상력을 가미해보자. ‘만약 누군가가 핵보유국의 최고 군 통수권자를 가장해 핵무기 발사를 명령했다면….’

 

인공지능 사기 ‘안보위협’ 가능성

 

문제는 인공지능(AI)을 이용해 영상과 음성을 실제에 가깝게 합성할 수 있게 되면서 이런 시나리오의 가능성을 완전히 배제하기 어렵게 됐다는 점이다. 평소 좌충우돌하면서 호전적인 성향을 보여온 지도자를 사칭해 핵무기 발사를 명령하면 그 지시를 의심하지 않을 수도 있다. 인공지능 기술을 이용한 사기가 국제적인 안보위기를 불러올 수 있다는 얘기다. 보안업체 큐브피아의 권석철 대표는 “드론을 이용한 사우디 유전 공격에서 볼 수 있듯이 전문가들이 예측한 우려가 영화 속에서만이 아니라 현실에서 이미 일어나고 있다”며 “기술의 좋은 점만 부각되지만 위험한 측면을 인식하고 대응책을 마련할 때가 됐다”고 말했다.

특히 ‘딥페이크’를 활용한 사기가 가장 큰 위험요인으로 거론된다. 기계학습 기법의 하나인 ‘딥러닝’에 가짜라는 뜻을 합한 딥페이크는 원본 이미지나 영상 위에 다른 이미지를 더해 가공의 이미지나 동영상을 만들어내는 기술이다. 이미 정치인 가짜영상이 심심찮게 나오고 있다. 일례로 지난해 5월 벨기에의 ‘다른사회당’은 트럼프 미국 대통령이 벨기에의 기후변화협약 탈퇴를 촉구하는 내용의 영상을 트위터 등에 올렸다. 트럼프의 발언에 분노한 사람들이 벨기에 정부에 더 적극적인 기후변화 정책을 촉구하리라는 기대에서 만든 가짜영상이었다.

유명인들은 공개석상에 노출될 기회가 많아 이들의 얼굴 이미지와 음성 자료를 얻기 쉽다. 특히 영상은 길이가 짧아도 수백·수천 장의 이미지를 담고 있어 기계학습을 시킬 데이터가 충분하다. 초기 유명 연예인의 얼굴을 합성한 딥페이크 포르노물이 범람한 것도 이런 이유에서다.

지금은 각국에서 딥페이크를 안보 차원에서 주목하고 있다. 미국 국방성 방위고등연구계획국(DARPA)은 지난해 하반기부터 ‘미디어 포렌식’ 프로그램으로 사진과 동영상의 조작 여부를 자동으로 탐지하는 기술 개발을 지원하고 있다. 유럽연합(EU)은 2016년부터 비슷한 목적으로 ‘인비드 프로젝트’를 진행했다. 지난 4월 언론재단이 발간한 ‘딥페이크와 사실의 위기’ 보고서의 공동 저자인 최순욱 너비의깊이 대표는 “미국 국방성은 딥페이크를 중요한 안보 위협 기술로 간주하고 여기에 대한 연구비를 지원하고 있지만 아직은 방어기술이 공격기술을 뒤쫓는 형국이다”라고 설명했다.
인공지능을 이용한 딥페이크가 실제 사기에 이용된 사례도 보고됐다. 의 최근 보도에 따르면 지난 3월 영국에서 일단의 범죄자들이 인공지능 소프트웨어를 이용해 한 에너지 회사의 최고경영자 목소리를 합성한 후 직원에게 전화를 걸어 22만 유로(약 3억원)의 자금을 이체한 사건이 있었다. 합성된 목소리는 억양까지 실제와 닮아 알아채기 어려웠다.
해커들이 보안 취약점을 찾아 공개하는 국제행사인 ‘블랙햇’의 지난해 대회에서는 합성음성으로 음성인증 시스템의 잠금을 해제하는 방법이 시연되기도 했다. 24시간 분량의 음성만 확보할 수 있으면 금융기관 등의 음성인증 시스템을 속일 정도의 고품질 합성음성을 만들 수 있다는 내용이었다. 이들은 백서에서 “선거에 나선 정치인의 말은 여론에 쉽게 영향을 줄 수 있는데, 이들의 음성을 합성할 자료들이 영상자료를 포함해 이미 풍부하다”고 밝혔다. 이들은 음성합성 기술로 모바일 기기의 잠금을 해제하거나 악의적인 명령을 내릴 수 있고, 경영자를 가장해 대규모 금융거래를 승인할 수 있다고 경고했다. 영국의 사례는 이 우려가 현실이 된 경우이다. 권석철 대표는 “(구글 듀플렉스 서비스처럼) 음성합성 기술로 나를 대신해 전화를 걸어 식당을 예약하는 편리함을 누릴 수 있지만 악용할 가능성에 대응할 장치가 없이 활용되면 큰 사회문제가 될 수 있다”고 지적했다.

인공지능을 이용한 영상·음성합성 기술의 상업적 가치는 높다. 영상합성 기술은 영화와 게임의 컴퓨터그래픽 작업에 들어가는 시간과 비용을 줄일 수 있다. 저작권자가 허락해준다면 이미 죽은 연예인이라도 완전히 새롭게 콘서트 영상을 만들 수 있다. 좋아하는 연예인의 목소리로 모닝콜을 듣는 서비스는 이미 가능하다. 바쁜 부모를 대신해 그 목소리로 동화책을 읽어주거나 외국어를 가르쳐줄 수도 있다. 돌아가신 부모나 가족의 목소리를 만들어 인공지능 스피커를 이용해 대화를 할 수도 있다. 여기에 영상합성까지 합해지면 현실감을 더할 수 있다.

 

영상·음성합성 서비스 속속 상용화

 

음성합성 기술은 AI 음성비서 서비스를 제공하는 업체들이 적극적으로 개발하고 있다. KT는 지난 5월 ‘기가지니’ 앱에서 목소리를 등록하면 하루 뒤 자신의 목소리로 동화를 들려줄 수 있는 서비스를 공개했다. 올 연말에 정식 서비스를 출시할 계획이다. 네이버도 지난해 탤런트 유인나 목소리를 합성한 음성을 AI 스피커 클로바에 적용한 바 있다. 네이버는 지난 9월 4일 인공지능이 사용자의 손글씨를 학습해 글꼴을 만들어주는 기술도 공개했다.

구글은 9월 19일 AI 음성비서 구글 어시스턴트에서 제공하는 음성 선택권을 확대했다. 이미 미국에서 가수 존 레전드의 목소리를 포함해 11개 음성을 선택할 수 있도록 했는데 이날부터 한국 등 9개국에서 새로운 음성을 추가했다. 딥마인드의 기술로 높낮이와 띄어 읽기를 자연스럽게 구현했다고 소개했다.

박정석 KT융합기술원 서비스연구소 팀장은 “이전에는 글자를 얼마나 자연스럽게 말하느냐가 중요했지만 이젠 그건 기본이고 누구랑 얼마나 비슷하냐가 중요해졌다”며 “과거엔 기존 음성자료 안에서만 만들어낼 수 있었다면 이젠 딥러닝으로 목소리 특징(파라미터)을 찾아 ‘보코더’로 불리는 소프트웨어에 넣으면 원하는 사람의 목소리를 만들 수 있다”고 말했다.

하지만 영상도 음성도 아직은 완전히 진짜처럼 만들기는 어렵다. 자세히 보고 들으면 어딘가 이상하다. 네이버의 한 연구원은 “무향실에서 정해진 텍스트를 충분한 정도로 녹음해도 아직 모든 어휘나 상황에서 완벽한 정도로 음성을 합성하는 것은 거의 불가능하다”고 말했다.

업계는 인공지능을 이용한 사기 가능성을 염두에 두고 서비스를 설계하고 있다고 밝혔다. 박정석 팀장은 “보이스피싱을 우려해 ‘내 목소리 동화’를 들을 때 지정된 스피커에서만 들을 수 있도록 했고, 계좌이체 인증에 악용될 수 있어서 아무 말이나 합성되지 않고 정해진 동화 문구만 합성되도록 만들었다”고 설명했다.

인공지능 사기를 탐지하는 기술도 개발하고 있다. 목소리로 인증할 경우 합성음인지 실제 사람의 소리인지 분별할 수 있도록 일종의 ‘지문’을 넣는 방식이다. 네이버 관계자는 “개인화된 음성합성기는 들리는 워터마크가 들어가도록 하는 등의 안전장치를 마련한 후 상용화되어야 한다”고 말했다. 최순욱 대표는 “영상을 볼 때 이게 과연 진짜 나올 법한 영상인가 한 번 정도는 의심해야 한다”며 “기술과 법은 한계가 있고 결국은 가짜를 골라낼 수 있는 미디어 교육이 가장 중요하다”고 강조했다.