AI 데이터 보안, 입력한 데이터는 어디로 가는가

AI 서비스에 텍스트를 입력하면 그 데이터는 서버로 전송된다. 대화가 끝나도 데이터는 일정 기간 서버에 남는다. AI 데이터 보안에 대해 사용자 대부분은 이 과정을 인식하지 못한 채 업무 자료와 개인정보를 입력한다.

나도 AI를 매일 쓴다. 코드를 붙여넣고, 문서를 요약하고, 아이디어를 정리한다. 어느 순간 “이거 넣어도 되나?” 하는 생각이 들었다. 구조를 알고 나니 막연한 불안 대신 기준이 생겼다. 그 기준을 정리한다.

학습에 안 쓴다는 말의 실체

학습 제외 정책의 기본 구조

AI 서비스 회사들은 “사용자 데이터를 모델 학습에 사용하지 않는다”고 말한다. 유료 플랜에서는 대부분 이 말이 맞다. 문제는 무료 플랜이다.

무료 사용자의 대화 데이터는 기본적으로 학습에 활용될 수 있다. 사용자가 직접 설정에 들어가서 꺼야 제외되는 방식, 이른바 옵트아웃(opt-out) 구조다. 설정을 건드리지 않으면 동의한 것으로 간주된다. ChatGPT는 무료, Plus, Pro 개인 계정 모두 기본적으로 대화가 학습에 사용되며, Settings > Data Controls에서 직접 꺼야 한다(출처). 클로드 역시 2025년 8월부터 무료, Pro, Max 플랜에서 사용자가 학습 허용 여부를 선택하도록 변경되었다(출처). 기업용(Team, Enterprise) 플랜은 대부분 기본 제외다.

결국 “학습에 안 쓴다”는 말은 조건부다. 어떤 플랜을 쓰는지, 설정을 확인했는지에 따라 달라진다.

학습 여부보다 중요한 것

학습에 쓰이느냐 아니냐보다 더 근본적인 문제가 있다. 입력한 데이터가 서버에 저장된다는 사실 자체다.

대화 로그는 서비스 품질 개선, 오용 방지, 법적 요청 대응 등 여러 이유로 일정 기간 보관된다. 학습에 쓰이지 않더라도 서버 어딘가에 내 데이터가 존재한다. 이 저장된 데이터가 유출 리스크의 출발점이다.

진짜 리스크는 서비스 제공사의 보안 사고

이미 반복되는 유출 패턴

개인정보 유출은 AI 이전부터 반복되어 온 문제다. 통신사, 쇼핑몰, 금융사에서 수천만 건의 고객 데이터가 빠져나간 사건은 매년 뉴스에 올랐다. IBM의 2024 데이터 유출 비용 보고서에 따르면, 전 세계 데이터 유출 사고 한 건당 평균 비용은 488만 달러(약 67억 원)에 달한다(출처). AI 서비스도 예외가 아니다.

2023년 3월, ChatGPT에서 버그로 인해 다른 사용자의 대화 제목이 노출되는 사고가 발생했다. 이후 조사에서 일부 사용자의 이름, 이메일, 결제 정보 일부까지 유출된 것으로 확인되었다(출처). 2025년 1월에는 DeepSeek의 데이터베이스가 인증 없이 외부에 노출되어, 사용자 대화 기록과 API 키가 유출될 수 있는 상태로 방치된 사실이 보안 기업 Wiz에 의해 발견되었다(출처).

서버에 데이터가 존재하는 한, 해킹이든 내부자 접근이든 유출 경로는 열려 있다. AI 서비스 회사들이 보안에 투자하고 있는 건 사실이다. 하지만 100% 안전한 시스템은 존재하지 않는다.

AI 데이터 보안의 가장 큰 취약점은 사람

보안 업계에서 오래전부터 반복되는 말이 있다. “가장 큰 취약점은 사람이다.” 정교한 방화벽과 암호화를 갖춰도, 피싱 메일 한 통에 내부 시스템이 뚫리는 일이 생긴다. USB 하나를 아무 컴퓨터에 꽂아서 전체 네트워크가 감염된 사례도 있다.

AI 시대에도 이 패턴은 그대로다. 다만 형태가 바뀌었을 뿐이다. 2023년 삼성전자 반도체 부문에서는 직원들이 반도체 설비 소스코드와 사내 회의 내용을 ChatGPT에 입력해 기밀이 외부 서버로 전송되는 사고가 발생했다(출처). 회사가 “사내 정보를 입력하지 말라”고 공지한 지 20일 만이었다. 예전에는 메일에 비밀번호를 적어서 보내는 게 문제였다면, 지금은 AI 대화창에 고객 이름, 계약 금액, 내부 코드를 아무 생각 없이 붙여넣는 게 같은 실수다.

기술이 아무리 발전해도 최종적으로 데이터를 입력하는 건 사람이다. 그래서 입력 단계의 습관이 중요하다.

AI를 안 쓸 수 없다면, 입력 단계에서 지키는 법

익명 처리와 직접 언급 제거

AI에 데이터를 넣을 때 가장 간단한 방법은 고유명사를 빼는 것이다. 실제 이름 대신 가명을 쓰고, 회사명 대신 “A사”로 바꾼다. 금액이나 계약 조건도 구체적인 숫자 대신 비율이나 범위로 표현할 수 있다.

예를 들어 “김철수 과장의 연봉 협상안을 검토해줘”가 아니라, “과장급 직원의 연봉 협상안 구조를 검토해줘”로 바꾸면 된다. AI는 맥락만 있으면 충분히 답을 준다. 특정 인물이나 회사를 식별할 수 있는 정보는 대부분 빼도 결과 품질에 영향이 없다.

파일 업로드 전 확인 습관

텍스트 입력보다 더 주의해야 할 것이 파일 업로드다. 엑셀 파일에는 숨긴 시트가 있을 수 있고, PDF에는 메타데이터에 작성자 이름과 회사명이 포함된다. 워드 문서의 수정 기록에 삭제한 줄 알았던 문장이 남아 있기도 하다.

파일을 AI에 올리기 전에 한 번 열어서 확인하는 습관이 필요하다. 숨긴 시트가 없는지, 메타데이터에 민감한 정보가 없는지, 수정 기록을 정리했는지 체크한다. 이 30초의 확인이 데이터 유출 리스크를 크게 줄인다.

알고 쓰면 불필요한 걱정이 줄어든다

AI를 쓰지 말자는 이야기가 아니다. AI를 안 쓰면 업무 효율성이 떨어진다. 핵심은 구조를 이해하고, 입력 데이터를 한 단계 걸러내는 것이다.

학습 제외 정책의 조건을 확인하고, 서버에 저장된다는 사실을 인식하고, 고유명사를 빼고, 파일을 올리기 전에 30초만 확인한다. 이 네 가지만 습관이 되면 AI를 쓰면서도 AI 입력 데이터 보안을 지킬 수 있다.

막연히 “위험하다”고 피하는 것보다, 알고 쓰는 쪽이 낫다.