본문
인공지능(AI) 기술이 산업 전반에 혁신을 가져오면서, AI 모델의 성능을 좌우하는 학습데이터의 확보 및 활용은 기업의 핵심 경쟁력으로 부상하였습니다. 그러나 AI 학습 과정에서 방대한 데이터를 수집하고 이용하는 행위는 저작권, 개인정보보호, 영업비밀 등 다양한 법적 문제와 충돌하며 국내외적으로 분쟁이 급증하고 있습니다.
2026년 1월 22일 시행된 「인공지능산업 육성 및 신뢰 기반 조성에 관한 법률」(이하 ‘인공지능기본법’)은 학습용데이터 활용의 법적 근거를 일부 마련하였으나, 이는 AI 산업 진흥을 위한 최소한의 기반일 뿐, 기업이 직면할 수 있는 모든 법적 리스크를 해소하는 것은 아닙니다.
본 뉴스레터에서는 AI 학습데이터를 둘러싼 국내외 주요 분쟁 사례를 소개하고, 인공지능법의 관련 규정 및 취지를 분석하며, 이를 바탕으로 국내 기업이 직면할 수 있는 법적 이슈와 대응 방안을 살펴보고자 합니다.
1. 인공지능 관련 기업 이슈
2. 인공지능기본법상 ‘학습용데이터’ 관련 내용 및 취지
3. 예상되는 기업 이슈
4. 향후 기업의 대응 방안
5. 마치면서
1. 인공지능 관련 기업 이슈
가. 앤트로픽, 피소 후 15억 달러로 합의
작년 미국에서 일어난 AI 관련 분쟁 중 가장 뜨거운 이슈는 AI 챗봇 ‘클로드(Claude)’ 개발사인 앤트로픽이 작가들로부터 소송을 당한 사례입니다.
2024년 8월, 작가들은 앤트로픽이 AI 챗봇 ‘클로드’를 훈련하는 과정에 자신들 서적을 무단으로 대규모 언어 모델(LLM) 학습에 사용해 저작권을 침해했다며 소송을 진행하였습니다. 이에 미국 캘리포니아 샌프란시스코 연방법원은 앤트로픽의 ‘학습을 위한 공정 이용’이라는 주장을 일부 인정하면서도 불법임을 인지하면서도 서적 데이터 다운로드를 하여 데이터를 확보한 점이 인정된다고 판단하였습니다.
결국 앤트로픽은 최종 손해배상이 결정되기 전인 2025년 8월, 작가들과 15억 달러, 한화 약 2조 원을 지급하는 조건으로 합의를 하였습니다. 이는 고의로 저작권을 침해한 행위에 대해 최대 1조 달러에 달하는 징벌적 손해배상액이 선고될 수 있는 최악의 상황을 피하기 위한 결단으로 평가됩니다.
나. 애플, 저작권 도서 무단 활용으로 피소
애플 역시 자사의 대규모 언어모델(LLM) 학습에 저작권이 있는 도서를 무단으로 사용했다는 이유로 작가들로부터 집단소송을 당했습니다.
2025년 9월, 소설 작가 그래디 헨드릭스와 판타지 작가 제니퍼 로버슨은 미국 캘리포니아 북부 연방 법원에 애플이 ‘북스3(Books3)’라는 불법 복제 도서 데이터셋을 기반으로 대규모 언어모델(LLM)인 ‘오픈ELM(OpenELM)’을 훈련했으며, 그 과정에서 애플은 저자 동의 없이 작품을 사용했고 출처를 밝히지 않았다며 소송을 제기하였고, 나아가 저작권 침해가 반영된 AI 모델 및 데이터셋의 파기와 향후 유사 행위의 금지 명령 등을 요구하였습니다.
뒤이어 2025년 10월에는, 뉴욕 브루클린 SUNY 다운스테이트 보건과학대학의 신경과학 교수들이 애플이 인텔리전스 학습 과정에서 불법으로 확보한 ‘그림자 도서관(shadow libraries)’의 해적판 도서를 활용했다고 주장하며 저작물 무단 사용 금지 명령과 금전 배상을 요구하였습니다.
특히, 원고들은 애플이 인텔리전스를 발표한 직후 하루 만에 2000억달러(약 280조원) 이상 시가총액을 끌어올렸는데, 이러한 애플의 성과는 저작권을 침해하며 확보한 데이터를 기반으로 이루어진 것이라며 비판의 목소리를 높이고 있습니다.
다. 국내 주요 분쟁 사례
1) 지상파 3사 vs 네이버
지상파 3사(KBS, MBC, SBS)는 2025년 1월, 네이버가 생성형 AI ‘하이퍼클로바X’를 개발하는 과정에서 자사의 뉴스 콘텐츠를 무단으로 학습시켰다며 저작권 침해 및 부정경쟁방지법 위반을 이유로 손해배상 소송을 제기하였습니다.
본 소송은 아직 변론 진행 중으로, 저작권 침해 대상을 구체적으로 특정할 수 있는지, 시사보도물도 고유한 저작물에 해당하는지, ‘공정 이용’에 해당하는지가 주요 쟁점이 되고 있습니다. 특히 네이버는 2020년 체결한 ‘네이버 뉴스 콘텐츠 제휴 약관’에 ‘네이버가 서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접, 공동으로 또는 제3자에게 위탁하는 방식으로 정보를 이용할 수 있다.’는 내용이 있으므로 이를 근거로 뉴스 콘텐츠를 사용할 포괄적인 권한이 있다고 주장하고 있어 사용권한과 근거에 대한 입장이 첨예하게 대립되고 있습니다.
2) 지상파 3사 vs 오픈AI
국내 언론사들은 국내가 아닌 글로벌 AI 기업을 상대로도 적극적인 법적 대응에 나서고 있습니다.
지상파 3사는 2026년 2월, 챗GPT 개발사인 오픈AI를 상대로 오픈AI가 개발하고 상업적으로 운영 중인 생성형 인공지능(AI) 챗GPT의 학습에 뉴스 콘텐츠가 대량으로 무단 사용됐다며, 저작권 침해 중단 및 손해배상 청구 소송을 제기하였습니다.
한국방송협회는 이번 분쟁을 ‘데이터 주권’의 문제로 규정하면서, AI기업으로부터 창작자와 저작권자들의권리가 보호되어야 하고, 글로벌 빅테크 기업이 국내 창작자의 지식 자산을 무단으로 이용하여 상업적 이익을 얻는 행위에 대해 정당한 보상이 이루어져야 한다고 주장하고 있습니다.
라. 그 외 인공지능 관련 분쟁
뉴욕타임스의 오픈AI·MS를 상대로 한 소송, 뉴스코프·닛케이·아사히신문 등의 퍼플렉시티 소송, 메타의 저작권 소송, 미국 소설가 몰리 탄저·제니퍼 길모어 등 작가들의 세일스포스를 상대로 한 소송 등 주요 AI 빅테크·스타트업과 미디어·출판사·작가 간 저작권 법적 분쟁이 확산되고 있으며, 2025년 10월 기준으로 미국에서만 AI 관련 저작권 소송은 약 56건에 달하고 일본·유럽연합(EU) 등에서도 소송이 지속적으로 증가하는 등 AI 관련 기업들은 점점 분쟁을 피해가지 못하고 있습니다.
2. 인공지능기본법상 ‘학습용데이터’ 관련 내용 및 취지
가. 공공데이터의 학습용데이터 제공 근거 마련
올해 시행된 인공지능기본법은 "학습용데이터"를 "인공지능의 개발·활용 등에 사용되는 데이터"로 명확히 정의하고(제2조 제12호), 국가가 수립하는 인공지능 기본계획에 「공공데이터의 제공 및 이용 활성화에 관한 법률」에 따른 공공데이터를 학습용데이터로 제공하기 위한 우선 생성·제공 범위 및 기준, 활성화 방안을 포함하도록 규정하여(제6조 제2항 제4호의2), 학습용데이터 제공의 근거를 마련하였습니다.
나. 학습용데이터 관련 인공지능기본법의 취지와 시사점
인공지능기본법은 AI 산업의 핵심 자원인 고품질 학습데이터 확보를 지원하기 위해, 방대한 공공데이터를 AI 학습에 적극적으로 활용할 수 있는 제도적 기반을 마련한 것에 의의가 있습니다. 이를 통해 기업들은 향후 정부가 정하는 기준과 절차에 따라 다양한 분야의 공공데이터를 AI 개발에 활용할 수 있을 것으로 기대됩니다.
다만, 인공지능법이 공공데이터 활용을 촉진하더라도 이는 저작권법, 개인정보보호법 등 기존 법률의 적용을 완전히 배제하는 것이 아님을 유의해야 합니다. 공공데이터 내에 저작물이나 개인정보가 포함된 경우, 해당 법률에 따른 저작권 처리 및 정보주체 동의, 비식별화 조치 등의 의무는 여전히 준수되어야 합니다.
3. 예상되는 기업 이슈
가. 저작권 침해 리스크
AI 모델을 개발하는 기업의 경우, AI 모델의 학습을 위해 웹사이트의 텍스트, 이미지, 소스코드 등 저작물을 무단으로 수집·복제하는 행위는 저작권(복제권, 전송권 등) 침해에 해당할 수 있습니다. 물론 앞서 살펴본 사례와 같이 원본의 형태나 목적과 다르게 비상업적으로 이용하면 일정 부분 저작권 예외를 인정하는 개념인 ‘공정 이용’을 항변할 수 있으나 법원이 공정 이용을 인정하는 요건이 엄격하여 받아들여질 가능성이 높지 않고, 특히 영리적 목적이 강하고 원저작물의 시장 가치를 대체할 가능성이 있는 경우 공정 이용으로 인정받기 어려울 수 있습니다.
나. 데이터 수집 과정의 적법성 문제
앤트로픽 사례에서 보듯, 데이터의 내용뿐만 아니라 수집 방법의 적법성도 중요한 쟁점이 될 수 있습니다. 웹사이트의 이용약관 등을 통해 명시적으로 금지된 데이터를 크롤링(crawling)하거나, 로그인, 결제 등 기술적 보호조치를 우회하여 데이터를 수집하는 행위는 그 자체로 부정경쟁방지법 위반이나 정보통신망법 위반 등의 법적 책임을 야기할 수 있어 더욱 유의할 필요가 있습니다.
다. 개인정보 및 프라이버시 침해 리스크
만약 학습데이터에 개인정보가 포함된 경우, 정보주체의 동의 없이 이를 수집·이용하면 개인정보보호법 위반에 해당할 수 있습니다. 특히 AI 모델이 개인정보를 학습한 후 산출물을 통해 특정 개인을 식별할 수 있는 정보를 생성하는 경우, 이는 심각한 프라이버시 침해 문제로 이어질 수 있어 각별한 주의가 필요합니다.
라. 영업비밀 및 기밀정보 유출 리스크
이외에도 기업이 내부 문서, 고객 정보, 소스코드 등 영업비밀이나 기밀정보를 AI 학습에 활용하거나 외부 AI 서비스에 입력할 경우, 해당 정보가 모델에 학습되어 제3자에게 유출될 위험이 있으며, 이 경우 AI개발사뿐만 아니라 해당 AI를 활용하는 기업도 분쟁에 휘말릴 수 있습니다.
4. 향후 기업의 대응 방안
가. 인공지능 개발 기업의 경우
1) 학습데이터 수급 및 관리 체계 구축, 저작권 및 개인정보 필터링 기술 도입
내부적으로 데이터 거버넌스 정책을 수립하고, 학습에 사용되는 모든 데이터의 출처, 라이선스 유무, 수집 일시 및 방법 등을 체계적으로 기록·관리해야 합니다. 특히 저작권이 소멸된(Public Domain) 데이터, 적법하게 라이선스를 확보한 데이터, 자체 생성한 합성 데이터(Synthetic Data)를 우선적으로 활용하는 전략을 사용할 필요가 있습니다.
또한 데이터 수집 및 전처리 단계에서 저작권이 명확한 콘텐츠나 개인정보를 식별하고 필터링하는 기술적 조치를 도입하고, 특히 개인정보가 포함된 데이터는 가명처리·익명처리 등 비식별화 조치를 철저히 이행하도록 엄격한 체계를 구축해야 합니다.
2) 데이터 수집 과정의 적법성 확보
웹 크롤링 시 해당 웹사이트의 이용약관 등 관련 규정을 반드시 준수하고, 기술적 보호조치를 무력화하거나 우회하는 행위를 하지 않도록 조치해야 하며, 데이터 수집 정책 및 절차에 대한 법률 전문가의 자문과 검토를 정기적으로 받아 위법 가능성을 사전에 차단하는 것이 안전합니다.
3) 라이선스 계약 및 보상 체계 마련
저작권 관련 분쟁을 최소화하기 위해서는 뉴스, 서적, 이미지 등 고품질의 저작물을 학습에 활용하고자 할 경우, 저작권자와의 적극적인 협상을 통해 정당한 라이선스 계약을 체결하고 합리적인 보상 체계를 마련하는 것이 장기적으로 안정적인 방법이며, 계약서 검토 단계에서부터 법률 전문가의 도움을 받아 활용 대상물의 범위와 사용기간 등을 구체적으로 설정하고 분쟁의 여지를 줄이기 위하여 명확히 하는 것이 중요합니다.
나. 인공지능 활용 기업의 경우
1) 공급 계약 시 책임 소재 명확화
기본적으로 AI 개발사로부터 학습데이터가 적법하게 수집·처리되었음을 보증받는 것이 중요하며, 외부 AI 솔루션이나 API를 도입할 경우, 서비스 공급 계약서에 ‘AI 모델 학습데이터의 적법성 보증’ 및 ‘제3자 지식재산권 침해 시 책임 및 면책’ 조항을 명확하게 규정해야 합니다.
2) AI 산출물에 대한 검증 프로세스 마련
AI가 생성한 텍스트, 이미지, 코드 등을 외부에 공개하거나 상업적으로 이용하기 전에, 해당 산출물이 타인의 저작권을 침해하거나 사실과 다른 내용을 포함하고 있지 않은지, 특히 뉴스 기사나 논문과 같이 출처가 중요한 콘텐츠 생성 과정에서 명백한 오류나 불법이 있지는 않은지 등을 검증하는 내부 프로세스를 수립하고 준수해야 합니다. 이러한 노력이 모든 저작권 침해를 차단할 수는 없다고 하더라도, 적어도 분쟁이 발생할 경우 AI를 활용하는 기업의 입장에서 취할 수 있는 최대한의 조치는 이행하였다는 점을 항변할 수 있습니다.
3) 내부 기밀정보 활용 가이드라인 수립
사내 기밀정보나 고객 데이터를 AI 서비스에 입력할 경우 발생할 수 있는 정보 유출 리스크를 방지하기 위한 명확한 내부 가이드라인을 마련해야 합니다. 또한 데이터가 외부 서버로 전송되는지, 모델 학습에 재사용되는지 여부를 반드시 점검하고, 필요한 경우 정보 유출 방지 기능이 강화된 보안 솔루션을 도입하여 AI 활용과정에서 2차, 3차 피해가 생기지 않도록 주의해야 합니다.
5. 마치면서
인공지능 기술의 발전은 데이터의 활용을 전제로 하지만, 그 과정에서 타인의 권리를 침해하지 않도록 균형을 맞추는 것이 중요합니다. 국내외 분쟁 사례에서 확인되듯이, AI 학습데이터와 관련된 법적 리스크는 더 이상 잠재적 위험이 아닌 현실적인 기업 경영 문제로 대두되었습니다.
그렇기에 AI를 개발하는 기업뿐만 아니라 활용하는 기업들도 초기 단계부터 데이터의 수집, 처리, 활용 전 과정에 걸쳐 법적 리스크를 체계적으로 점검하고 관리하는 프로토콜을 구축해야 하며, 이는 단기적인 법적 분쟁을 예방할 뿐만 아니라, 장기적으로 신뢰할 수 있는 AI 기업으로서의 경쟁력을 확보하는 핵심적인 기반이 될 것입니다.
화우 기업형사전략센터(CCDSC)는 형사분야에 전문성을 가진 전문가 및 유관기관에서 다양한 실무경험을 쌓은 전문인력이 기업 관련 형사이슈에 대하여 원스톱(one-stop)으로 지원하는 통합전문기관입니다. 형사분야에 관한 모든 법률 문제에 신속하게 대응할 수 있도록 이슈를 선제적으로 안내하고, 그에 따른 적시 도움을 드리겠습니다. 이와 관련하여 문의사항이 있으신 경우 언제든지 연락하여 주시기 바랍니다.