법무법인(유) 화우

미국 저작권청, 생성형 AI 훈련을 위한 저작물 이용 보고서 발표

  • 뉴스레터
  • 2025.06.02

생성형 AI가 비즈니스 혁신의 핵심 동력으로 부상하면서, 한국 기업들도 AI 도입을 서두르고 있습니다. 그러나 AI 개발 과정에서 수백만 개의 저작권 보호 자료를 활용해야 하는 현실 앞에서 많은 기업들이 예상치 못한 법적 위험에 노출되고 있습니다.

 

미국 저작권청이 2025년 5월 미국 저작권청이 발표한 생성형 AI 훈련을 위한 저작물 이용에 관한 포괄적인 보고서는 이러한 우려에 대한 가이드를 제시합니다. 이 보고서는 AI 개발 과정에서 저작권으로 보호되는 작품들의 사용이 공정이용에 해당하는지에 대한 법적 분석틀을 제시하고 있으며, 특히 데이터 수집부터 AI 모델 배포까지의 전 과정에서 발생할 수 있는 저작권 침해 이슈와 라이선스 시장의 발전 방향에 대하여 종합적으로 다루고 있습니다.

 

AI 훈련 과정에서의 저작권 침해 쟁점, 공정이용 판단 기준에 관한 내용은 국내 기업이 AI 프로젝트를 진행하며 법적 리스크를 최소화하기 위해 참고할 만한 내용으로 판단됩니다.

 


 

1. 보고서 발표 배경

2. AI 훈련 과정에서의 저작권 침해 쟁점

3. 공정이용 판단 기준

4. 시사점

 


 

1. 보고서 발표 배경

 

미국 저작권청은 생성형 AI 기술의 급속한 발전과 함께 제기되는 저작권 관련 쟁점들을 해결하기 위해 포괄적인 연구를 수행하고, 보고서를 발표했습니다. 현재 생성형 AI 개발 단계에서의 저작권 침해와 관련하여 미국에서는 수십 건의 소송이 진행 중이며, 전세계 입법자들은 AI 훈련에서의 저작물 이용에 대한 규제 방안을 모색하고 있는 상황입니다. 이번 보고서는 AI 개발자들이 수백만 또는 수십억 개의 저작권이 있는 자료들을 훈련 목적으로 사용하는 것을 지적하면서, 이러한 대규모 데이터 활용이 기존 저작권 체계에 미치는 영향을 분석했습니다.

 

AI 업계는 훈련용 저작물 라이선싱 의무화가 혁신을 저해하고 미국의 AI 경쟁력을 약화시킬 것이라고 우려하는 반면, 창작자들은 무허가 이용이 창작 생태계를 파괴할 것이라고 주장하고 있습니다. 이에 위 보고서는 AI 개발자와 저작권자 간의 첨예한 대립을 균형있게 다루며 라이선스 방안을 모색하였습니다.

 

2. AI 훈련 과정에서의 저작권 침해 쟁점

 

AI 개발의 여러 단계에서 저작권 침해가 발생할 수 있습니다. 먼저 데이터 수집 및 큐레이션 단계에서는 웹 스크래핑을 통한 저작물의 다운로드, 저장매체 간 전송, 포맷 변환 등의 과정에서 복제권 침해가 발생할 수 있습니다. 특히 해적 사이트나 무단 접근을 통한 데이터 수집 시에는 추가적인 법적 위험요소가 존재합니다.

 

모델 훈련 단계에서는 훈련 데이터의 고성능 저장소 복사 및 배치 처리 과정에서 일시적 복제가 이루어지며, AI 모델이 훈련 데이터를 기억하여 가중치에 저장하는 경우 복제권 및 2차적저작물작성권 침해 가능성이 있습니다. 모델이 특정 프롬프트에 대해 훈련 예시와 거의 동일하거나 실질적으로 유사한 복사본을 생성할 수 있다면, 그 표현이 외부에서 프롬프트나 다른 입력 형태로 제공되지 않았음에도 불구하고 모델의 가중치에 어떤 형태로든 존재할 수밖에 없기 때문입니다.

 

검색증강생성(RAG)과 출력 단계에서도 저작권 침해 문제가 발생할 수 있습니다. 실시간으로 저작물을 검색하여 응답에 활용하는 과정에서 복제가 이루어지며, AI가 원본과 실질적으로 유사한 콘텐츠를 생성하는 경우 직접적인 저작권 침해가 성립할 수 있습니다. 사용자들은 생성형 AI가 영화의 정지 이미지, 저작권으로 보호되는 캐릭터, 뉴스 기사의 텍스트와 거의 동일한 복제본을 생성할 수 있음을 입증해왔습니다. 그러한 출력들은 복제권을 침해할 가능성이 높고, 원작을 각색하는 정도에 따라 2차적 저작물 작성권도 침해할 수 있습니다.

 

3. 공정이용 판단 기준

 

생성형 AI 모델의 개발과 배포 단계에서 발생할 수 있는 저작권 침해 논란에 대해서는 공정이용(Fair Use) 법리를 핵심 방어 논리로 활용할 수 있습니다. 미국 저작권청은 공정이용에 해당하는지 여부를 판단하기 위한 4가지 요소별 분석 기준을 제시했습니다.

 

가. 이용의 목적과 성격(변형성 및 상업성)

 

이용의 목적과 성격 관련하여 가장 중요한 것은 '변형적 이용(transformative use)'입니다. 단순히 원작을 다른 형태로 바꾸는 것이 아니라, 완전히 새로운 목적과 성격을 갖는 이용인지가 관건입니다. 미국 저작권청은 대규모 다양한 데이터셋으로 파운데이션 모델을 훈련하는 것은 대체로 변형적이라고 봤습니다. 예를 들어, 다양한 언어의 『빅 슬립』 소설로 훈련된 언어모델이 이메일 번역, 문법 교정, 20세기 문학 질문 답변 등을 수행하는 것은 원작의 목적과는 완전히 다른 변형적 이용입니다. 하지만 변형성의 정도는 모델의 기능과 배포 방식에 따라 달라집니다. 연구나 분석 목적, 또는 비대체적 업무를 위한 폐쇄형 시스템에서의 이용은 변형성이 높다고 인정될 수 있습니다. 반면 훈련 데이터와 실질적으로 유사한 표현적 결과물을 생성하도록 설계된 모델은 변형성이 낮다고 평가됩니다. 특히 특정 애니메이션 시리즈 이미지로 훈련되어 해당 캐릭터를 생성하는 이미지 모델처럼, 원작과 경쟁하는 표현적 결과물을 만드는 경우는 변형적이라 보기 어렵습니다.

 

상업성 측면에서는 단순히 영리기업이 개발했다고 해서 상업적 이용에 해당하는 것이 아니라 실제 상업적 이익과의 연관성이 중요합니다. 연구 논문 발표나 오픈소스 모델 배포처럼 직접적 수익화와 거리가 먼 경우는 상업성이 약하다고 판단됩니다. 또한 불법 접근을 통한 데이터 수집은 공정이용 판단에 불리하게 작용합니다.

 

나. 저작물의 성격(창작성)

 

소설, 영화, 음악 등 창작적 저작물을 이용할 때는 공정이용에 불리하고, 컴퓨터 코드나 학술 논문 같은 사실적·기능적 저작물을 이용할 때는 상대적으로 유리합니다. 생성형 AI 모델은 다양한 유형의 저작물로 훈련되므로, 실제로는 훈련에 사용된 구체적 저작물의 성격에 따라 사안별로 판단해야 합니다. 다만 이 요소는 전체 공정이용 판단에서 결정적 역할을 하지는 않는다고 평가됩니다.

 

다. 이용된 부분의 양과 실질성

 

AI 훈련은 일반적으로 저작물 전체를 이용하므로 이용된 부분의 양과 실질성 측면에서 공정이용에 해당하지 않는다고 생각될 수 있습니다. 그러나 미국 저작권청은 변형적 목적이 있다면 전체 이용도 합리적일 수 있다는 입장입니다. 구글북스 사건에서 도서 전체를 스캔한 것이 검색 기능 구현에 필요했듯이, AI 훈련에서도 모델의 일반화 성능을 위해 대규모 데이터가 필요할 수 있습니다. 그러나 중요한 것은 대중에게 실제로 노출되는 정도입니다. 대부분의 AI 모델 결과물은 훈련 데이터 중 저작권으로 보호받는 표현을 포함하지 않으며, 개발자들이 저작권 침해 결과물 생성을 방지하는 시스템을 구축한다면 이와 관련한 부정적 영향을 줄일 수 있습니다. 구글북스가 요약정보만 제한적으로 보여준 것처럼, AI 시스템도 효과적인 제한 조치를 통해 원작 대체 위험을 최소화할 수 있을 것입니다.

 

라. 저작물의 시장에 미치는 영향

 

이는 공정이용 판단에서 가장 중요한 요소로 여겨지며, AI 맥락에서 특히 복잡한 양상을 보입니다. 미국 저작권청은 단순한 직접적 대체를 넘어서 시장 희석 효과까지 고려해야 한다는 입장입니다. 직접적 시장 대체는 AI 모델이 훈련 데이터의 저작물과 실질적으로 유사한 결과물을 생성하여 원작 구매를 대체하는 경우입니다. 하지만 더 중요한 것은 시장 희석 효과입니다. AI가 생성한 수천 편의 로맨스 소설이 시장에 나오면, 훈련에 사용된 인간 작가의 로맨스 소설 판매가 줄어들 수 있습니다. 또한 스타일 모방을 통한 경쟁도 문제가 됩니다. AI 시스템이 특정 작가의 스타일을 모방하도록 프롬프트될 수 있다면, 해당 작가는 자신의 작품으로 훈련된 AI와 경쟁해야 하는 상황에 놓입니다.

라이선싱 시장의 존재도 중요한 고려사항입니다. 이미 음악, 이미지, 뉴스 등 여러 분야에서 AI 훈련용 라이선싱 시장이 형성되고 있습니다. 기업들이 고품질 데이터에 대해 상당한 라이선싱 비용을 지불하고 있다는 것은 해당 시장이 실제로 존재하고 기능한다는 증거입니다. 라이선싱이 가능한 영역에서의 저작물 무허가 이용은 공정이용 법리가 적용되는 데에 있어 불리하게 작용합니다.

 

4. 시사점

 

이번 미국 저작권청 보고서는 생성형 AI 시대의 저작권 보호와 기술 혁신 사이의 균형을 위한 중요한 이정표를 제시했습니다. 기업들은 위 보고서의 내용을 참고하여 AI 개발 과정에서 사용되는 데이터의 출처와 접근 방법을 철저히 검토하고, 훈련 데이터의 기억 방지 및 저작권 침해 출력물 차단을 위한 기술적 보호장치 구축할 필요가 있을 것으로 판단됩니다. 또한 고품질 라이선스 데이터 확보를 통한 법적 리스크 최소화 전략 수립이 중요합니다.

 

법적 리스크 관리 측면에서는 상업적 목적의 AI 서비스에서 무허가 저작물 사용 시 공정이용 인정 가능성이 낮으며, 해적 사이트나 무단 접근을 통한 데이터 수집은 명백한 법적 위험 요소라는 점을 인식해야 합니다. 또한 출력물이 원본 저작물과 실질적 유사성을 보이는 경우 직접적인 침해 책임이 발생할 수 있다는 점을 유의할 필요가 있습니다.

 

국내 기업은 AI 프로젝트 진행 시 저작권 위험 평가 체크리스트를 구성함에 있어 우리나라 대법원이 인정하는 공정이용 법리를 고려하되, 미국 저작권청이 제시한 공정이용 4요소별 판단 기준을 국내 저작권법 체계에 맞게 해석하여 적용할 필요가 있을 것으로 보입니다. 또한 글로벌 서비스를 제공하는 경우 각국의 저작권법 차이를 반영한 지역별 대응 전략도 마련해야 할 것입니다.

 

이번 보고서는 AI와 저작권에 관한 국제적 규제 동향의 방향성을 시사하고 있습니다. 미국이 공정이용 법리를 통한 균형점 모색에 나선 만큼, 국내에서도 AI 발전과 창작자 보호의 조화를 위한 정책적 논의가 활발해질 것으로 예상됩니다. 따라서 기업들은 단순한 법적 대응을 넘어서 산업계 전체의 자율규제 체계 구축에도 적극 참여하여 건전한 AI 생태계 조성에 기여해야 할 것입니다.

 

화우 AI센터는 AI와 관련한 지식재산, 개인정보, 정보보안, 공정거래, 제조물책임, 입법컨설팅, 쟁송 등 모든 법적 영역에서 축적된 경험과 노하우를 기반으로 기업 고객을 위한 최적의 솔루션을 안내해드리고 있습니다. AI와 관련하여 문의사항이 있으신 경우 언제든지 화우에 연락하여 주시기 바랍니다.

관련 분야
#AI센터