인공지능 환경에서 CCL과 오픈소스 라이선스가 갖는 의미는?
현재 국회에 상정되어 있는 저작권법 개정안[1]에는 정보분석을 위한 복제 및 전송을 허용하는 내용을 담은 조항, 일명 TDM(Text and Data Mining) 관련 조항이 포함되어 있다. 입법 취지를 살펴보면, 인공지능ㆍ빅데이터 기술 등의 발전으로 저작물등이 포함된 대량의 데이터를 활용할 필요성이 높아지고 그 분석과정에서 저작물등을 허락 없이 이용하는 경우도 늘어나고 있다는 점, 이러한 경우 현행 ‘공정이용’ 조항이 적용될 가능성은 있지만 구체적인 기준을 제시하기에는 한계가 있다. 개정안은 데이터마이닝에 대한 저작재산권 제한 규정을 명시하여, 인공지능ㆍ빅데이터 분석 과정에서의 저작권 침해의 경계선을 명확히 하는 것을 목표로 한다. 이것을 통해 관련 산업계의 예측가능성을 높이고, 또한 일정한 목적에 필요한 범위에서 적법하게 접근한 저작물에 대해서만 적용되도록 함으로써 저작권자의 권익과 균형을 꾀하고자 한다.
그런데 현재 제안된 조항이 인공지능 업계의 예측가능성을 높일 수 있는 구체적인 기준을 제시하고 있는지는 의문이다. 특히 해당 저작물에 ‘적법하게’ 접근할 수 있는 경우에 한정한다는 단서 조항의 의미가 명확하지 않다. GPT-3, HyperCLOVA, Copilot 등 자연어처리(NLP) 인공지능 모델에 활용되고 있는 데이터(셋) 사례를 통해 몇가지 쟁점을 살펴본다.
-
특별한 라이선스없이 인터넷에 공개된 저작물
GPT-3의 학습에는 Common Crawl의 데이터가 비중있게 활용되었다. Common Crawl 데이터는 인터넷 웹페이지의 텍스트 자료를 크롤링 방식을 통해 수집한 자료이다.[2]일반적으로 특별한 라이선스없이 웹페이지로 공개된 자료이더라도 저작권은 유보되어 있다. 따라서 저작권자의 허락을 받지 않고 상업적으로 이용할 경우 원칙적으로는 저작권침해에 해당한다. TDM 조항을 도입하려는 목적은 이와 같은 경우에 저작권 침해에 해당하지 않도록 하기 위함이다.
-
robots.txt 규칙
크롤링 방식을 통해 웹페이지를 수집할 때 robots.txt 규칙을 지키지 않은 경우에도 적법한 것으로 볼 것인가? Common Crawl은 robots.txt 규칙을 준수하면서 수집한 자료이므로 쟁점이 되지는 않았다. HyperCLOVA의 경우 네이버 블로그 데이터를 상당량 학습했는데, 네이버는 많은 블로그 자료에 robots.txt를 적용하여 크롤링을 통한 수집을 막고 있다. 한국어 데이터를 필요로 하는 경쟁 기업이 이것을 무시하고 네이버 블로그 자료를 수집하여 학습에 이용한다면, 이렇게 수집된 자료를 적법한 것으로 볼 수 있을까?
-
라이선스 쟁점 : CC BY SA, 오픈소스 라이선스
웹페이지에 공개된 자료에 CCL 등 특정한 라이선스가 적용된 경우, 그러한 라이선스 조건을 충족해야만 적법하다고 볼 것인가? 예를 들면 위키피디아의 경우 CC-BY-SA 조건이 적용되어 있다. 이러한 위키피디아 자료를 배포하거나 공중송신하고자 할 경우 저작자 표시를 해야 하며, CC-BY-SA와 동일한 라이선스로 배포해야 한다. 이와 같은 조건의 자료를 수집하여 학습한 인공지능 모델을 배포하고자 할 경우 저작자 표시 및 동일 라이선스조건을 준수해야 하는가? 현실적으로 이러한 조건을 지키는 것은 매우 어려울 것인데, 조건을 지키지 않은 경우에도 적법하게 접근한 것으로 볼 수 있을까?
특히 최근 자유/오픈소스 소프트웨어 분야에서 관련 논의가 활발하다. Copilot은 github에서 제공되고 있는 코드를 학습하여 만들어진 것이어서 해당 코드의 라이선스 위반 여부가 문제되고 있다. 특히 GPL과 같은 카피레프트 조항을 포함하는 오픈소스 라이선스로 배포되고 있는 코드의 경우, 해당 코드를 사용하기 위해서는 라이선스 준수 의무가 엄격히 요구되는 편이어서 개발자들 사이에 논란이 되고 있다. 이러한 코드들을 저작자의 허락없이 수집하여 사용하는 것이 과연 적법한 사용에 해당하는가?
-
라이선스 쟁점 : Non Commercial
실무적으로 가장 쟁점이 되고 있는 것은 비상업적 이용(Non Commercial)을 조건으로 공개된 데이터를 이용한 경우이다. CC BY NC 조건도 이 경우에 포함된다. 이러한 조건으로 공개된 데이터를 학습하여 인공지능 모델을 만들고 BSD 등의 오픈소스 라이선스로 배포하는 경우도 많다. 누군가 이것을 다운로드하여 상업적으로 이용하는 것은 적법한 것인가?
-
기타 개인정보, 초상권 등
IBM은 얼굴인식을 위한 인공지능 학습에 CCL로 공개된 얼굴 사진을 이용하였다. 비록 CCL로 공개된 사진들이긴 했지만, 사전에 동의를 구하지 않고 이용한 것에 대해 많은 비판이 있었다. 개인정보 등의 쟁점도 데이터마이닝 조항의 해석에서 고려해야 할 요소일까?
위에서 예를 든 몇개의 사례만 살펴보더라도 ‘적법하게’ 접근하는 것의 의미가 얼마나 모호한 것인지를 잘 알 수 있다. 이러한 점을 고려하여 최대한 빠르게 관련 기준을 제시해 줄 필요가 있다. 그리고 제시된 기준이 매우 엄격한 기준이라면, 과연 이와 같은 조항을 새롭게 마련하는 것이 인공지능 연구나 산업의 발전에 도움이 될 것인지에 대해서도 재고할 필요가 있다.
마지막으로 인공지능 환경에서 CCL이나 오픈소스 라이선스가 갖는 의미에 대해서도 고민해 볼 시점이다. 지난 30년여년 자유/오픈소스 소프트웨어는 독점 소프트웨어가 갖는 부작용을 극복하는데 많은 기여를 해 왔고, 그 과정에서 오픈소스 라이선스는 중요한 도구로 기능했다. 만약 Copilot과 같은 인공지능 모델이 독점 소프트웨어의 전철을 밟아간다면 오픈소스 라이선스는 여전히 지난 시기의 역할을 해낼 수 있을까?
[1]저작권법 개정안 제43조(정보분석을 위한 복제ㆍ전송) ① 컴퓨터를 이용한 자동화 분석기술을 통해 다수의 저작물을 포함한 대량의 정보를 분석(규칙, 구조, 경향, 상관관계 등의 정보를 추출하는 것)하여 추가적인 정보 또는 가치를 생성하기 위한 것으로 저작물에 표현된 사상이나 감정을 향유하지 아니하는 경우에는 필요한 한도 안에서 저작물을 복제ㆍ전송할 수 있다. 다만, 해당 저작물에 적법하게 접근할 수 있는 경우에 한정한다.
② 제1항에 따라 만들어진 복제물은 정보분석을 위하여 필요한 한도에서 보관할 수 있다.
|