본문으로 가기

오픈소스 SW동향

오픈소스SW 동향 상세
[기고] 인공지능 코딩과 저작권, 그리고 오픈소스
  1. 작성일 :
  2. 2021.10.27
  3. 작성자 :
  4. ossf
  5. 조회수 :
  6. 654




  오픈소스SW 라이선스 전문가 기고문
  



  

인공지능 코딩과 저작권, 그리고 오픈소스

이철남 교수(충남대학교 법학전문대학원)

이철남 교수

지난 수년간 저작권법 분야의 가장 뜨거운 이슈는 인공지능 창작물에 관한 것이다. 그림, 음악, 소설 등 전통적으로 인간만이 창작해 오던 것을 인공지능이 만들어내고 있는데, 그와 같은 AI 창작물을 저작권으로 보호해야 하는지, 보호한다면 저작자는 누구로 보아야 할지 등의 문제이다. 최근 마이크로소프트가 프로그램 코딩을 자동으로 완성하는 AI를 발표하면서 이제 소프트웨어 분야에서도 인공지능 창작에 관한 논의가 본격적으로 필요한 시점이다. 특히 AI의 학습에 다수의 오픈소스 소프트웨어가 활용되면서 라이선스에 관한 쟁점도 풀어야 할 숙제이다. 단시간에 정리될 문제는 아니기에 이 글에서는 관련 쟁점을 소개하는 정도에 그친다. GitHub Copilot은 2021년 6월 발표된 인공지능 코딩 툴이다. MS의 비주얼 스튜디오에서 플러그인 형태로 작동하는데, 프로그래머가 에디터에 원하는 기능을 주석으로 기술하면 AI가 코딩을 완성해 준다. 파이썬, 자바스크립트, 고(Go), 루비 등의 다양한 언어를 지원한다. 현재는 프리뷰 형태로 무료로 제공되고 있는데, 향후 유료 모델이 나올 예정이다. Copilot은 Codex를 기반으로 하고 있다. Codex는 OpenAI의 자연어 생성 모델인 GPT-3를 프로그램 코드를 작성하도록 변형한 버전이다. 학습에는 다양한 공개 코드가 사용되었으며, 특히 GitHub에 저장된 코드가 상당수 활용된 것으로 보인다. 그렇다면 Copilot의 저작권 쟁점에 대해 살펴보자.

완성된 프로그램의 저작권과 저작자
먼저 Copilot을 이용하여 완성한 프로그램의 저작권에 관한 문제이다. 현재의 저작권법은 인간이 창작한 작품만 저작권 보호를 받는다. 프로그래머가 직접 코딩한 부분에 대해서는 저작권 보호를 받을 수 있고, 완성된 프로그램 전체에서도 프로그래머가 필요한 기능을 선택, 배열, 구성한 부분에 창작성이 있으면 저작권 보호를 받는다. 반대로 Copilot이 자동으로 생성한 부분은 저작권 보호를 받기 어렵다. 따라서 경쟁사가 자동생성 부분을 베껴서 사용하더라도 저작권 주장을 하기는 어렵다. 향후에 저작권법을 개정하여 AI가 생성한 부분도 보호를 하게 된다면, 그 부분에 대해 저작자를 누구로 해야 할지를 결정해야 한다. Copilot을 사용하고 있는 프로그래머, Copilot을 만든 마이크로소프트나 OpenAI, 학습에 사용된 코드의 프로그래머들 등이 이해관계를 가지며, 경우에 따라서는 Copilot이라는 AI를 저작자로 규정할 수도 있을 것이다.

학습에 사용된 코드의 저작권 침해 여부
인공지능을 학습하는 데에는 많은 데이터를 수집하고 복제하는 과정이 필요하며, 그와 같은 과정에서 학습데이터의 저작권 침해 여부가 문제된다. 현행 저작권법상 침해 여부가 명확하지는 않다. 개별적인 사안별로 공정사용에 해당하는지 여부를 평가해야 한다. 인공지능 기술 및 산업의 발전을 위해서 일정한 요건을 갖춘 경우에는 저작권 침해로 보지 않겠다는 저작권법 개정안이 국회에 상정되어 있다. 예를 들면 적법하게 접근할 수 있는 다수의 저작물을 포함한 대량의 정보를 분석하여 추가적인 정보 또는 가치를 생성하기 위한 것으로, 저작물에 표현된 사상이나 감정을 향유하지 않는 경우에는 필요한 한도 안에서 저작물을 복제 및 전송할 수 있도록 하고 있다.

학습에 사용된 코드의 라이선스 위반 여부
Copilot의 학습에는 상당한 양의 오픈소스 코드가 이용되었다. 그 과정에서 오픈소스 라이선스를 위반했는지의 여부도 쟁점이 되고 있다. MIT, BSD, Apache 등 Permissive 라이선스의 경우에는 (저작권 표시 등 의무사항을 충족하는 경우) 별로 문제될 것이 없어 보인다. 반면 GPL 등 Copyleft 라이선스의 경우에는 검토해야 할 쟁점들이 몇 가지 있다. 먼저 Copilot 혹은 그 결과물이 학습에 사용된 코드의 파생저작물인가, 또는 Copilot에 그와 같은 코드가 포함되어 있다고 볼 수 있는가의 여부이다. 파생저작물이라고 보기는 쉽지 않을 것 같다. 그렇다고 전혀 관련이 없다고 결론 내리기도 어렵다. 최근 자유소프트웨어재단(FSF)도 비슷한 고민들을 하고 있는 것으로 보인다.1 Copilot의 공개 리포지토리 학습이 저작권을 침해한 것인지 또는 공정 사용에 해당하는 것인지, Copilot의 결과물이 GPL 코드에 대한 저작권 침해 또는 라이선스 위반으로 볼 수 있는지의 여부를 묻고 있다. 특히 AGPL 코드를 통해 학습한 경우 Copilot이 AGPL을 위반하는지의 여부도 매우 중요하다.

오픈소스로 배포되는 AI 모델의 라이선스 관련 쟁점
Copilot이 사용하고 있는 OpenAI의 GPT-3 모델은 독점 라이선스로 배포되고 있으므로 해당사항이 없지만, 만약 AI 모델이 오픈소스로 제공될 때 그와 관련된 라이선스 문제도 쟁점이 될 수 있다. 예를 들면 AI 모델이 GPL로 배포되었을 경우 그것을 통해 만든 창작물에도 GPL이 영향을 미치는가의 여부이다. 이미지 분야에서 유사한 쟁점이 발생한 사례가 있다. art-DCGAN 모델을 BSD로 배포했었던 개발자가, 해당 모델을 통해 만든 그림이 경매를 통해 거액으로 판매되자, “해당 모델의 결과물은 영리목적으로 판매될 수 없다”는 조건을 추가한 것이다.2 BSD에 추가된 이 조건이 제대로 지켜질 수 있을지는 의문이다.

인공지능 코딩의 저작권 쟁점은 이제 시작에 불과하다. 그와 함께 오픈소스 라이선스와 관련된 다양한 질문들도 쏟아질 것이다. FSF가 던지고 있는 질문들은 그 일부에 불과할 뿐이다. 향후 이 분야에 대한 많은 논의가 진행될 수 있기를 기대한다.

  1. 첨부파일
이전글, 다음글
이전글 [해외 법률자료] 테스트케이스(test case)와 오픈소스 라이선스의 적용
다음글 [해외기사] 마이크로소프트, 자바 GC툴킷 오픈소스로 공개…JVM 메모리 상태 고급 분석 가능

목록