본문으로 가기

오픈소스 SW동향

오픈소스SW 동향 상세
[기고문] 생성형 AI 모델과 오픈소스 라이선스
  1. 작성일 :
  2. 2023.11.17
  3. 작성자 :
  4. 박준석
  5. 조회수 :
  6. 1907

생성형 AI 모델과 오픈소스 라이선스 –이철남 교수(충남대학교)

생성형 AI 모델은 여전히 많은 변화를 겪고 있고 다양한 쟁점들을 제기하고 있다.
오픈소스 라이선스와 관련된 몇가지 쟁점들을 살펴보자.

OpenAI 등 대부분의 기업들이 그들의 AI 모델에 대한 소스코드를 공개하지 않고 폐쇄적으로 서비스를 제공하고 있는 가운데 몇몇 기업들이 AI 모델에 대한 소스코드를 공개하고 있다. 대표적으로 Stability AI가 내놓은 Stable Diffusion을 들 수 있고, 최근 메타도 Llama 2의 소스코드를 공개했다. 그런데 온라인 커뮤니티에서는 이와 같은 AI 모델이 과연 오픈소스에 해당하는지에 대한 논쟁이 벌어지고 있다. 논쟁의 핵심은 이들이 사용하는 라이선스가 오픈소스정의(Open Source Definition)를 충족하는지의 여부이다.

Stable Diffusion 모델의 라이선스는 CreativeML Open RAIL-M 이다.1 이 라이선스는 기본적으로 Permissive 라이선스의 형태를 취한다. 의무사항으로는 배포시 저작권 정보를 유지할 것과 라이선스 사본을 첨부할 것, 수정했을 경우 수정 사항을 표시할 것을 요구하는 등 Apache 2.0 정도의 요구사항을 포함하고 있다.2 다만 생성형 모델의 투명성과 책임을 강조하면서 특정한 영역에서 AI 모델의 사용을 제한하는 내용을 포함하고 있다.3 사용이 제한되는 구체적인 영역은 Attachment A에 규정되어 있다. 예를 들면 법령을 위반하는 경우, 미성년자를 착취하는 등 해를 가하는 경우, 허위 정보/콘텐츠를 생성하거나 유포하는 경우, 타인의 명예를 훼손하는 경우, 개인이나 집단을 차별하는 경우, 의학적 조언 또는 해석을 제공하는 경우, 프로파일링 등 사법적 영역에서 사용하는 것 등을 금지하고 있다.4

Llama 2가 사용하는 라이선스는 Llama 2 Community License이다.5 배포시 의무사항으로는 저작권 정보와 Llama 2가 동 라이선스에 의해 배포된다는 내용을 표시하고 라이선스 사본을 제공할 것 등 모든 오픈소스 라이선스들이 공통적으로 요구하는 사항을 담고 있다.6 그런데 여기에 추가하여 몇가지 제한 사항을 두고 있다. 예를 들면 Llama 및 그 결과물 등을 (Llama를 제외한) 다른 대규모 언어모델(LLM)을 개선하는데 사용할 수 없다는 제한이다.7 그리고 월 이용자수가 7억 명보다 많을 경우에는 메타로부터 라이선스를 받아야 한다는 추가적인 제한이 포함되어 있다.8

Stable Diffusion과 Llama 2의 라이선스는 전통적인 오픈소스 라이선스들과는 약간의 차이가 있으며, 오픈소스정의를 완전히 충족하는 것으로 보기는 어렵다. 그래서 OSI를 포함한 전통적인 오픈소스 진영에서는 특히 Llama 2를 오픈소스로 보기 어렵다고들 말한다.9 반면 OpenAI나 구글 등이 그들의 AI를 점점 폐쇄적으로 운영해가고 있는 상황에서 메타의 소스코드 공개 결정은 오픈소스 생태계에 큰 도움이 된다는 점은 부인하기 어렵다. 나아가 LLM 환경에서 과연 오픈소스가 무엇을 의미하는지에 대한 컨센서스도 이루어지지 못했다.10 ‘데이터 프로그래밍’ 환경에서 AI 모델 그 자체는 실행환경에 불과하고 학습 데이터를 소스코드로 이해하면 될까? 하지만 fine-tuning을 통해 가중치(weights)를 수정할 수 있다는 점도 고려해야 한다. 또한 학습데이터는 대부분 제3자가 권리를 가지고 있어서 개발자가 라이선스를 결정하기는 어렵다. 이러한 상황에서 데이터, 모델과 가중치 관련 라이선스 가운데 어떤 라이선스를 대상으로 오픈소스 라이선스 여부를 평가할 수 있을까? 쉽지 않은 질문이다.

마지막으로 AI 생성물의 권리관계에 관한 쟁점도 중요하다. OpenAI와 같이 상용서비스를 제공하는 경우 대부분 이용약관을 통해 결과물(Output)에 대한 권리를 사용자들에게 부여하고 있다.11 따라서 사용자들은 그 결과물을 상업적 목적으로도 활용할 수 있다. Stable Diffusion 모델이 사용하는 CreativeML Open RAIL-M의 경우처럼, 오픈소스 라이선스를 통해 사용자들이 상업적 목적을 포함하여 생성물을 자유롭게 이용할 수 있도록 허용하는 경우도 있다.12 반면 art-DCGAN의 경우 처음에는 BSD 라이선스로 배포되었지만, 사용자들이 생성물을 경매로 고가에 판매하는 것을 보고 생성물을 영리목적으로 판매할 수 없다는 조건을 추가하였다.13 AI 생성물이 학습 데이터와 매우 유사하다면 데이터 권리자도 생성물에 대한 (2차적저작물작성권 등의) 권리를 주장할 수도 있다. 그런데 최근의 AI 서비스들은 학습데이터와 동일한 결과물을 생성하지 않도록 기술적 조치를 취하고 있으며, 일정한 범위에서 저작권 침해 리스크를 책임지는 워런티를 제공하고 있다.14

1https://github.com/CompVis/stable-diffusion 참조.
2CreativeML Open RAIL-M, 4.
3CreativeML Open RAIL-M, 5.
4CreativeML Open RAIL-M, Attachment A
5https://github.com/facebookresearch/llama 참조. 모델에 대한 코드, 학습 모델의 가중치 등을 모두 포함한다.
6Llama 2 Community License, 1.b.
7Llama 2 Community License, 1.b.v.
8Llama 2 Community License, 2.
9https://blog.opensource.org/metas-llama-2-license-is-not-open-source/ 참조.
10https://www.infoworld.com/article/3706091/rethinking-open-source-for-ai.html 참조.
11https://openai.com/policies/terms-of-use 참조.
12CreativeML Open RAIL-M, 6.
13https://github.com/robbiebarrat/art-DCGAN 라이선스 참조.
14https://blogs.microsoft.com/on-the-issues/2023/09/07/copilot-copyright-commitment-ai-legal-concerns/

  1. 첨부파일
이전글, 다음글
이전글 [해외기사] 글로벌 칼럼 | 보안, 프라이버시, 그리고 생성형 AI
다음글 [국내기사] 경계현 사장 “생성형 AI 혁신 수단으로 부상…삼성, AI생태계에서 중추 역할할 것”

목록