Llama와 DeepSeek은 오픈소스일까? - OSI의 ‘오픈소스 AI 정의’를 중심으로
(이철남 교수(충남대학교 법학전문대학원)
최근 빠르게 발전하고 있는 AI 생태계 내에서 개방형 모델에 대한 요구가 점차 커지고 있다. 특히 오픈소스 소프트웨어의 성공 경험을 통해 AI 분야에서도 투명성, 원활한 재사용 및 협업적 개선과 같은 동일한 이점을 누릴 수 있도록 오픈소스 AI에 대한 요구가 증가하고 있다. 그런데 AI 시스템의 고유한 특성(모델, 가중치, 데이터 포함)을 고려할 때, 전통적인 오픈소스 정의를 AI 구성 요소에 적용하는 데 어려움이 있다. 이러한 맥락에서 최근 오픈소스 이니셔티브(Open Source Initiative, 이하 ‘OSI’)에서 발표한 오픈소스 AI 정의 1.0은 오픈소스 AI에 대한 지침을 제공함으로써 투명하고 윤리적인 AI 개발의 중요한 이정표를 제시한다.
오픈소스 AI 정의 1.0
오픈소스 AI 정의 1.0에 따르면, AI 시스템이 오픈소스로 간주되려면 사용자에게 다음과 같은 네 가지 필수적인 자유를 부여해야 한다.1 첫째, 어떤 목적으로든 허가 없이 시스템을 사용할 수 있는 자유. 둘째, 시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있는 연구의 자유. 셋째, 출력을 변경하는 것을 포함하여 어떤 목적으로든 시스템을 수정할 수 있는 자유. 넷째, 수정 여부와 관계없이 어떤 목적으로든 다른 사람과 시스템을 공유할 수 있는 자유.
이러한 자유를 행사하기 위한 전제 조건은 시스템을 수정하는 데 필요한 기본 형태에 접근할 수 있어야 한다는 것이다. 특히 머신러닝 시스템의 경우, 수정에 필요한 기본 형태는 다음 요소를 모두 포함해야 한다.
(1) 데이터 정보
숙련된 사람이 실질적으로 동등한 시스템을 구축할 수 있도록 시스템 학습에 사용된 데이터에 대한 충분히 상세한 정보를 제공해야 한다. 이 정보는 OSI 승인된 라이선스 조건으로 제공되어야 한다. 여기에는 공유할 수 없는 데이터를 포함한 모든 학습 데이터에 대한 완전한 설명, 데이터 출처, 범위 및 특성, 데이터 수집 및 선택 방법, 레이블링 절차, 데이터 처리 및 필터링 방법론이 포함된다. 데이터 정보에 대한 이러한 상세한 요구 사항은 AI 모델 학습에 사용된 데이터의 투명성을 강조하며, 진정한 개방성과 재현성을 달성하는 데 중요하다.
(2) 코드
시스템을 학습하고 실행하는 데 사용된 완전한 소스 코드. 코드는 데이터 처리 및 필터링 방법과 학습 방법을 완벽하게 명시해야 하며, OSI 승인된 라이선스로 제공되어야 한다. 예를 들어, 데이터 처리 및 필터링 코드, 인수 및 설정을 포함한 학습 코드, 유효성 검사 및 테스트 코드, 토크나이저와 같은 지원 라이브러리 및 하이퍼파라미터 검색 코드, 추론 코드 및 모델 아키텍처가 포함될 수 있다.
(3) 가중치(Weights)
모델 가중치 및 기타 구성 설정. 주요 단계의 학습 체크포인트. 최종 옵티마이저 상태. 모든 파라미터는 OSI 승인된 라이선스 조건으로 제공되어야 한다.
Llama와 DeepSeek의 라이선스, 데이터 정보 등
(1) Llama
Meta의 Llama 모델은 Llama 커뮤니티 라이선스 계약에 따라 라이선스가 부여된다.2 주요 내용을 살펴보면, Llama Materials(모델, 코드, 문서)의 사용, 복제, 배포, 파생 저작물 생성 및 수정에 대한 권한을 허용하지만, 재배포에는 라이선스 사본 제공, "Built with Llama" 또는 "Built with Meta Llama 3" 속성 고지 유지 등의 조건이 있다. 특히 주목할 만한 제한 사항은 월간 활성 사용자 수가 7억 명을 초과하는 사용자는 Meta로부터 추가 라이선스를 받아야 한다는 "추가 상업 조건"이다. 또한 Llama 모델 또는 그 출력을 사용하여 다른 대규모 언어 모델(Llama 자체 또는 그 파생 저작물 제외)을 개선하는 것은 금지되어 있다. 이러한 점에서 오픈소스 정의(Open Source Definition)를 기준으로 하는 OSI의 승인을 받기는 어려워보인다.
학습 데이터에 대해서는 Llama 2가 Common Crawl, Wikipedia, 서적(Books)을 포함하여 약 2조 개의 토큰으로 구성된 공개적으로 사용 가능한 온라인 데이터의 혼합으로 학습되었다는 정보가 제공된다. 그러나 오픈소스 AI 정의에서 요구하는 데이터 출처, 범위, 특성 및 처리 방법론에 대한 세부 정보는 제공되지 않는다. 요약하자면, Meta는 학습 데이터 출처에 대한 상당한 투명성을 제공하고 모델 코드와 가중치를 공개하지만, 데이터에 대한 세부 정보 수준과 사전 학습 프로세스에 대한 정보는 오픈소스 AI 정의 1.0의 엄격한 요구 사항을 충족하지 못한다.
(2) DeepSeek
DeepSeek 모델의 코드와 모델 가중치는 Hugging Face 및 GitHub와 같은 플랫폼에서 사용할 수 있다. DeepSeek 모델의 코드는 대체로 MIT 라이선스로 제공되지만, 모델은 별도의 DeepSeek 라이선스가 적용될 수 있다. 예를 들면 DeepSeek-R1은 코드와 가중치 모두에 대해 MIT 라이선스를 사용한다. 3 반면 DeepSeek-V3의 경우 코드는 MIT 라이선스로 제공되지만,4 모델의 경우 사용 제한 사항을 포함하고 파생 저작물에 해당 제한 사항을 포함하도록 요구하는 DeepSeek License Agreement에 의해 배포된다. 5 일부 증류된 DeepSeek 모델은 Apache 또는 Llama 라이선스하에 있을 수 있으며, 각 라이선스는 자체 제한 사항을 가지고 있다.6 오픈소스 커뮤니티 내에서는 DeepSeek-R1이 특히 학습 데이터 정보 및 학습에 사용된 코드의 가용성과 관련하여 OSAID를 완전히 준수하는지 여부에 대한 논의가 진행 중이다.7
DeepSeek의 학습 데이터에 대한 정보는 DeepSeek-V3가 14.8조 개의 토큰으로 구성된 방대한 데이터 세트로 학습되었다는 점을 포함하여 제공된다. DeepSeek-R1의 학습에는 강화 학습과 일부 콜드 스타트 데이터가 포함되었지만, 사용된 데이터 세트의 세부 정보는 투명하지 않다. OSAID의 주요 요구 사항인 학습 데이터의 출처, 범위, 특성 및 처리 방법론에 대한 자세한 정보는 부족하다. DeepSeek 모델을 실행하고 활용하는 것과 관련된 일부 코드는 사용할 수 있지만, 데이터 처리 및 필터링을 포함한 사전 학습 프로세스의 완전한 소스 코드는 공개되지 않을 수 있다.
Llama와 DeepSeek은 오픈소스 AI로 볼 수 있는가?
전반적으로 Llama와 DeepSeek 모두 오픈소스 AI 정의 1.0의 엄격한 기준을 완전히 충족하지는 못한다. Llama와 DeepSeek-V3의 라이선스에 있는 상업적 제한 및 사용 제한은 OSI 요건을 충족하기 어려워 보인다. MIT 라이선스를 사용하는 DeepSeek-R1은 라이선스 측면에서 오픈소스 정의를 충족할지라도 학습 데이터 투명성 측면에서는 부족한 부분이 많다. Llama 또한 학습데이터의 투명성 측면에서 여전히 부족하다.
하지만, 이와 같은 평가가 Llama와 DeepSeek가 갖는 장점을 부정하는 것은 아니다. 라이선스 조건만 충족한다면 누구나 무료로 자유롭게 쓸 수 있다는 점은 ChatGPT 등과 비교할 때 너무나 큰 매력이 있다. 그러한 점에서 누군가 Llama와 DeepSeek을 오픈소스라고 부르는 것에 대해 괜히 반대하고 싶은 마음은 없다. 오픈소스 AI 정의는 바람직한 방향을 제시하고 있을 뿐이다. 치열한 AI 경쟁 환경에서 각자 최선의 선택을 할 뿐이다.
[1] https://opensource.org/ai/open-source-ai-definition 참조.
[2] https://github.com/meta-llama/llama3/blob/main/LICENSE
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE
[4] https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-CODE
[5] https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL
[6] https://www.blackduck.com/blog/deepseek-license.html
[7] https://discuss.opensource.org/t/deepseek-r1-does-it-conform-to-osaid/798/2