생성형 AI의 학습데이터 공개를 둘러싼 논의 동향
이 철 남 교수 (충남대 법학전문대학원)
생성형 AI의 투명성 및 저작권 보호 관점에서 학습데이터 관련 정보의 공개는 매우 중요하다. 특히 LLM의 경우 학습데이터 공개를 통해 AI 시스템의 신뢰성을 높일 수 있으며, 데이터의 편향을 식별하고 수정할 기회를 제공함으로써 공정성을 증진할 수 있다. 반면, 학습데이터 관련 정보는 AI 기업의 핵심 자산으로 간주되며, 이를 공개하는 것은 경쟁력 약화로 이어질 수 있다는 점, 학습데이터에 포함된 저작권 등의 침해 문제로 소송 위험을 증가시킬 수 있다는 등의 우려 때문에 현실적으로 대부분의 AI 기업들은 학습데이터 관련 정보 공개에 소극적이다.
1. 오픈소스 AI에서 정의하는 데이터셋 제공이란
오픈소스 이니셔티브(Open Source Initiative, OSI)는 오픈소스 소프트웨어의 핵심 가치를 AI 시스템에 적용하기 위해 오픈소스 AI의 정의를 정립하고 있다. 오픈소스 AI는 단순히 소스 코드의 공개를 넘어 AI 시스템을 구성하는 모든 핵심 요소, 즉 데이터셋, 코드, 모델 파라미터 등에 대한 자유로운 접근, 사용, 연구, 수정 및 공유를 포괄하는 개념이다. AI시스템의 구성 요소 중 데이터셋, 코드, 모델 파라미터까지 개방하는 것은 AI 개발 패러다임의 중요한 전환을 의미한다. 과거 '오픈소스'가 주로 소프트웨어 코드의 공개를 지칭했다면, AI 시대에는 데이터가 모델의 성능과 특성을 결정짓는 핵심 요소로 부상하면서 데이터의 개방 없이는 진정한 의미의 오픈소스 AI를 논하기 어렵게 되었다.
오픈소스 AI의 정의에 따르면 오픈소스 AI로 인정받기 위해서는 숙련된 사용자가 해당 정보를 바탕으로 실질적으로 동등한 시스템을 구축하거나 재현할 수 있을 만큼 학습 데이터에 대한 충분하고 상세한 정보를 제공해야 한다. 예를 들면 데이터의 출처(provenance), 데이터의 범위 및 특성, 데이터 수집 및 선택 방법, 레이블링 절차, 데이터 처리 및 필터링 방법론 등이 포함된다.
OSI가 제시하는 오픈소스 AI의 네 가지 자유, 특히 "연구의 자유"와 "수정의 자유"는 학습 데이터셋에 적용될 때 전통적인 데이터 공유 방식을 훨씬 뛰어넘는 수준의 근본적인 투명성을 요구한다. 단순히 데이터에 접근하는 것을 넘어, 데이터의 전체 생명주기, 즉 출처, 수집 과정, 선택 기준, 레이블링 방법, 그리고 전처리 과정까지 상세히 파악할 수 있어야 진정으로 모델이 어떻게 학습되었는지 연구하고 효과적으로 수정할 수 있기 때문이다. 이는 허용적인 라이선스로 데이터셋을 공개하는 것만으로는 충분하지 않으며, 포괄적인 문서화가 오픈소스 AI의 정신을 충족시키기 위한 필수 요소임을 시사한다.
또한, OSI가 공유 불가능한 데이터에 대해서도 상세한 "데이터 정보"를 요구하는 점은, 원본 데이터를 공개할 수 없는 경우에도 일정 수준의 개방성을 확보할 수 있는 경로를 제시한다. 예를 들어, 민감한 의료 기록이나 독점적인 산업 데이터와 같은 경우는 직접적인 공유가 불가능할 수 있다. 이러한 상황에서 상세한 데이터 설명은 투명성을 증진시키는 역할을 할 수 있다.
2. 데이터셋 관련 정보의 공개를 법적으로 강제할 것인가?
OSI의 오픈소스 AI 정의는 개발 생태계에서의 자율적인 준수를 전제로 하고 있을 뿐이며, 법적인 강제사항은 아니다. 그런데 일부 국가 또는 지역에서는 AI의 학습데이터 관련 정보의 공개를 법적으로 강제하고 있다.
대표적으로 유럽연합 AI법은 범용 AI 모델 제공자들에게 모델 학습에 사용된 데이터에 대한 충분히 자세한 요약문(a sufficiently detailed summary about the content used for training)을 작성하고 공개하도록 요구하고 있다. 학습데이터의 요약문 작성을 위한 템플릿은 AI사무소가 제공해야 한다. 지난 2월에 공개된 템플릿 초안에는 데이터셋에 관한 다음과 같은 정보를 요구한다.
(1) 일반 정보 :
⦁ 제공자 이름, 연락처, 모델 식별자를 포함한 모델 및 제공자 식별 정보
⦁ 출시일 및 지식 차단 날짜
⦁ 텍스트 데이터의 토큰 수 또는 이미지 데이터의 이미지 수와 같은 전체 학습 데이터 크기, 양식 및 특성
(2) 데이터 소스 목록 :
⦁ 전체 양식식별(per modality) 크기 및 주요 데이터 세트 목록을 포함한 공개적으로 접근 가능한 데이터 세트
⦁ 권리 보유자가 라이선스를 부여한 데이터와 다른 제3자로부터 획득한 데이터를 상세히 기술하는 제3자의 비공개 데이터 세트
⦁ 전체 양식별 크기 및 크롤러 식별을 포함하여 온라인 소스에서 크롤링 및 스크랩한 데이터
⦁ 전체 양식별 크기 및 서비스 / 제품 목록을 포함하여 제공자가 수집한 사용자 제공 데이터
⦁ 전체 양식별 크기 및 AI모델 이름을 포함한 자체 생성 합성 데이터 세트
⦁ 전체 양식별 크기 및 획득 방법을 상세히 기술하는 기타 수단을 통해 획득한 데이터
(3) 관련 데이터 처리 측면 :
⦁ 저작권 및 관련 권리를 존중하기 위해 구현된 조치(권리가 예약된 콘텐츠의 식별 및 제거 포함)
⦁ 원치 않는 콘텐츠의 제거(원치 않는 것으로 간주되는 콘텐츠 및 이러한 콘텐츠를 방지하거나 제거하기 위해 취해진 조치 설명)
템플릿과 관련 지침은 2025년 2분기에 EU 집행위원회에서 채택될 예정이며, 범용 AI 규칙은 2025년 8월 2일부터 효력이 발생한다. 다만, 2025년 8월 2일 이전에 이미 시장에 출시된 GPAI 모델에 대해서는 2년간의 유예 기간이 제공된다.
미국에서는 아직까지 연방 차원의 입법은 이루어지지 않았지만, 캘리포니아주는 2024년 9월 관련 법안이 만들어졌다. 이 법안은 AI 시스템 또는 서비스 개발자가 인터넷 웹사이트에 생성형 AI를 학습하는 데 사용된 데이터셋에 대한 개략적인 요약문(a high-level summary of the datasets)을 게시하도록 요구한다.
- 데이터셋의 출처 또는 소유자
- 데이터셋이 AI 시스템의 의도된 목적을 어떻게 발전시키는지에 대한 설명
- 데이터셋에 포함된 데이터 포인트 수
- 데이터셋 내 데이터 포인트의 유형에 대한 설명(레이블이 포함된 데이터셋의 경우 사용된 레이블 유형을 의미하며, 레이블이 없는 데이터셋의 경우 일반적인 특성을 나타냄)
- 데이터셋에 저작권, 상표 또는 특허로 보호되는 데이터가 포함되어 있는지, 또는 데이터셋이 전적으로 퍼블릭 도메인에 있는지 여부
- 개발자가 데이터셋을 구매했는지 또는 라이선스를 받았는지 여부
- 데이터셋에 개인 정보가 포함되어 있는지 여부
- 데이터셋에 (aggregate) 소비자 정보가 포함되어 있는지 여부
- 개발자가 데이터셋을 정리, 처리 또는 기타 수정했는지 여부
- 데이터셋의 데이터가 수집된 기간
- AI 시스템 개발 중에 데이터셋이 처음 사용된 날짜
- 생성형 AI시스템 개발 과정에서 합성 데이터 생성을 사용했는지 또는 지속적으로 사용하는지 여부
3. 시사점
AI의 투명성 관점에서 학습데이터 관련 정보를 공개하는 것은 매우 바람직하다. 그런데 투명성의 관점에서 학습데이터 공개가 바람직한 반면, AI개발 및 서비스 제공자의 입장에서는 영업 비밀 및 정보 보호, 관련 정보 수집의 한계, 개발 비용 증가 등의 문제로 학습데이터 관련 정보의 공개를 꺼리게 된다. 그에 따라 학습데이터 관련 정보 공개를 법률로써 강제할 것인지, 어느 범위까지 공개하도록 요구할 것인지 등에 대해서는 아직 전세계적인 컨센서스가 있다고 보기 어렵다. 유럽연합, 그리고 미국의 일부 주(캘리포니아 등)에서 학습데이터 관련 정보의 공개를 요구하는 법률이 제정되었지만, 아직 구체적으로 시행되기 전이며, 공개를 요구하는 관련 정보의 범위도 데이터셋 등의 요약문(summary) 정도이며, 개별 데이터에 관한 구체적인 정보를 요구하는 수준은 아니다.
우리나라의 경우 인공지능 기본법 제정 과정에서 학습데이터 공개에 관한 쟁점이 치열하게 논의되었지만, 2025년 1월 공표된 “인공지능 발전과 신뢰 기반 조성 등에 관한 기본법”에는 학습데이터의 공개에 관한 내용은 포함되지 않았다. 그럼에도 불구하고 관련 논의는 지속될 것으로 보인다. 유럽 등 데이터 관련 정보의 공개를 강제하는 국가에서의 시행 상황을 살펴보고 조심스럽게 접근해가길 기대한다.