본문으로 가기

오픈소스 SW동향

오픈소스SW 동향 상세
[해외법률자료] 데이터 정보의 개념 설명
  1. 작성일 :
  2. 2025.03.31
  3. 작성자 :
  4. 관리자
  5. 조회수 :
  6. 28

2025.03.31


[원문]


Explaining the concept of Data information

There seems to be some confusion caused by the concept of Data information included in the draft v0.0.8 of the Open Source AI Definition. Some readers may have seen the original dataset included in the list of optional components and quickly jumped to the wrong conclusions. This post clarifies how the draft arrived at its current state, the design principles behind the Data information concept and the constraints (legal and technical) it operates under.


The objective of the Open Source AI Definition

The objective of the Open Source AI Definition is to replicate in the context of artificial intelligence (AI) the principles of autonomy, transparency, frictionless reuse, and collaborative improvement for end users and developers of AI systems. These are described in the preamble.


Following the preamble is the definition of Open Source AI, an adaptation of the definition of Free Software (also known as “the four freedoms”) to AI nomenclature. The preamble and the four freedoms have been co-designed over several meetings and public discussions, online and in-person, and have not recently received significant comments.


The Free Software definition specifies that a precondition to the freedom to study and modify a program is to have access to the source code. Source code is defined as “the preferred form of the program for making changes in.” Draft v0.0.8 contains a description of what’s necessary to enjoy the freedoms to study and modify an AI system. This new section titled Preferred form to make modifications to machine-learning systems has generated a heated debate.


What is the preferred form to make modifications

The concept of “preferred form to make modifications” focuses on machine learning systems because these systems require data and training to produce a working system. Other AI systems are more easily classifiable as software and don’t require a special definition.


The system analysis phase of the co-design process revealed that studying and modifying machine learning systems requires data, code for training and inference and model parameters. For the parameters, there’s no ambiguity: an Open Source AI must make them available under terms that respect the Open Source principles (no field-of-use restrictions, no discrimination against people, etc). For the data and code requirements, the text in the “preferred form to make modifications” section is longer and harder to parse, generating some confusion.


The intent of the code and data requirements is to ensure that end users, deployers and developers of an Open Source AI system have all the tools and instructions to recreate that AI system from scratch, to satisfy the freedoms to study and modify the system. At a high-level view, it makes sense to suggest that training datasets should be mandatorily released with permissive licenses in order to be Open Source AI.


However on close examination, it became clear that sharing the original datasets is full of traps. It actually puts Open Source at a disadvantage compared to opaque and proprietary AI systems.


The issue with data

Data is not software: The legal landscape for data is much wider than copyright. Aggregating large datasets and distributing them internationally is an endless nightmare that includes privacy laws, copyright, sui-generis rights, patents, secrets and more. Without diving deeper into legal issues, let’s focus on practical examples to clarify why the distribution of the training dataset is not spelled out as a requirement in the concept of Data information.


The Pile, the open dataset used to train the very open Pythia models, was taken down after an alleged copyright infringement, currently being litigated in the United States. However, the Pile appears to be legal to share in Japan. It’s also unclear whether it can be legally shared in the European Union.

DOLMA, the open dataset used to train the very open OLMo models, was initially released with a restrictive license. It later switched to a permissive one. On further inspection, DOLMA appears to suffer from the same legal uncertainties of the Pile, however the Allen Institute has not been sued yet.

Training techniques that preserve privacy like federated learning don’t create datasets.

All these cases show that requiring the original datasets creates vagueness and uncertainty in applying the Open Source AI Definition:


If a dataset is only legal in Japan, is that AI Open Source only in Japan?

If a dataset is initially legally available but later retracted, does the AI go from being Open Source to not?

If so, what happens to the applications that use such AI?

If no dataset is created, then will any AI trained with such techniques ever be Open Source?

Additionally, there are reasons to believe that OpenAI, Anthropic and other proprietary systems have been trained on the same questionable data inside The Pile and DOLMA: Proving that’s the case is a lot harder and expensive though. This is clearly a disincentive to be open and transparent on the data sources, adding a burden to the organizations that try to do the right thing.


The solution to these questions, draft v0.0.8 contains the concept of Data information, coupled with code requirements to obtain the expected result: for end users, developers and deployers of AI systems to be able to reproduce an Open Source AI.


Understanding the concept of Data Information

Data information, in the draft Open Source AI Definition, is defined as:


Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data.


Read that from the end: The intention of Data information is to allow developers to recreate a substantially equivalent system using the same or similar data. That means that an Open Source AI must disclose all the ingredients, where they’ve been bought and all the instructions to prepare the dish.


This is a solution that came out of the co-design process, where reviewers didn’t rank the training datasets as high as they ranked the training code and data transparency requirements.


Data information and the code requirements also address all of the questions around the legality of distributing data and datasets, or their absence.


If a dataset is only legal in Japan or becomes illegal later, one should still be able to recreate a dataset suitable to train an equivalent system replacing the illegal or unavailable pieces with similar ones.


AI systems trained with federated learning (where a dataset isn’t created) can still be Open Source AI if all instructions and code are released so that a new training with different data can generate an equivalent system.


The Data information concept also solves an example (raised on the forum) of an AI system trained on data licensed directly from Reddit. In this case, if the original developers released enough information to allow another AI developer to recreate a substantially equivalent system with Reddit data taken from an existing dataset, like CommonCrawl, it would be considered Open Source AI.


The proposed alternatives

While generally well received, draft v0.0.8 has been criticized by a few people on the forum for putting the training dataset in the “optional requirements”. Some suggestions and pushback we’ve received:


Require the use of synthetic data when the training dataset cannot be legally shared: This technique may work in some corner cases, if the technology evolves to be reliable enough. It’s expensive and untested at scale. Classify as Open Source AI systems where all their components are “open source”: This approach is not rooted in the longstanding practice of the GNU project to accept system library exceptions and other compromises in exchange for more Open Source tools. Datasets built by crawling the internet are the equivalent of theft, they shouldn’t be allowed at all, let alone allowed in Open Source AI: This pushback ignores the reality that large data aggregators already have acquired legally the rights to accumulate that same data (through scraping and terms of use) and are trading it, exclusively capturing the economic value of what should be in the commons. Read Towards a Books Data Commons for AI Training for more details. There is no general agreement that text and data mining is equivalent to theft.

These demands and suggestions are hard to accept. We need an Open Source AI Definition that can effectively guide users and developers to make the right choice. We need one that doesn’t put developers of Open Source AI at a disadvantage compared to proprietary ones. We need a Definition that contains positive examples from the start so we can practically demonstrate positive qualities to policymakers.


The discussion about data, how to generate incentives to create datasets that can be distributed internationally, safely, preserving privacy, is extremely complex. It can be addressed separately from the Open Source AI Definition. In collaboration with Open Future Foundation and others, OSI is designing a series of conferences to tackle the data governance issue. We’ll make an announcement soon.


Have your say now

The concept of Data information and code requirements is hard to grasp at first. But the preliminary results of the validation phase confirm that the draft v0.0.8 works as expected: Pythia and OLMo both would be Open Source AI, while Falcon, Grok, Llama, Mistral would not (even if they used OSD-compatible licenses) because they don’t share Data information. BLOOM and StarCoder would fail because of field-of-use restrictions in their models.


Data information can be improved but it’s better than other solutions proposed so far. As we get closer to the release of the stable version of the Open Source AI Definition, we need to hear from you: If you support this concept please comment on the forum today. If you don’t support it, please try to propose an alternative that at least covers the practical examples of Pile, DOLMA and federated learning above. Help the community move the conversation forward.


[번역본]


데이터 정보의 개념 설명

오픈 소스 AI 정의의 초안 v0.0.8에 포함된 데이터 정보 개념으로 인해 약간의 혼란이 있는 듯합니다. 일부 독자는 선택 구성 요소 목록에 포함된 원래 데이터 세트를 보고 빠르게 잘못된 결론을 내렸을 수 있습니다. 이 게시물은 초안이 현재 상태에 도달한 방식, 데이터 정보 개념의 설계 원칙 및 작동하는 제약(법적 및 기술적)을 명확히 설명합니다.


오픈소스 AI 정의의 목적

오픈 소스 AI 정의의 목적은 인공 지능(AI)의 맥락에서 자율성, 투명성, 마찰 없는 재사용 및 AI 시스템의 최종 사용자와 개발자를 위한 협력적 개선의 원칙을 재현하는 것입니다. 이는 서문 에 설명되어 있습니다 .


서문에 이어 오픈 소스 AI의 정의가 나오는데, 이는 자유 소프트웨어 (일명 "4가지 자유")의 정의를 AI 명명법에 맞게 각색한 것입니다. 서문과 4가지 자유는 여러 회의와 공개 토론, 온라인과 오프라인을 통해 공동 설계되었으며, 최근에는 의미 있는 의견을 받지 못했습니다.


자유 소프트웨어 정의는 프로그램을 연구하고 수정할 수 있는 자유의 전제 조건이 소스 코드에 대한 액세스라고 명시합니다. 소스 코드는 "변경을 위한 프로그램의 선호되는 형태"로 정의됩니다. 초안 v0.0.8에는 AI 시스템을 연구하고 수정할 수 있는 자유를 누리는 데 필요한 사항에 대한 설명이 포함되어 있습니다. 머신 러닝 시스템을 수정하는 데 선호되는 형태 라는 제목의 이 새로운 섹션은 격렬한 논쟁을 불러일으켰습니다.


수정을 하기 위해 선호하는 형태는 무엇입니까?

"수정을 위한 선호 형태"라는 개념은 머신 러닝 시스템에 초점을 맞춥니다. 이러한 시스템은 작동하는 시스템을 생성하기 위해 데이터와 교육이 필요하기 때문입니다. 다른 AI 시스템은 소프트웨어로 분류하기가 더 쉽고 특별한 정의가 필요하지 않습니다.


공동 설계 프로세스의 시스템 분석 단계에서 머신 러닝 시스템을 연구하고 수정하려면 데이터, 학습 및 추론을 위한 코드, 모델 매개변수가 필요하다는 사실이 밝혀졌습니다 . 매개변수의 경우 모호함이 없습니다. 오픈 소스 AI는 오픈 소스 원칙(사용 분야 제한 없음, 사람에 대한 차별 없음 등)을 존중하는 조건으로 매개변수를 제공해야 합니다. 데이터 및 코드 요구 사항의 경우 "수정을 위한 선호 양식" 섹션의 텍스트가 더 길고 분석하기 어려워서 혼란이 발생합니다.


코드 및 데이터 요구 사항의 의도는 오픈 소스 AI 시스템의 최종 사용자, 배포자 및 개발자가 해당 AI 시스템을 처음부터 재생성하고 시스템을 연구하고 수정할 수 있는 자유를 충족할 수 있는 모든 도구와 지침을 갖도록 하는 것입니다. 상위 수준에서 볼 때, 오픈 소스 AI가 되려면 훈련 데이터 세트를 관대한 라이선스로 의무적으로 공개해야 한다고 제안하는 것이 합리적입니다.


하지만 면밀히 살펴보면, 원래 데이터 세트를 공유하는 것은 함정으로 가득하다는 것이 분명해졌습니다. 실제로는 불투명하고 독점적인 AI 시스템에 비해 오픈 소스가 불리한 입장에 처하게 됩니다.


데이터 문제

데이터는 소프트웨어가 아닙니다. 데이터의 법적 환경은 저작권보다 훨씬 넓습니다. 대규모 데이터 세트를 모아 국제적으로 배포하는 것은 개인정보 보호법, 저작권, 특별 권리, 특허, 비밀 등을 포함하는 끝없는 악몽입니다. ​​법적 문제를 더 깊이 파고들지 않고, 데이터 정보 개념에서 훈련 데이터 세트의 배포가 요구 사항으로 명시되지 않은 이유를 명확히 하기 위해 실제 사례에 집중해 보겠습니다 .


매우 개방적인 Pythia 모델을 훈련하는 데 사용되는 오픈 데이터 세트인 The Pile은 현재 미국에서 소송 중인 저작권 침해 혐의로 삭제되었습니다. 그러나 The Pile은 일본에서 공유하는 것이 합법적인 것으로 보입니다. 또한 유럽 연합에서 합법적으로 공유할 수 있는지 여부도 불분명합니다.

매우 개방적인 OLMo 모델을 훈련하는 데 사용되는 오픈 데이터 세트인 DOLMA는 처음에는 제한적인 라이선스로 출시되었습니다. 나중에 관대한 라이선스로 전환되었습니다 . 자세히 살펴보면 DOLMA는 Pile과 동일한 법적 불확실성 으로 어려움을 겪는 것으로 보이지만 Allen Institute는 아직 소송을 당하지 않았습니다.

연합 학습처럼 개인 정보를 보호하는 훈련 기술은 데이터 세트를 생성하지 않습니다.

이 모든 사례는 원래 데이터 세트를 요구하면 오픈 소스 AI 정의를 적용하는 데 모호성과 불확실성이 발생한다는 것을 보여줍니다.


데이터 세트가 일본에서만 합법적이라면, 그 AI 오픈 소스는 일본에서만 가능한 것인가요?

데이터 세트가 처음에는 합법적으로 공개되었지만 나중에 철회된 경우, AI는 오픈 소스에서 오픈 소스가 아닌 것으로 변경됩니까?

그렇다면 그러한 AI를 사용하는 애플리케이션은 어떻게 될까요?

데이터 세트가 만들어지지 않는다면, 이런 기술로 훈련된 AI가 오픈 소스가 될 수 있을까요?

또한 OpenAI, Anthropic 및 기타 독점 시스템이 The Pile 및 DOLMA 내부의 동일한 의심스러운 데이터에서 학습되었을 것이라고 믿을 만한 이유가 있습니다. 그러나 이를 증명하는 것은 훨씬 더 어렵고 비쌉니다. 이는 데이터 소스에 대해 개방적이고 투명하게 행동하려는 의지를 저하시키는 명백한 요인이며, 올바른 일을 하려는 조직에 부담을 더합니다.


이러한 질문에 대한 해결책인 초안 v0.0.8에는 예상 결과를 얻기 위한 코드 요구 사항과 결합된 데이터 정보 라는 개념이 포함되어 있습니다 . 즉, AI 시스템의 최종 사용자, 개발자 및 배포자가 오픈 소스 AI를 재생산할 수 있어야 합니다.


데이터 정보 개념 이해

오픈 소스 AI 정의 초안에서 데이터 정보는 다음과 같이 정의됩니다.


시스템을 훈련하는 데 사용된 데이터에 대한 충분히 자세한 정보 이므로 , 숙련된 사람이 동일하거나 유사한 데이터를 사용하여 실질적으로 동일한 시스템을 재생성할 수 있습니다.


끝에서 읽어보세요: 데이터 정보 의 의도는 개발자가 동일하거나 유사한 데이터를 사용하여 실질적으로 동일한 시스템을 재생성할 수 있도록 하는 것입니다 . 즉, 오픈 소스 AI는 모든 재료, 구매 장소 및 요리를 준비하는 모든 지침을 공개해야 합니다.


이는 공동 설계 과정에서 나온 솔루션으로 , 검토자들은 학습 코드와 데이터 투명성 요구 사항보다 학습 데이터 세트의 순위를 높게 책정했습니다.


데이터 정보 와 코드 요구 사항은 데이터와 데이터세트를 배포하는 것의 합법성, 또는 그러한 것이 없는 것과 관련된 모든 문제도 다룹니다.


데이터 세트가 일본에서만 합법적이거나 나중에 불법이 된 경우에도 불법적이거나 사용할 수 없는 부분을 유사한 것으로 대체하여 동등한 시스템을 학습하는 데 적합한 데이터 세트를 재생성 할 수 있어야 합니다.


연합 학습(데이터 세트를 만들지 않음)으로 훈련된 AI 시스템도 모든 지침과 코드가 공개되어 다른 데이터로 새로운 훈련을 통해 동등한 시스템을 생성할 수 있는 경우에는 여전히 오픈 소스 AI가 될 수 있습니다 .


데이터 정보 개념은 또한 Reddit에서 직접 라이선스를 받은 데이터로 훈련된 AI 시스템의 사례(포럼에서 제기됨)를 해결합니다. 이 경우 원래 개발자가 다른 AI 개발자가 CommonCrawl과 같은 기존 데이터 세트에서 가져온 Reddit 데이터로 실질적으로 동일한 시스템을 재생성 할 수 있을 만큼 충분한 정보를 공개하면 오픈 소스 AI로 간주될 것입니다.


제안된 대안 일반적으로 호평을 받았지만, 초안 v0.0.8은 훈련 데이터 세트를 "선택적 요구 사항"에 넣었다는 이유로 포럼의 몇몇 사람들로부터 비판을 받았습니다. 우리가 받은 몇 가지 제안과 반발은 다음과 같습니다.


훈련 데이터 세트를 합법적으로 공유할 수 없는 경우 합성 데이터 사용을 요구합니다 . 이 기술은 기술이 충분히 신뢰할 수 있을 정도로 발전하면 일부 코너 케이스에서 작동할 수 있습니다. 비용이 많이 들고 대규모로 테스트되지 않았습니다.

모든 구성 요소가 "오픈 소스"인 오픈 소스 AI 시스템으로 분류합니다 . 이 접근 방식은 더 많은 오픈 소스 도구를 제공하는 대가로 시스템 라이브러리 예외 및 기타 타협을 수용하는 GNU 프로젝트의 오랜 관행에 근거 하지 않습니다 .

인터넷을 크롤링하여 구축한 데이터 세트는 절도에 해당하며, 전혀 허용되어서는 안 되며, 오픈 소스 AI에서는 더더욱 허용되어서는 안 됩니다. 이러한 반발은 대규모 데이터 수집자가 이미 스크래핑 및 이용 약관을 통해 동일한 데이터를 수집할 권리를 합법적으로 취득했으며, 이를 거래하고 공유지에 있어야 할 경제적 가치만을 독점적으로 포착하고 있다는 현실을 무시합니다. 자세한 내용은 Towards a Books Data Commons for AI Training을 읽어보세요 . 텍스트 및 데이터 마이닝이 절도와 동일하다는 일반적인 합의는 없습니다.

이러한 요구와 제안은 수용하기 어렵습니다. 사용자와 개발자가 올바른 선택을 할 수 있도록 효과적으로 안내할 수 있는 오픈소스 AI 정의가 필요합니다. 오픈소스 AI 개발자를 독점적인 AI 개발자에 비해 불리하게 만들지 않는 정의가 필요합니다. 처음부터 긍정적인 사례를 포함하여 정책 입안자에게 긍정적인 특성을 실질적으로 보여줄 수 있는 정의가 필요합니다.


데이터에 대한 논의, 국제적으로 안전하게 배포할 수 있는 데이터 세트를 생성하기 위한 인센티브를 생성하는 방법, 프라이버시를 보호하는 방법은 매우 복잡합니다. 이는 오픈 소스 AI 정의와 별도로 다룰 수 있습니다. OSI는 Open Future Foundation 및 기타 기관과 협력하여 데이터 거버넌스 문제를 해결하기 위한 일련의 컨퍼런스를 설계하고 있습니다. 곧 발표하겠습니다.


지금 의견을 말해보세요

데이터 정보와 코드 요구 사항의 개념은 처음에는 이해하기 어렵습니다. 하지만 검증 단계의 예비 결과는 초안 v0.0.8이 예상대로 작동한다는 것을 확인합니다. Pythia와 OLMo는 모두 오픈 소스 AI가 될 것이지만 Falcon, Grok, Llama, Mistral은 데이터 정보를 공유하지 않기 때문에 (OSD 호환 라이선스를 사용하더라도) 그렇지 않습니다 . BLOOM과 StarCoder는 모델의 사용 분야 제한으로 인해 실패할 것입니다.


데이터 정보는 개선될 수 있지만 지금까지 제안된 다른 솔루션보다 낫습니다. 오픈 소스 AI 정의의 안정적인 버전이 출시될 무렵, 여러분의 의견이 필요합니다. 이 개념을 지지한다면 오늘 포럼에 의견을 남겨주세요. 지지하지 않는다면 적어도 위의 Pile, DOLMA 및 연합 학습의 실제 사례를 포함하는 대안을 제안해 주세요. 커뮤니티가 대화를 발전시킬 수 있도록 도와주세요.


[원문출처] https://opensource.org/blog/explaining-the-concept-of-data-information

※ opensource.org(https://opensource.org/)에 의해 작성된 이 저작물은 크리에이티브 커먼즈 저작자표시-동일조건변경허락 4.0 국제 라이선스에 따라 이용할 수 있습니다.

  1. 첨부파일
이전글, 다음글
이전글 [해외법률자료] 오픈소스 이니셔티브, 업계 최초의 오픈소스 AI 정의 공개 발표
다음글 [해외동향] 오픈스택, 리눅스 재단 가입…”AI 시대 대비해 협업 강화”

목록