'언젠가 읽기' 컨텐츠는 논문이나 영문 컨텐츠 등 언젠가 읽으려고 즐겨찾기 하고선
읽지 않고 계속 미룰만한 컨텐츠를 읽고 요약하거나 소개합니다.
하버드와 구글, AI 훈련 데이터셋으로 100만 권의 공공 도메인 도서 공개
언젠가 읽기
2025. 3. 4. PM 2:30:11
Harvard과 Google, AI 학습을 위한 백만 권의 공공 도메인 서적 공개
- 배경: 인공지능(AI) 학습 데이터는 높은 비용이 소요되며, 주로 자본력이 있는 기술 기업들이 이를 활용하고 있습니다.
- 공개 계획: 하버드 대학교는 약 100만 권의 공공 도메인 서적을 공개할 예정입니다.
- 데이터셋 내용: 이 데이터셋에는 디킨스, 단테, 셰익스피어와 같은 저명한 작가들의 작품을 포함하여 다양한 장르와 언어의 서적이 포함됩니다. 이 서적들은 저작권이 만료되어 공공 도메인에 속합니다.
- 목적: AI 모델의 훈련에 필요한 광범위한 텍스트 데이터를 제공하여 AI의 학습 효율성과 정확성을 높이는 것을 목표로 합니다.
참고 자료
- AI Training Data의 중요성
- 공공 도메인의 이점
- Google의 AI 이니셔티브
[출처] Harvard and Google to release 1 million public-domain books as AI training dataset