딥시크가 GPT API 따서 데이터 빼온 정황이 발각됐답니다
이럴줄 알았네요
또, 중국이 중국했나봐요
Gpt도 데이터 무단 학습으로 말 많았는데 그놈이 그놈같습니다. 라이센스 개나줘 파밍은 Ai학습특성상...딥시크가 속임수일지는 좀 더 두고봐야겠지만 사용자 입장에서는 gpt 경쟁모델이 뛰어날수록 서로 벤치마킹해서 더 강력한 학습엔진이 나올테니 딥시크이건 아니건 뭐든 쭉쭉 나와줬음 하네요.
그냥 중국에 관한 얘기가 좋게 나오는게 싫으신것 같은데 시진핑이 개새끼인건 확실합니다. 그렇다고 해서 AI학습엔진에 데이터셋을 넣지 않아도 뛰어난 답을 찾아줄 수 있냐면 그건 아닙니다.
AI학습엔진은 더 많은 데이터를 넣어줄 수록 많은 변수를 참조한 답을 내려줍니다. AI분야는 너무 핫한 나머지 패권을 차지하고 싶어하는 대부분의 서비스가 고래처럼 넷상의 데이터를 무작위로 마이닝하여 학습을 시키고 경쟁자보다 더 빠르게 엔진을 고도화하고 싶어합니다.
GPT얘기가 나오니 양비론이라는 말이 나오는데 GPT만이 아니고 LLaMA, GEMINI, CLAUDE, COPILOT 거의 모든 서비스가 예외가 아닙니다. 데이터 무단 학습에 대한 이슈는 이미지 생성AI, 음원생성AI 분야에서 여러번 문제제기가 되었었고 생성형AI의 저작권 침해 이슈는 이미 유명합니다. StackoverFlow는 LLM이 학습하는 코드 데이터에 대해 대가를 받아야 한다고 주장했구요.
저는 딥시크가 승승장구하길 바라는것이 아니라 뛰어난 AI학습 모델이 나오길 바라는것이지 누가 잘했다 잘못했다를 따지고싶은게 아닙니다.
실제 이런 데이터 마이닝 시스템을 비판하고 자체 ai엔진을 학습시키는 개인도 많습니다. TensorFlow에 라이브러리는 다 오픈되어있고 개인의 학습 데이터 마이닝, 크롤링도 가능하니까요.
어쩌다 여기까지 얘기가 나왔는지 모르겠지만 다들 행복한 하루 보내세요. |
50억_퇴직금 |
52
0
numopillasium |
48
0
Qtizen |
9
14
막걸리좋아요 |
12
1
살포시앵기라 |
8
3