최근 IT 업계에서 일하는 친구들과 이야기하다 보면 예전과는 확실히 분위기가 달라졌어요. 모델 구조나 알고리즘 얘기보다는 데이터 품질 이야기가 훨씬 많이 나와요. 실제로 앤드류 응 교수도 좋은 데이터를 수집하고 가공하는 것이 인공지능을 만드는 과정의 80%를 차지한다 고 했잖아요.
데이터 중심 AI가 왜 이렇게 주목받게 됐을까요?
작년에 회사에서 이미지 분류 프로젝트를 진행했는데 처음엔 최신 모델을 써보려고 이것저것 바꿔가며 테스트했어요. 근데 정확도가 85%에서 도저히 올라가지 않더라고요. 그러다가 데이터를 다시 살펴보니 라벨링이 엉망이었어요. 같은 제품인데 어떤 건 A로, 어떤 건 B로 분류돼 있었죠.
데이터 정제 작업에 2주 정도 걸렸는데 모델은 그대로 두고 데이터만 다시 정리했더니 정확도가 94%까지 올라갔어요. 모델 구조 바꾸는 데 한 달 넘게 고생한 게 허무할 정도였죠.
이게 바로 데이터 중심 AI(Data-Centric AI)의 핵심이에요. 모델은 고정하고 데이터의 품질과 일관성을 높이는 데 집중하는 거죠. 실제로 구글이나 메타 같은 빅테크 기업들도 이제는 모델 개선보다 데이터 확보와 정제에 더 많은 투자를 하고 있다고 해요.
멀티모달 AI 시대... 데이터가 더 복잡해졌어요
요즘 ChatGPT나 Claude 같은 AI들 보면 텍스트만 처리하는 게 아니라 이미지도 이해하고 심지어 음성까지 처리하잖아요. 이런 멀티모달 AI는 데이터 품질 관리가 훨씬 까다로워요.
예를 들어 이미지-텍스트 쌍을 학습시킨다고 하면, 이미지와 설명이 정확히 매칭되는지, 설명이 충분히 구체적인지, 다양한 각도와 조명에서 찍은 이미지가 포함됐는지 등을 다 확인해야 해요. 한 가지 데이터만 관리하는 것보다 몇 배는 복잡하죠.
실제로 OpenAI나 Anthropic 같은 회사들이 엄청난 인력을 데이터 라벨링과 검증에 투입하는 이유가 여기 있어요. 모델이 아무리 좋아도 학습 데이터가 부실하면 제대로 된 성능을 낼 수 없으니까요.
LLM 경쟁에서도 결국 데이터 싸움이에요
GPT-4, Claude, Gemini 등 대규모 언어모델들이 경쟁하는 걸 보면 재밌는 게 하나 있어요. 모델 크기나 파라미터 수는 이제 거의 비슷한 수준이에요. 그럼 뭘로 차별화할까요? 바로 학습 데이터의 품질과 다양성이에요.
특히 한국어 같은 경우는 영어에 비해 고품질 데이터가 부족해서 더 어렵다고 해요. 그래서 네이버나 카카오 같은 국내 기업들이 자체 데이터를 활용해 한국어 특화 모델을 만드는 거고요.

메타는 왜 AI 모델을 공개했을까요?
메타가 LLaMA 같은 AI 모델 소스코드를 공개한 건 정말 영리한 전략이에요. 오픈소스로 풀면 전 세계 개발자들이 써보면서 피드백을 주잖아요. 이게 다 무료 데이터가 되는 거예요.
게다가 메타는 페이스북, 인스타그램에서 매일 생성되는 엄청난 양의 데이터를 갖고 있어요. 사용자들이 올리는 사진, 댓글, 좋아요 등이 모두 AI 학습에 활용될 수 있는 데이터죠. 이런 데이터 인프라가 있으니까 모델을 공개해도 경쟁력을 유지할 수 있는 거예요.
실제로 데이터 품질을 높이려면 어떻게 해야 할까요?
제가 프로젝트하면서 배운 몇 가지 방법을 공유하자면:
먼저 목적을 명확히 해야 해요. AI로 뭘 하고 싶은지 정확히 정의하지 않으면 필요 없는 데이터까지 모으게 되고 결국 노이즈만 늘어나요.
다양한 소스에서 데이터를 수집하는 것도 중요해요. 한 곳에서만 가져오면 편향이 생기기 쉬워요. 예를 들어 얼굴 인식 AI를 만든다면 다양한 인종, 연령, 성별의 데이터가 골고루 필요하죠.
데이터 전처리는 정말 지루하지만 꼭 필요한 작업이에요. 중복 제거, 오류 수정, 형식 통일 등을 제대로 하지 않으면 나중에 모델 성능이 들쭉날쭉해져요.
그리고 계속 업데이트해야 해요. 세상은 계속 변하니까 데이터도 그에 맞춰 새로운 걸 추가하고 오래된 건 정리해야 하죠. 특히 트렌드에 민감한 분야라면 더욱 그래요.
요즘은 합성 데이터를 만들어 쓰는 방법도 많이 연구되고 있어요. 실제 데이터가 부족하거나 민감한 정보가 포함된 경우에 유용하죠. 하지만 이것도 원본 데이터의 특성을 잘 반영해야 의미가 있어요.

결국 AI 시대의 진짜 경쟁력은 얼마나 좋은 데이터를 확보하고 관리하느냐에 달려 있는 것 같아요. 모델은 오픈소스로 공개되는 게 많지만 데이터는 각자가 만들어가야 하는 자산이니까요. 여러분도 AI 프로젝트를 시작한다면 모델보다는 데이터에 먼저 신경 써보세요. 저처럼 시행착오를 줄일 수 있을 거예요.
2025.07.08 - [IT] - AI가 뉴스를 요약해주니 편한데 가끔 이상한 말을 해요
AI가 뉴스를 요약해주니 편한데 가끔 이상한 말을 해요
매일 아침 뉴스를 확인할 때 ChatGPT나 Perplexity로 먼저 검색하는 분들이 많아졌어요. 저도 오늘 주요 뉴스 알려줘 라고 물어보면 깔끔하게 정리해주니까 시간이 절약되더라고요. 그런데 가끔 실제
qwanjk.tistory.com
'IT' 카테고리의 다른 글
| 아이맥에 외부 모니터 연결했는데 화면이 이상해요... 어떻게 해야 하나요? (7) | 2025.07.09 |
|---|---|
| 맥북 2단계 인증 설정 안 하면 정말 위험할까요? (3) | 2025.07.08 |
| AI가 뉴스를 요약해주니 편한데 가끔 이상한 말을 해요 (1) | 2025.07.08 |
| 챗봇으로 이메일 초안 작성할 때 놓치기 쉬운 보안 문제들 (5) | 2025.07.07 |
| QR 체크인이 계속 안 떠서 짜증났던 날... 브라우저 설정 하나로 해결했어요 (1) | 2025.07.06 |