(대략 5년만에 클리앙에 글을 남기는 순간이라 무게가 남다릅니다...)
안녕하세요. 20대때 클리앙 가입하며 뉴스 보던 공대생이 창업하고 결혼하고 애를 낳고, 어느덧 회사 6년차 대표가 되었습니다.
지난 6.25 광주 동구 ACC에서 이재명 대통령님과 마주한 2시간을 보낸 뒤, 주말 내내 그간 보내온 시간에 대한 반성과 또 앞으로 어떻게 살아가야 할지에 대해 많은 고민이 떠오르는 밤입니다.
사회를 보시던 강유정 대변인께서 이제 회의를 마쳐야 한다고 10분 남짓 전부터 클로징을 하시려던 상황이라 가지고 왔던 대본이고 모고 마음이 타들어가던 차, 감사하게도 발언권을 얻어 정말 무슨 랩하듯이 말을 쏟았던것 같습니다.
가지고 와서 달달 외우던 대본도 머릿속에 사라지고, 바로 앞에서 뚫어져라 제 눈을 쳐다보시는 대통령님의 눈을 도저히 마주할 배짱이 없어 틱증상까지 도졌었네요. (나중에 영상 보고서야 알았습니다.)
광주에서 늦은나이 친구와 둘이 무모하게 창업하여, 자본도 배경도 없이, 당장 가진 기술로 돈이 되는 응용분야를 찾는다고 해매다가 마지막에 들어갔던 양돈장이 이렇게 제 삶의 메인 스토리가 될 줄은 당시에는 전혀 몰랐습니다.
하지만 그 순간 30초가량 제 머릿속에서 말하고자 했던 바는, 제가 6년간 AI모델을 개발할 능력과 40여장의 GPU를 굴리면서 여전히 AI 서비스 제공에 결정적 장벽이 되었던, '현장 데이터' 에 대한 접근성이었습니다.
떨고, 더듬고, 장황히 임기응변식으로 말하여 아무런 관심도 못받았다고 생각했는데, 너무나 많은 분들께서 영상을 봐주시고 의견을 보내주셔서 그야말로 감개무량할 따름입니다.
다만 마냥 조회수 나와서 기쁘다고 할 수 없는 것이, 데이터 파이프라인에 대한 용어에 엄청난 불신과 걱정을 가지신 분들도 댓글에만 수백건이 보이다보니, 시간이 주어졌다면 설명하고자 했을 요청에 대해 어디엔가 기록을 하고 또 의견을 구하고 싶다는 생각이 들어, 고심 끝에 클리앙에 뭔가 백업해두는 심정으로 글을 남깁니다.
이하 글은 완전히 제 주관적인 견해임을 사전에 밝힙니다.
--------------------
A. 개념
1. 데이터 파이프라인: 데이터를 전기, 수도, 가스 같은 인프라로 정의. 필요할때 언제나 활용.
2. 데이터를 모으는 사업이 아닌, 데이터를 필요할 때 언제나 사용할 수 있는 '파이프라인'을 구축하는 사업이 필요함
B. 현황
1. 데이터는 물처럼 ‘흐르고 신선해야’ 쓸 수 있다.
2. 중요한 건 양이 아니라, 실시간 현장 데이터가 지나가는 ‘파이프라인’ 구축이다.
3. Big AI는 에너지와 GPU를 너무 많이 씀. 산업에 직접 쓰기엔 비효율적: 작지만 맞춤형 소형 AI를 위한 데이터 처리에 쓰여야 한다.
C. 방법
1. 데이터 수집: 산업현장 데이터 수집체계
> 참여업체에 데이터공유에 따른 AI사용 바우처 인센티브 제공
> 원본 데이터 제공자 (농장, 공장, 시장...)에 적절한 보상이 돌아가야만 적극 참여하는 생태계가 이뤄질 것
> 이미 디지털화 된 개인정보, 건강정보 보다도, 디지털화 자체가 안되고 노하우에 머무는 산업에 우선 적용이 필요
> 이미 디지털화 된 정보들은 AI 모델을 통해 서비스 개발까지 시간문제지만, 그렇지 않은 노하우 정보들은 GPT 가 아무리 발전해도 성능 개선이 없을 것 (여전히 GPT4o 는 돼지 카운팅을 틀림...)
2. 데이터 처리: 데이터센터에서 비식별화 + 라벨링
> 대규모 GPU와 파운데이션 모델들로 99% 자동화. 안전한 데이터 생산 공장 역할
(광주광역시 데이터 센터가 이 역할을 해줬으면!)
> GPU와 에너지는 이 곳에 집중되어야 함. 이 자원을 현장 문제 해결에 바로 쓰기엔 GPU와 에너지가 너무 비쌈
(사업성 X, 돼지 카운팅 하는데 H100 필요하다고 하면 평생 돈 못범)
3. 데이터 공급: 1인 기업부터 정부 기관까지 누구나 서비스 개발을 위해 사용할 수 있어야 함 (데이터 API 형태)
> 접근 조건 설계 필요 (지역 인재 채용, 서비스 지역 우선 제공 등, 데이터파이프라인 사용할꺼면 광주에 뭔가 기여해라!)
> 여기서 스타트업들이 a) 국산NPU + b) 소형AI모델 + c) 현장맞춤데이터 로 '초저가' AI를 제공해야 함
(초저가, 초고성능 산업맞춤 국산 AI 솔루션의 확대)
4. AI 서비스 제공
> 데이터 제공자들에게 최우선 제공 (전국민이 각자 생업 현장에서 물, 전기처럼 누리는 AI 서비스)
요약:
21년도 추진 되었던 데이터 댐 사업과 다르게, 데이터가 수도관처럼 항상 흐를 수 있도록
산업현장 > 데이터센터 > AI개발업체
로 연결되는 '데이터 파이프라인'이 필요
---------------------------------------
AI 개발은 뒤쳐졌지만, AI 실용화에 있어서는 대한민국이 세계 최고로 도약할 수 있기를 간절히 바랍니다.
긴 글 읽어주셔서 감사합니다.
진심으로 응원드립니다!!!
아이구 지역주민이시네요.... 응원해주셔서 감사 드립니다!! 주말마다 가족들과 수완지구 자주 놀러갑니다 ㅎㅎ
영상보고 감명받았는데 ㅎ
응원합니다
우리나라의 관료주의가 까발려지는 순간이였구요
마치 공인인증서 새로 발급받고 피씨에 오만가지 프로그램 깔아야했던 그 불편함이 공공기관 곳곳에 있죠
사람 참 힘들게하는 공무원들이 아직도 많아요
꼭 성공하시길 바랍니다
저도 광주에서 거주합니다.
돼지관련 무게측정 하시는 이야기는 자주 들었는데 클리앙에서 뵙게 되니 반갑습니다.
저도 AI쪽 관련 업무로 전향을 하려고 준비중입니다. 광주에서도 AI관련 좋은기업들이 많이 나왔으면 하는 바램이며, 사업 번창하시길 바랍니다
같은 지역주민으로서도 대한민국민으로서도 응원드립니다.
P.s. 대통령의 천천히 하시라는 말 들으신 후엔 너무나 논리적으로 말씀을 잘하셔서 머리에 쏙쏙 들어왔습니다. 글 초반에 긴장해서 더듬었다고 쓰셨길래 드리는 말씀입니다. 그 날 타운홀 미팅 중에 가장 쉽게 이해할 수 있게 잘 설명하셨어요.
중요한 대목에 중요한 제안이십니다.
약간 더듬기는 하셨지만, 저는 말씀하시려고 하는 요지를 잘 이해했습니다.
대통령님께서도 충분히 이해하셨을 거라 생각됩니다.
힘내세요.. ^^ 화이팅~
가장 귀찮지만 반드시 필요한 일이고 해결하기 위해선 무조건 인력이 들어가야 해서 인력 시 소모되는 일 부터 AI 가 시작되면 좋겠어요 . 마치 허수아비 가 사람 대신 서있었던 것 처럼요 .
응원합니다 .
대성하실 것 같습니다
정말 이런인재가 이재명 대통령이 찾는 사람 아닐까요... 실제 목소리를 내 주셔서 감사합니다....
어떤 AI 스타트업의 솔루션 소개를 받았었는데
회사 영수증, 서류 이미지를 AI로 인식해서 필요한 데이터를 뽑는다는것이었습니다.
그래서 우리 회사에 적용하려고 하면, 우리 회사 서류를 학습하는 노력이 필요하겠군요 했더니
아니라고 합니다. (?) 학습은 전혀 필요없이 시스템 연동 작업만 거치면 바로 사용한다고 합니다.
위에서 말씀하신 "현장의 데이터"가, 위에 말씀드린 AI스타트업 솔루션에게는
회사에서 흔히 사용하는 영수증, 서류 이미지들일텐데...
어떤 차이가 있어서 학습이 필요없이, 바로 AI OCR 서비스가 가능한걸까요?
AI 서비스를 개발하는 과정에만 필요하고,
서비스를 개시한 이후에는, 내부 R&D 용으로만 학습하고
실제 현장/고객의 데이터는 AI 학습용/모델 개발용으론 필요치 않고
처리를 위한 데이터로만 다뤄지는것일까요??;;
OCR, 그 중에서도 사무 문서의 글을 인식하는 문제라면, 이미 충분히 많은 양의 학습데이터가 있을 것이고, 제안받으신 서비스도 아마 대부분의 처음보는 문서 역시 OCR이 충분히 잘 되리라는 제안으로 보입니다.
처음 보는 데이터를 인식하는데 꼭 동류의 데이터를 학습시키지 않더라도 어느정도 인지를 할수 있는 것이 AI 모델의 일반화 능력이고, 이게 잘 되는 모델은 별도의 학습 없이 바로 전선에 투입될수 있겠죠.
다만 작성자님의 회사의 문서만의 독특한 양식, 컬러, 폰트등이 기존 학습데이터와 이질감이 있다면 체감 성능은 떨어질 것이고 이 간극을 매꾸기 위해 업체는 미세조정 (fine tuning)을 하여 모델이 특정 문제를 해결하는데 특화되도록 업데이트 할 것입니다. (OCR 문제에서 그럴 일은 거의 없어보입니다만...)
즉 OCR 문제 한정, 데이터의 편차가 적고, 이미 유사한 학습용 데이터가 엄청 많기 때문에 AI 모델 개발과 서비스로 응용 가능한 분야여서 제가 주장한 파이프라인 구축이 굳이 필요치 않은 분야로 생각됩니다. (물론 수집 된다면 더 강력한 OCR 모델을 개발할수 있겠죠!)
부족한 내용이나마 도움 되셨길 바랍니다. 감사합니다!
아이고 시간 내서 알려주시니 정말 감사합니다!!
데이터 유형에 따라 그럴수도 있겠네요 끄덕여집니다^^
훌륭한 기업으로 성장하길 응원합니다.
처음엔 무슨 말씀 하시나 보면서 아슬아슬 했었어요.
듣다보니 참여자 중 가장 필요한 질의를 하셨다는 생각이 들었습니다
부디 익명성을 지닌 데이터를 활용하여 의미있는 곳에 쓸 수 있으면 좋겜ㅅ어요
응원합니다
상당히 긴장하셨던걸로 보였는데, 참여자중 가장 알기 쉽고 절실하게 말씀 해주셔서 가장 기억에 남았습니다.
대통령이 이런 부분을 잘 캐치하시는 분이시니 분명히 좋은 결과가 있으리라 생각합니다~!!
와이프랑 보면서 역시 젊은 사람이 말을 잘하는구만 하면서 본 기억이 있네요
AI 생태계에 필요하신 언급을 하셔서 저도 집중하고 들었던 기억이 납니다.
중국이야 개인정보 보호에 대한 장벽이 거의 없는걸로 아니까 경쟁이 안되기는 할것 같습니다.
정책 입안자들이 너무 자리보전에만 연연해서 보수적으로 접근하지 말고
적극행정으로 속도감 있게 처리하면 문제가 좀 있더라도 피해를 보는 일이 없도록 했으면 합니다.
저희 일본 파트너사가 우마(말) 등 Vision AI 등으로 건강상태 등 체크하는 사업 협의한다고 들었는데, 대표님 회사가 아닌가요? 건승하세요!!
먼 말인지 도통 모르겠습니다
말씀해주셔서 너무 감사합니다!
말씀하신것처럼 각종 공공데이터로 국내에서도 경제력있는 AI서비스들을 많이 만들수 있을거 같아요. 예를들어 개별 차량수준의 운행데이터나 전체 도시수준의 통행데이터도 활용도가 높을거 같아요
목표와 방향 계획이 명확해서 이재명 대통령이 아주 마음에 들어할 인재시네요 ㅎㅎㅎㅎ
라고 하면서 봤습니다.
클량에 본인이 등판하시다니... ㄷㄷㄷ
긍정적인 효과와 결과가 나기를 기원합니다.
화이팅!!!