제가 몸담는 제조업 연구개발분야에서 느끼는 한계는 이렇습니다
(저는 AI전문가가 아닌 단순 실험가입니다)...
A라는 제품을 만들기 위해서는 (1) 재료합성 단계, (2)소자 구현 단계로 크게 나뉩니다.
우선 제1 원리를 바탕으로 (1)과 (2)의 결과를 정확히 예측(계산)하는 것이 불가능합니다.
아주 rough하게는 예측이 되나(원래부터 가능했음), 새로운 제품 개발에 필요한 정확한 예측은 대부분 불가능합니다.
그 이유는 우선 해당 현상을 설명하는 모델 자체가 없거나 불완전하며,
모델이 있다 하더라도 정확한 계산에 천문학적 비용이 들기 때문입니다.
이로 인해 실험가가 바쁘게 하루하루 실험해가면서 해답을 찾고, 이론이나 계산은 이 실험 조건을 한정해주는
보조적인 역할하며 그 분업체계가 형성되어 있습니다.
실제 계산의 발전은 점전적으로 이루어지므로,
제품 개발의 속도도 이에 발맞추어 점진적으로 이루어지는 것이 보통의 제조업에서 보는
기술개발의 모습인것 같습니다. (물론, 정확히는 -무어의 법칙에서 보았듯- 초기의 지수함수적 성장 후
기술적 포화단계에 이르는 추세를 대체로 보입니다.)
이를 AI로 해결하기 충분한 데이타를 학습하고, 예측률을 올리는 방법이 있을 수 있습니다.
실제로 단백질 예측 정확도를 끌어올린 알파폴드가 그 성공적인 사례라고 할 수 있습니다.
그러나 실제 제가 제조업 현업자 입장에서는 것은 이게 그렇게 쉽지 않아보입니다.
(제 업종에 한정일지 아닐지는 모르겠습니다)
무엇보다 소위 암묵지라고 불리우는 방대한 지식이 있는데 이를 DB화하는데 어려움이 있기 때문입니다.
예를 들어 (1)단계만 하더라도 시약선정부터 수많은 실험장비들의 다양한 측정/제조 조건들이 포함하면
예를들어 30~50단계가 될 것입니다.
그런데 각 단계마다 발생할 수 있는 변수의 갯수를 어디까지 한정할 수 있을까요?
15번째 단계에 필요한 시약이나 세세한 반응조건(시약 넣는 속도', '기계 소리로 판단하는 미세한 이상 등 )
에 대해 우리는 어느 데이타까지 참조해야 할까요? 특허? 논문? 선배의 경험?
특허와 논문 데이타는 어디까지 "진실"하며 + " 정확"히 기재되어 있는걸까요?
이를 판단하기 위해선 교과에서 배운 기초 지식과 선배로부터 배운 노하우/경험이 가미되어야 합니다.
그리고 실제 실험 진행후 원래 조건에 대해 재검토를 진행하여 실험조건을 조금 또는 많이 바꿔서 재진행합니다.
이 부분을 모두 문서화하는 것은 '현실적으로' 불가능에 가깝습니다.
그렇다면 재료/소자 조건을 정확히 한정하지 않은 실험에 대한 수행이 가능한 휴머노이드를 만들면 되겠죠?
그런데 실험실에서 부딛히는 DB화하기 어려운 수많은 미묘한 상황들에 대처하는 휴머노이드 로봇을 만들려면
신입사원처럼 휴머노이드를 먼저 채용(구매)한 후에 처음에는 노련한 엔지니어와 함께
실험하는 방법/ 실수에 대처하거나 각종 상황에 대처할 수 있는 경험을 쌓아야 합니다 (월드 모델 구축).
이를 위해서 몇년이 걸릴까요? 결국 인간의 경험을 학습해야 하므로 ...
단순히 관찰과 공동 실험을 통해서 인간처럼 학습을 빨리할 수 있을지...
이때 발생할 수 있는 에러를 교정할 방법이 있을지는 모르겠습니다. 잘한다고 해도 아마 수년이 걸릴것입니다.
그런데 생각해보면, 저희가 실험할때 사용하는 (개발된지 거의 100년 된) 단순하고 오래된 측정기들도
수년이 지나면 고장나거나, 칼리브레이션을 해주거나 해야 합니다. 인간의 언어와 행동을 학습할수 있는
복잡한 기계가 고장나면 수리하는데 얼마의 시간과 비용이 들까요?
이런 리스크를 감수할 기업이 얼마나 있을까요?
이런 부분들 때문에... 인간이 잘하는 영역과 AI(+로봇)이 잘하는 영역이 분화되는선에서
업무의 분배가 일어나지 않을까 생각해 봅니다 (최소한 앞으로 10-30년 동안은)
물론 대량생산이 되는, 표준화된 작업에 로봇이 인간을 대체하는 것은 상대적으로 훨씬 쉬울 것입니다.
그러나 일반 랩에서의 상황은 그 변수가 거의 '무한대'로 다양합니다.
이로인해... AI에 의한 인간의 완전한 대체는 생각보다 오래걸릴 것으로 생각합니다.
ps. 위에는 (1)의 최적화만 단순화해서 얘기했지만...실제 현업에서는 (2)의 최적화가 더 어렵고
(1)과 (2)의 교호작용까지 고려해서 (1)을 최적화해야 합니다.
덤블링하는 것에 많이 녹아내리지만, Zero dynamics 가 강화학습에서 Non feedback으로 이제 전환되는 것이고
토크 regularization 이 정말 잘된 몇 개 사례일 뿐입니다.
IsaacGr00t던, GraspGen이던.. 물건을 잡는 것만 해도 이제 시작이고요
네모난 팔레트 위에 상자 배열 같은 문제를, GPT에 던지면 6살 꼬마보다 못합니다.
GPT 말장난에 많이들 녹아 내리지만, 공간이란 분야로 들어오면 기술은 현재 꽝입니다.
VLA같은건 국내에서 트레이닝 성공했단 얘기도 못들어봤구요
한~참 더 지나서, 돈을 수백조 더 많이 때려 박아야 좀 나아질것 같습니다.
암묵지에서 메타 레이어 올리는게 과연 수백조로 될지는 모르겠습니다.
일단 Metric에서는 이론 자체가 빵구입니다.
--> 도메인 바꾸면 역시 똥됩니다..
현재 최고 수준이 이정도죠
물론 구글도 로보틱스 만들고 있고 VLA가 꽤 발전중이라 이쪽도 가시적인 성과들은 나오고 있습니다.
인공지능은 암묵지나 노하우 모르고 그냥 학습데이터 따라하는 것입니다.
따라서 배울 학습데이터가 부족하면 못따라 합니다.
말씀하신 상황은 학습데이터가 부족한 것 뿐입니다...
이런식으로 도입하는 경우도 있어요..
제가 모르는 분야긴 하겠지만, 실험실 마다 눈치로, 어깨 넘어로만 전수되는 것들이 있겠죠..
근데 인공지능이란건 그런 중간 과정을 모두 건너 뛰고, 학습 데이터만 많으면 그냥 결과를 내 줍니다..
인공지능은 중간과정을 이해하지도 않고, 이해할 필요도 없습니다.. 그냥 학습 데이터만 있으면 됩니다..
말하자면, 단백질 구조 예측을 하는데, 구조를 알고자하는 단백질 염기서열 정보도 중간중간에 빠져있고..애초에 학습에 사용했던 데이타도 실험에서 얻은 구조정보도 일부만 DB화되고 중간중간 데이타가 빠져있는 경우입니다. 이런 경우 데이타가 원천적으로 부족한데 무슨수로 제대로 학습을 하고 예측을할 수 있을까요?
말씀하신건 학습 데이터가 부족한 수준도 아니라, 아예 공정의 대부분이 데이터화 되지 않은 수준이네요
당연히 AI 운운 할 수도 없는 수준이구요..
하지만 데이터만 충분하면 AI는 동작 원리 같은건 몰라도 답을 낸다구요..
혹시 ..제 글을 다시 읽어보니...제가 오해를 살만한 문구를 하나 넣어놓았군요...ㅎ 본믄 조금 수정했습니다.