OpenAI가 반자율 AI 에이전트 'Operator'를 공개했습니다.
Operator는 사용자를 대신해 웹 브라우저를 사람처럼 조작하는 AI 에이전트입니다.
이는 ChatGPT 인터페이스나 OpenAI의 API에 국한되지 않고 실제 웹사이트에서 작업을 수행할 수 있습니다.
Operator는 operator.chatgpt.com에서 이용할 수 있으며, 현재는 미국 내 ChatGPT Pro 구독자(월 200달러)만 사용 가능합니다.
사용자가 요청을 입력하면 OpenAI 서버에서 실행되는 별도의 가상 브라우저가 열리며, 식당 예약, 티켓 구매, 장보기 목록 작성 등 다양한 작업을 수행합니다.
이 시스템은 컴퓨터를 사용하도록 특별히 훈련된 GPT-4o의 새로운 변형인 computer-using agent(CUA) 기술을 기반으로 합니다.
전문 API 대신 스크린샷과 가상 마우스, 키보드 동작을 활용하여 작업을 완료하는 것이 특징입니다.
실제 웹사이트 탐색 테스트인 WebVoyager에서 87% 성공률을, 전자상거래 및 콘텐츠 관리 시나리오 테스트인 WebArena에서 58.1% 성공률을 기록했습니다.
그러나 한계점도 존재합니다.
Reddit과 같은 많은 사이트들이 AI 에이전트의 접근을 차단하고 있어 Operator가 이용할 수 없으며, 성능이나 법적 이유로 Figma나 YouTube 같은 특정 사이트에 대한 접근이 제한되어 있습니다.
안전성 확보를 위해 Operator는 구매나 이메일 전송과 같은 민감한 작업에 대해 사용자 확인을 요청하며, 이메일이나 금융 플랫폼과 같은 민감한 사이트에서는 사용자 감독이 필요합니다.
또한 유해한 요청을 거부하도록 훈련되어 있으며, 악의적인 프롬프트에 대한 보호 장치도 갖추고 있습니다.
OpenAI는 향후 Plus, Team, Enterprise 사용자로 접근을 확장하고 Operator를 ChatGPT에 통합할 계획입니다.
또한 개발자들이 맞춤형 에이전트를 만들 수 있도록 CUA 기술을 API로 제공할 예정입니다.
현재 Operator는 복잡한 인터페이스나 익숙하지 않은 작업 흐름에서 한계를 보이고 있으며, 초기 사용자 피드백을 통해 시스템의 정확성, 신뢰성, 안전성을 개선해 나갈 계획입니다.