[그래픽뉴스] 똑똑해진 AI, 못 버티는 시스템… ‘운영 통제력’이 기업 역량 가른다 기업 69%가 3개 이상 멀티모델 사용… “에이전트 워크플로우 복잡성 증가” 기업들의 인공지능(AI) 도입이 빠르게 확산하는 가운데, 모델 성능 자체보다는 복잡해진 시스템을 제어하는 ‘운영 역량’이 대규모 AI 확장의 핵심 과제로 떠올랐다. 실제 운영 환경에서 발생하는 AI 요청 중 약 5%가 실패하고 있으며, 이 중 60%가량은 시스템 용량 한계에서 비롯된 것으로 파악됐다. 데이터독은 수천 개 조직의 데이터를 분석해 이 같은 구조적 문제를 집중 조명한 ‘2026 AI 엔지니어링 현황 보고서’를 2일 발표했다.보고서에 따르면 기업 10곳 중 7곳(69%)이 3개 이상의 AI 모델을 사용하는 ‘멀티모델 전략’을 채택하고 있다. 오픈AI가 63%의 점유율로 가장 널리 쓰이는 가운데, 구글의 ‘제미나이’와 앤트로픽의 ‘클로드’ 도입률도 전년 대비 각각 20%포인트, 23%포인트 오르며 다변화하는 추세다. 여러 모델을 동시에 도입하면서 기업들이 관리해야 하는 에이전트 워크플로우도 갈수록 복잡해지고 있다.특히 AI 시스템 부하가 급증했다. 에이전트 프레임워크 도입 규모는 전년 대비 2배 증가했다. 개발 속도는 빨라졌으나 처리해야 할 데이터량도 급격히 늘어, 사용량 기준 중간 수준에 해당하는 팀의 평균 토큰 수는 2배 이상 늘었고, 상위 10%에 해당하는 고사용 팀의 토큰 수는 4배나 뛰었다.이처럼 늘어난 트래픽은 시스템 병목 현상으로 이어졌다. 운영 환경에서 AI 모델에 보내는 요청 중 약 5%가 실패했으며, 이 가운데 60%는 시스템 용량 한계 때문인 것으로 조사됐다. 이는 AI 기반 애플리케이션의 응답 지연, 오류 발생, 서비스 중단 등 전반적인 안정성 저하를 유발하는 원인으로 작용한다.업계 전문가들은 통제가 뒷받침되지 않은 속도 경쟁이 시스템 설계 자체의 리스크를 키운다고 지적한다. 분산된 워크플로우 구조, 과도한 재시도 처리, 비효율적인 라우팅 등이 기술적 결함을 넘어 근본적인 장애 원인이 된다는 분석이다.얀빙 리 데이터독 제품 책임자는 “클라우드가 시스템의 프로그래밍 가능성을 높인 대신 관리 복잡성을 키웠듯, AI 역시 애플리케이션 계층에서 동일한 변화를 일으키고 있다”며 “경쟁에서 앞서는 기업은 더 나은 모델을 도입하는 데 그치지 않고, 그 위에 탄탄한 운영 통제 역량을 구축하는 기업이 될 것”이라고 진단했다.기예르모 라우치 버셀 대표는 “다음 세대 에이전트 장애는 모델 역량이 아닌, 팀의 관찰 능력 부재에서 비롯될 것”이라며 “기존 소프트웨어와 달리 에이전트는 대규모 언어 모델(LLM)이 제어 흐름을 결정하는 구조인 만큼 ‘옵저버빌리티(관측성)’는 단순한 유용성을 넘어 필수 요소”라고 강조했다. 전체 스택에 대한 실시간 가시성이 확보될 때 비로소 신뢰성과 거버넌스를 희생하지 않고 AI를 운영할 수 있다는 의미다.

[그래픽뉴스] 똑똑해진 AI, 못 버티는 시스템… ‘운영 통제력’이 기업 역량 가른다

기업 69%가 3개 이상 멀티모델 사용… “에이전트 워크플로우 복잡성 증가”

기사입력 2026-06-02 18:59:18

(AI 활용 제작)

[산업일보]
기업들의 인공지능(AI) 도입이 빠르게 확산하는 가운데, 모델 성능 자체보다는 복잡해진 시스템을 제어하는 ‘운영 역량’이 대규모 AI 확장의 핵심 과제로 떠올랐다. 실제 운영 환경에서 발생하는 AI 요청 중 약 5%가 실패하고 있으며, 이 중 60%가량은 시스템 용량 한계에서 비롯된 것으로 파악됐다. 데이터독은 수천 개 조직의 데이터를 분석해 이 같은 구조적 문제를 집중 조명한 ‘2026 AI 엔지니어링 현황 보고서’를 2일 발표했다.

보고서에 따르면 기업 10곳 중 7곳(69%)이 3개 이상의 AI 모델을 사용하는 ‘멀티모델 전략’을 채택하고 있다. 오픈AI가 63%의 점유율로 가장 널리 쓰이는 가운데, 구글의 ‘제미나이’와 앤트로픽의 ‘클로드’ 도입률도 전년 대비 각각 20%포인트, 23%포인트 오르며 다변화하는 추세다. 여러 모델을 동시에 도입하면서 기업들이 관리해야 하는 에이전트 워크플로우도 갈수록 복잡해지고 있다.

특히 AI 시스템 부하가 급증했다. 에이전트 프레임워크 도입 규모는 전년 대비 2배 증가했다. 개발 속도는 빨라졌으나 처리해야 할 데이터량도 급격히 늘어, 사용량 기준 중간 수준에 해당하는 팀의 평균 토큰 수는 2배 이상 늘었고, 상위 10%에 해당하는 고사용 팀의 토큰 수는 4배나 뛰었다.

이처럼 늘어난 트래픽은 시스템 병목 현상으로 이어졌다. 운영 환경에서 AI 모델에 보내는 요청 중 약 5%가 실패했으며, 이 가운데 60%는 시스템 용량 한계 때문인 것으로 조사됐다. 이는 AI 기반 애플리케이션의 응답 지연, 오류 발생, 서비스 중단 등 전반적인 안정성 저하를 유발하는 원인으로 작용한다.

업계 전문가들은 통제가 뒷받침되지 않은 속도 경쟁이 시스템 설계 자체의 리스크를 키운다고 지적한다. 분산된 워크플로우 구조, 과도한 재시도 처리, 비효율적인 라우팅 등이 기술적 결함을 넘어 근본적인 장애 원인이 된다는 분석이다.

얀빙 리 데이터독 제품 책임자는 “클라우드가 시스템의 프로그래밍 가능성을 높인 대신 관리 복잡성을 키웠듯, AI 역시 애플리케이션 계층에서 동일한 변화를 일으키고 있다”며 “경쟁에서 앞서는 기업은 더 나은 모델을 도입하는 데 그치지 않고, 그 위에 탄탄한 운영 통제 역량을 구축하는 기업이 될 것”이라고 진단했다.

기예르모 라우치 버셀 대표는 “다음 세대 에이전트 장애는 모델 역량이 아닌, 팀의 관찰 능력 부재에서 비롯될 것”이라며 “기존 소프트웨어와 달리 에이전트는 대규모 언어 모델(LLM)이 제어 흐름을 결정하는 구조인 만큼 ‘옵저버빌리티(관측성)’는 단순한 유용성을 넘어 필수 요소”라고 강조했다. 전체 스택에 대한 실시간 가시성이 확보될 때 비로소 신뢰성과 거버넌스를 희생하지 않고 AI를 운영할 수 있다는 의미다.

뒤로 기사목록

산업일보 영상뉴스 모아보기

산업일보 페이스북 바로가기

임지원 기자 jnews@kidd.co.kr

이 기자의 다른기사 보기 >