그동안 엔비디아 대항마를 표방하는 기업들이 여기저기에서 쏟아졌지만 여전히 엔비디아가 들었다 놨다 하는 AI칩 시장에서 AWS가 판세 변화를 주도할 수 있을지 관심이 모아진다.
AI 모델 학습 및 운영를 지원하는 엔비디아 GPU는 챗GPT로 대표되는 생성형AI 열풍 속에 사고 싶어도 당장 살 수 없는 ‘귀하신 몸’이 됐다. 공급이 수요를 따라가지 못하는 상황이 몇년 째 이어지고 있다. 숫자가 계속 늘고 있는 엔비디아 대항마들은 아직까지 사업적으로는 엔비디아에 큰 영향을 미치지 못하는 상황이다.
엔비디아 대항마 리스트엔 클라우드 판 빅3로 통하는 AWS, 마이크로로소프트, 구글 클라우드도 있다. 이들 업체는 엔비디아를 데체하는건 쉽지 않겠지만 의존도는 낮추려는 열망 아래 자체 AI 칩 개발에 속도를 내왔지만 여전히 AI 인프라에서 엔비디아에 신세를 많이 지고 있다.
이런 가운데 AWS 행보를 주목하는 이유는 현재 시점에서 클라우드 회사들 중 가장 많은 자체 AI 칩을 배치했다는 점, 그리고 인프라 기술 내재화 관련해 나름 성공 스토리를 여럿 갖고 있다는 것 등이 꼽힌다. 블룸버그통신은 최근 보도에서 AWS, 마이크로소프트, 구글 클라우드 모두 자제 AI 칩을 개발하고 있지만 최대 클라우드 업체인 AWS가 현재까지 가장 많은 칩을 배치했다고 전했다.
15년 전 클라우드 컴퓨팅 비즈니스에 뛰어든 이후 아마존은 데이터센터에 필요한 CPU, 서버와 네트워크 스위치 관련해 기존 회사들 걸 가져다 쓰는 것으로 시작해 맞춤 제작한 하드웨어를 확대하는 코스를 밟아왔다.
이같은 전술은 비즈니스 측면에서 성공적이었다. Arm 아키텍처 기반으로 자체 제작한 서버 칩인 그래비톤(Graviton)이 대표적이다. AWS가 매분기 어마어마한 영업이익을 내는 배경엔 2019년 출시한 그래비톤 칩도 적지 않은 영향을 미치고 있다는 분석이다. 이커머스 회사인 아마존이 세계 최대 반도체 파운드리 회사인 대만 TSMC 톱10 고객들 중 하나에 이름을 올린 것도 그래비톤 덕분이다.
그래비톤은 인텔이나 AMD 같은 x86 계열 범용 CPU에 비해 가격은 저렴하고 에너지 효율성도 좋은 것으로 평가 받고 있다. 지난해말 기준 AWS는 150개 이상 다양한 그래비톤 기반 아마존 EC2 인스턴스 유형을 제공하고 있다. 200만개 이상 그래비톤 프로세서를 구축했고, 상위 100대 EC2 고객을 포함해 5만개 이상 고객들이 그래비톤 기반 인스턴스를 사용하고 있다고 회사 측은 전했다.
이를 감안하면 그래비톤의 성공 방정식을 AI로 확장하는 건 AWS 입장에선 자연스러운 수순이다. 하지만 AI 칩은 상대적으로 진입 장벽이 높다. 하드웨어도 그렇지만 사용자들이 AI 칩을 유용하게 활용할 수 있도록 지원하는 소프트웨어를 개발하는 건 훨씬 더 어려운 일이라는 평가다.
엔비디아가 GPU 칩 외에 쿠다로 대표되는 소프트웨어 생태계 확장을 위해 인수합병(M&A)를 포함해 투자를 확대하는 것도 이와 무관치 않다. AWS AI 소프트웨어인 뉴런 SDK는 엔비디아 쿠다와 비교해 중량감이 여전히 떨어진다는 지적이다.
그럼에도 그래비톤을 넘어 AI 칩에서도 내재화 역량을 확대하려는 AWS 행보는 점점 탄력을 탄력을 받는 모양새다.
AWS가 챗GPT가 뜨니 AI칩도 만들어보자 식으로 접근하는 건 아니다. AWS는 나름 오래전부터 AI 칩 개발을 준비해온 것으로 전해진다.
아마존은 2015년 칩 개발 전문 업체 안나푸르나랩스를 인수하며 자체 칩 디자인을 본격화했고 이는 그래비톤 출시로 이어졌다. 블룸버그통신에 따르면 그래비톤 개발 당시 AWS 지휘봉을 잡고 있었던 앤디 재시 아마존 CEO는 자체 개발할 수 있는 다른 것들은 어떤게 있는지 물었고 안나푸르나랩스 팀은 2016년말 엔지니어 4명에게 머신러닝 칩 개발 방안을 찾아보도록 했다. 2019년에 Arm에서 라미 시노(Rami Sinno) 영입하고 AI 칩 개발 지휘를 맡겼다.
이는 구체적인 성과로 이어졌다. AWS는 추론용 AI 칩인 인퍼런시아를 2019년 자사 클라우드 서비스에 선보였고 알렉사 AI 음성 비서에도 활용했다. 이후 추론을 넘어 AI 모델 학습용 칩인 트레이니움1을 선보였고 인퍼런시아를 업그레이드한 인퍼런시아2도 공개했다.
AWS AI 칩 수요는 초기에는 많지 않았지만 계속 증가 추세다. 블룸버그통신에 따르면 안나푸프란랩스 초창기 직원인 가디 허트(Gadi Hutt)는 “출시 이후 수요가 증가하기 시작했고 고객이 대기 중인 트레이니움 용량은 남아 있지 않다. 모두 사용되고 있다”고 말했다.
AWS가 곧 대규모로 배포할 트레이니움2는 회사 입장에선 3세대로 AWS가 AI 칩으로도 감재력을 보여줄 수 있을지 좌우할 의미 있는 시험대라는 점에서도 주목된다.
블룸버그통신은 업계에서 회자되는 3세대 법칙을 인용해 “세번 째가 성패를 가르는 순간이다. 세 번째 시도에서 투자 가치가 있을 만큼 충분한 양이 팔리거나, 그게 아니면 실패하고 새로운 길을 찾아야 한다”고 전했다. 칩 전문가로 클라우드 데이터 플랫폼 데이터브릭스에서 AI를 총괄하는 나빈 라오는 “3세대 법칙에서 벗어나는 제품을 본적이 없다”고 말했다.
AWS는 최근 트레이니움 생태계 확장을 위해 다양한 기업들과 협력도 강화하고 있다. 데이터브릭스는 AWS 광범위한 협력 일환으로 엔비디아 칩을 주로 쓰던 일부 AI 툴들에 트레이니움을 사용하기로 했다. 데이터브릭스의 나빈 라오(Naveen Rao)는 “결국은 경제성과 가용성이다. 전쟁터는 바로 여기에 있다”고 말했다.
아마존은 최근 LLM 개발 스타트업 앤트로픽에 추가로 40억달러를 투자한다고 발표했는데, 모델 개발에 트레이니움을 활용하도록 하려는 의도가 많이 반영됐다.
AWS는 곧 대규모로 배포할 트레이니움2에 대해 트레이니움1 대비 성능은 4배, 메모리는 3배라고 강조해왔다 박스당 칩 수도 8개에서 2개로 줄여 엔지니어가 한 장치에서 유지보수를 보다 효율적으로 수행할 수 있도록 했다고 설명했다.
블룸버그통신은 “트레이니움2가 아마존 내부 AI 프로젝트들에 보다 많이 활용되고 일부 AWS 대형 고객들을 잡을 수 있다면 성공으로 여겨질 수 있다“면서 “이는 아마존이 좀더 특수한 AI 용도에 고성능 엔비디아 칩을 보다 많이 공급하는데도 도움이 될 것이다”고 전했다.