포용적 오디오/비디오 AI가 미래의 협업을 지원하는 방법

On By Chris Rowen1 Min Read
Person working from their laptop at a coffee shop
Webex에서는 하이브리드 업무 경험을 지속적으로 혁신하고 있습니다. 인공 지능과 딥러닝 방식을 활용하여 오디오 및 비디오 경험, 번역, 텍스트 변환 등을 개선하고 자동화된 지원을 확대하는 등 탁월한 협업 경험을 제공하고 있습니다. 인공 지능에 대한 Webex의 접근 방식을 통해 사용자는 재택 근무, 사무실 근무, 외근 등 업무 환경에 상관없이 자신의 의견이 관심과 존중을 받고 있다는 느낌을 가질 수 있습니다. Webex에서는 언어, 성별, 연령에 관계없이 전 세계 모든 사람이 참여할 수 있는 포용적 협업 방식을 제공하는 것을 목표로 AI 플랫폼을 설계했습니다. 이 접근 방식에 대한 자세한 내용은 알고리즘이나 데이터 세트에서 나타날 수 있는 편견을 줄이거나 제거하기 위해 검토하는 거버넌스, 프로세스 및 교육 정책을 명시한 최근 발행된 Cisco’s Responsible AI framework를 참조하세요. Webex는 디바이스, 데스크탑, 노트북, 스마트폰, 최신 디바이스 형식 등에 안전한 통합형 협업 경험을 제공하도록 고유하게 포지셔닝되어 있습니다. Webex의 비전은 대면과 동일한 경험 또는 그보다 더 나은 경험을 제공하는 것으로, 고유의 AI 접근 방식으로 이해도를 높이고 피로감은 줄이며 사용 편리성을 개선할 수 있습니다. 특히 Webex는 참가자 간 의사소통을 더욱 명확히 하고 개별 참가자 요구사항에 유연하게 대처하기 위해 AI를 중점적으로 사용하고 있습니다. Webex에서는 협업 기능을 일반적인 AI 관련 기술 사일로가 아니라 포괄적인 기술로 고려하여 AI 기능을 설계했습니다.

복잡한 하이브리드 업무 환경을 위한 설계

Webex의 목표는 최종 사용자 적응성을 향상하고 복잡한 하이브리드 업무 환경에서 성공할 수 있도록 오디오, 비디오 및 자연어에 머신 러닝 지능을 적용하는 것입니다.

협업에 대한 포괄적 접근 방식 제공

Webex의 머신 러닝 모델은 음성과 관련해서는 다양한 언어와 억양을, 컴퓨터 비전 측면으로는 인구 통계를 인식할 수 있도록 다양한 대규모 데이터 세트로 훈련되었습니다.

개인정보 보호 및 보안 중심의 구축

Webex의 기술 아키텍처는 머신 러닝 계산 시 클라우드로 전달하지 않고 주로 최종 사용자의 노트북 및 디바이스에서 처리하므로 본질적으로 비공개적이고 안전한 접근 방식을 제공합니다. AI 기술에 대한 이러한 엣지 컴퓨팅 접근 방식은 미디어 자산 및 데이터의 보안을 본질적으로 개선합니다. Webex의 AI 개발 접근 방식은 시스코의 데이터 신뢰 원칙(Data Trust Principles)을 기반으로 합니다.

낮은 레이턴시의 협업 경험

또한 클라우드를 통해 미디어가 왕복 이동하는 경우 레이턴시가 상당히 일정치 못한 것에 비해, 엣지 중심의 접근 방식에서는 미디어를 수십 밀리초 만에 처리할 수 있으므로 반응형 경험을 제공할 수 있습니다. 아울러 다양한 프로세서 유형, 전력 예산, 운영 체제로 확장할 수 있도록 알고리즘을 설계했기 때문에 환경에 구애받지 않는 업무 경험을 보장할 수 있습니다.

Webex 디바이스에서의 협업 경험 간소화

Webex AI 기술은 배경에서 작동하여 전반적인 경험을 개선하며 Webex 데스크폰, 데스크탑, 회의실 디바이스에 곧바로 통합됩니다.

지속적인 혁신을 위한 기회 제공

Webex의 포괄적이고 협업 중심적인 AI 아키텍처는 미디어 경험을 풍부하게 하고 새로운 활용 사례 및 고객별 분야에 빠르게 적용할 수 있는 새로운 기회를 열어줍니다.

미디어 스트림 분석 및 재구성에 대한 Webex의 AI 기반 접근 방식

미디어 스트림 분석 및 재구성

그림 1: Webex AI 기반 오디오 프로세싱 모델

고객은 Webex의 포트폴리오를 이용해 장소에 구애받지 않고 협업합니다. Webex의 접근 방식은 환경에 관계없이 참가자의 특징을 식별한 후 AI 및 머신 러닝(ML)을 활용하여 수신되는 오디오나 비디오를 데이터가 풍부한 세그먼트화된 스트림으로 분류하는 것입니다. 이전에는 중요한 구성 요소 스트림을 이러한 상세 수준으로 추출하는 것이 널리 배포된 실시간 커뮤니케이션 소프트웨어에서 불가능했습니다.

1. 머신 러닝 기반의 분해

분해를 통해 다음을 포함한 수신 오디오 스트림을 분리합니다.
  • 전경 및 배경 스피커는 음성 레벨과 음성의 잔향을 기준으로 스피커가 마이크로부터 떨어져 있는 거리를 추정하여 식별됩니다.
  • 오디오 이벤트는 특정 사운드 트리거 또는 키워드를 포함하여 감지됩니다.
  • 잔향은 룸 내 음성의 미세한 반향으로서 분리되며 참가자의 음성을 명확히 하기 위해 조절할 수 있습니다.
  • 배경 음악은 자체 스트림으로 분리되므로 재구성 단계에서 음량 조절이 가능합니다.
  • 배경 잡음은 주변 요소로부터 분리되며, 해당 요소를 포함할 수 있고 활용 사례에 따라 조절할 수 있습니다.

2. 사용자당 오디오 구성 요소

데이터 스트림이 분리되면 Webex는 이를 사용자당 오디오 구성 요소로 종합하여 각 참가자의 오디오 스트림을 대상으로 개별적으로 선택, 수정 또는 조치를 취할 수 있습니다.

3. 머신 러닝 기반의 재구성

활용 사례에 따라 개별 데이터 스트림을 다른 사람들과 공유하는 오디오로 다시 결합할 수 있습니다. 이러한 접근 방식을 통해 다양한 활용 사례와 요구 사항을 충족할 수 있습니다. 예를 들어 Webex 스마트 오디오 기능을 사용하면 참가자가 모든 배경 잡음 제거(잡음 제거(Noise removal)), 배경 잡음 및 배경 음성 제거(내 음성에 최적화(Optimize for my voice)), 악기 연주 또는 가창 시 원음 듣기(음악 모드(Music mode)) 가운데 선택할 수 있습니다.

4. 렌더링된 오디오

생성된 오디오 스트림은 이해하기 쉬운 방식으로 다른 참가자에게 전달됩니다.

계산상의 이점으로 새 활용 사례 지원

Webex의 AI 아키텍처는 협업에 중점을 두고 설계되었으므로 여러 모델을 통해 미디어 스트림을 여러 차례 처리하지 않고 한 번의 계산 주기에서 미디어를 분리할 수 있습니다. 이러한 접근 방식은 프로세스의 전반적인 효율성을 높이고 낮은 레이턴시의 경험을 제공할 수 있습니다. 또한 스트림 계산 주기에 새 구성 요소를 간편하게 추가할 수 있으므로 입력 스트림이 많은 새로운 사용 시나리오가 잠재적으로 가능해집니다. Webex 미디어 스트림 프로세싱 접근 방식은 다음과 같이 확장됩니다.

이해를 돕는 음성 인식

마이크에 더 가깝거나 더 먼 대화자를 잡음으로부터 구분하고 나아가 룸의 잔향을 조절할 수 있습니다. 이러한 모든 요소는 별도의 스트림으로 식별되어 특정 사용자 요구 사항을 충족할 수 있는 유연성을 향상합니다. Webex에서는 스트림을 개별적으로 선택, 수정하고 조치를 취하여 선택한 오디오 구성 요소에서 새 오디오 스트림을 재구성할 수 있습니다. 예를 들어 어느 통화에서는 배경 또는 전경에 있는 대화자들의 음량을 동일하게 하고 다른 통화에서는 마이크에 가장 가까운 발언자만 강조할 수 있습니다. 또한 Webex는 ‘OK Webex’와 같은 오디오 이벤트 트리거를 인식하거나 참가자에게 중요할 수 있는 다른 환경 오디오를 강조할 수 있습니다.

비디오 스트림의 역량을 확장하는 머신 비전

Webex는 고유의 미디어 스트림 접근 방식을 통해 비디오 장면에 대한 이해를 강화하고 요소를 재구성하여 비디오 품질을 향상합니다. 예를 들어 참가자를 배경 및 그들이 사용하는 몸짓으로부터 구별할 수 있습니다. Webex는 이러한 별도의 스트림을 선택하고 수정하여 비디오를 렌더링함으로써 방해 요소를 최소화하고 발표자에 대한 다른 참가자들의 집중을 극대화할 수 있습니다. 이러한 접근 방식으로 다양한 가능성의 세계가 열리고 참가자는 어려운 환경에서도 쉽게 협업할 수 있게 됩니다.

협업 경험을 강화하는 Webex Assistant

Webex Assistant는 음성 제어를 통한 협업 경험, 사전 예방적인 인텔리전스, 텍스트 변환 및 번역 서비스를 제공합니다. Webex Assistant의 구현으로 디바이스에서 더 많은 언어 인식을 처리하고 정확성을 높이고 일반 클라우드 기반 시스템에 비해 레이턴시 시간을 최대 4배 단축했습니다. Webex Assistant는 또한 Webex Assistant 기술을 갖춘 API를 제공하기 때문에 서드파티 개발자가 새로운 기능을 추가하고 음성 제어로 자체 애플리케이션에 연결할 수 있습니다. Webex에서는 텍스트 변환 기능과 번역을 위해 지원되는 언어를 확대했으며 영어(기존), 독일어, 프랑스어, 스페인어, 일본어 등 추가 언어도 디바이스를 위해 추가했습니다.

3D 기반의 미개척지를 여는 머신 비전

컴퓨터 비전으로 비디오 스트림에서 공간 환경을 식별할 수 있습니다. 3D에 대한 Webex의 접근 방식은 발표자와 참가자의 인지 부하를 줄이는 데 중점을 두고 있으며 완전한 가상 현실 공간에서 발표자와 참가자를 구현하기 위한 AR/VR 헤드셋이 필요하지 않습니다. 예를 들어 정확한 3D 모델과 적응 추출이 가능합니다. 아울러 참가자의 안면 형상을 스캔하여 이미지 향상과 개인화가 가능합니다. AI에 대한 Webex의 접근 방식은 팀들이 향상된 유연성을 바탕으로 협업할 수 있도록 지원하며 사람들의 미팅 참가 방법을 확대합니다. 강력한 AI 기반 미디어 스트림 프로세싱 모델은 오늘날에 세계 최고 수준의 협업 경험을 제공하며 미래의 잠재적 가능성을 열어줍니다.

AI 기술로 달라지는 협업을 경험하고 싶으십니까? 지금 바로 Webex에 문의하고 데모를 요청하세요.

자세히 알아보기 책임감 있는 AI 시스템의 설계 업무의 미래를 강화하는 최신 Webex AI 기능 하이브리드 업무에서 업무와 고객 경험의 개선

About The Author

Chris Rowen
Chris Rowen VP of Engineering Cisco
Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.
Learn more

Topics


More like this