


CyberVerse는 실시간 영상 통화 기능을 갖춘 오픈소스 디지털 휴먼 에이전트 플랫폼입니다. 사진 한 장으로 AI 에이전트를 만들고, 저지연 라이브 영상을 통해 얼굴을 마주하며 대화할 수 있습니다. 이 플랫폼은 실시간 얼굴 애니메이션, 자연스러운 립싱크, 플러그인 기반 AI 구성 요소, 그리고 설정 가능한 LLM, TTS, ASR 및 아바타 백엔드를 지원합니다.
CyberVerse는 AI 기반 캐릭터와 실시간 오디오/비디오 상호작용을 가능하게 하는 오픈소스 디지털 휴먼 에이전트 플랫폼입니다. WebRTC 기술을 기반으로 구축되어, 단 한 장의 사진으로 생생한 AI 에이전트를 만들고 저지연 라이브 영상 통화를 통해 얼굴을 마주하며 대화할 수 있습니다. 이 플랫폼은 실시간 얼굴 애니메이션, 자연스러운 립싱크, 플러그인 기반 AI 구성 요소, 그리고 LLM, TTS, ASR 및 아바타 시스템을 위한 설정 가능한 백엔드를 지원합니다.
CyberVerse는 WebRTC를 사용하여 저지연 오디오/비디오 스트리밍을 제공하며, 직접 P2P 연결 또는 LiveKit SFU 모드를 지원합니다. 에이전트는 사용자의 카메라 프레임이나 화면 공유 입력을 수신할 수 있어, AI가 사용자를 보고 동시에 듣는 대면 상호작용이 가능합니다.
이 플랫폼은 전경 및 배경 처리를 분리합니다: PersonaAgent는 실시간 대화, 중단 및 컨텍스트 전환을 처리하고, SubAgents는 검색, 연구, 요약, 보고서 생성과 같은 장기 실행 작업을 비동기적으로 처리합니다. 이를 통해 복잡한 작업 중에도 음성 상호작용이 원활하게 유지됩니다.
에이전트의 모든 부분(두뇌, 음성, 청각, 도구, 메모리, 얼굴)은 교체 가능한 모듈입니다. 단일 구성 파일을 통해 다양한 옴니 모델, LLM, TTS, ASR, 임베딩, RAG, 도구 호출 및 아바타 백엔드를 조합할 수 있으며, 웹 UI를 통해 시나리오별로 제공자와 모델 조합을 전환할 수 있습니다.
대화 기록은 로컬 디스크에 저장되며 세션 재개 시 자동으로 로드됩니다. 각 캐릭터에 대한 지식 베이스, 문서 및 전기 자료를 가져올 수 있으며, 시스템은 이를 검색 증강 생성(RAG)을 위해 인덱싱하여 답변이 캐릭터의 페르소나와 일치하도록 유지합니다.
단 한 장의 사진으로. CyberVerse가 그들을 살아 움직이게 합니다. 이는 플랫폼의 핵심 마법을 포착합니다: 단일 참조 이미지를 실시간 얼굴 애니메이션, 립싱크 및 캐시된 유휴 비디오 재생이 가능한 완전한 대화형 디지털 휴먼으로 변환합니다. 많은 AI 에이전트가 텍스트 전용 또는 오디오 전용으로 남아 있는 반면, CyberVerse는 사용자를 보고, 듣고, 자연스러운 표정으로 응답할 수 있는 시각적이고 감정적으로 매력적인 존재를 제공합니다.
텍스트 채팅을 넘어 실시간 음성 대화를 나누고, 사용자의 얼굴을 보며 생생한 디지털 아바타를 표시할 수 있는 맞춤형 AI 에이전트를 구축하려는 경우입니다. CyberVerse는 오픈소스의 유연성, 모듈식 아키텍처, 그리고 하드웨어와 사용 사례에 따라 순수 음성 모드(GPU 불필요)와 전체 비디오 아바타 모드 간 전환 기능을 중시하는 분들에게 특히 매력적입니다.
고려해볼 만한 다른 도구
Loading comments…
제작자
dsd