diff --git a/about.html b/about.html index fe60a58..4e26fa7 100644 --- a/about.html +++ b/about.html @@ -99,6 +99,7 @@
30 cameras arranged in a ring, IR pass filters detect infrared only, hardware sync at μs precision
+Single Cat6 cable carries power + data, star topology connection to switch
+IR LED emission → marker reflection received → thresholding → blob detection → sub-pixel centroid calculation → coordinates transmitted
+Wanding to determine camera intrinsic/extrinsic parameters, ground plane to define coordinate system
+Ray intersection from multiple cameras' 2D coordinates + least squares optimization to reconstruct 3D coordinates
+Template matching + predictive tracking to assign marker names to each 3D point
+Based on T-pose + ROM calibration, inverse kinematics to calculate joint positions and rotations
+Real-time transmission to Unity/Unreal/MotionBuilder via NatNet/VRPN, recording in FBX/BVH/C3D
+Gap filling · smoothing · marker swap correction · retargeting
+Applied to game cinematics · VTuber live · video content (total latency approx. 8–14ms)
+30台のカメラをリング形態で配置、IRパスフィルターで赤外線のみ検出、ハードウェアシンクでμs単位の同期
+Cat6ケーブル1本で電力 + データ同時伝送、スタートポロジーでスイッチに接続
+IR LED照射 → マーカー反射光受信 → スレッショルディング → ブロブ検出 → サブピクセルセントロイド計算 → 座標のみ送信
+ワンディングでカメラ内部/外部パラメータを算出、グラウンドプレーンで座標系を定義
+複数カメラの2D座標から光線交差 + 最小二乗法で3D座標を復元
+テンプレートマッチング + 予測追跡で各3Dポイントにマーカー名を付与
+Tポーズ + ROMキャリブレーション基盤、逆運動学で関節の位置・回転を計算
+NatNet/VRPNでUnity/Unreal/MotionBuilderにリアルタイム伝送、FBX/BVH/C3D録画
+ギャップフィリング・スムージング・マーカースワップ修正・リターゲティング
+ゲームシネマティック・VTuberライブ・映像コンテンツに適用(総レイテンシー約8〜14ms)
+30대 카메라를 링 형태로 배치, IR 패스 필터로 적외선만 감지, 하드웨어 싱크로 μs 단위 동기화
+Cat6 한 줄로 전력 + 데이터 동시 전송, 스타 토폴로지로 스위치에 연결
+IR LED 발사 → 마커 반사광 수신 → 스레시홀딩 → 블롭 검출 → 서브픽셀 센트로이드 계산 → 좌표만 전송
+완딩으로 카메라 내부/외부 파라미터 산출, 그라운드 플레인으로 좌표계 정의
+다수 카메라의 2D 좌표에서 광선 교차 + 최소자승법으로 3D 좌표 복원
+템플릿 매칭 + 예측 추적으로 각 3D 점에 마커 이름 부여
+T-포즈 + ROM 캘리브레이션 기반, 역운동학으로 관절 위치·회전 계산
+NatNet/VRPN으로 Unity/Unreal/MotionBuilder에 실시간 전송, FBX/BVH/C3D 녹화
+갭 필링 · 스무딩 · 마커 스왑 교정 · 리타게팅
+게임 시네마틱 · VTuber 라이브 · 영상 콘텐츠에 적용 (총 레이턴시 약 8~14ms)
+30台摄像头环形布置,IR通过滤光片仅检测红外线,硬件同步实现μs级精度
+一根Cat6线缆同时传输电力和数据,以星型拓扑连接至交换机
+IR LED发射 → 接收标记点反射光 → 阈值处理 → 斑点检测 → 亚像素质心计算 → 仅传输坐标
+通过挥棒获取摄像头内参/外参,通过地面参考定义坐标系
+从多台摄像头的2D坐标射出射线交叉 + 最小二乘法重建3D坐标
+模板匹配 + 预测追踪为每个3D点分配标记点名称
+基于T-Pose + ROM标定,通过逆运动学计算关节位置与旋转
+通过NatNet/VRPN实时传输至Unity/Unreal/MotionBuilder,录制为FBX/BVH/C3D
+间隙填充 · 平滑 · 标记点交换校正 · 重定向
+应用于游戏过场动画 · VTuber直播 · 视频内容(总延迟约8~14ms)
+모션캡처 기술과 작업 과정을 공유합니다
+모션캡처에 관심을 가지다 보면 가장 먼저 마주치는 질문이 있습니다.
+"관성식이랑 광학식, 뭐가 다른 거야?"
+이 글에서는 두 방식의 원리부터 대표 장비, 실제 사용자들의 평가까지 정리해 보겠습니다.
+광학식은 적외선 카메라와 반사 마커를 이용하는 방식입니다.
+촬영 공간 주변에 여러 대의 적외선(IR) 카메라를 설치하고, 배우의 관절 위치에 지름 10~20mm 정도의 재귀반사(Retro-reflective) 마커를 부착합니다. 각 카메라는 적외선 LED를 쏘아 마커에서 반사되어 돌아오는 빛을 감지하고, 이를 통해 2D 이미지상의 마커 좌표를 추출합니다.
+최소 2대 이상의 카메라가 같은 마커를 동시에 포착하면, 삼각측량(Triangulation) 원리로 해당 마커의 정확한 3D 좌표를 계산할 수 있습니다. 카메라 수가 많을수록 정확도가 올라가고 사각지대가 줄어들기 때문에, 전문 스튜디오에서는 보통 12~40대 이상의 카메라를 배치합니다.
+이렇게 매 프레임마다 모든 마커의 3D 좌표가 절대 위치로 기록되므로, 시간이 아무리 지나도 데이터가 누적 오차 없이 정확하게 유지됩니다.
+ +OptiTrack (PrimeX 시리즈)
+Vicon (Vero / Vantage 시리즈)
+Qualisys
+관성식은 IMU(Inertial Measurement Unit, 관성 측정 장치) 센서를 몸에 부착하거나 슈트에 내장하여 움직임을 측정하는 방식입니다.
+각 IMU 센서에는 세 가지 핵심 센서가 들어 있습니다:
+이 세 센서의 데이터를 센서 퓨전(Sensor Fusion) 알고리즘으로 결합하면, 해당 센서가 부착된 신체 부위의 3D 방향(Orientation)을 실시간으로 계산할 수 있습니다. 보통 15~17개의 센서를 상체, 하체, 팔, 다리 등 주요 관절에 배치하고, 각 센서 간의 관계를 통해 전신 골격 데이터를 추출합니다.
+다만 가속도계를 이중 적분하여 위치를 구하는 과정에서 오차가 누적(드리프트)되기 때문에, "공간 어디에 서 있는가"라는 글로벌 위치는 시간이 지날수록 부정확해집니다. 이것이 관성식의 근본적인 한계입니다.
+ +Xsens MVN (현 Movella)
+Rokoko Smartsuit Pro
+Noitom Perception Neuron
+| 항목 | +광학식 (Optical) | +관성식 (IMU) | +
|---|---|---|
| 추적 원리 | +적외선 카메라 + 반사 마커 삼각측량 | +IMU 센서 (가속도계 + 자이로 + 지자기계) | +
| 위치 정확도 | +서브밀리미터 (0.1mm) — 절대 좌표 | +드리프트 발생 — 시간 경과 시 누적 오차 | +
| 회전 정확도 | +위치 데이터에서 파생 (매우 높음) | +1~3도 수준 (센서 퓨전 알고리즘 의존) | +
| 드리프트 | +없음 — 매 프레임 절대 위치 측정 | +있음 — 가속도 이중적분 시 오차 누적 | +
| 오클루전(가림) | +마커가 카메라에 안 보이면 추적 불가 | +문제 없음 — 센서가 직접 몸에 부착 | +
| 자기장 간섭 | +영향 없음 | +금속·전자기기 근처에서 데이터 왜곡 | +
| 지연시간(Latency) | +~5-10ms | +~10-20ms | +
| 셋업 시간 | +30~90분 (카메라 배치 + 캘리브레이션) | +5~15분 (슈트 착용 + 간단 보정) | +
| 촬영 공간 | +전용 스튜디오 필요 (카메라 설치·환경 통제) | +어디서든 가능 (야외, 좁은 공간 OK) | +
| 다인 촬영 | +마커셋 구분으로 동시 캡처 가능 | +슈트별 독립이라 동시 가능하나 상호작용 어려움 | +
| 소품/오브젝트 추적 | +마커 부착으로 함께 추적 가능 | +별도 센서 필요, 실질적으로 어려움 | +
| 손가락 추적 | +전용 핸드 마커셋으로 고정밀 추적 | +일부 장비만 지원, 정밀도 제한적 | +
| 후처리 작업량 | +오클루전 구간 갭 필링 필요 | +드리프트 보정 + 위치 정리 필요 | +
| 대표 장비 | +OptiTrack, Vicon, Qualisys | +Xsens, Rokoko, Noitom | +
| 주요 활용 분야 | +게임/영화 최종 캡처, VTuber 라이브, 연구 | +프리비즈, 야외 촬영, 인디/개인 콘텐츠 | +
최근에는 카메라 영상만으로 AI가 동작을 추출하는 마커리스 모션캡처도 주목받고 있습니다. Move.ai, Captury, Plask 등이 대표적이며, 마커 부착 없이 일반 카메라로도 캡처가 가능하다는 점에서 진입 장벽이 매우 낮습니다.
+하지만 현 시점에서 마커리스 방식은 정확도와 안정성 면에서 광학식·관성식에 크게 미치지 못합니다. 관절 위치가 튀거나 떨리는 지터(Jitter) 현상이 빈번하고, 빠른 동작이나 오클루전 상황에서 추적이 불안정합니다. 프리비즈나 레퍼런스 수준에서는 활용 가능하지만, 게임·방송·영화 등 최종 결과물에 바로 쓸 수 있는 수준은 아직 아닙니다.
+기술 발전 속도가 빠른 분야이므로 앞으로 기대할 만하지만, 현재 프로 현장에서는 여전히 광학식과 관성식이 주류입니다.
+Reddit(r/gamedev, r/vfx), CGSociety 등 모션캡처 관련 커뮤니티에서 반복적으로 등장하는 의견을 정리하면:
+++"최종 퀄리티가 중요한 작업은 광학식, 빠른 반복과 접근성이 중요하면 관성식"
+
실제로 많은 프로 스튜디오가 두 방식을 병행합니다. 관성식으로 빠르게 프리비즈(사전 시각화)나 동작 블로킹을 잡고, 최종 촬영은 광학식으로 진행하는 워크플로우가 일반적입니다.
+1인 크리에이터나 인디 팀이라면 Rokoko처럼 진입 장벽이 낮은 관성식으로 시작하되, 정밀도가 필요한 프로젝트에서는 광학식 스튜디오를 대관하는 방식이 가장 현실적이라는 의견이 많습니다.
+밍글 스튜디오는 OptiTrack 카메라 30대 (Prime 17 × 16대 + Prime 13 × 14대)를 갖춘 광학식 모션캡처 스튜디오입니다. 광학식을 선택한 이유는 명확합니다.
+이처럼 광학식과 관성식은 반드시 양자택일이 아닙니다. 각 방식의 강점을 조합하면 단일 방식으로는 도달하기 어려운 퀄리티를 만들어낼 수 있습니다.
+8m x 7m 캡처 공간에서 30대 카메라가 360도 사각지대 없이 추적하기 때문에, 오클루전 이슈도 최소화됩니다.
+실제로 밍글 스튜디오에서 모션캡처 대관을 이용하시면 다음과 같은 흐름으로 진행됩니다.
+1단계: 사전 협의 +촬영 목적, 필요한 인원 수, 캡처할 동작의 종류를 사전에 상담합니다. 라이브 방송의 경우 아바타, 배경, 프랍(소품) 세팅도 이 단계에서 협의합니다.
+2단계: 촬영 준비 (세팅) +스튜디오에 도착하시면 전문 오퍼레이터가 마커 부착, 캘리브레이션, 아바타 매핑을 진행합니다. 라이브 방송 패키지의 경우 캐릭터·배경·프랍 세팅이 포함되어 있어 별도 준비가 필요 없습니다.
+3단계: 본 촬영 / 라이브 방송 +OptiTrack 30대 카메라 + Rokoko 글러브로 전신과 손가락을 동시에 캡처합니다. 실시간 모니터링을 통해 촬영 현장에서 바로 결과를 확인할 수 있고, 원격 디렉션도 지원합니다.
+4단계: 데이터 전달 / 후처리 +촬영이 끝나면 모션 데이터를 바로 받아보실 수 있습니다. 필요에 따라 데이터 클린업(노이즈 제거, 프레임 보정)이나 고객 아바타에 최적화된 리타게팅 후작업도 가능합니다.
+| 상황 | +추천 방식 | +추천 장비 | +이유 | +
|---|---|---|---|
| 개인 유튜브/VTuber 콘텐츠 | +관성식 | +Rokoko, Perception Neuron | +간편한 셋업, 공간 제약 없음 | +
| 야외·로케이션 촬영 | +관성식 | +Xsens MVN | +공간 제약 없음, 높은 신뢰성 | +
| 프리비즈·동작 블로킹 | +관성식 | +Rokoko, Xsens | +빠른 반복 작업에 유리 | +
| 게임 시네마틱·최종 애니메이션 | +광학식 | +OptiTrack, Vicon | +서브밀리미터 정확도 필수 | +
| VTuber 라이브 방송 (고퀄리티) | +광학식 | +OptiTrack | +실시간 스트리밍 + 드리프트 없음 | +
| 소품·환경 인터랙션 | +광학식 | +OptiTrack, Vicon | +오브젝트에 마커 부착으로 동시 추적 | +
| 의료·스포츠 연구 | +광학식 | +Vicon, Qualisys | +임상 수준 정밀 데이터 필요 | +
| 자동차·인체공학 분석 | +관성식 | +Xsens MVN | +실제 작업 환경에서 측정 가능 | +
자체 장비 구매가 부담스럽다면, 광학식 스튜디오 대관이 가장 효율적인 선택입니다. 고가의 장비를 직접 갖추지 않아도 프로급 결과물을 얻을 수 있습니다.
+Q. 모션캡처 광학식과 관성식의 가장 큰 차이는 무엇인가요?
+광학식은 적외선 카메라와 반사 마커로 절대 위치를 추적하여 서브밀리미터(0.1mm) 수준의 정확도를 제공합니다. 관성식은 IMU 센서를 착용하여 공간 제약 없이 어디서든 캡처가 가능하지만, 시간이 지날수록 위치 데이터에 드리프트(누적 오차)가 발생합니다.
+Q. VTuber 모션캡처에는 어떤 방식이 좋나요?
+간단한 개인 콘텐츠라면 관성식(Rokoko, Perception Neuron)으로 충분합니다. 하지만 고퀄리티 라이브 방송이나 정밀한 동작이 필요한 경우에는 드리프트가 없는 광학식이 적합합니다.
+Q. 관성식 모션캡처의 드리프트란 무엇인가요?
+드리프트는 IMU 센서의 가속도 데이터를 이중 적분하여 위치를 계산하는 과정에서 생기는 누적 오차입니다. 촬영 시간이 길어질수록 캐릭터의 위치가 실제와 어긋나는 현상이 발생하며, 자기장 간섭이 있는 환경에서는 더 심해질 수 있습니다.
+Q. 광학식 모션캡처의 오클루전 문제는 어떻게 해결하나요?
+오클루전은 마커가 카메라에 가려져 보이지 않을 때 발생합니다. 카메라 수를 늘려 사각지대를 줄이고, 소프트웨어의 갭 필링(Gap Filling) 기능으로 빠진 구간을 보간하여 해결합니다. 밍글 스튜디오의 경우 30대 카메라를 360도로 배치하여 오클루전을 최소화하고 있습니다.
+Q. 두 방식을 함께 사용할 수 있나요?
+네, 가능합니다. 실제로 많은 스튜디오가 전신은 광학식으로, 손가락은 관성식 글러브로 캡처하는 하이브리드 방식을 사용합니다. 밍글 스튜디오도 OptiTrack 광학식에 Rokoko 글러브를 결합하여 전신과 손가락 모두 고품질로 추적합니다.
+Q. 모션캡처 스튜디오를 대관하면 장비를 직접 사지 않아도 되나요?
+맞습니다. 광학식 장비는 직접 구매하면 상당한 투자가 필요하기 때문에, 필요한 프로젝트에서만 스튜디오를 대관하는 것이 가장 효율적인 방법입니다. 장비 구매, 셋업, 유지보수 부담 없이 프로급 결과물을 얻을 수 있습니다.
+장비를 직접 구매하지 않아도 됩니다. 밍글 스튜디오에서 OptiTrack 30대 + Rokoko 글러브 풀 셋업을 시간 단위로 이용할 수 있습니다.
+자세한 서비스 내용과 요금은 서비스 안내 페이지에서, 촬영 일정은 스케줄 페이지에서 확인하실 수 있습니다. 궁금한 점이 있으시면 문의 페이지에서 편하게 연락 주세요.
+ +모션캡처 스튜디오에서 배우가 슈트를 입고 움직이면 화면 속 캐릭터가 실시간으로 따라 움직입니다. 간단해 보이지만, 그 뒤에는 카메라 하드웨어 → 네트워크 전송 → 2D 영상 처리 → 3D 복원 → 스켈레톤 솔빙 → 실시간 스트리밍이라는 정밀한 기술 파이프라인이 돌아가고 있습니다.
+이 글에서는 광학식 모션캡처(OptiTrack 기준)의 전체 파이프라인을 단계별로 해부합니다.
+광학식 모션캡처의 첫 번째 단계는 카메라를 어디에, 어떻게 배치하느냐입니다.
+
카메라 수가 많을수록:
+밍글 스튜디오의 경우 OptiTrack Prime 17 × 16대 + Prime 13 × 14대, 총 30대를 8m × 7m 공간에 배치하여 360도 사각지대를 최소화하고 있습니다.
+모션캡처 카메라 렌즈 앞에는 IR 패스 필터(적외선 통과 필터)가 장착되어 있습니다. 이 필터는 가시광선을 차단하고 적외선 파장(850nm 부근)만 통과시킵니다. 덕분에 형광등, 햇빛, 모니터 빛 등 일반 조명에 의한 간섭이 원천 차단되고, 카메라는 오직 IR LED에 반사된 마커 빛만 감지할 수 있습니다.
+촬영 공간의 조명을 완전히 끌 필요가 없는 이유도 이 필터 덕분입니다. 다만 직사광선이나 강한 IR 성분을 포함한 조명은 간섭을 일으킬 수 있어, 스튜디오 환경에서는 IR 간섭이 적은 조명을 사용합니다.
+삼각측량이 정확하려면 모든 카메라가 정확히 같은 순간에 셔터를 눌러야 합니다. 카메라마다 제각각 다른 타이밍에 촬영하면 빠르게 움직이는 마커의 위치가 카메라별로 달라져 3D 복원이 부정확해집니다.
+OptiTrack은 하드웨어 동기화(Hardware Sync) 방식을 사용합니다. 한 대의 카메라가 Sync Master(동기 마스터)로 지정되어 타이밍 신호를 생성하고, 나머지 카메라들이 이 신호에 맞춰 동시에 노출합니다.
+이 동기화의 정밀도는 마이크로초(μs) 단위로, 30대 카메라가 사실상 완벽히 같은 순간에 촬영합니다.
+OptiTrack Prime 시리즈 카메라는 PoE(Power over Ethernet) 방식으로 연결됩니다. 일반 이더넷 케이블(Cat5e/Cat6) 한 줄로 전력 공급과 데이터 전송을 동시에 처리하는 기술입니다.
+
| 표준 | +최대 전력 | +비고 | +
|---|---|---|
| IEEE 802.3af (PoE) | +포트당 15.4W | +기본 모션캡처 카메라에 충분 | +
| IEEE 802.3at (PoE+) | +포트당 25.5W | +고프레임레이트 카메라나 IR LED 출력이 높은 경우 | +
OptiTrack 카메라는 보통 5~12W 정도를 소비하므로 PoE 표준 범위 내에서 충분히 동작합니다.
+카메라는 스타(Star) 토폴로지로 연결됩니다. 각 카메라가 PoE 스위치의 개별 포트에 1:1로 연결되는 구조입니다. 데이지 체인(직렬 연결)은 사용하지 않습니다.
+30대 카메라라면 24포트 + 8포트 PoE+ 스위치를 조합하거나 48포트 스위치를 사용합니다. 스위치 선택 시 총 PoE 전력 예산(예: 30대 × 12W = 360W)을 확인해야 합니다.
+카메라에서 PC로 전송되는 데이터가 무엇인지 이해하는 것이 파이프라인의 핵심입니다.
+
각 OptiTrack 카메라에는 적외선(IR) LED 링이 카메라 렌즈 주변에 장착되어 있습니다. 이 LED가 적외선을 쏘면, 배우 몸에 부착된 재귀반사 마커가 빛을 카메라 방향으로 반사합니다. 카메라 센서는 이 반사광을 그레이스케일 IR 이미지로 촬영합니다.
+여기서 중요한 점은, 카메라가 이 이미지를 그대로 PC에 보내지 않는다는 것입니다. 카메라 내부 프로세서가 먼저 처리합니다:
+1. 스레시홀딩(Thresholding) +밝기가 일정 기준(임계값) 이상인 픽셀만 남기고 나머지를 제거합니다. 적외선을 반사하는 마커만 밝게 빛나므로, 배경과 마커를 분리하는 과정입니다.
+2. 블롭 검출(Blob Detection) +밝은 픽셀들이 모여 있는 영역(블롭)을 하나의 마커 후보로 인식합니다.
+3. 2D 센트로이드 계산 +각 블롭의 정확한 중심점(센트로이드)을 서브픽셀 정밀도(약 0.1픽셀)로 계산합니다. 블롭 내 각 픽셀의 밝기를 가중치로 사용하는 가중 평균 방식입니다.
+기본 트래킹 모드에서 카메라가 PC로 보내는 것은 2D 센트로이드 데이터입니다:
+이렇게 작은 데이터량 덕분에 40대 이상의 카메라가 기가비트 이더넷 하나로도 충분합니다. 원시 그레이스케일 이미지를 전송할 수도 있지만(디버깅/시각화용), 이 경우 카메라당 수 MB/s가 필요하므로 일반 트래킹에서는 사용하지 않습니다.
+++즉, 카메라는 "영상을 찍어서 보내는 장치"가 아니라 "마커 위치를 계산해서 좌표만 보내는 센서"에 가깝습니다.
+
여기서 한 가지 의문이 들 수 있습니다 — 왜 모션캡처 카메라는 일반 카메라에 비해 그렇게 비쌀까? 이유는 위에서 설명한 과정에 있습니다. 일반 카메라는 찍은 영상을 그대로 보내면 끝이지만, 모션캡처 카메라는 내부에 전용 프로세서를 탑재하고 있어서 스레시홀딩, 블롭 검출, 서브픽셀 센트로이드 계산까지 초당 240~360프레임으로 실시간 처리합니다. 카메라 한 대가 사실상 영상 처리 전용 소형 컴퓨터를 품고 있는 셈이죠.
+3D 복원을 하기 전에 반드시 거쳐야 하는 과정이 있습니다. 소프트웨어가 각 카메라의 정확한 위치, 방향, 렌즈 특성을 파악하는 캘리브레이션(Calibration)입니다.
+
오퍼레이터가 LED 또는 마커가 부착된 캘리브레이션 완드(Wand, 막대)를 들고 캡처 볼륨 전체를 걸어다니며 휘두릅니다. 완드의 마커 간 거리는 정확히 알려져 있기 때문에, 각 카메라가 완드를 수천 프레임 동안 촬영하면 소프트웨어가 다음을 계산할 수 있습니다:
+이 계산에는 번들 조정(Bundle Adjustment)이라는 최적화 알고리즘이 사용됩니다. 수천 개의 2D 관측 데이터를 기반으로 모든 카메라의 파라미터를 동시에 최적화하는 과정입니다.
+완딩이 끝나면 바닥에 L자형 캘리브레이션 프레임(Ground Plane)을 놓습니다. 이 프레임의 마커 3개 이상이 바닥면과 좌표 원점을 정의합니다:
+이렇게 캘리브레이션이 완료되면, 소프트웨어는 어떤 카메라의 2D 좌표든 정확한 3D 광선으로 변환할 수 있게 됩니다.
+Motive 소프트웨어는 캘리브레이션 후 각 카메라의 재투영 오차(Reprojection Error)를 표시합니다. 이 값이 작을수록(보통 0.5px 이하) 캘리브레이션이 정확하다는 의미입니다. 오차가 큰 카메라는 위치를 조정하거나 재캘리브레이션합니다.
+PC에 도착한 2D 센트로이드들이 어떻게 3D 좌표로 변환되는지 살펴봅니다.
+노이즈, 렌즈 왜곡, 캘리브레이션 오차 등으로 인해 광선들이 정확히 한 점에서 만나는 경우는 거의 없습니다. 그래서 최소자승법(Least Squares Optimization)을 사용합니다:
+| 해당 마커를 보는 카메라 수 | +효과 | +
|---|---|
| 2대 | +3D 복원 가능 (최소 조건) | +
| 3대 | +정확도 향상 + 1대가 가려져도 추적 유지 | +
| 4대 이상 | +높은 정확도 + 강한 오클루전 내성 | +
3D 복원을 의미 있는 모션 데이터로 만들려면, 마커가 신체의 정확한 위치에 부착되어야 합니다.
+마커 사양
+마커셋 규격 +마커를 어디에 몇 개 붙이느냐는 표준화된 마커셋(Markerset) 규격을 따릅니다:
+마커는 뼈가 튀어나온 해부학적 랜드마크(견봉, 외측 상과, 전상장골극 등)에 부착합니다. 이런 위치는 피부 위에서 뼈의 움직임을 가장 정확히 반영하고, 피부 미끄러짐(Skin Artifact)이 최소화되는 지점입니다.
+3D 복원이 끝나면 매 프레임마다 이름 없는 3D 점들의 구름(Point Cloud)이 생성됩니다. "이 점이 왼쪽 무릎 마커인지, 오른쪽 어깨 마커인지"를 판별하는 과정이 라벨링(Labeling)입니다.
+
템플릿 매칭(Template Matching) +캘리브레이션 시 정의한 마커셋의 기하학적 배치(예: 무릎과 발목 마커 사이 거리)를 기준으로, 현재 프레임의 3D 점들을 템플릿과 대조합니다.
+예측 추적(Predictive Tracking) +이전 프레임의 속도·가속도를 기반으로 다음 프레임에서 각 마커가 어디에 있을지 예측하고, 가장 가까운 3D 점을 매칭합니다.
+두 마커가 서로 매우 가까이 지나갈 때, 소프트웨어가 두 마커의 라벨을 뒤바꿔 버리는 현상입니다. 광학식 모캡에서 가장 흔한 아티팩트 중 하나입니다.
+해결 방법:
+| 구분 | +패시브 마커 (반사형) | +액티브 마커 (발광형) | +
|---|---|---|
| 원리 | +카메라 IR LED의 빛을 반사 | +마커 자체가 고유 IR 패턴 발광 | +
| 식별 | +소프트웨어 기반 (스왑 가능성 있음) | +하드웨어 기반 (스왑 없음) | +
| 장점 | +가볍고 저렴, 부착 간편 | +자동 식별, 라벨링 오류 없음 | +
| 단점 | +라벨링 후처리 필요할 수 있음 | +무겁고, 배터리/전원 필요 | +
대부분의 엔터테인먼트/VTuber 현장에서는 패시브 마커가 주로 사용됩니다. 가볍고 편하며, 소프트웨어 성능이 충분히 좋아 대부분의 상황에서 자동 라벨링이 잘 작동하기 때문입니다.
+라벨링된 3D 마커들을 사람의 골격(Skeleton) 구조에 매핑하는 단계입니다.
+촬영 전에 배우가 T-포즈(팔을 벌린 자세)를 취하면, 소프트웨어가 마커 위치를 기반으로 각 뼈대 길이(팔 길이, 다리 길이 등)와 관절 위치를 계산합니다.
+이어서 ROM(Range of Motion) 캡처를 수행합니다.
+
촬영 중에는 매 프레임마다:
+칼, 총, 카메라 등 소품에 3개 이상의 마커를 비대칭으로 부착하면, 소프트웨어가 해당 마커 클러스터를 하나의 강체(Rigid Body)로 인식하여 6DOF(위치 3축 + 회전 3축) 추적이 가능합니다.
+
OptiTrack Motive는 솔빙된 데이터를 실시간으로 외부 소프트웨어에 전달합니다:
+이를 통해 Unity, Unreal Engine, MotionBuilder 등에서 실시간으로 캐릭터를 움직일 수 있습니다. VTuber 라이브 방송이 가능한 것도 이 실시간 스트리밍 덕분입니다.
+| 포맷 | +용도 | +
|---|---|
| FBX | +스켈레톤 + 애니메이션 데이터, 게임 엔진/DCC 툴 호환 | +
| BVH | +계층적 모션 데이터, 리타게팅에 주로 사용 | +
| C3D | +원시 3D 마커 데이터, 바이오메카닉스/연구 표준 | +

실시간 캡처에서 얻은 데이터는 바로 최종 결과물로 쓸 수 있는 경우도 있지만, 대부분의 프로 작업에서는 후처리(Post-Processing) 과정을 거칩니다.
+오클루전으로 인해 마커가 일시적으로 사라진 구간을 보간(Interpolation)으로 채우는 작업입니다.
+갭이 길수록 보간 정확도가 떨어지기 때문에, 촬영 시 오클루전을 최소화하는 것이 가장 중요합니다.
+캡처된 데이터에는 미세한 떨림(High-frequency Noise)이 포함될 수 있습니다. 이를 제거하기 위해:
+다만 과도한 스무딩은 동작의 디테일과 임팩트를 잃게 만들므로, 칼을 휘두르는 순간의 날카로운 움직임까지 뭉개지지 않도록 적절한 강도를 설정해야 합니다.
+6단계에서 설명한 마커 스왑이 발생한 구간을 찾아서 라벨을 수동으로 바로잡는 작업입니다. Motive에서는 타임라인 위에서 마커 궤적을 시각적으로 확인하며 교정할 수 있습니다.
+캡처된 스켈레톤 데이터를 다른 비율의 캐릭터에 적용하는 과정입니다. 예를 들어 키 170cm인 배우의 모션 데이터를 키 3m인 거인 캐릭터나 150cm인 어린이 캐릭터에 맞추려면, 관절 회전은 유지하면서 뼈대 길이를 대상 캐릭터에 맞게 재계산해야 합니다. MotionBuilder, Maya, Unreal Engine 등에서 리타게팅 기능을 제공합니다.
+기술적으로 완벽해 보이는 광학식 모캡에도 실무 현장에서 마주치는 문제들이 있습니다.
+마커가 아닌 물체에서 적외선이 반사되어 가짜 마커(Ghost Marker)가 검출되는 현상입니다.
+격렬한 동작 중에 마커가 슈트에서 떨어지거나 위치가 틀어지는 경우입니다.
+촬영 시 배우가 입는 옷은 밝은 색상·무광 소재가 이상적입니다. 검은색은 마커 반사에 영향이 없지만, 반짝이는 소재나 느슨한 옷은 마커 위치가 불안정해지거나 반사 노이즈를 유발할 수 있습니다. 전용 모캡 슈트를 착용하는 것이 가장 안정적입니다.
+캡처 볼륨 내 온도 변화, 카메라 진동, 삼각대 미세 이동 등으로 캘리브레이션이 서서히 틀어질 수 있습니다. 장시간 촬영 시에는 중간에 재캘리브레이션하거나, Motive의 Continuous Calibration(연속 캘리브레이션) 기능으로 실시간 보정하는 것이 좋습니다.
+전체 파이프라인의 각 단계별 소요 시간입니다.
+| 단계 | +소요 시간 | +
|---|---|
| 카메라 노출 (240fps 기준) | +~4.2ms | +
| 카메라 내부 처리 (센트로이드 계산) | +~0.5–1ms | +
| 네트워크 전송 (PoE → PC) | +< 1ms | +
| 3D 복원 + 라벨링 | +~1–2ms | +
| 스켈레톤 솔빙 | +~0.5–1ms | +
| 스트리밍 출력 (NatNet) | +< 1ms | +
| 총 종단간 레이턴시 | +약 8–14ms (240fps 기준) | +
360fps에서는 노출 시간이 줄어 7ms 이하까지 가능합니다. 이 정도 레이턴시면 사람이 체감하기 어려운 수준이며, VTuber 라이브 방송에서도 자연스러운 실시간 반응이 가능합니다.
+++참고: 레이턴시의 대부분은 카메라 노출 시간(프레임 주기)이 차지합니다. 프레임레이트가 높을수록 레이턴시가 줄어드는 이유입니다.
+
30대 카메라를 링 형태로 배치, IR 패스 필터로 적외선만 감지, 하드웨어 싱크로 μs 단위 동기화
+Cat6 한 줄로 전력 + 데이터 동시 전송, 스타 토폴로지로 스위치에 연결
+IR LED 발사 → 마커 반사광 수신 → 스레시홀딩 → 블롭 검출 → 서브픽셀 센트로이드 계산 → 좌표만 전송
+완딩으로 카메라 내부/외부 파라미터 산출, 그라운드 플레인으로 좌표계 정의
+다수 카메라의 2D 좌표에서 광선 교차 + 최소자승법으로 3D 좌표 복원
+템플릿 매칭 + 예측 추적으로 각 3D 점에 마커 이름 부여
+T-포즈 + ROM 캘리브레이션 기반, 역운동학으로 관절 위치·회전 계산
+NatNet/VRPN으로 Unity/Unreal/MotionBuilder에 실시간 전송, FBX/BVH/C3D 녹화
+갭 필링 · 스무딩 · 마커 스왑 교정 · 리타게팅
+게임 시네마틱 · VTuber 라이브 · 영상 콘텐츠에 적용 (총 레이턴시 약 8~14ms)
+카메라가 찍은 영상이 그대로 PC에 오는 것이 아니라, 카메라가 직접 마커 좌표를 계산해서 보내고, PC는 이 좌표들을 3D로 복원하고 뼈대에 매핑하는 것 — 이것이 광학식 모션캡처의 핵심 원리입니다.
+Q. 광학식 모션캡처 카메라는 일반 카메라와 뭐가 다른가요?
+일반 카메라는 풀컬러 영상을 촬영하지만, 모션캡처 카메라는 적외선(IR) 영역에 특화되어 있습니다. IR LED로 마커를 비추고 반사광만 감지하며, 카메라 내부에서 마커의 2D 좌표를 직접 계산하여 좌표 데이터만 PC에 전송합니다.
+Q. PoE 케이블 길이에 제한이 있나요?
+이더넷 표준에 따라 PoE 케이블은 최대 100m까지 지원됩니다. 대부분의 모션캡처 스튜디오에서는 이 범위를 충분히 충족합니다.
+Q. 카메라 프레임레이트가 높을수록 항상 좋은가요?
+프레임레이트가 높으면 빠른 동작 추적과 낮은 레이턴시에 유리하지만, 데이터 처리량이 늘어나고 카메라 해상도가 낮아질 수 있습니다. 일반적으로 VTuber 라이브나 게임 모션캡처에서는 120~240fps면 충분하며, 스포츠 과학 등 초고속 동작 분석에서는 360fps 이상을 사용합니다.
+Q. 마커 스왑은 얼마나 자주 발생하나요?
+마커셋이 잘 설계되어 있고 카메라 수가 충분하면 실시간 촬영 중 스왑은 드물게 발생합니다. 다만 빠른 동작이나 마커 간 거리가 가까운 동작(손 맞잡기 등)에서는 발생 확률이 올라가며, 이런 구간은 후처리에서 교정합니다.
+Q. 삼각측량에 2대면 충분한데 왜 30대나 설치하나요?
+2대는 이론적 최솟값일 뿐입니다. 실제로는 오클루전(마커 가림), 카메라 각도에 따른 정확도 차이, 리던던시 확보 등을 고려해야 합니다. 30대를 배치하면 어떤 마커든 항상 다수의 카메라가 보고 있으므로, 안정적이고 정확한 추적이 가능합니다.
+Q. 캘리브레이션은 얼마나 자주 해야 하나요?
+일반적으로 촬영일 시작 전에 한 번 수행합니다. 다만 장시간 촬영 시 온도 변화나 카메라 미세 이동으로 캘리브레이션이 틀어질 수 있어, 4~6시간 연속 촬영 시 중간에 재캘리브레이션을 권장합니다. OptiTrack Motive의 Continuous Calibration 기능을 사용하면 촬영 중에도 실시간으로 보정이 가능합니다.
+Q. 반짝이는 옷을 입으면 안 되나요?
+모션캡처 카메라는 적외선 반사를 감지하기 때문에, 반짝이는 소재(금속 장식, 시퀸, 광택 있는 합성 섬유 등)는 적외선을 반사하여 가짜 마커(Ghost Marker)를 만들 수 있습니다. 전용 모캡 슈트나 무광 소재의 편안한 옷을 착용하는 것이 가장 좋습니다.
+광학식 모션캡처의 기술적 구조에 대해 더 궁금한 점이 있으시면 문의 페이지에서 편하게 질문해 주세요. 밍글 스튜디오에서 직접 체험하고 싶으시다면 서비스 안내를 확인해 보세요.
+ +Sharing motion capture technology and our creative process
+When you start getting into motion capture, there's one question you'll encounter right away.
+"What's the difference between inertial and optical?"
+In this article, we'll cover everything from the underlying principles of each method to the leading equipment and real-world user feedback.
+Optical motion capture uses infrared cameras and reflective markers.
+Multiple infrared (IR) cameras are installed around the capture space, and retro-reflective markers approximately 10–20mm in diameter are attached to the performer's joints. Each camera emits infrared LED light and detects the light reflected back from the markers, extracting 2D marker coordinates from the image.
+When at least two cameras simultaneously capture the same marker, the precise 3D coordinates of that marker can be calculated using the principle of triangulation. The more cameras there are, the higher the accuracy and the fewer blind spots, which is why professional studios typically use 12 to 40 or more cameras.
+Because every marker's 3D coordinates are recorded as absolute positions in every frame, the data remains accurate with zero cumulative drift no matter how much time passes.
+ +OptiTrack (PrimeX Series)
+Vicon (Vero / Vantage Series)
+Qualisys
+Inertial motion capture uses IMU (Inertial Measurement Unit) sensors attached to the body or embedded in a suit to measure movement.
+Each IMU sensor contains three core components:
+By combining data from these three sensors using sensor fusion algorithms, the 3D orientation of each body part the sensor is attached to can be calculated in real time. Typically, 15–17 sensors are placed on key joints across the upper body, lower body, arms, and legs, and the relationships between sensors are used to extract full-body skeletal data.
+However, because calculating position from accelerometer data requires double integration, errors accumulate (drift), meaning the global position — "where exactly am I standing in space?" — becomes increasingly inaccurate over time. This is the fundamental limitation of inertial systems.
+ +Xsens MVN (now Movella)
+Rokoko Smartsuit Pro
+Noitom Perception Neuron
+| Category | +Optical | +Inertial (IMU) | +
|---|---|---|
| Tracking Principle | +IR cameras + reflective marker triangulation | +IMU sensors (accelerometer + gyroscope + magnetometer) | +
| Positional Accuracy | +Sub-millimeter (0.1mm) — absolute coordinates | +Drift occurs — cumulative error over time | +
| Rotational Accuracy | +Derived from positional data (very high) | +1–3 degrees (depends on sensor fusion algorithm) | +
| Drift | +None — absolute position measured every frame | +Present — error accumulates from double integration of acceleration | +
| Occlusion | +Tracking lost when markers are hidden from cameras | +No issue — sensors are directly attached to the body | +
| Magnetic Interference | +Not affected | +Data distortion near metals/electronics | +
| Latency | +~5–10ms | +~10–20ms | +
| Setup Time | +30–90 min (camera placement + calibration) | +5–15 min (suit on + quick calibration) | +
| Capture Space | +Dedicated studio required (camera setup + environment control) | +Anywhere (outdoors, small spaces OK) | +
| Multi-person Capture | +Simultaneous capture possible with distinct marker sets | +Independent per suit, simultaneous possible but interaction is difficult | +
| Prop/Object Tracking | +Trackable by attaching markers | +Requires separate sensors, practically difficult | +
| Finger Tracking | +High-precision tracking with dedicated hand marker sets | +Only some devices support it, limited precision | +
| Post-processing Workload | +Gap filling needed for occlusion segments | +Drift correction + position cleanup needed | +
| Leading Equipment | +OptiTrack, Vicon, Qualisys | +Xsens, Rokoko, Noitom | +
| Primary Use Cases | +Game/film final capture, VTuber live, research | +Previsualization, outdoor shoots, indie/personal content | +
Recently, markerless motion capture, where AI extracts motion from camera footage alone, has been gaining attention. Move.ai, Captury, and Plask are notable examples, and the barrier to entry is very low since capture is possible with regular cameras without any markers.
+However, at this point, markerless methods fall significantly short of optical and inertial systems in terms of accuracy and stability. Joint positions frequently exhibit jitter (jumping or shaking), and tracking becomes unstable during fast movements or occlusion situations. It can be useful for previsualization or reference purposes, but it is not yet at a level where it can be directly used in final deliverables for games, broadcast, or film.
+This is a rapidly advancing field worth watching, but for now, optical and inertial systems remain the mainstream in professional production.
+Summarizing the recurring opinions from motion capture communities on Reddit (r/gamedev, r/vfx), CGSociety, and others:
+++"Optical for work where final quality matters, inertial for when speed and accessibility are the priority."
+
In practice, many professional studios use both methods in tandem. A common workflow is to quickly block out movements or create previz with inertial, then do the final capture with optical.
+For solo creators or indie teams, the prevailing advice is to start with an accessible inertial system like Rokoko, but rent an optical studio for projects that demand precision.
+Mingle Studio is an optical motion capture studio equipped with 30 OptiTrack cameras (16x Prime 17 + 14x Prime 13). The reasons for choosing optical are clear:
+As such, optical and inertial are not necessarily an either-or choice. Combining the strengths of each method can achieve a level of quality that would be difficult to reach with a single approach alone.
+With 30 cameras covering 360 degrees in an 8m x 7m capture space, occlusion issues are minimized.
+Here's how a typical motion capture session works when you book Mingle Studio:
+Step 1: Pre-consultation +We discuss the purpose of the shoot, number of performers needed, and types of motions to capture. For live broadcasts, avatar, background, and prop setup are also coordinated at this stage.
+Step 2: Shoot Preparation (Setup) +When you arrive at the studio, a professional operator handles marker placement, calibration, and avatar mapping. For live broadcast packages, character, background, and prop setup are included — no separate preparation needed.
+Step 3: Main Capture / Live Broadcast +Full-body and finger capture are performed simultaneously using 30 OptiTrack cameras + Rokoko gloves. Real-time monitoring lets you check results on the spot, and remote direction is also supported.
+Step 4: Data Delivery / Post-processing +After the shoot, motion data is delivered promptly. Depending on your needs, data cleanup (noise removal, frame correction) and retargeting optimized for your avatar are also available.
+| Scenario | +Recommended Method | +Recommended Equipment | +Reason | +
|---|---|---|---|
| Personal YouTube/VTuber content | +Inertial | +Rokoko, Perception Neuron | +Easy setup, no spatial constraints | +
| Outdoor/location shoots | +Inertial | +Xsens MVN | +No spatial constraints, high reliability | +
| Previz/motion blocking | +Inertial | +Rokoko, Xsens | +Ideal for fast iterative work | +
| Game cinematics/final animation | +Optical | +OptiTrack, Vicon | +Sub-millimeter accuracy essential | +
| High-quality VTuber live streaming | +Optical | +OptiTrack | +Real-time streaming + no drift | +
| Prop/environment interaction | +Optical | +OptiTrack, Vicon | +Simultaneous tracking via markers on objects | +
| Medical/sports research | +Optical | +Vicon, Qualisys | +Clinical-grade precision data required | +
| Automotive/ergonomics analysis | +Inertial | +Xsens MVN | +Measurement possible in real work environments | +
If purchasing your own equipment is too costly, renting an optical studio is the most efficient choice. You can get professional-grade results without the expense of owning the equipment yourself.
+Q. What is the biggest difference between optical and inertial motion capture?
+Optical tracks absolute positions using infrared cameras and reflective markers, providing sub-millimeter (0.1mm) accuracy. Inertial uses wearable IMU sensors that allow capture anywhere without spatial constraints, but positional data develops drift (cumulative error) over time.
+Q. Which method is better for VTuber motion capture?
+For simple personal content, inertial (Rokoko, Perception Neuron) is sufficient. However, for high-quality live broadcasts or when precise movements are needed, optical — which has no drift — is the better choice.
+Q. What is drift in inertial motion capture?
+Drift is the cumulative error that occurs when calculating position through double integration of IMU sensor acceleration data. The longer the capture session, the more the character's position diverges from reality, and this effect worsens in environments with magnetic interference.
+Q. How is the occlusion problem in optical motion capture solved?
+Occlusion occurs when markers are blocked from camera view. It's addressed by increasing the number of cameras to reduce blind spots and using software gap-filling functions to interpolate missing segments. Mingle Studio, for example, uses 30 cameras arranged in 360 degrees to minimize occlusion.
+Q. Can both methods be used together?
+Yes. In practice, many studios use a hybrid approach — optical for full-body and inertial gloves for fingers. Mingle Studio combines OptiTrack optical capture with Rokoko gloves, achieving high-quality tracking for both full-body and fingers.
+Q. If I rent a motion capture studio, do I not need to buy equipment myself?
+That's correct. Since purchasing optical equipment requires a substantial investment, renting a studio only for the projects that need it is the most efficient approach. You get professional-grade results without the burden of equipment purchase, setup, and maintenance.
+You don't need to buy the equipment yourself. At Mingle Studio, you can use a full setup of 30 OptiTrack cameras + Rokoko gloves on an hourly basis.
+For detailed service information and pricing, visit our Services page. To check available session times, see our Schedule page. If you have any questions, feel free to reach out via our Contact page.
+ +When an actor wearing a suit moves in a motion capture studio, the on-screen character follows in real time. It looks simple, but behind the scenes runs a precise technical pipeline: camera hardware → network transmission → 2D image processing → 3D reconstruction → skeleton solving → real-time streaming.
+In this article, we dissect the entire pipeline of optical motion capture (based on OptiTrack) step by step.
+The first step in optical motion capture is deciding where and how to place the cameras.
+
More cameras means:
+At Mingle Studio, we use OptiTrack Prime 17 × 16 units + Prime 13 × 14 units, a total of 30 cameras arranged in an 8m × 7m space to minimize 360-degree blind spots.
+An IR pass filter (infrared pass filter) is mounted in front of each motion capture camera lens. This filter blocks visible light and allows only infrared wavelengths (around 850nm) to pass through. This eliminates interference from fluorescent lights, sunlight, monitor glow, and other ambient lighting, allowing the camera to detect only marker light reflected from IR LEDs.
+This filter is also the reason the studio lighting doesn't need to be completely turned off. However, direct sunlight or lighting with strong IR components can still cause interference, so studios use lighting with minimal IR emission.
+For accurate triangulation, all cameras must trigger their shutters at exactly the same moment. If each camera captures at different timings, the position of fast-moving markers would vary between cameras, making 3D reconstruction inaccurate.
+OptiTrack uses a hardware synchronization (Hardware Sync) method. One camera is designated as the Sync Master, generating timing signals, while the remaining cameras expose simultaneously in sync with this signal.
+The precision of this synchronization is at the microsecond (μs) level, meaning all 30 cameras capture at virtually the exact same moment.
+OptiTrack Prime series cameras connect via PoE (Power over Ethernet). This technology delivers both power and data simultaneously through a single standard Ethernet cable (Cat5e/Cat6).
+
| Standard | +Max Power | +Notes | +
|---|---|---|
| IEEE 802.3af (PoE) | +15.4W per port | +Sufficient for standard motion capture cameras | +
| IEEE 802.3at (PoE+) | +25.5W per port | +For high-frame-rate cameras or those with high IR LED output | +
OptiTrack cameras typically consume around 5–12W, well within the PoE standard range.
+Cameras are connected in a star topology. Each camera connects 1:1 to an individual port on the PoE switch. Daisy chaining (serial connection) is not used.
+For 30 cameras, you would combine a 24-port + 8-port PoE+ switch or use a 48-port switch. When selecting a switch, you must verify the total PoE power budget (e.g., 30 cameras × 12W = 360W).
+Understanding what data is transmitted from cameras to the PC is the key to the pipeline.
+
Each OptiTrack camera has an infrared (IR) LED ring mounted around the camera lens. These LEDs emit infrared light, which is reflected back toward the camera by retroreflective markers attached to the actor's body. The camera sensor captures this reflected light as a grayscale IR image.
+The important point here is that the camera does not send this raw image directly to the PC. The camera's internal processor handles it first:
+1. Thresholding +Only pixels above a certain brightness threshold are kept; the rest are discarded. Since only markers reflecting infrared light appear bright, this process separates markers from the background.
+2. Blob Detection +Clusters of bright pixels (blobs) are recognized as individual marker candidates.
+3. 2D Centroid Calculation +The precise center point (centroid) of each blob is calculated with sub-pixel precision (approximately 0.1 pixels). This uses a weighted average method where the brightness of each pixel within the blob serves as the weight.
+In the default tracking mode, what the camera sends to the PC is 2D centroid data:
+Thanks to this small data volume, 40+ cameras can operate on a single Gigabit Ethernet connection. Raw grayscale images can also be transmitted (for debugging/visualization), but this requires several MB/s per camera and is not used during normal tracking.
+++In other words, the camera is not "a device that captures and sends video" but rather closer to "a sensor that calculates marker positions and sends only coordinates."
+
You might wonder — why are motion capture cameras so expensive compared to regular cameras? The answer lies in the process described above. Regular cameras simply send the captured footage as-is, but motion capture cameras have a dedicated onboard processor that performs thresholding, blob detection, and sub-pixel centroid calculation in real time at 240–360 frames per second. Each camera essentially contains a small computer dedicated to image processing.
+There is a mandatory process before 3D reconstruction can happen. The software must determine each camera's exact position, orientation, and lens characteristics — this is calibration.
+
An operator walks through the entire capture volume while waving a calibration wand — a rod with LEDs or markers attached. Since the distances between the wand's markers are precisely known, when each camera captures the wand over thousands of frames, the software can calculate:
+This calculation uses an optimization algorithm called Bundle Adjustment. It simultaneously optimizes all camera parameters based on thousands of 2D observation data points.
+After wanding, an L-shaped calibration frame (Ground Plane) is placed on the floor. Three or more markers on this frame define the floor plane and coordinate origin:
+Once calibration is complete, the software can convert any camera's 2D coordinates into an accurate 3D ray.
+Motive software displays the reprojection error for each camera after calibration. The smaller this value (typically 0.5px or below), the more accurate the calibration. Cameras with large errors are repositioned or recalibrated.
+Let's examine how the 2D centroids arriving at the PC are converted into 3D coordinates.
+Due to noise, lens distortion, calibration errors, and other factors, rays almost never meet at a single exact point. That's why Least Squares Optimization is used:
+| Number of cameras seeing the marker | +Effect | +
|---|---|
| 2 | +3D reconstruction possible (minimum requirement) | +
| 3 | +Improved accuracy + tracking maintained even if 1 camera is occluded | +
| 4 or more | +High accuracy + strong occlusion resilience | +
To turn 3D reconstruction into meaningful motion data, markers must be attached at precise locations on the body.
+Marker Specifications
+Markerset Standards +The number and placement of markers follow standardized markerset specifications:
+Markers are placed at anatomical landmarks where bones protrude (acromion, lateral epicondyle, anterior superior iliac spine, etc.). These locations most accurately reflect bone movement through the skin and minimize skin artifact.
+After 3D reconstruction, each frame produces a cloud of unnamed 3D points (Point Cloud). The process of determining "is this point the left knee marker or the right shoulder marker?" is labeling.
+
Template Matching +Based on the geometric arrangement of the markerset defined during calibration (e.g., the distance between knee and ankle markers), the current frame's 3D points are compared against the template.
+Predictive Tracking +Based on velocity and acceleration from previous frames, the software predicts where each marker will be in the next frame and matches it to the nearest 3D point.
+When two markers pass very close to each other, the software may swap their labels — a phenomenon where labels are exchanged. This is one of the most common artifacts in optical mocap.
+Solutions:
+| Category | +Passive Markers (Reflective) | +Active Markers (Self-emitting) | +
|---|---|---|
| Principle | +Reflects light from camera IR LEDs | +Each marker emits a unique IR pattern | +
| Identification | +Software-based (swap possible) | +Hardware-based (no swaps) | +
| Advantages | +Lightweight, inexpensive, easy to attach | +Auto-identification, no labeling errors | +
| Disadvantages | +May require post-processing labeling | +Heavier, requires battery/power | +
In most entertainment/VTuber production environments, passive markers are primarily used. They are lightweight and comfortable, and software performance is good enough that automatic labeling works well in most situations.
+This step maps labeled 3D markers to a human skeleton structure.
+Before shooting, the actor strikes a T-pose (arms outstretched), and the software calculates bone lengths (arm length, leg length, etc.) and joint positions based on marker locations.
+This is followed by a ROM (Range of Motion) capture.
+
During capture, for every frame:
+By attaching 3 or more markers in an asymmetric pattern to props like swords, guns, or cameras, the software recognizes the marker cluster as a single rigid body, enabling 6DOF (3 axes of position + 3 axes of rotation) tracking.
+
OptiTrack Motive delivers solved data to external software in real time:
+This enables real-time character animation in Unity, Unreal Engine, MotionBuilder, and more. VTuber live broadcasts are possible thanks to this real-time streaming.
+| Format | +Use Case | +
|---|---|
| FBX | +Skeleton + animation data, compatible with game engines/DCC tools | +
| BVH | +Hierarchical motion data, primarily used for retargeting | +
| C3D | +Raw 3D marker data, biomechanics/research standard | +

Data from real-time capture can sometimes be used as-is, but most professional work involves a post-processing stage.
+This fills gaps where markers temporarily disappeared due to occlusion using interpolation.
+The longer the gap, the less accurate the interpolation, which is why minimizing occlusion during shooting is most important.
+Captured data may contain subtle jitter (high-frequency noise). To remove this:
+However, excessive smoothing can cause loss of detail and impact in the motion, so the strength must be set appropriately to avoid blurring sharp movements like sword swings.
+This involves finding sections where marker swaps (described in Step 6) occurred and manually correcting the labels. In Motive, you can visually inspect and correct marker trajectories on the timeline.
+The process of applying captured skeleton data to a character with different proportions. For example, to apply motion data from a 170cm actor to a 3m giant character or a 150cm child character, joint rotations must be preserved while bone lengths are recalculated to match the target character. MotionBuilder, Maya, Unreal Engine, and others provide retargeting functionality.
+Even seemingly perfect optical mocap encounters real-world challenges on set.
+Infrared light reflecting off objects other than markers creates ghost markers — false marker detections.
+Markers may fall off the suit or shift position during intense movements.
+Actors should ideally wear light-colored, matte-material clothing during capture. Black doesn't affect marker reflection, but shiny materials or loose clothing can cause unstable marker positions or stray reflections. Wearing a dedicated mocap suit is the most reliable option.
+Calibration can gradually drift due to temperature changes within the capture volume, camera vibrations, or minor tripod shifts. For extended shooting sessions, it's recommended to recalibrate midway, or use Motive's Continuous Calibration feature for real-time correction during capture.
+Here is the time breakdown for each stage of the pipeline.
+| Stage | +Duration | +
|---|---|
| Camera exposure (at 240fps) | +~4.2ms | +
| Camera internal processing (centroid calculation) | +~0.5–1ms | +
| Network transmission (PoE → PC) | +< 1ms | +
| 3D reconstruction + labeling | +~1–2ms | +
| Skeleton solving | +~0.5–1ms | +
| Streaming output (NatNet) | +< 1ms | +
| Total end-to-end latency | +Approx. 8–14ms (at 240fps) | +
At 360fps, the exposure time decreases, making latencies below 7ms achievable. This level of latency is imperceptible to humans, enabling natural real-time response even in VTuber live broadcasts.
+++Note: Most of the latency comes from the camera exposure time (frame period). This is why higher frame rates result in lower latency.
+
30 cameras arranged in a ring, IR pass filters detect infrared only, hardware sync at μs precision
+Single Cat6 cable carries power + data, star topology connection to switch
+IR LED emission → marker reflection received → thresholding → blob detection → sub-pixel centroid calculation → coordinates transmitted
+Wanding to determine camera intrinsic/extrinsic parameters, ground plane to define coordinate system
+Ray intersection from multiple cameras' 2D coordinates + least squares optimization to reconstruct 3D coordinates
+Template matching + predictive tracking to assign marker names to each 3D point
+Based on T-pose + ROM calibration, inverse kinematics to calculate joint positions and rotations
+Real-time transmission to Unity/Unreal/MotionBuilder via NatNet/VRPN, recording in FBX/BVH/C3D
+Gap filling · smoothing · marker swap correction · retargeting
+Applied to game cinematics · VTuber live · video content (total latency approx. 8–14ms)
+The camera does not send raw footage to the PC — instead, the camera calculates marker coordinates internally and sends only those, while the PC reconstructs them in 3D and maps them to a skeleton. This is the core principle of optical motion capture.
+Q. How is an optical motion capture camera different from a regular camera?
+Regular cameras capture full-color video, but motion capture cameras are specialized for the infrared (IR) spectrum. They illuminate markers with IR LEDs, detect only reflected light, and internally calculate the markers' 2D coordinates, transmitting only coordinate data to the PC.
+Q. Is there a length limit for PoE cables?
+According to the Ethernet standard, PoE cables support a maximum of 100m. Most motion capture studios easily fall within this range.
+Q. Is a higher camera frame rate always better?
+Higher frame rates are advantageous for fast motion tracking and lower latency, but they increase data throughput and may reduce camera resolution. Generally, 120–240fps is sufficient for VTuber live and game motion capture, while 360fps or higher is used for ultra-high-speed motion analysis in sports science and similar fields.
+Q. How often do marker swaps occur?
+If the markerset is well-designed and there are enough cameras, swaps during real-time capture are rare. However, the probability increases during fast movements or when markers are close together (such as hand clasping), and these sections are corrected in post-processing.
+Q. If 2 cameras are enough for triangulation, why install 30?
+Two cameras is merely the theoretical minimum. In practice, you must account for occlusion (marker obstruction), accuracy variations based on camera angle, and redundancy. With 30 cameras deployed, every marker is always seen by multiple cameras, enabling stable and accurate tracking.
+Q. How often does calibration need to be done?
+Typically, calibration is performed once at the start of each shooting day. However, during extended sessions, calibration can drift due to temperature changes or minor camera movement, so recalibration is recommended during 4–6 hour continuous shoots. Using OptiTrack Motive's Continuous Calibration feature allows real-time correction even during capture.
+Q. Is it not allowed to wear shiny clothing?
+Because motion capture cameras detect infrared reflections, shiny materials (metal decorations, sequins, glossy synthetic fabrics, etc.) can reflect infrared light and create ghost markers. Wearing a dedicated mocap suit or comfortable clothing made of matte materials is best.
+If you have further questions about the technical structure of optical motion capture, feel free to ask on our contact page. If you'd like to experience it firsthand at Mingle Studio, check out our services page.
+ +