モーションキャプチャースタジオで俳優がスーツを着て動くと、画面上のキャラクターがリアルタイムで追従します。一見シンプルに見えますが、その裏ではカメラハードウェア → ネットワーク伝送 → 2D映像処理 → 3D復元 → スケルトンソルビング → リアルタイムストリーミングという精密な技術パイプラインが動いています。
この記事では、光学式モーションキャプチャー(OptiTrack基準)のパイプライン全体をステップごとに解剖します。
ステップ1:カメラの設置と配置戦略
光学式モーションキャプチャーの最初のステップは、カメラをどこに、どのように配置するかです。

配置の原則
- 高さ:通常2〜3mの高さに設置し、約30度下向きに角度を調整します
- 配置形態:キャプチャーボリューム(撮影空間)の周囲を囲むリング(Ring)形態で配置
- 2段配置:高い位置と低い位置にカメラを交互に配置すると、垂直方向のカバレッジが向上します
- オーバーラップ(重複):キャプチャーボリューム内のすべてのポイントが最低3台以上のカメラに同時に見える必要があります。三角測量には最低2台が必要ですが、3台以上になると精度とオクルージョン対応力が大幅に向上します
カメラ台数と精度の関係
カメラの台数が多いほど:
- 死角が減る → オクルージョン発生確率の減少
- 同じマーカーを見るカメラが増える → 三角測量精度の向上
- 一部のカメラに問題が生じても他のカメラが補完(冗長性)
ミングルスタジオではOptiTrack Prime 17 × 16台 + Prime 13 × 14台、合計30台を8m × 7mの空間に配置し、360度の死角を最小化しています。
IRパスフィルター ― 赤外線だけを見る目
モーションキャプチャーカメラのレンズ前面にはIRパスフィルター(赤外線通過フィルター)が装着されています。このフィルターは可視光線を遮断し、赤外線波長(850nm付近)のみを通過させます。これにより蛍光灯、太陽光、モニターの光など一般的な照明による干渉が根本的に遮断され、カメラはIR LEDに反射したマーカーの光のみを検出できます。
撮影空間の照明を完全に消す必要がないのもこのフィルターのおかげです。ただし直射日光や強いIR成分を含む照明は干渉を引き起こす可能性があるため、スタジオ環境ではIR干渉の少ない照明を使用します。
フレーム同期 ― 30台のカメラが同時に撮影する方法
三角測量を正確に行うには、すべてのカメラがまったく同じ瞬間にシャッターを切る必要があります。カメラごとにバラバラのタイミングで撮影すると、高速移動するマーカーの位置がカメラごとに異なり、3D復元が不正確になります。
OptiTrackはハードウェア同期(Hardware Sync)方式を採用しています。1台のカメラがSync Master(同期マスター)に指定されてタイミング信号を生成し、残りのカメラがこの信号に合わせて同時に露光します。
- Ethernetカメラ(Primeシリーズ):同期信号がEthernet接続自体に内蔵されているか、OptiTrackのeSyncハブを通じて伝達されます。別途の同期ケーブルは不要です。
- USBカメラ(Flexシリーズ):カメラ間を専用同期ケーブルでデイジーチェーン接続します。
この同期の精度はマイクロ秒(μs)単位で、30台のカメラが事実上完全に同じ瞬間に撮影します。
ステップ2:PoE ― 1本のケーブルで電力とデータを同時に
PoE(Power over Ethernet)とは?
OptiTrack PrimeシリーズのカメラはPoE(Power over Ethernet)方式で接続されます。標準のEthernetケーブル(Cat5e/Cat6)1本で電力供給とデータ伝送を同時に行う技術です。

技術規格
| 規格 | 最大電力 | 備考 |
|---|---|---|
| IEEE 802.3af (PoE) | ポートあたり15.4W | 基本的なモーションキャプチャーカメラに十分 |
| IEEE 802.3at (PoE+) | ポートあたり25.5W | 高フレームレートカメラやIR LED出力が高い場合 |
OptiTrackカメラは通常5〜12W程度の消費電力なので、PoE規格の範囲内で十分に動作します。
ネットワークトポロジー
カメラはスター(Star)トポロジーで接続されます。各カメラがPoEスイッチの個別ポートに1対1で接続される構造です。デイジーチェーン(直列接続)は使用しません。
30台のカメラの場合、24ポート + 8ポートのPoE+スイッチを組み合わせるか、48ポートスイッチを使用します。スイッチ選択時にはPoE総電力バジェット(例:30台 × 12W = 360W)を確認する必要があります。
PoEの利点
- ケーブル1本で解決 ― 天井に設置されたカメラごとに電源アダプターを別途接続する必要なし
- すっきりした施工 ― ケーブル数が半分に削減され、設置と管理が簡便
- 集中電源管理 ― スイッチからカメラの電源を一括ON/OFF可能
ステップ3:カメラが送るデータ ― 2Dセントロイド
カメラからPCへ送信されるデータが何かを理解することが、パイプラインの核心です。

カメラ内部の処理過程
各OptiTrackカメラには、カメラレンズの周囲に赤外線(IR)LEDリングが装着されています。このLEDが赤外線を照射すると、俳優の身体に取り付けられた再帰反射マーカーが光をカメラ方向に反射します。カメラセンサーはこの反射光をグレースケールIR画像として撮影します。
ここで重要なのは、カメラがこの画像をそのままPCに送信するわけではないということです。カメラ内部のプロセッサーがまず処理を行います:
1. スレッショルディング(Thresholding) 一定基準(閾値)以上の明るさのピクセルのみを残し、残りを除去します。赤外線を反射するマーカーだけが明るく光るため、背景とマーカーを分離する処理です。
2. ブロブ検出(Blob Detection) 明るいピクセルが集まっている領域(ブロブ)を1つのマーカー候補として認識します。
3. 2Dセントロイド計算 各ブロブの正確な中心点(セントロイド)をサブピクセル精度(約0.1ピクセル)で計算します。ブロブ内の各ピクセルの明るさを重みとして使用する加重平均方式です。
PCに送信されるデータ
デフォルトのトラッキングモードでカメラがPCに送るのは2Dセントロイドデータです:
- 各マーカー候補の(x, y)座標 + サイズ情報
- カメラ1台あたり1フレームあたり数百バイトの非常に小さなデータ
このように小さなデータ量のおかげで、40台以上のカメラでもギガビットEthernet1本で十分です。生のグレースケール画像も送信可能ですが(デバッグ/可視化用)、その場合カメラあたり数MB/sが必要なため、通常のトラッキングでは使用しません。
つまり、カメラは「映像を撮って送る装置」ではなく、「マーカー位置を計算して座標だけを送るセンサー」に近い存在です。
ここで一つ疑問が生じるかもしれません ― なぜモーションキャプチャーカメラは通常のカメラと比べてあれほど高価なのか? その理由は上で説明した処理にあります。通常のカメラは撮影した映像をそのまま送って終わりですが、モーションキャプチャーカメラは内部に専用プロセッサーを搭載しており、スレッショルディング、ブロブ検出、サブピクセルセントロイド計算までを毎秒240〜360フレームでリアルタイム処理します。カメラ1台が事実上映像処理専用の小型コンピューターを内蔵しているのです。
ステップ4:キャリブレーション ― カメラの目を揃える
3D復元の前に必ず経なければならないプロセスがあります。ソフトウェアが各カメラの正確な位置、方向、レンズ特性を把握するキャリブレーション(Calibration)です。

ワンディング(Wanding) ― 空間をスキャンする
オペレーターがLEDまたはマーカーが取り付けられたキャリブレーションワンド(Wand、棒)を持ち、キャプチャーボリューム全体を歩き回りながら振ります。ワンドのマーカー間の距離は正確に分かっているため、各カメラがワンドを数千フレームにわたって撮影すると、ソフトウェアは以下を計算できます:
- 内部パラメータ(Intrinsic Parameters) ― 焦点距離、レンズ歪み係数などカメラレンズ固有の特性
- 外部パラメータ(Extrinsic Parameters) ― 3D空間におけるカメラの正確な位置と方向
この計算にはバンドル調整(Bundle Adjustment)という最適化アルゴリズムが使用されます。数千の2D観測データに基づいて、すべてのカメラのパラメータを同時に最適化するプロセスです。
グラウンドプレーンの設定
ワンディングが完了したら、床にL字型のキャリブレーションフレーム(Ground Plane)を置きます。このフレームの3つ以上のマーカーが床面と座標原点を定義します:
- どこが(0, 0, 0)か(原点)
- どの方向がX、Y、Z軸か
- 床面の高さ基準
キャリブレーションが完了すると、ソフトウェアはどのカメラの2D座標でも正確な3D光線に変換できるようになります。
キャリブレーション品質
Motiveソフトウェアはキャリブレーション後、各カメラの再投影誤差(Reprojection Error)を表示します。この値が小さいほど(通常0.5px以下)、キャリブレーションが正確であることを意味します。誤差が大きいカメラは位置を調整するか再キャリブレーションします。
ステップ5:2D → 3D復元(三角測量)
PCに到着した2Dセントロイドがどのように3D座標に変換されるかを見ていきます。
三角測量(Triangulation)の原理
- キャリブレーションで取得した各カメラの正確な3D位置、方向、レンズ特性を活用します
- カメラの2Dセントロイド座標から光線(Ray)を射出します ― カメラ位置からセントロイド方向に3D空間へ伸びる直線
- 同じマーカーを見た2台以上のカメラから射出された光線が交差する点がマーカーの3D座標です
実際には完全に交差しない
ノイズ、レンズ歪み、キャリブレーション誤差などにより、光線が正確に1点で交わることはほぼありません。そのため最小二乗法(Least Squares Optimization)を使用します:
- すべての光線までの距離の合計が最小になる3D座標を計算
- この時、各光線と復元された3Dポイントとの距離を残差(Residual)と呼びます
- 残差が小さいほど復元品質が高い ― 適切にキャリブレーションされたOptiTrackシステムではサブミリメートル(0.5mm以下)レベルの残差が期待できます
カメラ台数の影響
| 該当マーカーを見ているカメラ台数 | 効果 |
|---|---|
| 2台 | 3D復元可能(最低条件) |
| 3台 | 精度向上 + 1台が遮られてもトラッキング維持 |
| 4台以上 | 高精度 + 強力なオクルージョン耐性 |
ステップ6:マーカー識別とラベリング
マーカースーツとマーカー配置
3D復元を意味のあるモーションデータにするには、マーカーが身体の正確な位置に取り付けられている必要があります。
マーカー仕様
- 直径:通常12〜19mmの球形再帰反射マーカーを使用
- 素材:3M再帰反射テープでコーティングされたフォーム/プラスチック球
- 取り付け:ベルクロ(面ファスナー)、両面テープ、または専用マーカースーツにあらかじめ装着
マーカーセット規格 マーカーをどこに何個付けるかは標準化されたマーカーセット(Markerset)規格に従います:
- Baseline(37マーカー) ― OptiTrack基本フルボディマーカーセット。上半身、下半身、頭部をカバーし、ゲーム/映像モーションキャプチャーで最も多く使用
- Baseline + Fingers(約57マーカー) ― 上記に指マーカー約20個を追加した拡張版
- Helen Hayes(約15〜19マーカー) ― 医療/歩行分析の標準。下半身中心の最小マーカーセット
マーカーは骨が突出した解剖学的ランドマーク(肩峰、外側上顆、上前腸骨棘など)に取り付けます。これらの位置は皮膚上で骨の動きを最も正確に反映し、スキンアーティファクト(皮膚の滑り)が最小化されるポイントです。
3D復元が完了すると、各フレームに名前のない3Dポイントの群(Point Cloud)が生成されます。「このポイントは左膝マーカーなのか、右肩マーカーなのか」を判別するプロセスがラベリング(Labeling)です。

ラベリングアルゴリズム
テンプレートマッチング(Template Matching) キャリブレーション時に定義されたマーカーセットの幾何学的配置(例:膝と足首のマーカー間距離)を基準に、現在のフレームの3Dポイントをテンプレートと照合します。
予測追跡(Predictive Tracking) 前のフレームの速度・加速度に基づいて、次のフレームで各マーカーがどこにあるかを予測し、最も近い3Dポイントとマッチングします。
マーカースワップ(Swap)問題
2つのマーカーが互いに非常に近くを通過する際、ソフトウェアが2つのマーカーのラベルを入れ替えてしまう現象です。光学式モーキャプで最もよく見られるアーティファクトの一つです。
解決方法:
- 後処理で手動でラベルを修正
- マーカー配置を非対称に設計して区別を容易にする
- アクティブマーカー(Active Marker)の使用 ― 各マーカーが固有の赤外線パターンを発光し、ハードウェアレベルで識別、スワップを根本的に防止
パッシブ vs アクティブマーカー
| 区分 | パッシブマーカー(反射型) | アクティブマーカー(発光型) |
|---|---|---|
| 原理 | カメラIR LEDの光を反射 | マーカー自体が固有のIRパターンを発光 |
| 識別 | ソフトウェアベース(スワップの可能性あり) | ハードウェアベース(スワップなし) |
| 利点 | 軽量で安価、取り付け簡単 | 自動識別、ラベリングエラーなし |
| 欠点 | ラベリング後処理が必要な場合あり | 重く、バッテリー/電源が必要 |
ほとんどのエンターテインメント/VTuber現場ではパッシブマーカーが主に使用されています。軽くて快適であり、ソフトウェアの性能が十分に高いため、ほとんどの状況で自動ラベリングがうまく機能するからです。
ステップ7:スケルトンソルビング ― 点から骨格へ
ラベリングされた3Dマーカーを人間の骨格(Skeleton)構造にマッピングするステップです。
事前キャリブレーション
撮影前に俳優がTポーズ(両腕を広げた姿勢)をとると、ソフトウェアがマーカー位置を基に各骨の長さ(腕の長さ、脚の長さなど)と関節位置を計算します。
続いてROM(Range of Motion)キャプチャーを実行します。

リアルタイムソルビング
撮影中は毎フレームごとに:
- ラベリングされた3Dマーカー座標を受け取る
- マーカー位置を基に各関節の3D位置と回転値(Rotation)を計算
- 逆運動学(Inverse Kinematics)などのアルゴリズムで自然な骨格ポーズを算出
- 結果:タイムライン上のすべての関節に対する位置(Translation)+ 回転(Rotation)データ
リジッドボディトラッキング(小道具追跡)
刀、銃、カメラなどの小道具に3つ以上のマーカーを非対称に取り付けると、ソフトウェアがそのマーカークラスターを1つの剛体(Rigid Body)として認識し、6DOF(位置3軸 + 回転3軸)トラッキングが可能になります。
ステップ8:リアルタイムストリーミングとデータ出力
リアルタイムストリーミング

OptiTrack Motiveはソルビングされたデータをリアルタイムで外部ソフトウェアに伝達します:
- NatNet SDK ― OptiTrack独自のプロトコル、UDPベースの低遅延伝送
- VRPN ― VR/モーキャプ分野の標準プロトコル
これによりUnity、Unreal Engine、MotionBuilderなどでリアルタイムにキャラクターを動かすことができます。VTuberのライブ配信が可能なのも、このリアルタイムストリーミングのおかげです。
録画データ出力フォーマット
| フォーマット | 用途 |
|---|---|
| FBX | スケルトン + アニメーションデータ、ゲームエンジン/DCCツール互換 |
| BVH | 階層的モーションデータ、リターゲティングに主に使用 |
| C3D | 生の3Dマーカーデータ、バイオメカニクス/研究標準 |
ステップ9:後処理 ― データを整える過程

リアルタイムキャプチャーで得たデータはそのまま最終成果物として使える場合もありますが、ほとんどのプロの作業では後処理(Post-Processing)過程を経ます。
ギャップフィリング(Gap Filling)
オクルージョンによりマーカーが一時的に消えた区間を補間(Interpolation)で埋める作業です。
- 線形補間(Linear) ― 単純に前後のフレームを直線でつなぐ。短いギャップに適合
- スプライン補間(Spline) ― 曲線でなめらかに埋める。自然な動きの維持に有利
- パターンベース補間 ― 同じ動きを繰り返した別テイクのデータを参照して埋める
ギャップが長いほど補間の精度が落ちるため、撮影時にオクルージョンを最小化することが最も重要です。
スムージング(Smoothing)とフィルタリング
キャプチャーされたデータには微細な振動(高周波ノイズ)が含まれることがあります。これを除去するために:
- バターワースフィルター(Butterworth Filter) ― 指定した周波数以上のノイズを除去するローパスフィルター
- ガウシアンスムージング ― 周辺フレームの加重平均で振動を緩和
ただし過度なスムージングは動きのディテールとインパクトを失わせるため、剣を振るう瞬間の鋭い動きまでぼやけないよう、適切な強度を設定する必要があります。
マーカースワップ修正
ステップ6で説明したマーカースワップが発生した区間を見つけて、ラベルを手動で修正する作業です。Motiveではタイムライン上でマーカーの軌跡を視覚的に確認しながら修正できます。
リターゲティング(Retargeting)
キャプチャーされたスケルトンデータを異なるプロポーションのキャラクターに適用するプロセスです。例えば身長170cmの俳優のモーションデータを身長3mの巨人キャラクターや150cmの子供キャラクターに合わせるには、関節の回転を維持しながら骨の長さを対象キャラクターに合わせて再計算する必要があります。MotionBuilder、Maya、Unreal Engineなどがリターゲティング機能を提供しています。
ステップ10:現場で頻発する問題と対応
技術的に完璧に見える光学式モーキャプにも、実務現場で直面する問題があります。
反射ノイズ(Stray Reflections)
マーカー以外の物体から赤外線が反射され、偽マーカー(Ghost Marker)が検出される現象です。
- 原因:金属表面、光沢のある服、メガネ、腕時計、床の反射など
- 対応:反射が起きる表面をマットテープで覆うか、Motiveで該当エリアをマスキング(Masking)処理してソフトウェアが無視するよう設定
マーカー脱落
激しい動きの最中にマーカーがスーツから外れたり位置がずれたりするケースです。
- 対応:撮影前にマーカーの取り付け状態を丁寧に確認し、激しいモーションキャプチャー時にはベルクロ + 両面テープを併用して固定力を高めます
- 途中でモニタリングしながらマーカーの状態をチェックすることも重要です
衣装の制約
撮影時に俳優が着る服は明るい色・マット素材が理想的です。黒色はマーカーの反射に影響しませんが、光沢のある素材やゆるい服はマーカー位置が不安定になったり反射ノイズを引き起こす可能性があります。専用モーキャプスーツを着用するのが最も安定的です。
キャリブレーションの維持
キャプチャーボリューム内の温度変化、カメラの振動、三脚の微細な移動などにより、キャリブレーションが徐々にずれることがあります。長時間撮影時には途中で再キャリブレーションするか、MotiveのContinuous Calibration(連続キャリブレーション)機能でリアルタイム補正することをお勧めします。
レイテンシー ― 動きから画面まで何ミリ秒?
パイプライン各ステップの所要時間です。
| ステップ | 所要時間 |
|---|---|
| カメラ露光(240fps基準) | 約4.2ms |
| カメラ内部処理(セントロイド計算) | 約0.5〜1ms |
| ネットワーク伝送(PoE → PC) | < 1ms |
| 3D復元 + ラベリング | 約1〜2ms |
| スケルトンソルビング | 約0.5〜1ms |
| ストリーミング出力(NatNet) | < 1ms |
| 総エンドツーエンドレイテンシー | 約8〜14ms(240fps基準) |
360fpsでは露光時間が短縮され、7ms以下まで可能です。このレベルのレイテンシーは人間が体感するのが難しい水準で、VTuberのライブ配信でも自然なリアルタイム反応が可能です。
参考:レイテンシーの大部分はカメラ露光時間(フレーム周期)が占めています。フレームレートが高いほどレイテンシーが下がるのはこのためです。
パイプライン全体のまとめ
30台のカメラをリング形態で配置、IRパスフィルターで赤外線のみ検出、ハードウェアシンクでμs単位の同期
Cat6ケーブル1本で電力 + データ同時伝送、スタートポロジーでスイッチに接続
IR LED照射 → マーカー反射光受信 → スレッショルディング → ブロブ検出 → サブピクセルセントロイド計算 → 座標のみ送信
ワンディングでカメラ内部/外部パラメータを算出、グラウンドプレーンで座標系を定義
複数カメラの2D座標から光線交差 + 最小二乗法で3D座標を復元
テンプレートマッチング + 予測追跡で各3Dポイントにマーカー名を付与
Tポーズ + ROMキャリブレーション基盤、逆運動学で関節の位置・回転を計算
NatNet/VRPNでUnity/Unreal/MotionBuilderにリアルタイム伝送、FBX/BVH/C3D録画
ギャップフィリング・スムージング・マーカースワップ修正・リターゲティング
ゲームシネマティック・VTuberライブ・映像コンテンツに適用(総レイテンシー約8〜14ms)
カメラが撮影した映像がそのままPCに送られるのではなく、カメラが自らマーカー座標を計算して送信し、PCがこの座標を3Dに復元してスケルトンにマッピングする ― これが光学式モーションキャプチャーの核心原理です。
よくある質問(FAQ)
Q. 光学式モーションキャプチャーカメラは一般のカメラと何が違いますか?
一般のカメラはフルカラー映像を撮影しますが、モーションキャプチャーカメラは赤外線(IR)領域に特化しています。IR LEDでマーカーを照らし反射光のみを検出し、カメラ内部でマーカーの2D座標を直接計算して座標データのみをPCに送信します。
Q. PoEケーブルの長さに制限はありますか?
Ethernet規格に従い、PoEケーブルは最大100mまでサポートされています。ほとんどのモーションキャプチャースタジオではこの範囲を十分に満たします。
Q. カメラのフレームレートは高ければ高いほど良いですか?
フレームレートが高いと高速な動きの追跡と低レイテンシーに有利ですが、データ処理量が増え、カメラの解像度が低下する可能性があります。一般的にVTuberライブやゲームモーションキャプチャーでは120〜240fpsで十分であり、スポーツ科学などの超高速動作分析では360fps以上を使用します。
Q. マーカースワップはどのくらいの頻度で発生しますか?
マーカーセットが適切に設計されていてカメラ台数が十分であれば、リアルタイム撮影中のスワップは稀にしか発生しません。ただし高速な動きやマーカー間の距離が近い動作(手を合わせるなど)では発生確率が上がり、このような区間は後処理で修正します。
Q. 三角測量に2台で十分なのに、なぜ30台も設置するのですか?
2台は理論的な最小値にすぎません。実際にはオクルージョン(マーカーの遮蔽)、カメラ角度による精度の差、冗長性の確保などを考慮する必要があります。30台を配置すればどのマーカーも常に多数のカメラから見えるため、安定的で正確なトラッキングが可能です。
Q. キャリブレーションはどのくらいの頻度で行う必要がありますか?
一般的に撮影日の開始前に1回実施します。ただし長時間撮影時には温度変化やカメラの微細な移動でキャリブレーションがずれる可能性があるため、4〜6時間の連続撮影時には途中で再キャリブレーションを推奨します。OptiTrack MotiveのContinuous Calibration機能を使用すれば、撮影中でもリアルタイムで補正が可能です。
Q. 光沢のある服を着てはいけないのですか?
モーションキャプチャーカメラは赤外線の反射を検出するため、光沢のある素材(金属装飾、スパンコール、光沢のある合成繊維など)は赤外線を反射して偽マーカー(Ghost Marker)を作る可能性があります。専用モーキャプスーツやマット素材の快適な服を着用するのが最善です。
光学式モーションキャプチャーの技術的な構造についてさらにご質問がありましたら、お問い合わせページからお気軽にご質問ください。ミングルスタジオで直接体験されたい方はサービス案内をご覧ください。