文字起こしの精度
実際の環境での文字起こしはどれほど正確ですか?
SozAIは高品質なASRモデルに加え、前処理、話者ダイアリゼーション、句読点の修正や単語レベルのタイムスタンプを提供する後処理を組み合わせ、騒音の多い複数話者の録音でも洗練されたエンドユーザー向けの文字起こし体験を目指しています。実務では複数のツールをつなげる必要がなく、そのまま読みやすい文字起こしが得られます。インタビュー、ポッドキャスト、会議では、LeMURによる要約と最大10人対応のダイアリゼーションが手作業を減らします。
Whisper (OpenAI)は多くの言語や録音条件で堅牢なベースライン精度で知られており、適切な計算資源とサンプリング設定で実行すると特に強みを発揮します。ただしWhisperは生のモデルであり、同等のエンドユーザー向け精度を実現するにはエンジニアリング(ノイズ除去、話者分離、タイムスタンプ改善、カスタム語彙の処理など)が必要です。研究者や開発者は入力のチューニングや前処理でSozAIを上回る結果を出せますが、それには設定と専門知識が求められます。要するに、SozAIは即時の使いやすさを重視して低レベルの制御を犠牲にする一方、Whisperはエンジニアリング資源があれば柔軟に高精度を提供します。