ความแม่นยำในการถอดเสียง
ในการใช้งานจริง ผลลัพธ์มีความแม่นยำเพียงใด?
Temi โฆษณาว่ามี ความแม่นยำประมาณ 90–95% สำหรับไฟล์ภาษาอังกฤษที่บันทึกอย่างดีและมีความชัด ตัวเลขนี้สอดคล้องกับระบบ ASR แบบภาษาเดียวสมัยใหม่เมื่อผู้พูดชัด เสียงรบกวนน้อย และคุณภาพไมโครโฟนสูง ในสภาพแวดล้อมอุดมคติ Temi จะสร้างทรานสคริปต์ที่ใช้ได้แทบไม่ต้องแก้ไข ซึ่งเป็นเหตุผลที่ผู้ทำพ็อดคาสท์และนักข่าวหลายคนเลือกใช้สำหรับงานสั้นๆ ที่เป็นภาษาอังกฤษเท่านั้น.
SozAI ไม่ได้ให้คำมั่นด้านความแม่นยำเป็นตัวเลขเดียวสำหรับกว่า 100 ภาษา เนื่องจากโมเดลหลายภาษาและสภาพเสียงมีความแตกต่างกันอย่างมาก แทนที่จะให้ตัวเลขเดียว SozAI ให้ความสำคัญกับความสม่ำเสมอข้ามภาษา และเพิ่มการประมวลผลเชิงบริบทและสรุปด้วย LeMUR เพื่อช่วยดึงประเด็นสำคัญแม้ว่าผลลัพธ์จาก ASR จะไม่สมบูรณ์ ในการบันทึกที่มีเสียงรบกวนหรือหลายภาษา การรองรับภาษาที่กว้างขึ้นและการแยกผู้พูดของ SozAI (สูงสุด 10 คน) ทำให้เหมาะสมกว่าเมื่อต้องการทรานสคริปต์ที่อ่านง่ายและเป็นโครงสร้าง มากกว่าการยึดติดกับเปอร์เซ็นต์ความแม่นยำเดียว
สรุป: สำหรับไฟล์ภาษาอังกฤษสั้นๆ และชัดเจน Temi ให้ความแม่นยำสูงและคุ้มค่า; สำหรับภาษาที่หลากหลาย การสัมภาษณ์หลายผู้พูด หรือเวิร์กโฟลว์ที่อาศัยบริบทและสรุป ชุดเครื่องมือของ SozAI ช่วยลดเวลาในการแก้ไขหลังการถอดเสียง.