มาช่วยกันอัดเสียงพูดภาษาไทยให้กับ Common Voice กัน

Common Voice เป็นโครงการให้คนมาร่วมอัดเสียงกับตรวจสอบเสียง เสียงคน เพื่อให้นักพัฒนาเอาข้อมูลนี้ไปสร้างระบบรับจำเสียงพูด (อารมณ์ประมาณพิมพ์ข้อความตามเสียง หรือสั่งงานผ่าน siri) โดยการจะสร้างระบบให้สมบูรณ์ต้องอาศัยเสียงจำนวนมาก และคนจำนวนมาก แต่ชุดข้อมูลด้านนี้ในปัจจุบันมีน้อย และหลายอันที่คนทั่วไป นักพัฒนาทั่วไป บริษัทเล็ก ๆ ไม่สามารถเข้าใช้งานได้ Common Voice เลยเกิดขึ้นมาเป็นชุดข้อมูลเสียงแบบฟรี ที่คนทั่วโลก (ไม่เฉพาะภาษาใด ภาษาหนึ่ง) สามารถเอาไปใช้งานได้

ตัวอย่างที่เราเห็นได้ชัดสุด จากข่าว OpenAI ที่ปล่อย whisper โมเดลรับเสียงแปลงเป็นข้อความที่รองรับหลายภาษา รวมถึงภาษาไทย!!! โดย whisper ใช้ชุดข้อมูลมาจาก Common Voice เป็นส่วนหนึ่งในการเทรนนั้นเอง

ดังนั้นเรามาช่วยกันบริจาคเสียงพูดภาษาไทยกันครับ

สำหรับตอนนี้ภาษาไทยมีจำนวนชั่วโมงเสียงพูด 399 ชั่วโมง ยังต้องการชั่วโมงเสียงพูดมากกว่า เพื่อให้เสียงมีความหลากหลายและใช้งานได้มากขึ้น

วิธีการง่าย ๆ อ่านตามที่ข้อความเขียน ไม่พูดขาด ไม่พูดเกิน ไม่เติมคำ และอัดในที่ ๆ ไม่มีเสียงคนพูดแทรก อ่านข้อความตามสบาย ๆ แบบธรรมชาติ

เข้าไปบริจาคกันได้ที่ https://commonvoice.mozilla.org/th/speak

ความคิดเห็น