Common Voice Corpus คืออะไร?

Common Voice Corpus เป็นชุดข้อมูลสาธารณะสำหรับการรู้จำเสียงพูด ของ Mozilla โดยรองรับมากกว่า 100 ภาษาทั่วโลก รวมถึงภาษาไทย

มีเป้าหมายต้องการสร้างชุดข้อมูลเสียงสามารถเปิดเผยต่อสาธารณะได้อย่างอิสระ และลดความเหลื่อมล้ำในเทคโนโลยีรู้จำเสียง

ข้อมูลเสียงและข้อมูลประโยคที่อยู่ในชุดข้อมูลจะเป็นสาธารณะสมบัติ แถมโครงการนี้ยังมีภาษาอื่น ๆ อีกมากมายที่กำลังดำเนินการไม่ว่าจะเป็น เยอรมัน, ฝรั่งเศส, จีน (ไต้หวัน), อินโดนีเซีย และอื่น ๆ