ข่าวไอที Blognone » กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

1 มีนาคม 2021
6   0

กูเกิลเปิดตัวปัญญาประดิษฐ์ Lyra สำหรับการบีบอัดเสียงพูด โดยอาศัยโมเดลดึงเอาคุณลักษณะของเสียงในห้วง 40ms ออกมาเป็นข้อมูลขนาดเล็กส่งไปยังปลายทาง และที่ปลายทางจะมีปัญญาประดิษฐ์แบบ generative สร้างเสียงกลับออกมาอีกครั้ง ทำให้ใช้งานได้แม้แบนวิดท์จะต่ำเหลือเพียง 3kbps เท่านั้น (เสียงโทรศัพท์ปกติใช้แบนวิดท์ 64kbps)

แนวทางของ Lyra คล้ายกับกระบวนการแปลงเสียงเป็นข้อความแล้วเอาข้อความไปอ่านออกเสียงที่ปลายทาง โดยทั่วไปแล้วแนวทางเช่นนี้จะทำให้เสียงที่ปลายทางไม่เป็นธรรมชาติ และฟังออกทันทีว่าเป็นเสียงสังเคราะห์ แต่กูเกิลยืนยันว่า Lyra นั้นให้เสียงที่เป็นธรรมชาติกว่ามาก โดยกูเกิลอาศัยข้อมูลฝึกปัญญาประดิษฐ์จากผู้พูดกว่า 70 ภาษาเพื่อให้แน่ใจว่าโมเดลปัญญาประดิษฐ์สามารถถอดเสียงพูดได้ทุกภาษาเท่าเทียมกัน

ตัวเข้ารหัสเสียงตัวอื่นๆ ที่ทำงานที่แบนวิดท์ต่ำเท่า Lyra มักมีเสียงแทรกจนฟังได้ลำบาก ขณะที่ Lyra นั้นสามารถส่งพูดได้อย่างชัดเจนแม้ในภาวะที่มีเสียงรบกวนสูงๆ

กูเกิลเริ่มใช้ Lyra ในแอป Duo สำหรับการโทรศัพท์ในกรณีที่พบว่าผู้ใช้มีแบนด์วิดท์ต่ำมากๆ แล้วและในอนาคตจะพัฒนาต่อเพื่อใช้งานกับกรณีอื่นๆ เช่น ดนตรีหรือเสียงที่ไม่ใช่เสียงพูด

ที่มา - Google AI Blog

No Description

[source: https://www.blognone.com/node/121456]