2025-06-03
讓你的電子設備開口說話!
簡介
聲音訊號是一種力學波,因此在傳播過程中是一種類比連續的訊號,然而由於人耳是天然的傅立葉轉換器,因此音訊經過人耳後會變成數位訊號。在這些訊號中,有三個特徵是處理時經常考慮的部分,可以參考下圖:
- 音量:從訊號來看,音量代表的是訊號的振幅,訊號振幅越大,所發出的音量也越大。
- 音訊:訊號的頻率,就是所謂的音訊,也就是聲音震動的頻率。其代表的是音調的高低,頻率越高,音調就越高。除此之外,樂器所產生的聲音訊號,並非是單一頻率的訊號,而是有基頻和泛音(倍頻)的存在。
- 音色:每一個人或樂器所發出的音色都不一樣,從訊號上來看,音色就是訊號的波形,因此只要利用波形分析,就可以判斷出聲音的來源,從下圖可以看到小提琴跟鋼琴的音色差異非常大。
- 取樣率:一秒鐘有多少個取樣點,常見的有8K,16K、32K、44.1K等,可以說取樣率越高,音質越高。
- 採樣位深:一個採樣點的音頻深度,常見的有8bit或16bit,震動引起聲音,同樣是3.3V的電壓變化,8bit的解析度是255,16bit的解析度是65535,解析度越高,能表達的音頻變化細。
- 單雙聲道:一段音頻包含幾個聲道,常見的有單聲道、雙聲道,在某些對音頻要求更高的場景下可以達到5.1甚至7.1聲道,簡單來講,幾個聲道就是有幾個發聲單元,單聲道無法體現出聲源的位置信息,但是多聲道就可以模擬出聲源的位置信息
- 幅值:通常標示音訊的音量等級,振幅越大,訊號強度越高,聲音越大

語音IC原理
- 語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(Text-To-Speech,TTS)系統則是將一般語言的文字轉換為語音。而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。
- 語音ic可將語音類比信號通過採樣轉化為數位資料並存在MCU的ROM,再通過電路將ROM中的數位資料還原成語音信號。
- 根據輸出方式分為兩大類,一種是PWM輸出方式,一種是DAC輸出方式,PWM輸出音量不可連續調整,不能接功率放大器,目前市面上大多數語音IC是PWM輸出方式。另外一種是DAC經內部EQ放大,該語音IC聲音連續可調,可外接功率放大器。
茂綸語音方案 – EPSON S1V3G340
S1V3G340 透過串列介面由主機發送的命令控制,同時內部解碼和處理SPI flash memory或串流的音頻資料。




比較表

參考資料來源
- Seiko Epson Corporation (2025)。S1V3G340。檢自 https://global.epson.com/products_and_drivers/semicon/pdf/id002004.pdf (Apr 21, 2025)
- ROHM Co., Ltd. (2025)。ML22530。檢自https://fscdn.rohm.com/lapis/en/products/databook/datasheet/ic/speech/FEDL22530.pdf (Apr 21, 2025)
- NUVOTON。NSP2.0 Data Sheet 。檢自https://www.nuvoton.com.cn/export/resource-files/en-us--NSP2.0_Flash_Data_Sheet_EN_Rev_2.1.pdf (Apr 21, 2025)
- NUVOTON。NSP (Flash) Data Sheet 。檢自https://www.nuvoton.com.cn/export/resource-files/en-us--NSP_Flash_Data_Sheet_Rev_11.1.pdf (Apr 21, 2025)
- 广州唯创电子有限公司 (2020)。WT588S 语音芯片使用资料。檢自https://www.w1999c.com/uploadfile/2022/0426/20220426090332765.pdf (Apr 21, 2025)
- Wikipedia (2025)。https://zh.wikipedia.org/zh-tw/數位音訊 (Apr 21, 2025)
- Wikipedia (2025)。https://zh.wikipedia.org/zh-tw/音频信号处理 (Apr 21, 2025)
- 博客园 (2025)。”低成本使用MCU播放提示音方式” 。https://www.cnblogs.com/shumei52/p/18605067 (Apr 21, 2025)