隨著AI技術的發展日新月異,各種開源模型也帶來方便的應用。近來在使用 OpenAI 的語音轉文字模型 Whisper 進行將音訊轉寫成文字的工作時,時常出現「請不吝點贊 訂閱 轉發 打賞支持明鏡與點點欄目」這句以簡中呈現的文字。在確定來源音檔中沒有這內容的情況下仍會不時出現,就好比採訪者自行加話一樣,究竟是怎麼一回事? 該不會是bug吧?
以筆記自己使用的情況,無論採用 medium 或 large-v3 的 ggml 語意模組,都會出現類似「請不吝點贊 訂閱 轉發 打賞支持明鏡與點點欄目」的情況,而它們通常是在轉寫後自動出現在沒有語音的空白段(原音檔沒有語音的時間段),也就是並不會取代掉原本該轉寫出來的文字,而是額外加進去。為了弄明白這問題到底是不是bug,在 Github 已有相關討論,目前似乎傾向認為是在經過各種原始訊練素材後,造成的一種問題,用人類來比喻就好比一種幻覺。
就個人理解,就好比吃進了各種不同的食物後,雖然經過消化獲得了能量和營養,但也會產生廢棄物,有的可以排泄出體外,有的可能會殘留,而這句話就類似廢棄物殘留的部分。
雖然 Whisper 目前有這個瑕疵,但仍然可以對相關的語音轉寫作業提供不少幫助,也相信在後續的更新版本中可以逐漸獲得改善。