語音輸入真的能取代鍵盤嗎?老喬的Mac/iPhone語音輸入法實測紀錄:Wispr Flow、Spokenly、微信輸入法

語音輸入真的能取代鍵盤嗎?先講結論

如果你問我一句話的結論:
語音輸入已經可以取代一部分鍵盤,但還不到「全面取代」的階段。

在實際使用上,不論是 Mac 還是 iPhone,語音輸入在「靈感記錄、快速輸出、對話型內容、草稿撰寫」這些場景中,速度與流暢度都明顯優於鍵盤;但在「精修定稿、長時間專注寫作、需要高度控制語句結構」的情境下,鍵盤仍然更穩定。

這篇文章會用實際測試的方式,比較目前市面上幾款熱門的語音輸入工具,包括 Wispr Flow、Spokenly、微信輸入法(以及 Apple 原生語音輸入),分別在 Mac 與 iPhone 上的表現差異,從啟動速度、辨識準確度、中英混雜能力、穩定度與實際使用感受來看,它們各自適合什麼樣的人、又不適合什麼樣的情境。

如果你正在思考:

  • 語音輸入到底快不快?
  • Mac 上哪一套比較穩?
  • iPhone 語音輸入為什麼常被嫌不準?
  • 有沒有可能真的把語音當成主要輸出方式?

那這篇文章,會把目前我實測到的答案一次講清楚。

一切從 ChatGPT 的日常語音互動開始的發現

老喬自從發現 ChatGPT 支援語音輸入(大概2025年八月),我大概有 八成到九成的時間,已經不用打字了。
不管是發問、記錄靈感,還是和它討論文章框架,我幾乎都是用嘴巴直接說出來。
ChatGPT 的判讀速度和準確率讓我驚訝,通常只要小改幾個字,它就能生成我需要的輸出。就算差異很大,他還是可以大略判讀我需要什麼 XDDD

語音辨識的完整度,雖然遠遠不如中國的LLM,但是好在大部分判讀不對的事物,ChatGPT都還是能夠自行理解並優化。
這時候就一定要誇一下中國AI對於中文辨識的能力了,中文混英文只是小case
還可以再順道混台語 XDDD

這讓我覺得好強大啊~~~

直到上週(應該是9月底?),我在社群上看到不少人討論「語音輸入法」,有人甚至說要把它當成主要的文字輸出方式。

這讓我突然好奇:
👉 如果我寫 LINE、寫 Blog,甚至平常所有文字,都用語音輸入來完成,會不會真的比打字快很多?

於是我開始一連串的研究與測試,想要驗證「語音輸入取代鍵盤」到底是不是未來。

怎麼找到這些服務商的?

這次找相關服務商,老喬覺得最順的地方是在「小紅書」
當初去小紅書搜尋的思路是這樣

  • 要中文語音輸入的推薦,找ChatGPT,給我的一定都是海外資料啊哈哈哈
  • 中文的輸入法,因為錄音筆的關係,已經體會過中國人有多厲害~
  • 騰訊大模型對於語音輸入,體驗極好,再加上有微信這個產品,想說有騰訊可以靠,就找騰訊哥哥吧 XDD
  • 要中文輸入法,找中國人應該是最強
  • 可是中國的資料很難搜,尤其是百度
  • 小紅書不知道有沒有相關資訊?來試試看吧~

小紅書不愧是新一代的搜尋引擎,真是好用~~~Ya~~~~
就這樣,選手很快就選出來了

在初期就被淘汰的選手:字節跳動旗下的「豆包」

在小紅書上,很早就搜到豆包,據網友們的說法
豆包的語音轉文字體驗極好,背後靠的是抖音的系統性能力~

但是在台灣的App store,被豆包當作海外版了
沒有中國版的選擇
因此沒列入選手內~

一開始就被黑掉的選手:訊飛

訊飛的星火大模型,也是有長期口碑的
不過在小紅書上被黑
所以先淘汰哈哈哈

近幾年訊飛更專注於2B市場的樣子
這種2C型的服務,相對於其他選手來說,落後許多

實測過程:工具的優劣差異, Wispr Flow、Spokenly、微信輸入法

一開始只看到社群上大大們推薦的Wispr Flow
不過老喬自己用不太順,後來果然沒選他 哈哈哈

我測試了幾個市面上的熱門方案:
• Wispr Flow
• Spokenly
• 微信輸入法
(豆包沒有列入,因為台灣 App Store 無法下載。)

測試環境分兩塊:
• iPhone:作為日常聊天、訊息輸出。
• MacBook:用於寫稿、筆記與長文內容。

iOS 的共通限制

在 iOS 上,所有第三方語音鍵盤都有一個共同限制:
必須「錄完 → 貼回」,無法邊講邊出字。
這和 Apple 原生聽寫不同,使用體驗上就有落差。

而且開麥克風還要先跳轉一次,如果iPhone因為這樣會頓,老喬一定會心情不好

微信輸入法

• 特色:邊講邊出字,並且有「回調」功能。
比如我講「你好棒」,一開始會顯示「你好啪啪」,等我講完整句後,它會自動修正回「你好棒」。

優勢:

  • 採用的是「微信讀書」的語言模型,不會輸出太奇怪的詞。
  • 支援拼音+英文同一鍵盤混打,熟悉拼音的話,輸入速度非常快。

缺點:

  • 語氣詞(嗯、啊、喔)會原封不動打出來,文本顯得比較口語。
  • 這些口語,會影響到能不能直接發文的時候,會覺得乾脆打字就好了
  • 一句話的最後幾個字,在微信輸入法自動選字的過程中,如果太快切掉,字通常還沒選完,與你的意思就會有落差(反過來理解,就是講完話後,還是要等個幾秒等系統判讀的時間)
  • 當講話結束後,等待語音識別的幾秒中,如果身邊有人在說話,字會一直加進去 XDDD
    • 這真的很鬧,老喬是用的時候,小朋友在旁邊唱歌,結果微信一直把歌詞加進來 XDDDD

Spokenly

在 Mac 上的亮點:

  • 可選不同語音模型,最大優勢是能直接使用 Apple iOS 26 的本地模型,不需額外付費。
  • 中英混雜的準確率很高,對我這種常常中英交錯的使用者很實用。

缺點:

  • iOS App 版本穩定度不佳,模型選單難點、常當機,甚至有時候明明錄了音卻沒有回傳文字。
  • 在 Mac 上快捷鍵預設是「右側 Command 長按」,但會和系統的上一頁/下一頁衝突,需要重新設定。

Wispr Flow

特色:
主打「語境感知」,會依照不同輸入場景調整語氣。
例如在 LINE 裡比較口語,在 Slack 裡則偏工作專業。

缺點:

  • iOS 判讀速度偏慢。
  • Mac 上綁定 Fn 鍵啟動,但會和輸入法切換衝突,實際使用體驗不佳。
  • 要錢 XDDD

「用嘴巴講比打字快」?來看看,學術研究怎麼說?

我的直覺是「用嘴巴講比打字快」,但我還是去查了研究,結果證實這不只是感覺。

Stanford University 實驗

在中英文環境下測試,結果發現:

  • 英文語音輸入比鍵盤快 2.93 倍。
  • 中文(拼音輸入)語音輸入比鍵盤快 2.87 倍。
    而且語音輸入的錯誤率更低。這是目前最常被引用的實驗數據。

(不過語音輸入法業者都寫速度快四倍,老喬沒細看是怎麼比的 XDDD)

醫療領域研究(美國)

研究發現醫師用語音紀錄病歷,比打字更快,也能捕捉更多細節,參與者主觀上認為能節省時間並提高效率。

medRxiv 平台研究

medRxiv 是一個全球醫學與健康科學的資料庫(類似 Arxiv,但專注於醫學領域)。
近期在這裡發表的多國研究指出,口述輸入(dictation)在平均速度與誤差控制上具有明顯優勢。

這些數據讓我更有信心:語音輸入不是「主觀覺得快」,而是真正有科學數據支撐。

老喬最後的選擇

iPhone:微信輸入法+Apple 原生繁體鍵盤

  • 微信輸入法(處理聊天、日常輸出、剪貼簿、中英混雜)
    • 我覺得剪貼簿可以直接貼上這功能,爆好用的,Apple自從某次改版後,都會問你能不能貼上@@
  • Apple 原生繁體鍵盤
    • 簡單來說,打注音就還是最不用動腦~
    • 不過在這個狀態下M,我真的不習慣啟用語音輸入
  • 靈感與問題輸出:直接使用 ChatGPT 語音互動,不經過鍵盤。

Mac:Spokenly 搭配 Apple iOS 26 的本地模型(寫稿與筆記)。

我覺得要推薦一下Spokenly在Mac上的穩定,配上iOS26的新版蘋果本地模型
體驗直逼微信的語音辨識呢~

這樣的組合,已經能覆蓋我 8 成以上的輸入需求。效率比打字快了兩到三倍,靈感捕捉更即時。

最後的思考:語音 vs. 打字

語音輸入不是完美解法。它仍有幾個風險與限制:
• 隱私風險:第三方鍵盤需要完整存取權限,錄音可能會上傳雲端。
• 環境限制:在嘈雜場合或公開場合不方便使用。
• 認知差異:大腦在「說話」與「寫作」時,啟動的神經路徑不同。語音讓思緒更快流動,但打字能逼迫我們更嚴謹。

所以我現在的結論是:
語音輸入能取代一部分鍵盤,但不是全部。
它適合靈感、快訊、對話,卻不一定適合所有嚴謹的寫作。

問題留給你

你會選哪一派?
• A:邊講邊出字,求快。
• B:打字輸入,求穩。

留言告訴我你的選擇,也許你的經驗能讓我繼續更新這份實測報告。

訂閱更多關於 老喬報 joelin.cc 的消息

  1. 歡迎訂閱我的電子報馬上訂閱 #老喬報
  2. 加入我的行銷分享群組 joelin.cc 商業前沿探索
  3. 加入圖文插畫創作者 Line交流討論區
  4. 有任何想要進一步暸解的議題,歡迎填寫表單讓我知道
  5. 關於 Joe Lin 的自我介紹

備註與警語

本篇是個人的研究筆記,不是投資與金融建議。
知識的累積與運用,是致富的不二法門,期待在路上與各位相見。

文章更新日誌

2025.09.27 文章發佈
2026.01.01 更新使用結論