Chrome 语音识别

2019-06-07

因为需要一个快速语音识别的方案，就到网上搜了搜，原来 W3C 已经有标准，叫做 Web Speech API，而且 Chrome 早就实现了。

Web Speech API 分两大块，一是文字转语音，二是语音转文字。W3C 文档有详细的解释。这个文档有处细节发现没有，三名作者全都是 Google 员工。

可见这块领域基本上 Google 一手遮天，更何况连微软都转投了 Chromium，所以可以认为 Chrome 的实现就是标准。

本文的两个例子基于 Chrome v75。据说 Chrome v33 就已经实现了 Speech API，简直不能太超前。废话少说，来看例子吧（需要能翻墙）：

例1：复仇者联盟

你可以念出名字，英雄就会出现。比如念 hawkeye，鹰眼出现：

再比如念 iron man，钢铁侠出现：

可以点击链接体验（Chrome 浏览器）： Avengers

例2：听写

这个就比较简单了，你说它写。默认一上来是英文听写，不过埋了个隐藏功能，当你说出单词 Chinese，就会自动变成中文听写。中文识别率会差一些，字正腔圆一般也问题不大。

可以点击链接体验（Chrome 浏览器）： Dictation

技术踩坑

只允许一个页面处于听写状态

如果开了多个标签页，而且还都处在听写的状态，就会出问题。

出错时会触发 onerror 和 onend 回调函数，其中 onerror 回调函数的事件参数的 error 属性值是 aborted。遇到这种情况，可以明示用户让用户关掉一个，也可以等待一会再重试。切记不要立即重试，因为那样会立即失败，陷入失败重试的死循环，毫无间隔的话，CPU 负载马上飚起来。

HTTPS

出于对用户隐私的保护，调用麦克风必须要 HTTPS，自己在本机调试的时候可以参考这篇文章 How to set up HTTPS on localhost for macOS

Grammar

Grammar 是个坑，还弄了个 JSGF 格式跟回事儿似的，很有欺骗性。不过经过测试发现 Grammar 没有任何卵用，应该不会是我打开的方式不对。

SpeechRecognition 的重要属性

想知道有哪些可选参数，最不浪费时间的办法就是读这个文档：

https://w3c.github.io/speech-api/#speechreco-attributes

了解这么几个属性就够了：

lang
continuous
interimResults
maxAlternatives

其他值得关注的点

SpeechRecognitionAlternative

SpeechRecognitionResult