除了报表和取数，它还能干啥？

发布时间：2021-02-13 12:42:13 所属栏目：传媒来源：互联网

导读：音频片段会被分成固定时长的子片段。如果词汇表中的一个单词出现了，该子片段会被加上一个正标签。然后，如果在某个片段中发现任何这样的子片段，该音频片段会被标记为有用。在训练过程中，我们尝试改变子片段的时长以判断其如何影响融合性能。长的片段让模

音频片段会被分成固定时长的子片段。如果词汇表中的一个单词出现了，该子片段会被加上一个正标签。然后，如果在某个片段中发现任何这样的子片段，该音频片段会被标记为有用。

在训练过程中，我们尝试改变子片段的时长以判断其如何影响融合性能。长的片段让模型更难确定片段的哪个部分会有用，也让模型更难调试。短片段意味着部分单词会出现在多个剪辑中，这使得模型更难识别出它们。调整这个超参数并找到一个合理的时长是能做到的。

对于每个子片段，我们将音频转换成梅尔倒谱系数(MFCC)，并添加一阶和二阶导数，特征以25ms的帧大小和10ms的步幅生成。然后，通过Tensorflow后端输入到基于Keras序列模型的神经网络中。

第一层是高斯噪声，这使得模型耐得住不同无线信道之间的噪声差异。我们尝试了另一种方法，人为地将真实的噪音叠加到片段上，但这大大放缓了训练，却没有显著的性能提升。

然后，我们添加了Conv1D、BatchNormalization和MaxPooling1D三个后续层。批处理规范化有助于模型收敛，最大池化有助于使模型耐得住语音和信道噪声的细微变化。另外，我们试着增加了脱落层，但这些脱落层并未有效改进模型。

最后，添加一个密集连接的神经网络层，将其注入到一个有着sigmoid函数激活的单一输出密集层。

生成标记数据

超越公共语音转文本引擎

这个模型并不是解决所有问题的灵丹妙药，我们只能在少数几个音质好的城市使用它。公共语音转文本引擎是按照声学剖面不同于收音机的音素模型训练的，因此，转录的质量有时是不可靠的。对于那些非常嘈杂的老式模拟系统来说，转录是完全不可用的。

我们尝试了多个来源的多个模型，但没有一个是按照与数据集相似的声学剖面训练的，全都无法处理嘈杂的音频。

我们试着用在保证管道其他部分不变的情况下由数据训练出的语音转文本引擎，替换原语音转文本引擎。然而，为了音频，我们需要几百小时的转录数据，而生成这些数据耗时耗财。

我们还有个优化过程的选择，就是只抄写词汇表中定义为“重要”的单词，并为不相关的单词添加空格，但这仍然只是在逐步减少工作量而已。最后，我们决定为问题领域建立一个定制的语音处理管道。

用于关键词识别的卷积神经网络

因为我们只关心关键字，所以并不需要知道单词正确的顺序，由此可简化问题为关键字识别。这就简单多了，我们决定使用在数据集上训练的卷积神经网络(CNN)。

在循环神经网络(RNNs)或长短期记忆(LSTM)模型之上使用卷积神经网络(CNN)意味着我们可以更快地训练和重复。我们评估了Transformer模型，其大致相同，但需要大量硬件才能运行。

由于我们只在音频段之间寻找短期的依赖关系来检测单词，计算简单的CNN似乎优于Transformer模型，同时它能腾出硬件空间，从而可以通过超参数调整更加灵活。

但无代码平台也有自己的缺点。大多数无代码/低代码平台以云端为基础，长期使用之后必然会产生严重的供应商锁定问题。换言之，未来的平台变更将极为困难且耗时。同样的，无代码应用程序往往只能在特定的范围之内良好运作，而用户一旦需要超出系统内置设定的其他功能，则会遇到困难。

当然，也存在克服这些问题的方法。例如，Kore.ai在直接提供拖拽开发界面之外，也向开发人员开放API连接，允许他们以更大的自由空间开发额外功能。Radial就是一套面向电子商务企业分析类需求的AI平台，能够为普通用户提供即插即用型解决方案，同时也为高级客户准备了大量API工具。

最佳方法

AI技术的重要性不可低估。如果无法从数据中提取价值与信息，企业将在激烈的市场竞争中处于劣势。而具体采用哪种AI部署方法，则取决于您的业务需求与技术能力。在transformer学习、无代码与低代码平台之间做出正确选择，将帮助您顺利实现业务目标，通过适当界面开发应用程序，同时保证功能需求始终处于当前平台的支持范围之内。

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!