大数据就是泡沫！

发布时间：2021-02-13 12:41:37 所属栏目：传媒来源：互联网

导读：1. 攻击SQL NoSQL以同样的方式攻击关系数据库和SQL。这回的主要问题是，互联网颠覆了具有40年历史关系数据库管理系统(RDBMS)架构的基本前提。这种数据库旨在节省宝贵的磁盘空间，并可纵向扩展。然而现在有太多的用户和太多的任务，一台胖服务器处理不了。NoS

1. 攻击SQL

NoSQL以同样的方式攻击关系数据库和SQL。这回的主要问题是，互联网颠覆了具有40年历史关系数据库管理系统(RDBMS)架构的基本前提。这种数据库旨在节省宝贵的磁盘空间，并可纵向扩展。然而现在有太多的用户和太多的任务，一台胖服务器处理不了。NoSQL数据库则宣称，如果数据库没有连接(join)，没有标准查询语言(因为实现SQL需要花费时间)，也没有数据完整性，那么就可以横向扩展以处理众多用户。这解决了纵向扩展的问题，但也带来了新问题。

与这些联机交易处理系统(OLTP)并行开发的是另一种关系数据库，名为联机分析处理系统(OLAP)。这种数据库支持关系结构，但在执行查询时就知道它们将返回大量数据。上世纪八、九十年代的公司企业仍主要由批处理驱动。此外，OLAP系统为开发和分析人员提供了将数据想象成n维数据集并加以存储的能力。如果你设想二维数组和基于两个索引的查询，以便基本上与恒定时间一样高效，但是随后在此基础上添加另一个维度，以便可以执行实质上是3个或更多因素(比如供应、需求和竞争对手数量)的查询，你就可以更高效地分析和预测。然而，构建这些元素是一项费力又高度面向批处理的工作。

图形数据库几乎与横向扩展型NoSQL同一时间面市。许多事物本身不是“关系型”，或者不是基于集合论和关系代数，而是基于父子关系或朋友的朋友关系。一个典例是模型中的产品系列-产品品牌-款型-部件。如果你想知道“我的笔记本电脑搭载什么主板?”，会发现制造商的采购来源很复杂，光有品牌或型号可能不够。如果你想知道某产品系列中使用的所有主板，在经典(非CTE即通用表表达式)SQL中，你必须遍历表，并且分多个步骤进行查询。最初，大多数图形数据库根本就不分片。实际上，无需将数据实际存储为图形，就能完成许多类型的图形分析。

2. 兑现和未兑现的NoSQL承诺

NoSQL数据库的扩展性确实比Oracle数据库、DB2或SQL Server(它们都基于40年前的一种设计)好得多。然而，每种NoSQL数据库都存在新的限制：

(1) 键值存储 ·

没有比db.get(键)更简单的查询了。然而，世界上许多数据和使用场景无法以这种方式来设计结构。此外，我们其实在谈论缓存策略。在任何数据库中，主键查询速度很快。重要的只是内存中的数据。在理想情况下，它们像哈希图一样扩展。然而，如果要跑30趟数据库才能将数据放回去或进行任何类型的复杂查询，这行不通。这些系统现在更常作为缓存实施在其他数据库的前面。(例子：Redis。)

(2) 文档数据库 ·

这种数据库之所以流行起来，是由于它们使用JSON，对象又易于序列化成JSON。这种数据库的第一个版本没有连接，将整个“实体”放到一个庞大的文档中有其自身的缺点。没有事务保证，你还会遇到数据完整性问题。今天，一些文档数据库支持一种不太可靠的事务，但它不是大多数人习惯的同一种保护级别。而且，即使对简单查询而言，这种数据库在延迟方面常常速度很慢，尽管它们就吞吐量而言扩展性更好。(例子：MongoDB和Amazon DocumentDB。)

(3) 列存储 ·

这种数据库的查询速度与键值存储一样快，它们可以存储更复杂的数据结构。然而，如果执行像跨3个表(RDBMS术语)或3个集合(MongoDB术语)连接这样的操作，会让人痛苦不堪。这种数据库确实适合时间序列数据(请给我在下午1点至2点出现的所有事务)。

还有其他更深奥的NoSQL数据库。然而，所有这些数据库的共同点是不支持通用数据库惯用语，而且往往专注于“特殊用途”。一些流行的NoSQL数据库(比如MongoDB)编写了出色的数据库前端和生态系统工具，因而开发人员很容易采用它们，但存储引擎存在严重的限制，更不用说弹性和可扩展性方面的限制了。

为了标记训练数据，我们把问题领域的关键字列给了注释者，并要求他们如果有词汇表里的单词出现，必须为片段标记好开始和结束位置和单词标签。

为了确保注释的可靠性，我们在注释器之间有10%的重叠，并计算了它们在重叠片段上的表现。一旦有了大约50小时的标记数据就会启动训练，我们会在重复训练的过程中不断收集数据。

由于词汇表中的一些单词比另一些单词更为常见，模型针对于普通单词来说表现正常，但是对于仅有较少示例的单词却遇到了困难。

我们试图将单字发音覆盖在其他片段中，借以人为制造示例。然而，性能的提升与这些单词的实际标记量不相称。最终，模型对于常用词等会更加敏感，我们在未被标记的音频片段上运行该模型，并消除掉那些含有已习得单词的片段，这有助于减少未来标记时多余的词语。

模型的发行

经过几次重复的数据收集和超参数调整，我们已能训练出一个对词汇表里的词语具有高查全率和精准捕捉能力的模型。高查全率对于捕捉关键的安全警报非常重要。标记的片段会在发送警报之前被收听，因此误报不是一个大问题。

我们在纽约市的一些区对这个模型进行了测试，该模型能够将音频音量降低50–75%(取决于频道)，它明显超越了我们在公共语音转文本引擎上训练的模型，因为纽约由于模拟系统有非常嘈杂的音频。

令人惊讶的是，尽管模型是根据纽约市的数据训练的，但它也可以很好地切换到芝加哥的音频。在收集了几个小时的芝加哥片段之后，从纽约市模型中学到的东西转移到芝加哥，该模型也表现良好。

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!