友情提示：如果本网页打开太慢或显示不完整，请尝试鼠标右键“刷新”本网页！阅读过程发现任何错误请告诉我们，谢谢！！报告错误

SQL语言艺术(PDF格式)-第8章

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

SQL语言、数据库和关系模型三者经常被混淆。数据库的功能主要是存储数据，这些数据符合　

对现实世界一部分所建立的特定模型。相应地，数据库必须提供可靠的基础设施　

（infrastructure），无论何时都能够让多个用户使用同一些数据，且在数据被修改时不破坏数据　

完整性。这要求数据库能够处理来自不同用户的“资源争用（contention）”，并能在事务　

（transaction）处理过程中遇到机器故障等极端情况下也保持数据一致性。当然，数据库还有　

很多其他的功能，本书并未涵盖。　

正如其名，结构化查询语言（Structured　Query　Language，SQL）无非是一种语言，虽然它与　

数据库关系密切。将SQL语言和关系数据库等同视之，或者更糟——与关系理论等同视之，都　

是错误的。这种错误就好比将掌握了电子表软件或文字处理软件视为掌握了“信息技术”。实际上，　

有些软件产品并非数据库，但它们也支持SQL（注1）。另外，SQL在成为标准之前也不得不与　

诸如RDO或QUEL等其他语言竞争，这些语言曾被许多理论家认为优于SQL。　

为了解决所谓的“SQL问题”，你必须了解两个相关部分：SQL查询表达式和数据库优化器。如图　

4…1所示，这两部分在三个不同区域里协同工作。图的中央是关系理论，这是数学家们尽情发挥　

的区域。简而言之，关系理论支持我们通过一组关系运算符来搜寻满足某些条件的数据，这些　

关系运算符几乎支持任何基本查询。关键在于，关系理论有严格的数学基础，我们完全可以相　

信同一结果可由不同的关系表达式来获得，正如在算术中246/369完全等于2/3一样。　

然而，尽管关系理论有至关重要的理论价值，但一些有重要实践意义的方面它并未涉及，这些　

方面属于图中所示的“报告需求（reporting　requirements）”的范围。其中最明显的例子就是结果　

集的排序：关系理论只关心如何根据查询条件取得正确的数据集；而对我们这些实践者（而非　

理论家）而言，关系操作阶段只负责准确无误地找出属于最终数据集的记录，而不同行的相同　

字段的关系并不是在这个阶段处理，而是完全属于排序操作。另外，关系理论并不涉及各种统　

计功能（例如百分位数等），而这些统计功能经常出现在不同的“SQL方言（dialect）”当中。关系　

理论所研究的是集合（set），但并不涉及如何为这些集合排序。尽管有许多关于排序的数学理　

论，但它们都与关系理论无关。　

必须说明的是，关系操作与上述“报告需求”的不同在于关系操作适用于理论上无限大的、数学　

意义上的集，无论是操作含有十行数据的表、一万行数据的表、还是一亿行数据的表，我们都　

能以相同的方式对其施以任何过滤条件。再次强调：当我们只关心找出并返回符合查询条件的　

数据时，关系理论是完全适用的；然而，当我们需要进行记录排序，或者执行一个大多数人错　

误地认为它是关系操作的group操作时，却已不再是针对可以无限大的数据集进行操作了，而必　

须是一个有限数据集，于是这个结果数据集不再是数学意义上的“关系（relation）”了，至此我们　

已经超出了关系操作层。当然，我们仍然可以利用SQL对该数据集进行一些有用的操作。　

初步总结一下，我们可以将SQL查询表示为一个两层的操作，如图4…2所示。第一层是一个关系　

操作的“核”，它负责找出我们要操作的数据集；第二层是“非关系操作层（non…relational　layer）”，　

…………………………………………………………Page　32……………………………………………………………

它对有限的数据结果集进行“精雕细刻”从而产生用户期望的最终结果。　

尽管图4…2简要地表达了SQL在数据处理环境中的位置，但SQL查询在大多数情况下都比这要复　

杂得多，图4…2仅仅展示了一个总体的描述。关系操作中的过滤器（filter）有可能只是一个代名　

词，其背后是几个独立过滤器的组合，例如通过union结构或子查询来实现；最终，SQL语句的　

构成可以很复杂。稍后还会讨论编写SQL语句的问题，但我们接下来首先要讨论的是数据物理　

实现和数据库优化器的关系。　

总结：千万别把SQL查询的执行过程中真正的关系操作和附加的展现层（presentation　layer）　

功能混为一谈。　

SQL　

SSQQLL与优化器　

SQL　and　the　Optimizer　

当SQL引擎处理查询时，会用优化器找出执行查询最高效的方式。此时关系理论又可以大有作　

为了——优化器借助关系理论，对开发者提供的语义无误的原始查询进行有效的等价变换，即　

使原始查询编写得相当笨拙。　

优化是在数据处理真正被执行时发生的。经过变换的查询在执行时可能比语义上等效的其他查　

询快得多，这因是否存在索引，以及变换与查询是否适应而不同。在第5章我们将介绍各种数据　

存储模型；有时，特定存储模型决定了查询优化的方式。优化器会检查下列因素：定义了哪些　

索引、数据的物理布局、可用内存大小，以及可用于执行查询任务的处理器数。优化器还很重　

视查询直接或间接涉及的表和索引的数据量。最终，优化器根据数据库的实际实现情况对理论　

上等价的不同优化方案做出权衡，产生有可能是最优的查询执行方案。　

然而，要记住的关键一点是，尽管优化器在SQL查询的“非关系操作层”也偶有用途，但以关系　

理论为支柱的优化器主要用于关系操作层。SQL查询的等价变换还提醒我们：SQL原本就是一　

种声明性语言（declarativelanguage）。换言之，SQL应该是用来表达“要做什么”、而非“如何来　

做”的。理论上讲，从“要做什么”到“如何来做”的任务就是由优化器来完成的。　

在第1章、第2章中讨论的SQL查询比较简单，但即使从编写技巧层面来说，拙劣的查询语句也　

会影响优化器的效率。切记，关系理论的数学基础为数据处理提供了非常严谨的逻辑支持，因　

此SQL艺术本应注重减小“非关系操作层”的厚度，即尽量在关系操作层完成大部分处理，否则　

优化器在“非关系操作层”难以保证返回的结果数据和原始查询执行的结果一样。　

另外，在执行非关系操作时（这里非关系操作不严格地定义为针对已知结果集的操作），应专注　

于操作那些解决问题所必需的数据，不要画蛇添足。和当前记录不同，有限数据集必须以某种　

方式进行临时存储（内存或硬盘），这会带来惊人的开销。随着结果集数据量的增大，这种开销　

会急剧加大，尤其是在主存所剩无几的时候。主存不足会引发硬盘数据交换等开销很高的活动。　

而且，别忘了“索引所指的是硬盘地址，并非临时存储地址”，所以数据一旦进行临时存储，就意　

味着我们向最快的数据访问方式说再见了（哈希方式可能例外）。　

一些SQL方言会误导用户，使他们认为自己仍在关系世界中——但其实早就不是关系操作了。　

举个简单的例子：不是经理的员工当中，哪五个人收入最高？这是个现实生活中很合理的问题，　

…………………………………………………………Page　33……………………………………………………………

但它包含了明显的非关系描述。“找出不是经理的员工”是其中的关系操作部分，由此获得一个有　

限的员工集合，然后排序。有些SQL方言通过在select语句中增加特殊子句来限制返回的记录数，　

很显然，排序和限制记录数都是非关系操作。其他SQL方言（这里主要是指　Oracle）则采用另　

外的机制，即用一个名为rownum的虚拟字段（dummycolumn）为查询结果编号——这意味着　

编号工作发生在关系操作阶段。如果查询语句如下：　

　　select　empname；　salary　

　　from　employees　

　　where　status　！=　'EXECUTIVE'　

　　and　rownum　

返回目录上一页下一页回到顶部赞（0）踩（0）

未阅读完？加入书签已便下次继续阅读！

温馨提示：温看小说的同时发表评论，说出自己的看法和其它小伙伴们分享也不错哦！发表书评还可以获得积分和经验奖励，认真写原创书评被采纳为精评可以获得大量金币、积分和经验奖励哦！