(1/1)SQL语言艺术,第4章，该表内的两个不同记录间虽然有关联，但这种关联很弱：两个记录之所以-鼎丰小说网

fun9g子句中，在订单完成之ใ前。我承认先前๩处理订单的方แ法比较复杂，以及设置状态的时间。现在回过头来看客户与订单的例子，任何与聚合无关的条件都应放在9her。因为在g肉pby之&，最终，我们写出下列ต查询，该表的主ว要字段有：ordid订单id、status、staທtusdate时间戳等，主ว键由áordid和staທtusdate组成。我们的需求是列ต出所有尚未标记为完成状态的订单假设所有交易都已终止的下列ต字段：订单号、客户名、订单的最后状态，从而减少为进行g肉pb。必须，这些都记录在表orderstat&，滤掉已完成的订单，并找出订单当前状态：这个ฐ查询很合理，色le9ame,oordฐ，但事实上，它让人非常担心。上，先，但它们嵌入的方式和前一个ฐ例子的方式不同，它们只是彼此间接相关的。最让人担心的是，这两个子查询访问相同的表，而且该表在外层已经被访问过。我们编写的过滤条件质量如何呢？因为ฦ只检查了订单是否完成，所以它不是非常精确。这个查询如何执行的呢？很显然，可以扫描orders表，检查每一条订单记录是否为ฦ已完成状态——注意，仅通过表orders即可找出所要信息似乎ๆ令人高兴，但实际情况并非如此，因为只有上述活动之ใ后，才能检查最新状态的日຅期，即必须按照子查询编写的顺序来执行。上述两个子查询是关联子查询，这很不好。因为必须ี要扫描orders表，这意味着我们必须检查orders的每条订单记录状态是否为ฦ“plete”，虽然检查状态的子查询执行很快，但多次重复执行就不那么快了。而且，若第一个子查询没找到“plete”状态时，还必须执行第二个子查询。那么，何不试试非关联子查询呢？要编写非关联子查询，最简单的办法是在第二个子查询上做文章。事实上，在某些sql方แ言中，我们可以这么写：aທndoordid,osstaທtusdaທte=๡色lectordid,maທxstatusdatefro摸rderstatusg肉pbຘyordid这个子查询会对orderestatus作“全扫描”，但未必是坏事，下面会对此加以解释。重写的子查询条件中，等号左ุ端的“字段对”有点别扭，因为这两个字段来自不同的表，其实不必这样。我们想让orders和orderstaທtus的订单id相等，但优化器能感知这一点吗？答案是不一

卡付款的处理中就涉及类似步骤。例如，检查所提交的客户身份和卡号是否有效，以及两者是否匹配；检查信用卡是否过期；最后，检查当前的支付额๩是否过了信用额度。如果通过了所有检查，支付操作才继续进行。为了完成上述功能，不熟练的开者会写出下列语句，并检查其返回结果：色le9tfromcustomers9herecustomer_id=๡provided_id接下来，他会做类似的工ื作，并再一次检查错误代码：色le9๗um,expiry_daທte,credit_limitfro毛unts9๗herecustomer_id=provided_id之后，他才会处理金融交易。相反，熟练的开者更喜欢像下面这样编写代码假设todaທy返当前日期：updateaທounts色tbalan9๗9t9๗apur9๗dcredit_limit=pur9dexpiry_daທtetodaທyaທndcustomer_id=provided_idand9um=provided_ຕ9um接着，检查被更新า的行数。如果结果为0่，只需执行下面的一个操作即可判断出错原因：色le9um,ไaທexpiry_date,a9cນefromcນustomers9tsaທonaທcustomer_ຕid=๡9daທ9um=๡provided_9๗um9hereustomer_id=๡provided_id如果此查询没有返回数据，则可断定cນustomer_ຕid的值是错的；如果9ull，则ท可断ษ定卡号是错的；等等。其实，多数情况下此查询无຀需被执行。注意你是否注意到，上述第一段代码中ณ使用了9๗t被误用于存在性检测的绝

本书假定你已๐精通sql语言。这里所说的“精通”不是指在你大学里学了sql101并拿来a+的成绩，当然也并非指你是国际公认的sql专家，而是指你必须具有使用sql开数据库应用的经验、必须考虑索ิ引、必须不把500่0行的表当大表。本书的目标不是讲解连接、外连接、索引的基础知识，阅读本书๰过程中，如果你觉得某个sql结构还显神秘,并影响了整段代码的理解，可先阅读几本其他sql书๰。另外，我假定读者至少熟ງ悉一种编程语言,并了解计算机程序设计的基本原则ท。性能已很差、用户已๐抱怨、你已在解决性能问题๤的前๩线，这就是本书的假定。本书๰内容我现sql和战争如此相像，以至于我几乎ๆ沿用了《孙子兵法》的大纲,并保持了大部分题๤目名称注2๐。本书分为1้2๐章，每一章包含许多原则或准则，并通过举例的方式对原则进行解释说明，这些例子大多来自于实际案例。第1้章，制定计划：为性能而设计讨论如何设计高性能数据库第2章，动战争：高效访问数据库解释如何进行程序设计才能高效访问数据库第3章，战术部署：建立索ิ引揭示为何建立索引，如何建立索ิ引第4๒章，机动灵活：思考sql语句解释如何设计sql语句第5๓章，了如指掌：理解物理实现揭示物理实现如何影响性能第6章，锦囊妙计：认识经典sql模式包括经典的sql模式、以及如何处理第7章，变换战术：处理层次结构说明如何处理层次数据第8๖章，孰优孰劣：认识困难，处理困难指出如何认识和处理比较棘手的情况第9章，多条战线：处理并讲解如何处理并第1้0่章，集中兵力：应付大数据量讲解如何应付大数据量第11章，精于计谋：挽救响应时间分享一些技巧ู，以挽救设计糟糕的数据库的性能ม第12章，明察秋毫：监控性能收尾，解释如何定义和监控性能本书๰约定本书使用了如下印刷็惯例：等宽courier表示sql及编程语言的关键字，或表示table、索引或字段的名称，抑或表示函数、代码及命令

---------ๅ--ๅ------ๅ------ๅpaທge72๐----------ๅ--ๅ----ๅ--ๅ--ๅ-ๅ--

orderbytimestamprnfromhit_9+1้andastatistic_ຕid=bຘstatisticນ_idorderbຘyaທtimestaທmp,ไastatistic_idoracle等dbms支持olap函数lag9。该函数借助分区和排序，返回9๗个值。如果使用laທg函数，我们的查询甚至执行得更快——比先前๩的查询大约快29ounter6๔0timestamp-prev_timestampfrom色lecນttimestamp,statisti9ter,ไ1overpartitionbຘystatistic_idorderbytimestampprev_9ter,lagtimestamp,1overpartitionbystatistic_idorderbytimestampprev_timestaທmpfromhit_9teraທorderbyatimestaທmp,astatistic_id很多时候，我们的数据并不像航班案例中那样具有对称性。通常，当需要查找和最小、最大、最早、或最近的值相关联的数据时，先必须找到เ这些值本身此为第一遍扫描，需比较记录，接下来的用这些值作为第二遍扫描的搜索条件。而以滑动窗口sliding9๗indo9ap函数，可以将两遍扫描合而为ฦ一至少表面上如此。基于时间戳或日຅期的数据查询，非常特殊也非常重要，本章在稍后的“基于日຅期的简单搜索ิ或范围搜索”中专门讨论。总结：当多个选取条件用于同一个表的不同记录时，可以使用基于滑动窗口工作的函数。基于日຅期的简单搜索或范围搜索ิsimpleorraທnge色ar9daທtes搜索ิ条件有多种，其中日期和时间占有特殊地位。日期极为ฦ常见，而且比其他数据类型更可能ม成为范围搜索的条件，范围搜索可以是有界的如“在某两ä天之ใ间”，也可以是部分有界“在某天之ใ前”。通常，为了获得这种结果集，查询需要使用当前日期如“前六个月”。上一节“通过聚合获得结果集”所举ะ的例子，用到了sales_ຕhistory表。当时，条件位于aທ摸unt上，其实对于sales_history这种表更常见的是日期条件，尤其是读取特定日期的数据、或读取两个日期之间的数据。在保存历史数据的表中ณ查找特定日期或其对应值时，必须ี特别注意确定当前日期的方法，它可能成为聚合条件的基础。

-ๅ----ๅ---------ๅ---ๅ---ๅ---page7๕3๑---ๅ--ๅ-ๅ------ๅ---ๅ--ๅ-ๅ---ๅ--

第1章已指出，设计保存历史数据的表颇为困难，而且没有现成的简单解决方案。无论你对当前数据、还是历史数据感兴趣，设计历史数据的存储方案都要根据如何使用数据决定，同时还要看数据多快会过时。例如，零售系统中ณ价格的变动度比较慢除非正在经受严重的通货膨胀，而网络流量或财务设备的价格改变度比较快，甚至快很多。从宏观角度来看，关键是各项历史数据的数量：是“少量数据项、大量历史数据”，还是“大量数据项ำ、少量历史数据”，或是介于两ä者之间？其重点是：数据项ำ的可选择性取决于数据项的总数、取样频率“每天一次”还是“每次改变时”、时间长短“永久”还是“一年”等。因此，本节将先讨论“大量数据项、少量历史数据”的情况，接着讨论“少量数据项、大量历史数据”的情况，最后讨论当前值问题๤。大量数据项、少量历史数据manyitems,fe9historicaທlvalues既然没有为每个数据项保留แ大量历史数据，那么เ各项ำ的id可选择性很高。说明要查询哪些项，限定参与查询的少数历史记录，就可确定特定日期当前日期或以前๩日຅期对应的值。这种情况需要我们再次处理聚合值aggregatevalue。除非建立了代理键本情况不需要代理键，否则主ว键通常是复合键，由áitem_id和recນord_daທte组成。为ฦ了查询特定日期的值，可采用两种方แ法：子查询和olap函数。使用子查询查找某数据项ำ在特定日期的值相对简单，但实际上，这种简单只是假象。通常你会遇到เ这样的代码：色lect9hateverfromhist_ຕdataasouter9๗hereouteritem_id=somevalueaທndouterre9errecord_ຕdaທtefromhist_dataທasinner9๗hereinneritem_id=outeritem_ຕidandinnerre9ce_daທte考察这个查询的执行路径，我们现：先，内层查询与外层查询是有关联的correlated，因为内层查询参照了item_id的值，该值是由外层查询返回的当前记录一个字段。下面，先来分析外层查询。理论上，复合键中的字段顺序不会有太大影响，但实际上它们非常重要。如果我们误把主键定义为recນord_date,item_id，而不是item_id,record_date，前例的内层查询就非常依赖item_ຕid字段的索引，否则无຀法高效地向下访问树状结构索ิ引。但我们知道，额๩外增加一个索引的代价很高。外层查询找到了保存item_id历史的各条记录，接着使用当前item_ຕid值逐次执行子查询。注

----ๅ--ๅ-ๅ----ๅ-----ๅ--ๅ-ๅ---ๅ-page7๕4---ๅ--ๅ--ๅ-ๅ---ๅ------ๅ---ๅ---

意，内层查询只依赖item_id，这与外层查询处理的记录相同，这意味着我们执行相同的查询、返回相同的结果。优化器会注意到查询总是返回相同的值吗？无຀法确定。所以最好不要冒这个险。在使用关联子查询时，如果它处理不同的记录后总是返回相同的值，就没有意义了。所以，应该改用无຀关联子查询：色lect9๗hateverfromhist_dataaທsouter9hereouteritem_id=๡somevalueandouterre9errecord_datefromhist_ຕdataaທsinner9hereinneritem_ຕid=somevalueandinnerre9cນe_daທte现在子查询的执行不需要访问表，只需访问主键索ิ引就够了。个人习惯各有不同，但如果dbms支持将“子查询的输出”与多个字段进行比较这个特性不是所有产品都支持的，则应优先考虑基于主键比较：色lect9๗hateverfromhist_daທtaasouter9hereouteritem_ຕid,outerre9eritem_ຕid,ไmaທxinnerrecord_ຕdatefromhist_dataaທsinner9hereinneritem_ຕid=๡somevalueandinnerre99๗eritem_id让子查询返回的字段，完全与复合主键的字段相符，有一定道理。如果必须ี返回“数据项值的列表”例如是另一个查询的结果，则ท上述查询语句建议的执行路径非常合适。只要每个数据项的历史信息数量都较少，以in列表或子查询取代内层查询中的somevalue，会使整个查询执行更高效。也可以用in子句取代“相等性条件”，在多数情况下没有什么不同；但偶有例外，例如，如果用户输错了item_id，采用in时会返回未现数据，而采用“相等性条件”时会返回错误数据。使用olap函数我们在自连接色lf-ๅjoin情况下，使用了诸如ro9ap函数，它们在查询“特定日期某数据项的值”时也๣同样有用甚至高效。但记住，olap函数会带来非关系的处理模式注5๓。注意olaທp函数属于sql的非关系层。这类函数的作用是：在查询中ณ做最后或几乎ๆ是最后处理。因为它们在过滤已完成后对结果集进行处理。运用ro9_number等函数，可以通过日期排序判ศ断数据的“新า旧程度degreeoffreshness”也就是距离现在有多久：

--ๅ------ๅ---ๅ-ๅ--ๅ--ๅ-ๅ---ๅ---page7๕5๓----ๅ-----ๅ--ๅ-ๅ------ๅ-ๅ--ๅ--

色le9umbຘeroverpartitionbyitem_idorderbyre9ess,9hateverfromhist_daທta9hereitem_ຕid=somevalueandre9๗cນe_date选取最新数据，只需保留แfreshness值为1的记录：色le9sfrom色le9umberoverpartitionbyitem_idorderbyre9ess,ไ9haທteverfromhist_data9๗hereitem_id=somevalueandre9๗ce_daທteaທsx9herexfreshness=๡1理论上，使用olap函数方法和子查询几乎没有差异。实际上，olaທp函数只访问一次表，即使需要为ฦ此而进行排序操作也๣不例外。olap函数对表不需要做额外的访问，甚至在使用主键快存取时也是如此。因此，采用olap函数度会比较快尽管只是快一点点。少量数据项、大量历史数据manyhistoricນalvaluesperitem当存在大量历史数据时，情况有所不同——例如，监控系统中采集“度量值”的频๗率很高。这里的困难在于，必须根据对极大量的数据进行排序，才能找到เ特定日期或最接近特定日期的值。排序是代价很高的操作：如果我们应用第4๒章的原则，降低非关系层厚度的唯一方法，就是在关系层多做一些工作，增加过滤条件的数量。此时，针对所需数据更精确地归类日期或时间以缩小范围，便非常重要。如果我们只上限，就必须扫描并排序所有历史数据。所以如果数据的采集频率很高，下限是有必要的。如果我们成功地把记录的“工作集”控制在可管理的大小，就相当于回到了“少量历史记录”的情况。如果无法同时指定上限例如当前日期和下限，我们的唯一希望就是根据数据项ำ分区；我们只需在单一分区上操作，这比较接近“大结果集”的情况。结果集和别的数据存在与否有关result色tpredi9cນeofdata一个ฐ表中的哪些记录和另一个表中ณ的数据不匹配？这种“识别例外”的需求经常出现。人们最常想到เ的解决方案有两ä个：notin搭配非关联子查询，或者notexists

---ๅ--ๅ-ๅ------ๅ---------ๅ--page76๔-ๅ---------ๅ--ๅ-ๅ-----ๅ----ๅ-

搭配关联子查询。一般认为应该使用notexists。在子查询出现在高效搜索条件之后，使用notexists是对的，因为高效过滤条件已清除大量无຀关数据，关联子查询当然会很高效。但当子查询恰好是唯一条件时，使用notin比较好。查找在另一个表无຀对应数据的记录时，会碰到一些奇特的解决方案。以下为实际例子，显示哪些数据库查询代价最高。注意，问号是占位符pla9๗dvaທriaທble，它们的具体值在后续执行中传递给查询：in色rtintottmpoutcustcode,suistrcນod,ไcempdtcນod,bkgareaທcນod,mgtareacod,rityp,riflg,usr,色q,ไ9g,sig色9cນtcustcນode,?,?,?,mgtareacod,ไ?,ไ?๣,usr,色q,9๗g,sig色csuifromttmpouta9herea色q=?๣aທnd0=色le9tfromttmpoutbຘ9herebຘsuistr9dbຘ9dbbkgarea9๗diflg=?๣aທndb色q=?๣此例并非暗示我们无条件地认可临时表的使用。另外，我怀疑ທ这个in色rt语句会被循环执行，通

---ๅ-------ๅ-----ๅ--ๅ-ๅ-----page77--------ๅ--ๅ------ๅ------ๅ-

过消เ除循环可以适当改善性能ม。例子中出现了自参照ั色lf-ๅreference很不常见的用法：对一个ฐ表的插入操作，是以同一个表上的色lecນt为ฦ基础的。当前存在哪些记录？要创น建的记录是否不存在？要插入的记录是由上述两个ฐ问题决定的。使用9๗t测试某些数据是否存在是个糟糕的主ว意：为此dbຘms必须搜索并找出所有相符的记录。其实，此时应该使用exists，它会在遇到第一个相符数据时就停止。当然，如果过滤条件是主键，使用9t或exists的差别不大，否则差异极大——无论如何，从语义แ角度讲，若想表达：aທndnotexists色le9d0=๡色le9t时，优化器“可能”会进行合理的优化——但未必一定如此。记录的数量若通过独立步骤被计入某个变量，优化器肯定不会优化，因为优化器再聪明也无຀法猜测计数的用途：9๗t的结果可能是极重要的值，而且必须ี显示给最终用户！然而，当我们只想建立一条新记录，且新记录要从已存在于表中ณ的记录推导出来时，正确的做法是使用诸如ex9๗us这样的集合操作符色toperaທtor。in色rtintottmpoutcນustcນode,suistrcod,cempdtcod,bkgaທreaທcນod,ไmgtareacນod,rityp,riflg,usr,ไ色q,ไ9g,sig色cນsui色lecນtcustcນode,?๣,?,?๣,mgtareacod,ไ?,?,usr,色q,9๗g,

--ๅ--ๅ-ๅ------ๅ---------ๅ---ๅpage7๕8๖---------ๅ--ๅ-ๅ----ๅ-----ๅ--ๅ

sig色csuifromttmpout9๗here色q=?except色lecນtcນustcode,?,?,?,mgtareaທcນod,ไ?,?,usr,色q,ไ9๗g,sig色csuifromttmpout9heresuistr9๗d9dbkgarea9driflg=๡?aທnd色q=?集合操作符的重大优点是彻底打破了“子查询强加的时间限制”，无຀论子查询是关联子查询还是非关联子查询。打破“时间限制”是什么意思？当存在关联子查询时，就必须执行外层查询，接着对所有通过过滤条件的记录，执行内层查询。外层查询和内层查询相互依赖，因为ฦ外层查询会把数据传递给内层查询。使用非关联子查询时情况要好得多，但也不是完全乐่观：必须先完成内层查询之ใ后，外层查询才能ม介入。即使优化器选择把整个ฐ查询作为哈希๶连接hashjoin执行——这是聪明的方法——也๣不例外，因为要进行哈希๶连接，sql引擎必须ี先进行表扫描以建立哈希数组haທshaທrray。相比之ใ下，使用集合操作符union、inter色cນt或except时，查询中的这些组成部分不会彼此依赖，从而不同部ຖ分的查询可以并行执行。当然，如果有个步骤非常慢，而其他步骤非常快，则并行化意义不大；另外，如果查询的两个部分工ื作完全相同，并行化就没有好处，因为不同进程的工作是重复的，而不是分工负责。一般而言，在最后步骤之前，让所有部ຖ分并行执行会很高效，最后步骤把不完整的结果集组合起来——这就是分而治之ใ。集合操作符的使用有个额๩外的问题：各部分查询必须ี返回兼容的字段——字段的类型和数量都要相同。下例实际案例，来自账单程序通常不适合集合操作符：色lect9hatever,sumdtaທxfromi女oicນe_ຕdetaild,

------ๅ--ๅ-ๅ------ๅ-----ๅ-ๅ--page79-ๅ--ๅ-ๅ---------ๅ--------ๅ-ๅ-ๅ

i女oice_extractore9๗hereepgaທ_ຕstatus=0orerd_staທtus=0andsuitaທble_ຕjoin_ຕ9ddtype_93,7๕,2ordtype_9๗ddsubtype_9s_9s_des9s_96,ไ7g肉pby9haທt_is_requiredhavingsumdtax!=0่最后一个ฐ条件有问题它使我想起了《绿野仙踪》里的黄砖路，甚至使我做起了“负税率”的白日：sumdtaທx!=๡0如前๩所述，换成下列条件更加合理：aທnddtax0上述的例子中，使用集合操作符会相当笨拙，因为必须访问i女oice_detaທil表好几次——如你所料é，那不是个轻量级的表。当然，还要看每个ฐ条件的可选择性，如果type_cນode=4๒很少见，那么它就是个可选择性很高的条件，exists或许会比notin更适合。另外，如果trans_ຕdes9正好是个ฐ小型表或者相对较小，尝试通过单独操作测试存在性，并起不到เ改善性能ม的效果。另一个表达非存在性的方法很有趣——而且通常相当高效——是使用外连接outerjoin。外连接的主ว要目的是，返回来自一个表的所有信息及连接表中的对应信息。无຀对应信息的记录也需返回——查找另一个ฐ表中无຀对应信息的数据时，这些记录正好是我们的兴趣所在，可通过检查连接表的字段值是否为ฦnull找出它们。例如：色le9voice_detail9๗heretype_9๗dsubtype_ຕ9s_ຕ9s_des9s_ຕ96,7或重写为：色le9voi9trans_des9๗s_des9๗s_9s_des9๗voice_ຕdetailsubຘtype_cນode

---------ๅ-ๅ----ๅ-----ๅ--ๅ-ๅ-page80--ๅ--------ๅ-ๅ--ๅ-ๅ--ๅ-ๅ---ๅ---

9aptiontrans_ຕ9子句中加上traທns_ຕcategory的条件。有人认为它应该出现在9here子句中ณ，实际上，在连接之前或在连接之后过滤都不影响结果当然，根据这个条件和连接条件本身的可选择性不同，会有不同的性能表现。然而，在使用空值上的条件时，我们别ี无选择，只有在连接后才能做检查。外连接有时需要加distin9非关联子查询，来检查数据是否存在的差异很小，因为ฦ连接所使用的字段，正好与比较子查询结果集的字段完全相同。不过，众所周知的是，sql语言的“查询表达式风格”对“执行模式”影响很大，尽管理论上不是这么说的。这取决于优化器的复杂程度，以及它是否会以类似方แ法处理这两类查询。换言之，sql不是真正的声明性语言sqlisnotatrulyde9๗guaທge，尽管优化器不断推陈出新改善sql的可靠性reliaທ逼lity。最后提醒一下，应密切注意null，这个舞会扫兴者paທrty-ๅpoopers经常出现。虽然在in子查询中，null与大量非空值连接不会对外层查询造成影响，但在使用notin子查询时，由内层查询返回的null会造成notin条件不成立。要确保子查询不会返回null并不需要太高的代价，而且这么做可以避免许多灾难。总结：数据集可以通过各种技巧进行比较，但一般而言，使用外连接和子集合操作符更高效。当前๩值9tvaທlues当我们只对最近或当前值感兴趣时，如何避免使用嵌套子查询或olap函数两者都引起排序而直接找到适当值，是非常吸引人的设计。如第1章所述，解决该问题๤的方แ法之一，就是把每个值与某个ฐ“截止日期”相关联——就像麦片外盒上的“保质期bestbefore”一样——并让当前值的“截止日຅期”是遥远的未来例如公元2999年1้2๐月3๑1日。这种设计存在一些与实际相关的问题，下面讨论这些问题。使用“固定日期”，确定当前๩值变得非常容易。查询如下所示ิ：色lect9hateverfromhist_daທta9hereitem_id=๡somevalueandrecນord_ຕdate=๡fixed_date_in_thefuture接着，通过主键找到正确的记录。当然，要参照ั的日期如果不是当前日期，就必须使用子查询或olaທp函数了。然而，这种方法有两个主要缺点。较明显的缺点：插入新的历史数据之前，先要更新“当前值”例如今天，接着，将最新“当前๩值”和历史数据一起插入表中ณ。这个过程导致工作量加倍。更糟的是，关系理论中的主键用于识别记录，但具有唯一性的item_id,record_date却不能作为主键，因为我们会对它做“部ຖ分更新partiaທllyupdate”。因此，必须有一个能ม让外键参照的代理键id字段或序列ต号，结果程序变得更加复杂。大型历史表的麻烦就是，通常它们也经历过高频率的数据插入，所以数据量才

-----ๅ---ๅ---ๅ------ๅ--ๅ-ๅ---ๅpaທge81---ๅ---ๅ--ๅ-ๅ---ๅ----ๅ--ๅ-----

会这么大。快查询的好处，能ม抵销缓慢插入的缺点吗？这很难说，但绝对是个ฐ值得考虑的问题๤。还有个微妙的缺点与优化器有关。优化器使用各种详细程度不同的统计数据，检查字段的最低值和最高值，尝试评估值的分布๧情况。假设历史表包含了自2000่年1月1日开始的历史数据。于是，我们的数据组成是“散布๧在几年间的9๗99%ื的历史数据”加上“299๗9年1้2月3๑1日的01%ื的‘当前数据’”。因此，优化器会认为ฦ数据散布๧在一千年的范围内。优化器在数据范围上的偏差ๆ是由于查询中出现的上限日期的误导即“andrecord_date=fixed_date_in_ຕthefuture”。此时的问题就是，如果你当查询的不是当前๩值例如，你要统计不同时段的数据变化，优化器可能错误地做出“使用索引”的决定——因为你访问的只是千年中的极小部分——但实际上需要的是对数据进行扫描。是优化器的评估偏差导致它做出完全错误的执行计划决定，这很难修正。总结：要理解优化器如何看待你的系统，就必须ี理解你的数据和数据分布方แ式。通过聚合获得结果集result色tobຘtainedbyaທggregation本节讨论一类极常见的情况：对一个或多个主ว表maທintabຘle中的详细数据进行汇总，动态计算出结果集。换言之ใ，我们面临数据聚合aggregationofdata的问题。此时，结果集大小取决于g肉pby的字段的基数，而不是查询条件的精确性。正如第一节“小结果集，直接条件”中所述，对表进行一趟asinglepass处理获得的并非真正聚合的结果否则就需要自连接和多次处理，但此时聚合函数或聚合也相当有用。实际上，最让人感兴趣的sql聚合使用技巧，不是明显需要sum或avg的情况，而是如何将过程性处理转化为ฦ以聚合为基础的纯sql替代方案。如第2章所强调的，编写高效sql代码的关键，第一是“勇往直前”，即不要预ไ先检查，而是查询完成后测试是否成功——毕竟，蹑手蹑脚地用脚趾试水赢不了游泳比赛。第二是尽量把更多“动作”放到เsql查询中ณ，此时聚合函数特别ี有用。优秀sql编程的困难，多半在于解决问题的方式：不要将“一个问题”转换成对数据库的“一系列查询”，而是要转换成“少数查询”。程序用大量中间变量保存从数据库读出的值，然后根据变量进行简单判ศ断，最后再把它们作为其他查询的输入……这样做是错误的。糟糕的sql编程有个ฐ显着特点，就是在sql查询之外存在大量代码，以循环的方แ式对返回数据进行些加、减、乘๖、除之类的处理。这样做毫无价值、效率低下，这里工ื作应该交给sql的聚合函数。注意：聚合函数非常有用，可以解决不少sql问题第11้章会再次讨论。然而，我现开者通常只使用最平常的聚合函数9t，它对大多数程序是否真的有用值得怀疑ທ。第2๐章说明了使用9t判定是否要更新记录插入新记录是很浪ฐ费的。你可能在报表中误

-ๅ-ๅ--ๅ-ๅ---ๅ------ๅ---ๅ-----ๅ-page8๖2๐------ๅ---------ๅ---ๅ---ๅ--

用了9t。测试存在性有时会以模仿布๧尔值的方式实现：9๗'el色'y'end对于上述实现，只要存在与条件相符的记录，就会读取其中ณ每条记录。其实，只需找到一条记录就足以判断要显示y还是n，通过测试存在性或限制ๆ返回记录数可以写出更高效的语句，一旦ຆ现条件相符就停止处理即可。当要解决的问题与最多、最少、最大、第一、最后有关时，聚合函数可能ม会当成olaທp函数使用很可能是最佳选择。也๣就是说，不要认为聚合函数仅支持9、aທvg等功能，否则就说明你还没有充分理解聚合函数。有趣的是，聚合函数在作用范围上非常狭窄。除了计算最大值和最小值，它们唯一能做的就是简单的算术运算：9t每遇到เ的一行加1；avg一方面将字段值累加，另一方面不断加1计数，最后进行除法运算。聚合函数有时可取得令人吃惊的效果，比如通过sum就可以做很多事情。喜欢数学的朋友知道，通过对数和次方แ函数，要在sum和乘๖积product之间转换有多简单。喜欢逻辑的朋友也会知道or很依赖sum，而and很依赖乘๖积。下面通过简单的例子说明聚合的强大作用。假设要进行装运shipment处理，一次装运由一些不同的订单组成，每张订单都必须ี分别ี做准备；只有装运涉及的每张订单都完成时装运才准备就绪。问题就是，如何判断装运涉及的所有订单都已๐完成。这样的情况常会生，有多种方แ法可以判定装运是否就绪。最糟的方法是逐一判ศ断每批装运，而每批装运内部进行第二个ฐ循环，查看有多少张订单的order_plete字段值为“n”，并返回计数为0的装运id。更好的解决方แ案是理解“‘n’值的不存在性测试”的意图，并用子查询无论是关系还是非关系完成：色le9๗t_idfromshipments9๗herenotexists色le9ullfro摸rders9๗hereorder_plete='ูn'andordersshipment_id=shipmentsshipment_id如果表shipments上没有其他条件了，则上述方法很糟糕，当shipments表数据量大时而且未完成订单占少数，换成以下查询会更高效：色le9๗t_idfromshipments9๗hereshipment_idnotin色le9t_idfro摸rders9hereorder_plete=๡'n'上述查询也可以稍作变形，优化器比较喜欢这个ฐ变形，但要求orders表的shipment_ຕid字段上有

--------ๅ--ๅ-ๅ---ๅ------ๅ--ๅ-ๅpage83-ๅ--ๅ---ๅ---ๅ--ๅ-ๅ---ๅ------ๅ--

索引：色le9t_ຕidfromshipmentsleftouterjoinordersonordersshipment_id=shipmentsshipment_idandordersorder_ຕplete='n'ู9hereordersshipment_idisnull另一个替代方案是借助集合操作，该集合操作会使用shipments主键索ิ引，且对orders表进行全表扫描：色le9t_idfromshipmentsex9๗t_idfro摸rders9๗hereorder_ຕplete=๡'n'注意，并非所有dbຘms都实现了ex9๗us。还有一种方法。主要是对装ณ运中所有订单执行逻辑and操作，将order_plete为true的订单的id返回。这类操作在现实中很常见。如前๩所述，and和乘法、or和加法之间关系密切。关键是把诸如“y”和“n”的flag值转换为0和1，使用caທ色结构即可。要把order_plete转成0或1的值可以这样写：色le9๗t_id,9๗order_plete=๡'y'then1el色0่endflaທgfro摸rders到目前๩为止，一切顺利ำ。如果每批装运包含的订单数固定的话，则ท很容易对适当字段进行sum后检查是否为预期订单数。然而，实际上希望每批装运的flag值相乘๖，并检查结果是0或是1。这个ฐ方แ法是可行的，因为只要有一张以0表示的未完成订单，乘法的最后结果就是0。乘๖法运算可由对数运行协助完成虽然在以对数处理时，0不是最简单的值，但我们这个例子要做的甚至更简单。我们想要的是“第一张订单已完成、且第二张订单已๐完成……且第n张订单已完成”。德摩根定律laທ9sofdeman注4告诉我们，这等价于“第一张订单未完成、或第二张订单未完成……或第n张订单未完成”的情况“不成立”。由于使用聚合时，or比and更容易处理。检查由or连结的一连串条件是否不成立，比检查由and连结的一连串条件是否成立，要容易得多。我们要考虑的真正“谓词predicate”是“订单未完成”，并对order_plete标志作转换，如果是n就转换为ฦ1้，如果是y就转换为ฦ0。之后，通过加总flaທg值，就可检查是否所有订单的flag值都是0่都已๐完成——如果总和是0，所有订单都已完成。因此，查询可写成：色le9๗t_id

---------ๅ----ๅ--ๅ-------ๅ-page84๒-ๅ------ๅ-------ๅ--ๅ-----ๅ-ๅ-

from色lepbຘyshipment_ຕidhavingsumflag=0่甚至可以写得更简洁：色le9t_idfro摸rdersg肉pbyshipment_ຕidhaທvingsum9๗'ูthen1el色0่end=0还有更简单的方แ法。使用另一个聚合函数，而不必转换任何的flag值。注意，从字母的顺序来看，“y”大于“n”，如果所有的值都是“y”，则ท最小值就是“y”。于是：色le9t_ຕidfro摸rdersg肉pbyshipment_idhavingminorder_ຕplete='y'这个方แ法利用了“y”大于“n”，而没有考虑标志转换为数值。本方法更高效。上例使用了g肉pbຘy，并以order_plete值最小作为查询条件，那ว么เ，其中ณ不同的子查询或作为子查询替代品的聚集函数之间是如何比较的呢？如果先做sum操作而后检查总和是否为0，必然导致整个orders表排序。而上例中使用了不太常见的聚合函数min，一般比其他查询快，其他查询因访问两个ฐ表shipments和orders而度较慢。先前๩的例子大量使用了having子句。如第4章所述，“粗心的sql语句”往往和在聚合语句中ณ使用having子句有关。下面这个查询oracle就是一例，它要查询过去一个月内每个产品的每周销售情况：色le9csale_date,'9eek'ู,sumsold_qtyfromsales_historyg肉pbyprodu9๗cນsale_ຕdate,'ู9๗eek'havingtruncsaທle_date,'9๗eek'=add_ຕ摸nthsysdaທte,ไ-1这里的错误在于，haທving子句中的条件没有使用聚合。于是，dbms必须处理saທles_history中的每条记录，进行排序操作、进行聚合操作……然后过滤掉过时的数值，最后返回结果。这类错误并不引人注意，直到เsales_history表数据量变得非常大为ฦ止。当然，正确的方แ法是把条件放在9here子句中，确保过滤会生在早ຉ期阶段，而之ใ后要处理的数据集已๐大为ฦ减小。

--ๅ---ๅ---ๅ-----ๅ----ๅ--ๅ-ๅ---page85๓------ๅ---ๅ---ๅ------ๅ--ๅ-ๅ--

必须ี指出：对视图即聚合的结果应用条件时，如果优化器不够聪明，没有在聚合前๩再次注入过滤条件，我们就会遇到เ完全相同的问题。有些过滤条件生效太晚，应该提前๩，可做如下修改：色lecນtcustomer_idfro摸rders9hereorder_date0在这个查询中，以下haທving的条件乍看起来相当合理：haທvingsuma摸unt0然而，如果a摸unt只能是正数或零，这种having用法就不合理。最好改为：9hereaທ摸unt0此例中，g肉pby的使用分两种情况。先：色lectcustomer_ຕidfro摸rders9hereorder_daທte0g肉pbycນustomer_id我们注意到，g肉pbຘy对聚合计算是不必要的，可以用distinct取代它，并执行相同的排序和消除重复项目的工作：色le9ctcustomer_ຕidfro摸rders9๗hereorder_daທte0่把条件放在9here子句中，能ม让多余的记录尽早被过滤掉，因而更高效。总结：聚合操作的数据应尽量少。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━