如何編寫更好的SQL查詢:終極指南-第一部分

来源:http://www.cnblogs.com/powertoolsteam/archive/2017/08/29/write-better-sql-queries-definitive-guide-part-1.html
-Advertisement-
Play Games

結構化查詢語言(SQL)是數據挖掘分析行業不可或缺的一項技能。對於SQL來說,編寫查詢語句只是第一步,確保查詢語句高效並且適合於你的資料庫操作工作,才是最重要的。 ...


結構化查詢語言(SQL)是數據挖掘分析行業不可或缺的一項技能,總的來說,學習這個技能是比較容易的。對於SQL來說,編寫查詢語句只是第一步,確保查詢語句高效並且適合於你的資料庫操作工作,才是最重要的。這個教程將會提供給你一些步驟,來評估你的查詢語句。

  • 首先,應該瞭解學習SQL對於數據挖掘分析這個工作的重要性;
  • 接下來,應該學習SQL查詢語句的處理和執行過程以便可以更好的瞭解到,編寫高質量的查詢有多重要。具體說來就是,應該瞭解查詢語句是如何被解析、重寫、優化和最終評估的;
  • 掌握了上面一點之後,你不僅需要重溫初學者在編寫查詢語句時,所使用的查詢反向模型,而且還需要瞭解有關可能發生錯誤的替代方案和解決方案。同時還應該瞭解更多查詢工作中的基於集合的程式方法。
  • 在性能方面也需要關註反向模型,除了手動提高SQL查詢的方法外,還需要以更加結構化和深入的方式來分析你的查詢,以便使用其它工具來完成整個查詢工作。
  • 在執行查詢之前,還需要更加深入的瞭解執行查詢計劃的時間複雜度。 
  • 最後,應該瞭解如何進一步的優化你的查詢語句。

 

為什麼要學SQL?

尋找數據挖掘分析行業的工作,SQL是最需要的技能之一,不論是申請數據分析工作、數據引擎工作、數據挖掘分析或者其它工作。在O'Reilly發佈的《2016數據科學從業者薪酬報告》中,有70%的受訪者證實了這一點,表示他們需要在專業環境中使用SQL。此外,本次調查中,SQL遠勝於R(57%)和Python(54%)等編程語言。所以在數據挖掘分析領域,SQL是必備技能。

 

我們分析一下SQL從1970s早期開發出,到現在還經久不衰的原因:

一、公司基本都將數據存儲在關係資料庫管理系統(RDBMS)或關係數據流管理系統(RDSMS)中,所以需要使用SQL來實現訪問。SQL是通用的數據語言,可以使用SQL和幾乎其它任何資料庫進行交互,甚至可以在本地建立自己的資料庫!

二、只有少量的SQL實現沒有遵循標準,在供應商之間不相容。因此,瞭解SQL標準是在數據挖掘分析行業立足的必要要求。

三、最重要的是SQL也被更新的技術所接受,例如Hive或者Spark SQL。Hive是一個用於查詢和管理大型數據集的類似於SQL的查詢語言界面;Spark SQL可用於執行SQL查詢。

簡而言之,以下就是為什麼你應該學習這種查詢語言:

  • 即使對於新手來說,SQL也很容易學習。學習曲線很平緩,編寫SQ查詢幾乎不花費時間。
  • SQL遵循“學習一次,隨時隨地可用”的原則,所以花費時間學習SQL很划算!
  • SQL是對編程語言的一種極好的補充;在某些情況下,編寫查詢甚至比編寫代碼更為優先!
  • ...

 

SQL處理和查詢執行

為了提高SQL查詢的性能,首先需要知道,運行查詢時,內部會發生什麼。

以下時查詢執行的過程:

  • 首先,將查詢解析成“解析樹”; 分析查詢是否滿足語法和語義要求。解析器將會創建一個輸入查詢的內部表示,然後將此輸出傳遞給重寫引擎。
  • 然後,優化器的任務是為給定的查詢,尋找最佳執行或查詢計劃。執行計劃準確地定義了每個操作所使用的演算法,以及如何協調操作的執行。
  • 最後,為了找到最佳的執行計劃,優化器會列舉所有可能的執行計劃,並確定每個計劃的質量或成本,以便獲取有關當前資料庫狀態的信息,最後選擇最佳的執行計劃。由於查詢優化器可能不完善,因此資料庫用戶和管理員有時需要手動檢查並調整優化器生成的計劃,以便獲得更好的性能。

現在已經清楚了整個查詢執行的過程。

正如前面瞭解到的,計劃的成本質量起著重要的作用。更具體地說,評估計劃所需的磁碟I / O數量,計劃的CPU花銷以及資料庫客戶端的整體響應時間和總執行時間等因素至關重要。這就是時間複雜性的概念。後面還將繼續瞭解。

接下來,執行所選擇的查詢計劃,由系統的執行引擎進行評估,並返回查詢結果。

 

編寫SQL查詢

需要進一步說明的是,垃圾回收原則(GIGO)原本就是表達在查詢處理和執行之中:制定查詢的人,同時也決定著SQL查詢的性能。

這意味著在編寫查詢,有些事情可以同步去做。就像文章開始時介紹的,編寫查詢需要遵循兩個標準:首先,編寫的查詢需要滿足一定的標準,其次還應該應對查詢中可以出現的性能問題。

總的來說,有四個分句和關鍵字作為切入點,方便新手考慮性能問題:

  • WHERE 分句
  • INNER JOIN 和 LEFT JOIN 關鍵字
  • HAVING 分句

雖然這種做法比較初級,但對於一個初學者來說,這些方法卻是一個很好的指引。這些地方也是你剛開始編寫時,容易發生錯誤的地方,並且這些錯誤也很難發現。

同時,要想提升性能,使其變得有意義,就不能脫離上下文:在考慮SQL性能時,不能武斷的認為上面的分句和關鍵字不好。使用WHERE 或 HAVING的分句也可能是很好的查詢語句。

通過下麵的章節來來進一步瞭解編寫查詢時反向模型和代替方法,並將這些提示和技巧作為指導。如何重寫查詢和是否需要重寫查詢取決於數據量,以及資料庫和執行查詢所需的次數等。這完全取決於你的查詢目標,事先掌握一些有關數據的知識是非常重要的!

1. 僅檢索你需要的數據

在編寫SQL查詢時,並不是數據越多越好。因此在使用SELECT 語句、DISTINCT分句和LIKE操作符時,需要謹慎。

SELECT聲明

在編寫完查詢語句之後,首先需要做的事情就是檢查select語句是否簡潔。你的目標應該是刪除不必要的select欄位。以便只取到符合你查詢目的的數據。

如果還有相關使用exists的子查詢,那麼就應該在select語句中使用常量,而不是選擇實際列的值。當檢查實體時,這是特別方便的。

請記住,相關子查詢是使用外部查詢中的值的子查詢,並且在這種情況下,NULL是可以作為“常量”的,這點確實令人困惑!

通過以下示例,可以瞭解使用常量的含義:

SELECT driverslicensenr, name
FROM Drivers
WHERE EXISTS (SELECT '1' FROM Fines
              WHERE fines.driverslicensenr = drivers.driverslicensenr);

提示:我們很容易發現,使用相關子查詢並不總是一個好主意,所以可以考慮通過以下方式避免使用相關子查詢,例如使用 INNER JOIN重寫:

SELECT driverslicensenr, name
FROM drivers
INNER JOIN fines ON fines.driverslicensenr = drivers.driverslicensenr;

DISTINCT分句

SELECT DISTINCT 語句用於返回不同的值。 DISTINCT 是一個分句,能不用儘量不用,因為如果將DISTINCT添加到查詢語句中,會導致執行時間的增加 。

LIKE運算符

在查詢中使用LIKE運算符時,如果模式是以% 或_開始,則不會使用索引。它將阻止資料庫使用索引(如果存在的話)。當然,從另一個角度來看,你也可以認為,這種類型的查詢可能會放寬條件,會檢索到許多不一定滿足查詢目標的記錄。

另外,你對存儲在數據中數據的瞭解,可以幫助你制定一個模式,使用該模式可以對所有數據進行正確的過濾,以便查找到你最想要的數據。

 

2. 縮小查詢結果 

如果無法避免使用 SELECT語句時,可以考慮通過其它方式縮小查詢結果。例如,使用LIMIT 分句和數據類型轉換的方法。

TOPLIMITROWNUM分句

可以在查詢中添加LIMIT或TOP分句,來設置查詢結果的最大行數。下麵是一個示例:

SELECT TOP 3 *
FROM Drivers;

請註意,你可以進一步指定PERCENT。

例如,如果你想更改查詢的第一行  SELECT TOP 50 PERCENT *。

SELECT driverslicensenr, name
FROM Drivers
LIMIT 2;

此外,你還可以添加ROWNUM 分句,相應於在查詢中使用的LIMIT:

SELECT *
FROM Drivers
WHERE driverslicensenr = 123456 AND ROWNUM <= 3;

 

數據類型轉換

應該使用最小的數據類型,因為小的數據類型效率更高。

當查詢中需要進行數據類型轉化,會增加執行時間,所以儘可能的避免數據類型轉換的發生;

如果不能避免的話,需要謹慎的定義數據類型的轉換。

 

本文是系列教程的第一篇,後續還有更多《如何編寫更好的SQL查詢》的文章分享給大家,敬請期待。

原文鏈接:http://www.kdnuggets.com/2017/08/write-better-sql-queries-definitive-guide-part-1.html

轉載請註明出自:葡萄城控制項

 

相關閱讀:

【報表福利大放送】100餘套報表模板免費下載

一句SQL完成動態分級查詢

 遷移 SQL Server 資料庫到 Azure SQL 實戰

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在最近的項目中,有用到動態執行sql語句,SQL為我們提供了兩種動態執行SQL語句的命令,分別是EXEC和sp_executesql;通常,sp_executesql則更具有優勢,它提供了輸入輸出介面,而EXEC沒有。還有一個最大的好處就是利用sp_executesql,能夠重用執行計劃,這就大大提 ...
  • 問題 通過「SHOW FULL PROCESSLIST」語句很容易就能查到問題SQL,如下: 說明:因為post和tag是多對多的關係,所以存在一個關聯表post_tag。 試著用EXPLAIN查詢一下SQL執行計劃(篇幅所限,結果有刪減): 下麵給出優化後的SQL,唯一的變化就是把連接方式改成了「 ...
  • oracle中通配符有 '_'和'%'當like '_ww%'時,會把'_'和'%'當作通配符使用導致查不出含有'_'和'%'的數據。這時用到轉譯字元 like '\_ww\%' escape '\' 這裡將'\'定義為轉譯字元,也可以定義為其他字元如果條件中本身含有轉譯字元則需要雙寫轉義字元'\\ ...
  • 函數coalesce(c1,c2,c3......cn);返回第一個不為null的值 ...
  • 在Redis的官網上,我們可以看到Redis的Java客戶端眾多 ![Redis客戶端][pic1] 其中,Jedis是Redis官方推薦,也是使用用戶最多的Java客戶端。 開始前的準備 使用jedis使用到的jedis 2.1.0.jar, "點擊下載" 如果使用Redis連接池的話,需要com ...
  • 最近遇到這樣一個案例,需要修改所有SQL Server的Database Mail的SMTP,原來的SMTP為10.xxx.xxx.xxx, 現在需要修改為192.168.xxx.xxx, 另外需要規範郵件地址,以前這類郵件[email protected]的尾碼需要修改為Serve... ...
  • 一、PostgreSql9.6重置密碼的方法; 1、打開windows服務管理器,找到“postgresql-x64-9.6”服務,停止服務。 2、找到PostgreSQL9.6的安裝目錄(以我的E盤為例:E:\Program Files\PostgreSQL\9.6\data)下的許可權配置文件:p ...
  • What’s New With MySQL Replication in MySQL 8.0 MySQL複製從問世到現在已經經歷了多個年頭,它的穩定性和可靠性也在穩步的提高。這是一個不停進化的過程,由於MySQL的很多重要功能都是依賴於複製,所以複製的快速發展也是很容易理解的。 在MySQL的上一個 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...