京東雲PostgreSQL在GIS場景的應用分享

来源:https://www.cnblogs.com/Jcloud/archive/2022/08/30/16638129.html
-Advertisement-
Play Games

在地圖或地理信息有關的場景里,地址關鍵詞的檢索尤其重要。比如打開百度地圖,想要查詢某個位置的信息“北京市海澱區清華東路17號中國農業大學”,往往我們輸入的是關鍵詞“中國農業大學”而不是精確到街道的詳細地址信息。 ...


在地圖或地理信息有關的場景里,地址關鍵詞的檢索尤其重要。比如打開百度地圖,想要查詢某個位置的信息“北京市海澱區清華東路17號中國農業大學”,往往我們輸入的是關鍵詞“中國農業大學”而不是精確到街道的詳細地址信息。在地址關鍵詞檢索的背後,需要的是一款可以支持全文檢索和模糊查詢的資料庫與之匹配,以此快速提高地址檢索的效率。

postgre1.jpg

 PostgreSQL被譽為“世界上可獲得的最先進的開源資料庫 ”,擁有很強的文本搜索能力,不僅支持全文檢索,PostgreSQL還支持模糊查詢、正則查詢。除此之外,PostgreSQL還內置了表達式索引、Gin索引功能,配合豐富的插件生態,在地址關鍵詞檢索方向有比較大的優勢。

 本文介紹了一種基於PostgreSQL物流地址關鍵詞檢索的方法,以此來說明如何用PostgreSQL提升物流地址關鍵詞的檢索效率。

一、應用背景

在需要地址檢索的場景中,用戶輸入地址文本後需要對地址進行分詞,然後通過全文索引技術與地址語料資料庫進行匹配,得到規範化的地址信息,併在此基礎上進行地址定位。通常地址查詢語句在經過地址分詞處理後會被分割成幾段關鍵詞,通過關鍵詞匹配到歷史地址語料資料庫,再返回查詢語句得到查詢結果。

通常從用戶輸入關鍵詞查詢到得到返回結果由於關鍵詞分詞和匹配方法不同,會耗時幾秒到幾十秒不等。

檢索資料庫中的條目是很基本常見的功能,實現的方法也很多,常見包括:

1、基於Elasticsearch 或 Lucene這類專業獨立的檢索引擎實現

2、基於資料庫自帶的檢索功能實現

雖然基於Elasticsearch這類系統能實現比較靈活的檢索功能,但開發和運維成本也將大大增加,如何利用PostgresSQL內置的功能快速高效的實現大多數中文檢索場景是我們要討論的技術方案。

 二、技術方案

GIN(Generalized Inverted Index, 通用倒排索引) 是一個存儲對(key, posting list)集合的索引結構,其中key是一個鍵值,而posting list 是一組出現過key的位置。如('hello', '14:2 23:4')中,表示hello在14:2和23:4這兩個位置出現過,在PostgreSQL中這些位置實際上就是元組的tid。表中的每一個屬性在建立索引時,都可能會被解析為多個鍵值,所以同一個元組的tid可能會出現在多個key的posting list中。通過這種索引結構可以快速的查找到包含指定關鍵字的元組。
pg_trgm是PostgreSQL基於N-gram模型分詞的擴展插件,它的基本思想是將文本裡面的內容按照位元組進行大小為N的滑動視窗操作,形成了長度是N的位元組片段序列,pg_trgm就是三元的3-Gram,每連續的3個字元為一個TOKEN,然後在對TOKEN建立GIN倒排索引,就可以進行高效、精準的模糊查詢。
pgbigm與pg_trgm類似,也是PostgreSQL基於N-gram模型分詞的擴展插件,區別在於pgbigm是二元的2-Gram。

結合PostgreSQL 索引和分詞模型的特點,我們構建了1億行左右的北京區域的本文地址數據進行性能測試,對比分析PostgreSQL在物流關鍵詞檢索的場景里有明顯效率的提升,測試結果如下:

 postgre2.jpg

從以上結果可以看出,無論是pg_trgm+gin還是pgbigm+gin性能比常用的Btree在進行模糊查詢的時候,性能要好很多。同時,因為pg_trgm生成的TOKEN是三個字元,只有在三個字元以上條件,才能匹配到對應的TOKEN,當小於3個字元,需要前後模糊搜索1個或者2個字元,所以檢索性能下降比較明顯,相比來說pgbigm(基於二元的Tri-Gram)在處理單字、雙字字元的模糊查詢效率都比較高。由於物流的關鍵字都是三個字元以上,所以採用的是pg_trgm+gin的方案進行關鍵詞檢索查詢,從而保證毫秒級別的響應時間。

另外對於文本地址數據,往往都具備自然語言的特性,jieba結巴分詞是一個強大的分詞庫,分詞更加貼合業務屬性特點,主要功能包含:支持不同模式的分詞、自定義字典、關鍵字提取、詞性標註。pg_jieba運用了jieba分詞演算法,構建了PostgreSQL中文分詞插件,分詞效果也有不錯的表現。

 三、總結

綜上,PostgreSQL支持豐富的索引,具備強大的全文檢索能力以及多樣的插件生態,支持不同場景下的文本查詢,用戶完全不需要將數據同步到搜索引擎,再來查詢,使用PostgreSQL可以大幅度的簡化用戶的架構,開發成本,同時保證數據查詢的絕對實時性。

京東雲基於開源的 PostgreSQL構建的一款功能強大的關係型資料庫雲資料庫 PostgreSQL ,支持豐富的數據類型及地理信息擴展,具有強大的並行計算能力。支持備份、監控、遷移等全套解決方案。

作者:曲藝偉/彭智


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ping ping命令用於測試兩台主機之間是否可以通信,一般情況下會使用ping www.baidu.com來測試網路連通性,如果不指定發送包的個數預設是一直發送數據包,可以使用Ctrl+C停止。網路聯通時就會收到回覆,只要出現的不是以下信息就要根據具體的情況進行排錯。 ping原理:ping命令使 ...
  • top top命令相當於任務管理器。在top命令中,可以使用M,將進程列表按記憶體使用排序,使用P將進程列表按照CPU的使用情況排序,輸入q退出。 (1)第一行是任務隊列信息,顯示系統時間、運行時間、當前有幾個登錄用戶、負載均衡,load average後面的三個參數分別表示1分鐘、5分鐘、15分鐘的 ...
  • root用戶和普通用戶 雖然root用戶的的許可權很大,但一般情況下,我們都不會直接使用root用戶而是創建一個普通用戶,這樣可以避免因為許可權過大帶來的一些誤操作,當使用一些需要許可權的操作時,可以使用sudo命令以管理員身份執行該操作。 su和sudo su命令不加參數時,預設是切換到root用戶,但 ...
  • ​ 點亮 ⭐️ Star · 照亮開源之路 GitHub:https://github.com/apache/dolphinscheduler Apache DolphinScheduler是一款非常不錯的調度工具,可單機可集群可容 器,可調度sql、存儲過程、http、大數據等,也可使用shell ...
  • 今天我會進行StoneDB資料庫在Debian系統下的安裝。 官方文檔中沒有說明在Debian系統的安裝步驟,我來試試能否順利安裝。 準備Debian系統 我是在本地使用虛擬機安裝的Debian 11.2系統,安裝過程比較順利,安裝完成後。先為Debian系統裝上SSH,然後通過SSH連接虛擬機命令 ...
  • 簡述 實時數據處理領域中,使用 Flink 方式,除了從日誌服務訂閱埋點數據外,總離不開從關係型資料庫訂閱並處理相關業務數據,這時就需要監測並捕獲資料庫增量數據,將變更按發生的順序寫入到消息中間件以供計算(或消費)。 本文主要介紹如何通過 CloudCanal 快速構建一條高效穩定運行的 MySQL ...
  • 今天我會進行StoneDB資料庫在CentOS 7系統下的安裝。 官方的快速部署文檔中已有詳細的安裝流程,我會嚴格按照流程操作。 準備CentOS系統 我在本地虛擬機上安裝好了CentOS 7系統的2207版本。安裝過程比較順利,裝完系統後開啟ssh服務,就可以用ssh客戶端連接,先使用下麵的系統更 ...
  • DDL(Data Definition Languages)語句: 資料庫定義語句:用來創建資料庫中的表、索引、視圖、存儲過程、觸發器等 常用的語句關鍵字有:create,alter,drop,truncate,comment,rename DML(Data Manipulation Languag ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...