記使用pdf.js過程遇到的坑

来源:https://www.cnblogs.com/deeplearningmachine/p/18194757
-Advertisement-
Play Games

最近項目中需要用到js庫來渲染pdf文件,調研後發現無論是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基礎上做了些許精簡,反而功能還不如原始的pdf.js來得全面。但是原始的庫幾乎沒有像樣的代碼示例,而能搜索到的大多數代碼不少都是十幾年前的了,在這個過程中踩了不少坑,做 ...


最近項目中需要用到js庫來渲染pdf文件,調研後發現無論是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基礎上做了些許精簡,反而功能還不如原始的pdf.js來得全面。但是原始的庫幾乎沒有像樣的代碼示例,而能搜索到的大多數代碼不少都是十幾年前的了,在這個過程中踩了不少坑,做個記錄,希望對看到的人有所幫助。

使用npm安裝pdfjs-dist庫(也可以直接下載源碼並引入)

npm install pdfjs-dist

導入庫

// 網上很多代碼都是import xxx from 'pdfjs-dist';
// 而xxx一般都是過期或者不存在的,直接把所有導出為pdfjslib即可
import * as pdfjslib from 'pdfjs-dist';
// 註意需要設置這個參數
pdfjslib.GlobalWorkerOptions.workerSrc = 'node_modules/pdfjs-dist/build/pdf.worker.js';

單頁渲染,多頁渲染在下麵代碼基礎上直接添加一個迴圈即可

let src = 'xxx.pdf';
let pageNum = 1;
let scale_ratio = 1.5;

async function renderPage() {
    const pdf = await pdfjsLib.getDocument(src).promise;
    const page = await pdf.getPage(pageNum);
    const viewport = page.getViewport({ scale: scale_ratio });

    const canvas = document.createElement('canvas');
    const context = canvas.getContext('2d');

    canvas.height = viewport.height;
    canvas.width = viewport.width;

    const renderContext = {
      canvasContext: context,
      viewport: viewport
    };
    await page.render(renderContext);

  }

註意渲染完的pdf只有圖片形式,使用開發者工具看網頁的結構只有canvas組件,想要實現文字的選擇和複製還需要在上面渲染一層文字層。

// 需要引入樣式文件,不然文字不會懸浮在cavas組件上
import 'pdfjs-dist/web/pdf_viewer.css';

async function renderFullPage(){
        const pdf = await pdfjsLib.getDocument(src).promise;

        const pdfContainer = document.createElement('div');
        pdfContainer.style.setProperty('--scale-factor', scale_ratio);

        for (let i=1; i<=pdf.numPages; i++){
            const pageNumber = i;
            const page = await pdf.getPage(pageNumber);

            const viewport = page.getViewport({scale: scale_ratio});

            const canvas = document.createElement('canvas');
            const context = canvas.getContext('2d');

            canvas.height = viewport.height ;
            canvas.width = viewport.width ;
            
            const renderContext = {
                canvasContext: context,
                viewport: viewport
            };
        
            await page.render(renderContext);

            // canvasWrapper 可加可不加
            const canvasWrapper = document.createElement('div');
            canvasWrapper.className = 'canvasWrapper';
            canvasWrapper.appendChild(canvas);

            const textContent = await page.getTextContent();
            const textLayerDiv = document.createElement('div');
            // 類名嚴格為:textLayer
            textLayerDiv.className = `textLayer`;

            pdfjsLib.renderTextLayer({
                textContentSource: textContent,
                container: textLayerDiv,
                viewport: viewport,
                textDivs: []
            });
            
            const pageDiv = document.createElement('div');
            pageDiv.className = 'page';
            // 需要設置 position: relative
            // 否則全部文字可能都擠在第一頁
            pageDiv.style = "position: relative; margin-bottom:10px";

            pageDiv.appendChild(canvasWrapper);
            pageDiv.appendChild(textLayerDiv);
            
            pdfContainer.appendChild(pageDiv);
            
        }

    }

簡單來說就是在渲染完canvas代碼之後,再渲染出文字層。有幾個註意點:

  1. 需要在開頭引入樣式表,不然文字層會實際顯示在頁面中,不會懸浮不會透明;
  2. 需要在外面的組件中設置參數--scale-factor,用於保證圖片和文字的位置對應,否則調整了scale_ratio後圖片尺寸改變,但是文字層的大小還是不變;
  3. 文字層的類名需要嚴格設置為textLayer,從開頭引入的樣式表中可以看到;
  4. 包含canvas和文字層的父組件需要設置style為position: relative,否則多頁的文字都會渲染到第一頁中。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • AutoMySQLBackup備份配置了加密選項過後,它會將資料庫的備份文件加密。測試解密這些加密的備份文件時遇到錯誤(密鑰做了脫敏處理)。 $ openssl enc -aes-256-cbc -d -in daily_mysql_2024-05-14_09h09m_Tuesday.sql.gz. ...
  • 本文分享自華為雲社區《JDBC連接openGauss6.0和PostgreSQL16.2性能對比》,作者: Gauss松鼠會小助手。 PostgreSQL vs openGauss 01 前置準備 安裝JDK: 詳細安裝步驟請問度娘,輸入能正常返回即已安裝 [root@db06 ~]# java - ...
  • 一、服務卡片介紹 1.服務卡片的概念 在HarmonyOS中,服務卡片是一種提供即時信息和快速操作的小組件,類似於Android中的通知欄。服務卡片可以顯示各種類型的信息,包括通知、天氣、日曆事件、音樂播放器、快捷方式等。用戶可以根據自己的需求配置服務卡片,並通過輕掃或點擊來查看詳細信息或執 ...
  • 一、ExtensionAbility組件 1.概念 HarmonyOS中的ExtensionAbility組件是一種能夠擴展系統功能的能力組件。它可以通過擴展系統能力介面,為應用程式提供一些特定的功能,以滿足應用程式的特殊需求。 ExtensionAbility組件的特點包括: 系統組件:E ...
  • 一、UIAbility組件 1.概述 HarmonyOS中的Stage模型是一種基於UIAbility組件的應用程式架構。UIAbility是HarmonyOS系統中用於構建用戶界面的基本組件之一。它負責處理應用程式界面的顯示和交互。 在Stage模型中,每個應用程式都有一個或多個Stage ...
  • 說來慚愧,作為差不多10年的開發者,第一次嘗試提審,結果卻收穫來了蘋果無休止的等待 我從4月24日替身,後續到現在沒有任何回饋,只告訴你 other 原因拒絕, 請問蘋果是只針對中國開發者,還是所有開發者? 如果一個賬戶按年計費,一次等待按照一個月起算,耽誤多少開發者的時間和金錢。 我知道蘋果一向傲 ...
  • 有時候,我們需要在網頁判斷用戶是否處與非活躍狀態,如果用戶長時間沒有在頁面上進行任何操作,我們則判定該用戶是非活躍的。 在 javascript 中我們可以通過監聽某些滑鼠或鍵盤相關的事件來判定用戶是否在活躍中。 ...
  • 一、執行上下文 簡單的來說,執行上下文是一種對Javascript代碼執行環境的抽象概念,也就是說只要有Javascript代碼運行,那麼它就一定是運行在執行上下文中 執行上下文的類型分為三種: 全局執行上下文:只有一個,瀏覽器中的全局對象就是 window對象,this 指向這個全局對象 函數執行 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...