最新文章 (全部类别)

官方VS2022下载，VS2022密钥

.NETCore WebApi服务器提供本地文件服务（通过URL访问图片)

C/S架构软件开发平台 - 旗舰版V6.0 - 底层框架迭代开发

.NET8 Winform桌面应用程序禁用dpi缩放

GIT改了密码导致无法提交代码解决方案

OneDrive安装闪退解决方案

VS2022正在加载设计器，连接到已命名的管道时发生超时

客户端部署.NET7程序 | 客户端安装环境

DevExpress.XtraTreeList.TreeList 组件自动定位当前记录

塑木地板行业ERP - 用户操作手册 - 软件安装&部署

塑木地板行业ERP - 用户操作手册 - 用户管理

塑木地板行业ERP - 用户操作手册 - 角色管理

塑木地板行业ERP - 用户操作手册 - 成品出入库历史记录

塑木地板行业ERP - 用户操作手册 - 成品出库（客户发货单）

塑木地板行业ERP - 用户操作手册 - 客户送货单（成品出库）

塑木地板行业ERP - 用户操作手册 - 销售订单

塑木地板行业ERP - 用户操作手册 - 成品入库

塑木地板行业ERP - 用户操作手册 - 成品库存查询

塑木地板行业ERP - 用户操作手册 - 仓库管理

塑木地板行业ERP - 用户操作手册 - 生产单

塑木地板行业ERP - 用户操作手册 - 物料类别管理

塑木地板行业ERP - 用户操作手册 - 物料清单

塑木地板行业ERP - 用户操作手册 - 客户管理

CSFrameworkV5-客户案例 - 科伦药业-骨折联络服务管理系统

装机必备|WindowsX64|官方软件下载|.NET开发人员

Winform+DevExpress使用GridLookUpEdit实现订单明细选择商品，并自动添加新商品记录

VS2022 关停ServiceHub.IntellicodeModelService.exe服务占用CPU及内存过高

修改密码 - MiniFramework蝇量框架 - Winform框架

主窗体导航菜单NavbarControl 介绍 - MiniFramework蝇量框架 - Winform框架

.NETCore WebApi阻止接口重复调用（请求并发操作）

VS2022消除编译警告

“SymmetricAlgorithm.Create(string)”已过时:“Cryptographic factory methods accepting an algorithm name are obsolete. Use the parameterless Create factory method on the algorithm type instead

SHA256Managed/SHA512Managed已过时:Derived cryptographic types are obsolete. Use the Create method on the base type instead

MD5CryptoServiceProvider已过时:Derived cryptographic types are obsolete. Use the Create method on the base type instead

C#使用HttpClient获取IP地址位置和网络信息

判断IP是否是外网IP、内网IP

C#使用HttpClient获取公网IP

WebRequest.Create(string)已过时:WebRequest, HttpWebRequest, ServicePoint, and WebClient are obsolete. Use HttpClient instead

C#根据第三方提供的IP查询服务获取公网外网IP地址

html/dom/js/javascript开发记录

调试ASP.NETCore Web站点 - 清理IISExpress缓存数据(js,css)

EFCore+Oracle根据不同的Schema连接数据库

主程序集成CSFramework.EF 数据库框架（.NET7版本）

CSFramework.EF数据库框架简介（.NET8+EFCore）

迁移ECS服务器：导致ORACLE监听服务启动不了解决方案

SQLite数据库

VS2022编译报错：Visual Studio 容器工具需要 Docker Desktop

.NET 9 预览版＋C#13新功能

EFCore禁用实体跟踪

WebApi开发框架V3.0 (.NETCore+EFCore) 增加AppSettings全局参数类

.net敏捷开发，创造卓越

C# 拆分PDF文件，提取PDF文本内容

标签： C#源码

目录

使用 PdfSharp 拆分PDF文件
使用 iText.Kernel.Pdf 提取PDF文本内容
NuGet包

使用 PdfSharp 拆分PDF文件

C# 全选

            PdfDocument newdoc = PdfSharp.Pdf.IO.PdfReader.Open(filename, PdfSharp.Pdf.IO.PdfDocumentOpenMode.Import);

            int index = 0;
            foreach (PdfPage page in newdoc.Pages)
            {
                string filename = string.Format("Single_PDF_{0}.pdf", index++);
                PdfDocument singlepdf = new PdfDocument();
                singlepdf.AddPage(page);
                singlepdf.Save(filename);
            }

注意：作者测试 PdfSharp 不支持提取中文内容。

使用 iText.Kernel.Pdf 提取PDF文本内容

C# 全选

    /// <summary>
    /// 提取文本内容
    /// </summary>
    /// <param name="filename">pdf文件</param>
    /// <param name="pageIndex">页码</param>
    /// <returns></returns>
    public static IEnumerable<string> ExtractText(string filename, int pageIndex)
    {
        using (var r = new PdfReader(filename))
        using (var doc = new PdfDocument(r))
        {
            if (doc.GetNumberOfPages() >= pageIndex)
            {
                string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(pageIndex));
                yield return text;
            }
        }
    }

作者亲测：使用iText7支持提取全部文本，包括中文。

NuGet包

XML 全选

    <PackageReference Include="itext7" Version="8.0.3" />
    <PackageReference Include="PDFsharp" Version="6.0.0" />

版权声明：本文为开发框架文库发布内容,转载请附上原文出处连接

原文链接：https://www.cscode.net/archive/newdoc/533781991940101.html

NewDoc C/S框架网 2024-04-07 17:44 2024-04-07 17:47

上一篇：C#.NET获取每年国家法定节假日清单

下一篇：WebApi框架：System.Net.Sockets.SocketException:“以一种访问权限不允许的方式做了一个访问套接字的尝试。”

评论列表

发表评论

关联文章

C# 拆分PDF文件，提取PDF文本内容

C# 将PDF转为线性化PDF

毛衫行业ERP系统 - 拆分重量表

C#.NET iTextSharp生成PDF文件源码大全（生成表格、透明水印，页脚页眉页码等）

DevExpress导出不同的格式的文件Excel文件(*.xls)|Word文件(*.doc)|PDF文件(*.pdf)

毛衫行业ERP系统用户操作手册 - 拆分重量表

(C#)RichTextBox控件查找文本演示(功能全)

读取一个文件夹下所有的txt文件，并保存到一个txt文本中

C# DevExpress会计凭证表格金额录入组件（支持元角分）

基于DevExpress C# Winform 财务会计凭证表格金额录入组件（支持元角分）

FastReport报表输出PDF中文乱码输出包含字体文件

C#SQL客户端处理大文本数据通用接口

FastReport.NET 导出Excel/PDF文件

C#使用分词算法从文本字符串中抽取关键词模拟百度搜索|CSFramework.COM巨献

C# MD5字符串文本加密

关于FastReport.Net 1.x导出PDF/XLS文件出现中文乱码解决方案

图片转为Base64编码的文本

通用文本提示对话框窗体支持保存文本文件|C/S框架网

基于C# Winform财务会计凭证表格金额录入组件（支持亿仟佰拾萬仟佰拾圆角分）

C#使用StreamWriter在大文本文件末尾添加一行内容

最新产品 (2024-release)

CSFrameworkV6旗舰版软件开发框架

CSFramework V6.1

C/S快速开发框架旗舰版

CSFramework WebApi后端开发框架V3

WebApi后端开发框架

WinFramework轻量级开发框架V2

WinFramework V2.1

C/S轻量级开发框架

CSFramework EF数据库框架V3

CSFramework.EF V3

C/S多数据库框架

热门标签

软件著作权登记证书 .NET .NET Reactor .NET5 .NET6 .NET7 .NET8 .NET9 .NETFramework APP AspNetCore AuthV3 Auth-软件授权注册系统 Axios B/S B/S开发框架 B/S框架 BSFramework Bug Bug记录 C#加密解密 C#源码 C/S CHATGPT CMS系统 CodeGenerator CSFramework.DB CSFramework.EF CSFramework.License CSFrameworkV1学习版 CSFrameworkV2标准版 CSFrameworkV3高级版 CSFrameworkV4企业版 CSFrameworkV5旗舰版 CSFrameworkV6.0 CSFrameworkV6.1 CSFrameworkV6旗舰版 DAL数据访问层 Database datalock DbFramework Demo教学 Demo实例 Demo下载 DevExpress教程 Docker Desktop DOM ECS服务器 EFCore EF框架 Element-UI EntityFramework ERP ES6 Excel FastReport GIT HR IDatabase IIS JavaScript LINQ MES MiniFramework MIS MySql NavBarControl NETCore Node.JS NPM OMS Oracle资料 ORM PaaS POS Promise API PSD RedGet Redis RSA SAP Schema SEO SEO文章 SQL SQLConnector SQLite SqlServer Swagger TMS系统 Token令牌 VS2022 VSCode VS升级 VUE WCF WebApi WebApi NETCore WebApi框架 WEB开发框架 Windows服务 Winform 开发框架 Winform 开发平台 WinFramework Workflow工作流 Workflow流程引擎 XtraReport 安装环境版本区别报表备份还原踩坑日记操作手册达梦数据库代码生成器迭代开发记录功能介绍官方软件下载国际化基础资料窗体架构设计角色权限开发sce 开发工具开发技巧开发教程开发框架开发平台开发指南客户案例快速搭站系统快速开发平台框架升级毛衫行业ERP 秘钥密钥权限设计软件报价软件测试报告软件加壳软件简介软件开发框架软件开发平台软件开发文档软件授权软件授权注册系统软件体系架构软件下载软件著作权登记证书软著证书三层架构设计模式生成代码实用小技巧视频下载收钱音箱数据锁数据同步塑木地板行业ERP 微信小程序未解决问题文档下载喜鹊ERP 喜鹊软件系统对接详细设计说明书新功能信创行政区域数据库需求分析疑难杂症蝇量级框架蝇量框架用户管理用户开发手册用户控件在线支付纸箱ERP 智能语音收款机自定义窗体自定义组件自动升级程序

联系我们

联系电话：13923396219(微信同号)

电子邮箱：23404761@qq.com

站长微信二维码

微信二维码

返回顶部
在线客服
联系方式
13923396219
微信二维码