问答

怎么识别pdf的段落?

作者:admin 2021-04-21 我要评论

需求: 将已提取的pdf文本内容按段落分,比如每页有三个段落,每个段落放进一个变量。 遇到的问题: 用 pdfplumber 的 extract_text 提取出pdf文本内容后,发现...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

需求:将已提取的pdf文本内容按段落分,比如每页有三个段落,每个段落放进一个变量。
遇到的问题:pdfplumberextract_text提取出pdf文本内容后,发现行和段落都是以“/n”结尾,无法区分哪些是段落结尾。

pdf原文:
image.png

代码:

import pdfplumber
path = 'Merriam Webster’s Vocabulary Builder.pdf' #要提取的pdf
pdfFileObj = pdfplumber.open(path)
page = 15 #要提取的页码
pageObj = pdfFileObj.pages[page-1]
pageObj.extract_text()

输出结果:
image.png

###

pdf 还原是一个很难的问题。因为里面一般没有段落的概念,只有每个文字及其坐标。

这个问题,一般方法是解析出来每个文字及其坐标,相邻的文字聚成word,word聚成行,根据规则将行聚合为段落: 规则包括行是否有缩进,行结尾是否到底,最后一个字符是不是句号、问号等规则。

还有一个方法是 OCR,现在百度阿里等提供的 OCR 一般带有简单的段落聚合功能。直接送进去就出来结果了。

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • 怎么识别pdf的段落?

    怎么识别pdf的段落?

  • js 鼠标拖拽元素的时候鼠标位置发生偏

    js 鼠标拖拽元素的时候鼠标位置发生偏

  • go框架如何解决对象复用的问题

    go框架如何解决对象复用的问题

  • JS里onload函数里,getElementsByTagNa

    JS里onload函数里,getElementsByTagNa

腾讯云代理商
海外云服务器