问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
393 浏览

sql - 正则表达式从 SQL 查询中提取信息

由于我是 REGEX 的新手,所以我无法解决以下问题。

请分享一些与解析器相关的链接,以便我学习。

我在解决 SQL 语句下面的 int 时遇到问题。它的更多行添加到先前的 INPUT 中。

请帮我解决这个问题。

输出:

0 投票
15 回答
283008 浏览

pdf - 如何从PDF中提取文本?

任何人都可以推荐一个库/API 来从 PDF 中提取文本和图像吗?我们需要能够获取文档预先知道的区域中包含的文本,因此 API 需要为我们提供页面上每个元素的位置信息。

我们希望以xmljson格式输出该数据。我们目前正在研究PdfTextStream,它看起来不错,但想听听其他人的经验和建议。

是否有替代方案(商业或免费)以编程方式从 pdf 中提取文本?

0 投票
2 回答
4513 浏览

java - 从 PDF 中提取文本:PDFLib vs PDF extract vs pdf2xml

我正在寻找一个库(如果可能在 Java 或 PHP 中可用)以便从 PDF 中提取文本。有很多可用的软件,包括:

你会选择哪些工具?你觉得他们怎么样?

非常感谢您的帮助!

0 投票
3 回答
374 浏览

c# - c#正则表达式在=之后提取链接

找不到更好的标题,但我需要一个正则表达式来从下面的示例中提取链接。

假设正则表达式是最好的方法。

谢谢

0 投票
6 回答
34044 浏览

java - 使用 iText 从 pdf 文件中提取文本列

我需要使用 iText 从 pdf 文件中提取文本。

问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列合并为结果(即同一行中两列的文本)

这是代码:

你能帮我完成任务吗?

0 投票
4 回答
204 浏览

python - 提取类别下方的行并在到达另一个类别时停止

假设我有一个电影类型的文本文件,其中包含每种类型下我最喜欢的电影。

【类别】恐怖:

  1. 电影
  2. 电影
  3. 电影

【类别】喜剧:

  1. 电影

【类别】作用:

  1. 电影
  2. 电影

我将如何创建一个函数,将某个 [category] ​​ 以下的所有电影标题提取并打包到一个数组中,而不会溢出到另一个类别中?

0 投票
1 回答
763 浏览

php - DBpedia 信息提取框架

有人用过维基百科数据提取吗?我需要用它来工作。

您能否提供其他用于提取网页信息的工具?

谢谢!

0 投票
1 回答
1233 浏览

c# - 解析带有文本和图像的 PDF 文件时出现“意外的色彩空间/R11”

System.ArgumentException 未被用户代码处理 Message=Unexpected color space /R11 Source=itextsharp StackTrace: at iTextSharp.text.pdf.parser.InlineImageUtils.GetComponentsPerPixel(PdfName colorSpaceName) at iTextSharp.text.pdf.parser.InlineImageUtils.ComputeBytesPerRow(PdfDictionary imageDictionary) 在 iTextSharp.text.pdf.parser.InlineImageUtils.ParseUnfilteredSamples(PdfDictionary imageDictionary, PdfContentParser ps) 在 iTextSharp.text.pdf.parser.InlineImageUtils.ParseInlineImageSamples(PdfDictionary imageDictionary, PdfContentParser ps) 在 iTextSharp.text.pdf.parser.InlineImageUtils .ParseInlineImage(PdfContentParser ps) 在 iTextSharp.text.pdf.parser.PdfContentStreamProcessor.ProcessContent(Byte[] contentBytes, PdfDictionary 资源) 在 iTextSharp.text.pdf.parser。PdfReaderContentParser.ProcessContent[E](Int32 pageNumber, E renderListener) at iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(PdfReader reader, Int32 pageNumber, ITextExtractionStrategy strategy) at iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(PdfReader reader , Int32 pageNumber) 在 PDF_PdfToText.extractText(String src, String dest) in d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:第 29 行 PDF_PdfToText.Page_Load(Object sender, EventArgs e) 在 d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:第 17 行,位于 System.Web.Util.CalliHelper.EventArgFunctionCaller(IntPtr fp, Object o, Object t, EventArgs e) 在 System.Web.Util.CalliEventHandlerDelegateProxy.Callback(Object sender, EventArgs e) 在 System.Web.UI.Control。OnLoad(EventArgs e) at System.Web.UI.Control.LoadRecursive() at System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) InnerException:

0 投票
4 回答
4962 浏览

c# - 用于仅提取带有 TD 的 TR 的正则表达式

早上好

我正在尝试获取一个必须具有一个或多个表格单元格(TD)的表格行(TR):

有这个字符串

我想得到:

提取一个或多个带有嵌套 TD 的 TR 的最佳模式是什么?

0 投票
3 回答
188 浏览

html - 剥离 HTML 但保留块/内联结构

我想将 HTML 转换为纯文本,但保留最小结构。

  • 所有仅包含浏览器需要查看的内容的部分,例如 <script> 和 <style> 都将被完全剥离。
  • 将所有块标记转换为 <div> 并将所有内联标记转换为 <span>完全删除内联而不留下空格并将块级别描述的任何内容转换为具有两个换行符的段落。

这个想法是将随机网页变成适合自然语言文本处理的东西,而不会因为天真地删除标记而人为地分解单词或使不相关的块看起来像句子而留下人工制品。

任何编程语言中的任何二进制文件、库或源代码都可以。

是否有一个标准源,最好是机器可读的,其中包含定义哪些是块、哪些内联以及哪些类似于上面的 <script> 和 <style> 的完整元素列表?