问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
73 浏览

asp.net - 我想为查询字符串创建一个表达式,这东西很难!

我想从 asp.net 中的搜索应用程序的查询字符串中提取一些关键字。

我首先解码了 url 字符串,所以它是纯文本

我有这个开始,但我想添加一个关键字组

我得到这个 ?q=harbour Landing Dental&

我想剪掉那些纯粹的词,但不确定这是否可能

我还有一长串可能的查询字符串值字段,我想检查这些字段

0 投票
1 回答
1843 浏览

java - 读取原始内容的pdf文件

我想阅读具有原始内容的pdf文件,例如其字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。

怎么可能。

请帮忙。

0 投票
1 回答
455 浏览

text - 从非结构化文本文件中提取人口统计和联系信息

我希望从大量非结构化文档中提取特定项目。这些文档可以是 1-5 页的文本,由用户以各种方式格式化,但在大多数情况下至少包含:

  • 姓名
  • 地址(物理)
  • 电子邮件地址
  • 电话号码
  • 网址

我正在寻找可以尝试从文档中提取这些元素的语义解析器,以便我可以将该信息加载到关系数据库中并将这些记录作为联系人处理。

我寻找的其他服务虽然对其他目的很有价值,但并没有解决这个特定的需求。

有什么想法、建议或线索吗?

0 投票
1 回答
74 浏览

string - 从非格式化字符串中提取数据

我想提取某些部分并能够将其放入一个不错的电子表格格式中。重要的部分是地址、病房号、平方英尺和价格。我打算在 PHP(新手)中尝试一些非常复杂的东西,但认为可能有更简单的方法。

数据如下所示:

0 投票
3 回答
17633 浏览

javascript - 有没有办法用 JS 从渲染页面中获取所有文本?

是否有一种(对用户来说不显眼)方法来使用 Javascript 获取页面中的所有文本?我可以获取 HTML、解析它、删除所有标签等,但我想知道是否有办法从已经渲染的页面中获取文本。

澄清一下,我不想从选择中抓取文本,我想要整个页面。

谢谢!

0 投票
6 回答
25473 浏览

php - 从文件路径字符串中提取带有扩展名的文件名

我希望从文件路径字符串的末尾获取文件名,比如

我希望能够获得文件名,我猜这将涉及获取最后一个斜杠之后的所有内容作为子字符串。谁能帮助我如何做到这一点是PHP?一个简单的函数,如:

0 投票
4 回答
4727 浏览

python - 使用 Python 从 HTML 中提取可读文本?

我知道 html2text、BeautifulSoup 等实用程序,但问题是它们还提取 javascript 并将其添加到文本中,从而难以将它们分开。

交替,

这两个都提取页面上的所有 javascript,这是不希望的。

我只是想提取可以从浏览器中复制的可读文本。

0 投票
1 回答
288 浏览

java - Java文本提取和数据结构设计

我有大量Open Office 3.0 文档格式的表格数据。

同样,我有 n 个表。所有这些表都是模糊集隶属函数。简单来说,它们是计算模型,我必须根据它来处理输入数据。有很多这样的表,它们具有不同的行大小和列大小 3/4 。这些数据一旦加载就不会改变。

示例: 当我得到一个介于 -20 到 90 之间的 x 值时。我将应用第一条规则(上面给出)。假设它是 -1(介于 -20 和 -5 之间)。然后我必须在 0 和 1 之间找到一个对应的值。

我的第一个问题是如何以文档格式从表中提取所有数据,以便我可以在我的 java 程序中使用。我知道一点 python,我知道 python 在这种情况下很有用。但是如何使用它我的 Java 程序。

其次,在这样的场景中我应该使用的最佳数据结构是什么。

注意:我没有使用任何数据库。所以我更愿意将表保留为 xml 或其他格式,以便我可以轻松地将其加载到程序中。我还考虑制作合适的数据结构,然后将它们序列化我可以在需要时加载它们,而不是解析文件并重新创建数据结构。请发表您的评论。

0 投票
1 回答
1723 浏览

c# - 从 PDF 中的嵌套表中提取数据

  1. 我有一些从 word 或 excel 文件创建的 pdf 文件。

  2. 我需要获取表格中的信息。

  3. 文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。

  4. 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。

  5. 我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需要,因为我希望能够在 C# 中以编程方式执行此操作。

  6. 有些表有嵌套表,我认为这让这有点困难。

我感谢您的帮助

0 投票
4 回答
5402 浏览

c++ - 字符串末尾的垃圾字符?

您好,我正在阅读一个字符串并分解每个单词并将其分类为姓名电子邮件和电话号码。用字符串joe bloggs joeblog@live.com 12345。但是,一旦我将所有内容分解,保存名称、电子邮件和电话号码的各个分隔变量的末尾都会有垃圾字符。我不知道为什么。

测试文件

这是我的获取名称功能,该类太大而无法滚动:)

所有这一切的基本要点是,我使用名为 lineProcess 的函数来确定参数字符串中是否有电子邮件、电话和姓名,并且 numberofNames 函数给出了有多少个姓名,以便我可以采取相应的行动。

我不得不使用char name_temp只复制字符串中的名称,以便我可以提取它并将其分配给string名为的变量glob_name。它复制了我需要的所有内容,但在每个提取的字符串之后都会给我垃圾。

任何想法?。

已编辑