问题标签 [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1648 浏览

java - 来自二进制文件提取库的通用纯文本

我追求的是通用的非专业纯文本文件提取器。

首先,在人们大喊 Apache Tika 之前——我的回答是它只支持一些流行的二进制文件格式,如 Office、BMP 等。

回到问题 - 许多二进制文件中嵌入了文本字符串,我想在没有二进制字节噪声的情况下提取它们。这意味着它可以在 exes 等中找到简单的文本字符串序列,结果只包含 ascii 单词。我尝试使用谷歌搜索,但找不到任何这样做的东西。我的基本想法是,如果 TIKA 不处理文件,这个简单的二进制文件处理程序会尽力找到这些文本字符串。

0 投票
1 回答
1252 浏览

python - 有没有办法在 python 中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

有没有办法在 python 中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

我想找出一种提取文本正文中链接的方法。

1.) 我在 python https://github.com/gfxmonk/python-readability中使用可读性

2.) 我想以某种方式将提取的文本与原始 html 文本进行比较,以便在文章的实际正文中提取链接。

0 投票
2 回答
3413 浏览

pdf - 在 PDFBox 文本提取中保留“长”空格

我正在使用 PDFBox 从 PDF 中提取文本。PDF具有表格结构,非常简单,并且列之间的间距也很宽

这非常有效,除了所有类型的水平空间都被转换为单个空格字符,因此我无法再将列分开(列中单词中的空格看起来就像列之间的空格)。

我很欣赏通用解决方案非常困难,但在这种情况下,列之间的距离真的很远,因此在“长空格”和“单词之间的空格”之间进行简单区分就足够了。

有没有办法告诉 PDFBox 将超过 x 英寸的水平空白变成单个空格以外的东西?比例方法(x 英寸变为 y 空间)也可以。

pdftotext C 库/工具有一个“-layout”开关,试图保留布局。基本上,如果我可以用 PDFBox 模拟它,那将是完美的。

0 投票
14 回答
853350 浏览

java - 如何使用正则表达式提取子字符串

我有一个字符串,其中有两个单引号,即'字符。单引号之间是我想要的数据。

如何编写正则表达式以从以下文本中提取“我想要的数据”?

0 投票
1 回答
7039 浏览

iphone - 使用 NSRegularExpression 提取文本

给定一个NSString *test = @"...href="/functions?q=KEYWORD\x26amp...";

如何使用 NSRegularExpression 从字符串中提取单词KEYWORD ?
我在 iOS SDK 4.2 上尝试了以下 NSRegularExpression,但它无法找到文本。下面的代码看起来没问题吗?

0 投票
1 回答
559 浏览

php - 谷歌地图问题在php中获取坐标

这是在 php 我在数组上有以下变量

我正在使用数组、爆炸和 str_replace 将 -58.3731613、-34.6084175 转换为两个变量,有没有简单的方法可以做到这一点?

我有一个额外的问题,我所做的是工作,但显然谷歌改变了一些东西,因为现在我得到了与 1 个月前不同的结果,问题是......有人知道为什么谷歌改变了一些东西吗?

感谢一切

以防万一以前可以工作的旧代码:

0 投票
1 回答
753 浏览

algorithm - 带有可用术语列表的术语提取

我正在寻找术语提取算法/服务。这只是给编辑的建议,因此提取的术语可能不完整。因此,我希望它将文本与可用术语列表进行比较,并且不建议此列表之外的术语。

这项任务似乎微不足道:对于每个术语,计算文本中出现的次数,过滤最热门的术语。但是这里我有一个几十万个术语的列表,这个任务看起来是不可能的。你知道做这件事的服务或算法吗?

另一个细节是,虽然我对术语提取服务非常满意(然后根据我的列表过滤这些术语),但这是非英语语言,大多数单词都是复合词,因此我不知道任何有用的服务。

谢谢。

编辑:一个例子

Hôm thứ Hai 31/1/2011, Ericsson cho biết đã trình diễn mạng HSPA(高速数据包接入)với tốc độ tải xuống lên đến 168 Mbit/giây, tốc độ lảâi.4 新加坡电信

168 mbit/giây,Ericsson ^sửdụngmộtsốthủ MIMO sử dụng nhiều anten tại trạm gốc và trên thiết bị để tăng tốc độ。

Theo Ericsson, cũng sẽ có một buổi trình diễn như vậy được tiến hành tại triển lãm Mobile World Congress sắp tới ở Barcelona (Tây Ban Nha)

建议列表可能是:Ericsson、trình diễn、HSPA、anten(等等)

0 投票
1 回答
13762 浏览

c# - 使用 c# 读取图像中的文本(数据)

有没有办法使用 C# 读取图像中的文本(数字和字母)?这可能吗?最好的方法是什么?

谢谢!

0 投票
1 回答
215 浏览

perl - 是否有 CPAN 模块可以从电子邮件中提取当前级别的内容

我正在寻找一个模块来尽最大努力从电子邮件的纯文本组件中提取直接级别的内容(即丢弃任何引用的内容和签名块)。

我们已经有了一些可以尝试的代码,所以如果没有现有的模块可以做到这一点,那么新模块名称的想法也会受到赞赏(Text::ExtractImmediateLevelOfContentFromEmail似乎有点笨拙)。

0 投票
1 回答
1117 浏览

c# - 使用 C# .net 添加规则并从 PDF 中提取文本

我想构建一个与此应用程序具有相似功能的 PDF 文本提取工具(A-PDF 数据提取器)http://www.a-pdf.com/data-extractor/index.htm

我打算在 c# .net 中执行此操作,因此我想构建自己的界面,类似于此应用程序购买引用此应用程序(dll 或 exe)。但它不会让我添加参考。

我怎样才能做到这一点 ?有没有办法在我的 c# 桌面应用程序中运行另一个应用程序?

如果您有更好的选择,请告诉我

任何帮助表示感谢!