问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
353 浏览

image - 从数字图像中可以获得什么样的信息

我在 picasa 中看到我们可以找到相机的详细信息和拍摄图像的日期。我想知道使用数字图像可以找到哪些其他信息。您知道任何可用于此目的的工具吗?

0 投票
3 回答
978 浏览

algorithm - 快速数据提取算法

我必须有 2 个 utf-8 文本文件。在文件的每一行中都有一个字符串,可以包含语言特定的字符,如 Ü、Ö、ą、ę。字符串是随机的顺序和长度,并且可以重复。在第一个文件中至少有 300 万行(很容易超过 1 mld 行)。第二个文件较小,它通常有大约 40 万行(但可以更大)。

我需要创建一个新文件,其中包含文件一中的条目,其中删除了出现在文件二中的条目以及所有重复条目。

目前我正在对两个文件进行排序并删除重复条目。接下来我将它们写入新文件,同时检查它们是否出现在第二个文件中。

有没有更快的方法来做到这一点?

编辑

内存是个问题。我不会将此字符串复制到内存中,而是对文件进行操作。我的朋友建议不要复制到内存,而是处理文件流。在此之后执行时间显着下降。

计算机管理员不想在其上安装数据库。

在循环中对我的代码符文进行排序后:

0 投票
7 回答
134 浏览

c# - 从 C# 中的文件中提取扩展名?

我为这个业余帖子道歉。

我不明白错误"Program.Program.GetExtension(string)': not all code paths return a value"

谁能告诉我我做错了什么,好吗?

(哦,fisier 在我的语言中表示文件,cale 表示路径,extensie 表示扩展名)。
提前致谢。

0 投票
1 回答
1066 浏览

java - 安装 DBPedia 提取框架

我正在尝试按照http://wiki.dbpedia.org/Documentation安装 DBPedia 提取框架

我已经下载了 Maven 二进制版本。

在提取目录时,我尝试运行它进行安装,但出现错误。

知道怎么了?谢谢

0 投票
1 回答
100 浏览

javascript - 从 JSON 输出中提取一个属性,然后传递一个套接字

下面的代码是在节点服务器中编写的,使用一个监控模块来测量函数的属性。我的问题是我想从 JSON 输出中提取其中一个属性,然后将其传递给套接字。

米是一个功能:

每秒以 JSON 格式打印:

输出:

例如,我想要 的值mean并将其放入socket.emit.

套接字的调试应该是"args":[0]平均值为 0 的值:

我不知道如何提取,它应该是这样的

0 投票
2 回答
1246 浏览

yaml - 如何使用 QR 码保持文本格式?

我想使用二维码来传输 yaml。当扫描仪读取代码时,无论如何要保持文本格式?我在哪里可以阅读有关为 qr 代码实现自定义格式的信息?

0 投票
2 回答
898 浏览

c++ - 从其 HWND 获取窗口信息

我有这个代码:

我已经知道如何使用SendMessage();and获取窗口标题,WM_GETTEXT但我想知道如何获取它的进程名称和 PID,以及可执行文件的位置和名称。

有人可以帮我吗?

请注意,我正在使用 C++ MFC。

0 投票
2 回答
112 浏览

python - 正则表达式:搜索几个可能的组

请正则表达式专家帮忙!我有以下两个例子:

我试图通过以下方式提取这两个句子的不同可能元素(知道有三种可能的元素类型):

有谁知道如何解决这个问题?

我尝试了以下正则表达式:

对于这两种情况,我都会收到无效正则表达式的错误。

任何想法为什么?

0 投票
2 回答
138 浏览

information-extraction - 从多个网站提取的聚合和重复数据删除信息

我正在建立一个从多个网站提取的餐厅时间和地址信息数据库。由于同一餐厅的信息可能出现在多个网站中。所以在数据库中我会有一些几乎重复的副本。

由于餐厅的数量很大,比如 100000。然后对于每个新条目,我必须进行 100000^2 的比较,以检查是否已经存在任何名称几乎相似的餐厅信息。所以我问是否有比这更好的有效方法。谢谢你。

0 投票
1 回答
1819 浏览

vb.net - 如何在字符串中查找数值

我正在尝试创建一个分析文本字符串以查看它是否包含数值的方法。例如,给定以下字符串:

什么是 2 * 2?

我需要确定以下信息:

  • 该字符串包含一个数值:True
  • 它包含的数值是什么:(他们中2的任何人都应该使函数返回 true,我应该将字符串中每个 2 的位置放在一个变量中,例如前 2 的位置 0)

这是我到目前为止的代码: