问题标签 [extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1105 浏览

c++ - 如何从 C 源代码的 Main() 函数中提取函数名

我只是想问问你对这件事的看法。出于某种重要原因,我必须提取/获取在 C 源文件的“main()”函数中调用的函数的所有函数名称(例如:main.c)。

示例源代码:

如您所知,我唯一可以用作标记/符号来识别这些函数调用的是括号“()”。在实现这个函数名提取时,我已经考虑了几个因素。它们是:
1. 函数可能有参数。例如:functionA(100)
2. 循环运算符。例如:while() 3. 其他运算符。例如:if(), else if() 4. 函数调用之间没有空格的其他运算符。例如:函数A()+函数B()

此刻我知道你在说什么,这是$$$$的痛苦......所以请分享你的想法和想法......并在这个问题上容忍我......

注意:这是在 C++ 语言中...

0 投票
2 回答
1771 浏览

nlp - 如何根据上下文从文本中提取单词

我想从用户提供的文本语句中提取相关词。例如。对于“矩形有几条边?”这个问题。单词应该是“矩形”、“边”、“许多”、“如何”。

我们发现我的目标是建立一个 NLP 问答系统。但是现在我只想从问题中提取所需的关键字,问题的范围不是很大。

我遇到过各种数据挖掘工具,但不太确定它们是否真的对此有用。它们似乎有点太高级或不完全相关。

请让我知道是否有任何适合要求的工具,或者我应该继续尝试自己编码。

请提供您认为可能有帮助的任何类型的指针。

0 投票
1 回答
819 浏览

c++ - 提取大型库的小部分(fx boost)

我想知道是否有一种自动方法来提取大型 C++ 库的一小部分。

假设我在某个项目中只需要 boost::rational 。然而,整个提升 1.42 占用了 279 MiB!

为了让我的项目“自成一体”(一些学校作业的 fx),我希望能够将 boost::rational 与我自己的源一起包括在内。(想法是,我的老师不必为了编译而提前安装 1000 个库)

我知道这违反了良好的做法,因为实际上安装了整个 boost 会更好——但这个论点仍然适用于其他(鲜为人知的)大型库。

我想这个提取可以通过遍历根#include的#include依赖树来轻松完成(如boost/rational.hpp);但是有这样的工具吗?它叫什么名字?

0 投票
1 回答
1036 浏览

java - 从网页中提取通用文章

我将开始我的文章提取工作。

我将要做的任务是提取发布在不同网页上的酒店评论(例如1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 . http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

我需要在 Java 中完成这项任务,而在过去的几个月里,我只是在使用 Java。

这是我关于这些的问题。

  1. 是否有可能以通用方式从不同的网页中单独提取评论。

  2. 请让我知道是否有任何 API 支持 Java 中的任务。

  3. 另外,请告诉我您的想法/来源,这将更有利于我完成上述任务。

更新

如果网上有任何相关示例,请发布相同的示例,因为这可能很有用。

0 投票
1 回答
763 浏览

php - DBpedia 信息提取框架

有人用过维基百科数据提取吗?我需要用它来工作。

您能否提供其他用于提取网页信息的工具?

谢谢!

0 投票
4 回答
332 浏览

c# - 使用 RegEx 提取字符串值的最小模式

我正在尝试使用正确的模式实例化一个正则表达式,以便只获取字符串的正确值。我的文本文件有:

我想得到正确的值如下:

什么是正确的正则表达式模式?

这是我到目前为止所拥有的

但这也带来了不需要的字符串“评论 ID”

可以不使用组标记<comment_id>吗?

0 投票
2 回答
500 浏览

python - 虚拟主机上的 Python ImportError

我对 Python 还很陌生,所以如果我遗漏了一些明显的东西,请原谅我。

我一直在使用Topia TermExtract包,我编写的代码在我的本地机器(Mac OS 10.6.5;Python 2.6)上运行良好。但是,当我将包含包文件的整个目录复制到我的 GoDaddy 主机时,我收到此错误:

我不确定我需要做什么才能完成这项工作。这是我写的脚本:

谢谢!

0 投票
2 回答
7101 浏览

parsing - DOS批处理:从相对路径获取最后一个文件夹

我在 DOS 批处理文件中有以下值(例如...):

我需要从每个值中提取姓氏值(“Jones”、“Smith”、“Wilson”)。我可以使用哪一种技术来始终给我这些子字符串值?

0 投票
2 回答
2391 浏览

php - PHP preg_match 结果

这个 PHP 函数工作得很好:

但是如果我在这种情况下使用相同的 php 函数:

preg_match函数不给出任何结果。我究竟做错了什么?

0 投票
1 回答
59 浏览

asp.net-mvc - 使用 C# 在 Asp.Net 网站中提取和复制性能差异

我有将近 100 个网站会在某种情况下更新,我有一个 winzip 存档,其中包含替换这些网站的文件。我想知道

  1. 我可以将这些文件提取到一个文件夹中,然后将它们复制到所有 100 个网站文件夹中
  2. 我可以将存档直接提取到 100 个网站文件夹

哪个性能更好,更不容易出错。