问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
190 浏览

matlab - 在 Matlab 中提取文件的正确数据

在具有可变步长的积分过程中(具体而言,使用 ode113 积分器),物体的位置是通过其加速度和时间一起存储在文件中来确定的(即两列,一列用于时间,其余列用于加速度) . 但是,由于上述过程中存在失败的集成步骤,加速度数据文件的行数多于位置数据的相应行数。如何提取加速度数据的正确数据并为其创建一个与位置数据文件具有相同行的新文件?

0 投票
6 回答
4982 浏览

delphi - 从 web delphi 中提取信息的最佳方法

我想知道是否有更好的方法从网页中提取信息而不是解析 HTML 以查找我正在搜索的内容。即:从“imdb.com”中提取电影评级

我目前正在使用 IndyHttp 组件来获取页面,并且我正在使用 strUtils 来解析文本,但内容是有限的。

0 投票
3 回答
1268 浏览

java - 用于从 HTML 页面中提取文本块的 Java 库

我想从 HTML 页面中提取文本块,我正在使用锅炉管道来执行此操作。它适用于页面中的一个文本,但某些页面(如博客)在页面中有多个文本。

我想提取所有文本,但将每个文本标识为单独的文本,而不仅仅是一个文本。

有一些图书馆可以做到这一点吗?

编辑:我正在使用 Jsoup 来解析 HTML,但我不想进行解析,而是像样板管道那样在页面中提取信息。我想测试其他类似的工具。

0 投票
5 回答
442 浏览

nlp - 谁是信息提取、文本挖掘和自然语言处理领域的主要作者?

这不是代码问题,而是关于概念的问题。我想知道谁是信息提取、自然语言处理和文本挖掘的主要作者/研究人员来阅读他的论文/书籍/作品。

0 投票
4 回答
1596 浏览

php - 如何从一组字符串中提取产品名称?(php)

我正在开发一个基于 PHP 的购物应用程序。我有我知道代表相同产品的字符串列表。这些字符串可能包含完整的产品名称或其中的一部分(完整的产品名称通常是品牌 + 型号)。

我想知道执行此产品名称提取的最佳方法是什么。

例如,这里有一个代表相同产品的字符串列表:

  • Tkg BOUILLOIRE TKG - JK 1008 RWD
  • Tkg Jk 1008 Rwd
  • Tkg Kalorik - JK 1008 RWD - Bouilloire Électrique sans Fil 360°
  • TKG Bouilloire électrique sans fil 1,7 升 2000 瓦 Pois TKG Rouge et blanc
  • Tkg Kalorik - JK 1008 RWD - Bouilloire Électrique sans Fil 360°
  • Tkg JK 1008 RWD 肉汁

我希望提取产品名称“Tkg JK 1008 RWD”。请注意,字符串 4 仅包含部分信息。

当我计算所有字符串中的重复单词时,我尝试了一种方法;但从那里,很难走得更远。

你有什么线索吗?

干杯尼古拉斯

0 投票
6 回答
25383 浏览

machine-learning - Apple 如何在电子邮件中查找日期、时间和地址?

在 iOS 电子邮件客户端中,当电子邮件包含日期、时间或位置时,文本会变成超链接,只需点击链接即可创建约会或查看地图。它不仅适用于英语电子邮件,也适用于其他语言。我喜欢这个功能,并想了解他们是如何做到的。

天真的方法是拥有许多正则表达式并运行它们。但是我这不会很好地扩展,并且只适用于特定的语言或日期格式等。我认为苹果必须使用机器学习的一些概念来提取实体(8:00PM、8PM、8:00、 0800、20:00、20h、20h00、2000 等)。

知道 Apple 是如何在其电子邮件客户端中如此快速地提取实体的吗?你会应用什么机器学习算法来完成这样的任务?

0 投票
2 回答
1311 浏览

html - 如何使用 Python3.1 从 HTML 页面中提取数据?

我在磁盘上本地存储了大约 1000 页,其中包含类似于以下示例的内容。

我需要帮助弄清楚如何从第 3 行提取字符串 Dave 并将其加载到 UserName 列表中。另外,我需要从第四行中提取 00000001 并将其加载到 UserID 列表中。

请帮忙,谢谢...

0 投票
1 回答
121 浏览

php - 从文本中提取(国际)电话号码

我正在寻找一种从文本中提取国际电话号码的方法。

换句话说,输入以下文本:

“此测试 +44 (0) 7961617600 重新确认备注转移到伦敦火车站(4 月 25 日星期一)人数:45 + 1 BM 教练确认 +32 (020) 9948 7711 - Gaynor 需要在 4 月 23 日之前再次确认。\n\n已确认第 4 天开启:2011 年 4 月 25 日星期一(4 月 24 日星期日)"

将输出:+44 (0) 7961617600 +32 (020) 9948 7711

谢谢

0 投票
1 回答
739 浏览

nlp - 从社交资料中提取用户兴趣

这是我第一次涉足 NLP,所以请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/喜欢/爱好的方法。这是一个示例,其中所有兴趣/喜欢/爱好都以粗体显示:

“我认为自己是一个非常多元化的角色......我是一名职业 摔跤手,但我会为Wall•E吃一颗子弹。我在健身房里训练得像一台单人种族灭绝机器,但我在“世界末日”时哭了。 “我要去AC/DC,我正在认真考虑纹一个塞尔达传说的纹身。我对 420 很友好。我喜欢和兄弟会的人群聚会一晚,和我的Burning Man一起出去玩接下来是朋友,然后玩光环魔兽世界,然后和不超过 40 岁的朋友一起玩。我最小的朋友是 16 岁,我最大的朋友是 66 岁。我'会唱歌在酒吧里唱卡拉 OK,我是我朋友的集体心理医生/肩膀。”

配置文件是纯文本。没有与之相关的元标记或 ID,它只是一段文本。

我幼稚的想法是将每个名词与Freebase进行匹配,以查看它是否是活动/艺术家/电影/书籍等。问题是,尽管提到的大多数实体都是用户喜欢的东西,但她也会提到她不喜欢的东西' t喜欢和我没有办法区分2。

我有两个问题:

  1. 我应该关注 NLP 的哪个子领域?一些可搜索的算法/技术/作者将不胜感激。
  2. 这个问题有多难?

谢谢!

0 投票
2 回答
4889 浏览

nlp - 如何在自然文本中查找对日期的引用?

我想做的是解析原始自然文本并找到所有描述日期的短语。

我有一个相当大的语料库,所有对日期的引用都标记了:

我不想解释日期短语,只需找到它们。他们是约会的事实是无关紧要的(在现实生活中他们甚至不是约会,但我不想让你厌烦细节),基本上它只是一组开放式的可能值。值本身的语法可以近似为上下文无关,但是手动构建非常复杂,并且随着复杂性的增加,越来越难以避免误报。

我知道这有点遥不可及,所以我不希望存在开箱即用的解决方案,但我可以使用哪些技术或研究?