问题标签 [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
79 浏览

web-services - 自动从网络检索一些信息

我需要从网上检索一些信息。例如,我可以访问weather.com 搜索我的邮政编码以获取包含温度或其他内容的HTML 文件。我需要制作一个 python 脚本来自动执行此操作。

我认为有两种方法可以做到这一点。

  1. 运行 wget 下载网页,解析得到我想要的信息。
  2. 如果网站提供 Web 服务,只需运行它即可获取信息。

这些是我的问题。

  1. 我在 python 中为 Web 服务使用什么功能?
  2. 我如何知道一个网站是否提供什么网络服务?
  3. 如果没有提供 web 服务,有没有比运行 wget 和解析更好的方法?

如果你能给我一些例子,那就更好了。

0 投票
1 回答
132 浏览

information-retrieval - 解释搜索结果

我的任务是编写一个程序,给定一个搜索词和代表某个未知搜索引擎搜索结果的页面的 HTML 源(它实际上可以是任何东西,博客、商店、谷歌、eBay ......),需要构建包含“结果中的内容”的结果数据结构:搜索结果的标题、“详细信息”链接、结果中的位置等。不知道结果页面是否包含任何数据全部,是否有搜索结果。目标是将数据结构输入到另一个提取含义的程序中。

我正在寻找的不是 BeautifulSoup 或 RegExp,而是一些关于如何解释 HTML 源代码的聪明想法或算法。我该怎么做才能找出页面的哪一部分构成单个结果项?如何过滤标记噪声以提取重要位?你会怎么办?非常感谢指向涵盖我尝试的研究领域的指针。

谢谢,西蒙

0 投票
7 回答
31757 浏览

text - 维基百科文字下载

我正在为我的大学项目下载完整的维基百科文本。我是否必须编写自己的蜘蛛才能下载此内容,或者是否有在线的维基百科公共数据集?

只是给你一些我的项目的概述,我想找出我感兴趣的几篇文章中有趣的词。但是为了找到这些有趣的词,我打算应用 tf/idf 来计算每个词的词频并挑选那些频率高的。但是要计算 tf,我需要知道整个维基百科的总出现次数。

如何才能做到这一点?

0 投票
2 回答
1482 浏览

c# - 在 PDF 中查找表格

是否有任何工具或技巧可以自动从 pdf 中提取表格。是否有任何 C# 库可以做到这一点?或者你可能知道如何处理这个问题的其他方法?

非常感谢

0 投票
5 回答
336 浏览

machine-learning - 如何评估一个网页的质量?

我正在做一个大学项目,必须收集和组合用户提供的主题的数据。我遇到的问题是许多术语的谷歌搜索结果都被低质量的自动生成页面污染了,如果我使用它们,我最终可能会得到错误的事实。如何估计页面的质量/可信度?

您可能会认为“不,Google 工程师已经为这个问题工作了 10 年,他正在寻求解决方案”,但如果您考虑一下,SE 必须提供最新的内容,并且如果它将好的页面标记为坏的一、用户会不满意。我没有这样的限制,所以如果算法不小心将一些好的页面标记为坏,那不会是一个问题。

这是一个例子:假设输入是buy aspirin in south la. 尝试谷歌搜索它。前 3 个结果已从网站中删除,但第四个结果很有趣:(radioteleginen.ning.com/profile/BuyASAAspirin我不想创建活动链接)

这是正文的第一段:

此刻,从加拿大购买处方药在美国很重要。这是因为在美国,处方药价格飞涨,使得那些收入有限或集中收入的人难以购买他们急需的药物。美国人为他们的药物支付的费用比班上任何人都多。

其余文本类似,然后是相关关键字列表。这是我认为的低质量页面。虽然这个特定的文本似乎是有道理的(除了它很可怕),但我见过的其他例子(但现在找不到)只是一些垃圾,其目的是从谷歌获得一些用户并在创建后 1 天被禁止.

0 投票
2 回答
713 浏览

c# - 从新闻网站中提取新闻链接

是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?

0 投票
1 回答
440 浏览

java - 实体集扩展python

您是否知道任何实体集扩展算法的任何语言(最好是 python)的任何现有实现,例如来自 Google 集的那个?( http://labs.google.com/sets )

我找不到任何实现此类算法的库,我想与其中一些库一起玩,看看它们在我想实现的某些特定任务上如何执行。

欢迎任何帮助!

非常感谢你的帮助,

问候,

尼古拉斯。

0 投票
2 回答
64 浏览

graph - 从树的节点获取信息

我正在使用树数据结构并试图想出一种方法来计算我可以从树的节点中获得的信息。

我想知道是否有任何现有技术可以为在较低级别(距树根的距离)出现频率低于相同节点在较高级别和高频率出现的节点分配更高的数值重要性。

举个例子,我想给节点书更多的意义,在第 2 层出现一次,然后在第 3 层出现三次。

将不胜感激任何建议/指向实现类似目标的技术。

谢谢,

普拉泰克

0 投票
3 回答
2765 浏览

java - 创建数据集:从文本文档中提取特征 (TF-IDF)

我必须从一些文本文件创建一个数据集,将它们写为特征向量。

像这样的东西:

向量的每个位置代表一个词,分数由 TF-IDF 之类的东西给出。

你知道一些图书馆/工具/什么吗?(java更好)

0 投票
2 回答
2081 浏览

php - 编写一个程序来抓取论坛

我需要编写一个程序来抓取论坛。

我应该使用 Scrapy 框架在 Python 中编写程序还是应该使用 Php cURL?还有一个相当于 Scrapy 的 Php 吗?

谢谢