问题标签 [web-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
508 浏览

python-2.7 - 为什么我不能使用 BeautifulSoup 提取页面的副标题?

我正在尝试提取此页面的名称和副标题(例如)。我提取名称没有问题,但副标题却不成功。在 Chrome 中使用检查元素,我发现子标题文本“Canada Census, 1901”嵌入如下:

所以我将我的脚本编码如下:

这是结果,无法定位和提取子标题:

0 投票
1 回答
3654 浏览

r - 以编程方式在 R 中查找股票代码

我有一个包含公司名称的数据字段,例如

等等。

该软件包tm.plugin.webmining允许您从 Yahoo! 查询数据!基于股票代码的财务:

我错过了中间步骤。如何根据公司名称以编程方式查询票号?

0 投票
0 回答
77 浏览

python-2.7 - Twitter流媒体API,在哪里可以找到发起人的名字?

我正在使用 Python 通过 API 流式传输 Twitter 的推文。例如,单词“car”会生成以下结果:

在我看来,写这条推文的 Twitter 用户的 ID 为“507683414255108096”,有没有办法用写相应推文的实际 Twitter 用户的用户名导出 Twitter 的 API 推文?

如果不通过 API,我是否需要真正关注人们以获取带有用户名的推文流?或者还有其他方法吗?

0 投票
1 回答
316 浏览

python - Python Mechanize - 如何在下拉菜单中提交未列出的值

我正在使用 Python 的 mechanize 将商品添加到亚马逊购物车中。在项目的产品页面上,您在表单的下拉菜单中选择数量并提交添加到购物车。

下拉菜单允许您从 1 到 30 中选择数量。

以下代码适用于添加数量为 1 到 30 的任何产品。但是,当我尝试添加大于 30 的数量时,即当下拉菜单中未明确表示该值时,它不起作用。

下拉菜单中的最大值 30 是人为约束。实际上,您最多可以添加 999 个项目而不会出现问题(使用 Firebug 提交大于 30 的值证实了这一点)。

我的问题-如何更改以下代码以成功提交未在下拉菜单中列为值的数量?

如果数量为 1-30,则上述代码有效。当数量为 31 或更多时,错误为:

0 投票
2 回答
1980 浏览

python - 从动态电子商务网页中抓取数据

我正在尝试取消电子商务网站(在本例中为 Flipkart)网页上列出的所有产品的标题。现在,我要抓取的产品将取决于用户输入的关键字。如果我输入产品“XYZXYZ”,生成的典型 URL 将是:

现在,使用此链接作为模板,我编写了以下脚本,根据输入的关键字删除任何给定网页下列出的所有产品的标题:

但是,上面的脚本None作为输出返回。当我尝试在每一步调试时,我发现requests模块无法获取网页的源代码。这里似乎发生了什么?

0 投票
1 回答
199 浏览

javascript - Node.js 中是否有任何用于情感分析的网络挖掘库?

我正在使用 Node.js 在 Javascript 中进行情绪分析。我正在寻找 Node 中的网络挖掘包来清理网页。Node 中是否有任何内置的 web 挖掘包,就像我们在 R tm.plugin.webmining 包中一样?

谢谢

0 投票
1 回答
82 浏览

python - 我将如何从链接列表中获取信息,然后将它们转储到 JSON 对象中?

Python 和 BeautifulSoup 的新手。非常感谢任何帮助

我知道如何建立一个公司信息列表,但那是在单击一个链接之后。

谁能给出一个想法,如何首先抓取链接,然后为该网站构建所有公司列表数据的 JSON?

我还附上了示例图像以获得更好的可视化效果。

我将如何抓取网站并像下面的示例一样构建 JSON,而无需单击每个单独的链接?

示例预期输出:

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
0 回答
173 浏览

c# - 网页抓取一个网址相同但位置在 C# 中的搜索框中发生变化的网页

我必须在 c# 中抓取一个网页,我正在使用 Httpclient,我的问题是,当我抓取一个网址时,例如https://somethng.com/search/?query=mobile,它给我的结果是没有找到产品,但是当我在网站中手动搜索并在网页的搜索文本框中提供位置,例如:某个城市,它在页面上显示产品,但 url 与我想在我的应用程序中抓取的网址相同https://somethng.com/search/?query=mobile, url 中没有位置查询字符串。我的问题是如何在网页抓取中处理它?因为 url 在我的应用程序中没有显示任何产品,但是当我手动搜索并且两个 url 相同时显示产品。

0 投票
1 回答
734 浏览

r - 使用“rJava”和“tm.plugin.webmining”包的文本挖掘问题

如果我对这个主题的格式不正确,我深表歉意这是我第一次在社区中发帖,我会尽力做到最好。我一直在努力解决这个问题,但一直在努力解决它。我目前正在关注“Text Mining with R: A Tidy Data Approach”一书,并且正在使用“tm.plugin.webmining”包对金融文章进行情绪分析。最初的问题是,当我尝试从库中加载包时,它会报告错误。

错误:“tm.plugin.webmining”的包或命名空间加载失败:“rJava”的 loadNamespace() 中的 .onLoad 失败,详细信息:调用:dyn.load(file, DLLpath = DLLpath, ...) 错误:无法加载共享对象'/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so':dlopen(/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs /rJava.so, 6):库未加载:@rpath/libjvm.dylib 引用自:/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so 原因:找不到图像

在做了一些研究之后,我发现这与 R 和 Java 在 mac OS High Sierra 上的通信方式有关。所以为了解决这个问题,我遵循了这篇文章。它似乎奏效了。一旦我用 java 和 r 解决了这个问题,我终于能够加载“tm.plugin.webmining”包。但是当我尝试运行书中的示例来加载语料库时,出现以下错误。

StartTag:无效元素名称 文档末尾的额外内容 mutate_impl(.data,dots)中的错误:评估错误:1:StartTag:无效元素名称 2:文档末尾的额外内容

我似乎无法在任何地方找到有关此问题的信息,也没有足够的经验来自己解决此问题,因此非常感谢我可以尝试解决此问题的任何见解或想法。下面我发布了我运行的代码,它给了我这个问题。先感谢您。

0 投票
1 回答
1053 浏览

r - Rcrawler - 如何爬取受帐户/密码保护的网站?

我正在尝试抓取和抓取网站的表格。我有一个网站帐户,我发现 Rcrawl 可以帮助我根据特定关键字等获取表格的部分内容。问题是在 GitHub 页面上没有提及如何使用帐户抓取网站/密码保护。

登录示例如下:

你知道Rcrawler是否有这个功能吗?例如:

我确信我上面的代码是错误的,但我希望它能让您了解我想要做什么。