“web-mining”的相关标签问题

0 投票

1 回答

508 浏览

python-2.7 - 为什么我不能使用 BeautifulSoup 提取页面的副标题？

我正在尝试提取此页面的名称和副标题（例如）。我提取名称没有问题，但副标题却不成功。在 Chrome 中使用检查元素，我发现子标题文本“Canada Census, 1901”嵌入如下：

所以我将我的脚本编码如下：

这是结果，无法定位和提取子标题：

2014-09-02T18:54:53.743

0 投票

1 回答

3654 浏览

r - 以编程方式在 R 中查找股票代码

我有一个包含公司名称的数据字段，例如

等等。

该软件包tm.plugin.webmining允许您从 Yahoo! 查询数据！基于股票代码的财务：

我错过了中间步骤。如何根据公司名称以编程方式查询票号？

r tm web-mining

2014-09-02T21:05:23.000

0 投票

0 回答

77 浏览

python-2.7 - Twitter流媒体API，在哪里可以找到发起人的名字？

我正在使用 Python 通过 API 流式传输 Twitter 的推文。例如，单词“car”会生成以下结果：

在我看来，写这条推文的 Twitter 用户的 ID 为“507683414255108096”，有没有办法用写相应推文的实际 Twitter 用户的用户名导出 Twitter 的 API 推文？

如果不通过 API，我是否需要真正关注人们以获取带有用户名的推文流？或者还有其他方法吗？

python-2.7 twitter social-media tweetstream web-mining

2014-09-05T00:27:18.597

0 投票

1 回答

316 浏览

python - Python Mechanize - 如何在下拉菜单中提交未列出的值

我正在使用 Python 的 mechanize 将商品添加到亚马逊购物车中。在项目的产品页面上，您在表单的下拉菜单中选择数量并提交添加到购物车。

下拉菜单允许您从 1 到 30 中选择数量。

以下代码适用于添加数量为 1 到 30 的任何产品。但是，当我尝试添加大于 30 的数量时，即当下拉菜单中未明确表示该值时，它不起作用。

下拉菜单中的最大值 30 是人为约束。实际上，您最多可以添加 999 个项目而不会出现问题（使用 Firebug 提交大于 30 的值证实了这一点）。

我的问题-如何更改以下代码以成功提交未在下拉菜单中列为值的数量？

如果数量为 1-30，则上述代码有效。当数量为 31 或更多时，错误为：

python html web-scraping mechanize web-mining

2014-09-17T20:12:42.467

0 投票

2 回答

1980 浏览

python - 从动态电子商务网页中抓取数据

我正在尝试取消电子商务网站（在本例中为 Flipkart）网页上列出的所有产品的标题。现在，我要抓取的产品将取决于用户输入的关键字。如果我输入产品“XYZXYZ”，生成的典型 URL 将是：

现在，使用此链接作为模板，我编写了以下脚本，根据输入的关键字删除任何给定网页下列出的所有产品的标题：

但是，上面的脚本None作为输出返回。当我尝试在每一步调试时，我发现requests模块无法获取网页的源代码。这里似乎发生了什么？

python beautifulsoup python-requests web-mining

2014-09-27T23:08:32.160

0 投票

1 回答

199 浏览

javascript - Node.js 中是否有任何用于情感分析的网络挖掘库？

我正在使用 Node.js 在 Javascript 中进行情绪分析。我正在寻找 Node 中的网络挖掘包来清理网页。Node 中是否有任何内置的 web 挖掘包，就像我们在 R tm.plugin.webmining 包中一样？

谢谢

javascript node.js package sentiment-analysis web-mining

2017-06-19T09:21:04.117

0 投票

1 回答

82 浏览

python - 我将如何从链接列表中获取信息，然后将它们转储到 JSON 对象中？

Python 和 BeautifulSoup 的新手。非常感谢任何帮助

我知道如何建立一个公司信息列表，但那是在单击一个链接之后。

谁能给出一个想法，如何首先抓取链接，然后为该网站构建所有公司列表数据的 JSON？

我还附上了示例图像以获得更好的可视化效果。

我将如何抓取网站并像下面的示例一样构建 JSON，而无需单击每个单独的链接？

示例预期输出：

python json beautifulsoup web-mining

2017-07-07T04:40:03.910

0 投票

0 回答

173 浏览

c# - 网页抓取一个网址相同但位置在 C# 中的搜索框中发生变化的网页

我必须在 c# 中抓取一个网页，我正在使用 Httpclient，我的问题是，当我抓取一个网址时，例如https://somethng.com/search/?query=mobile，它给我的结果是没有找到产品，但是当我在网站中手动搜索并在网页的搜索文本框中提供位置，例如：某个城市，它在页面上显示产品，但 url 与我想在我的应用程序中抓取的网址相同https://somethng.com/search/?query=mobile， url 中没有位置查询字符串。我的问题是如何在网页抓取中处理它？因为 url 在我的应用程序中没有显示任何产品，但是当我手动搜索并且两个 url 相同时显示产品。

c#web-scraping web-mining

2017-10-10T19:56:14.803

0 投票

1 回答

734 浏览

r - 使用“rJava”和“tm.plugin.webmining”包的文本挖掘问题

如果我对这个主题的格式不正确，我深表歉意这是我第一次在社区中发帖，我会尽力做到最好。我一直在努力解决这个问题，但一直在努力解决它。我目前正在关注“Text Mining with R: A Tidy Data Approach”一书，并且正在使用“tm.plugin.webmining”包对金融文章进行情绪分析。最初的问题是，当我尝试从库中加载包时，它会报告错误。

错误：“tm.plugin.webmining”的包或命名空间加载失败：“rJava”的 loadNamespace() 中的 .onLoad 失败，详细信息：调用：dyn.load(file, DLLpath = DLLpath, ...) 错误：无法加载共享对象'/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so'：dlopen（/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs /rJava.so, 6)：库未加载：@rpath/libjvm.dylib 引用自：/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so 原因：找不到图像

在做了一些研究之后，我发现这与 R 和 Java 在 mac OS High Sierra 上的通信方式有关。所以为了解决这个问题，我遵循了这篇文章。它似乎奏效了。一旦我用 java 和 r 解决了这个问题，我终于能够加载“tm.plugin.webmining”包。但是当我尝试运行书中的示例来加载语料库时，出现以下错误。

StartTag：无效元素名称文档末尾的额外内容 mutate_impl（.data，dots）中的错误：评估错误：1：StartTag：无效元素名称 2：文档末尾的额外内容

我似乎无法在任何地方找到有关此问题的信息，也没有足够的经验来自己解决此问题，因此非常感谢我可以尝试解决此问题的任何见解或想法。下面我发布了我运行的代码，它给了我这个问题。先感谢您。

r finance tm web-mining

2017-12-26T20:28:05.547

0 投票

1 回答

1053 浏览

r - Rcrawler - 如何爬取受帐户/密码保护的网站？

我正在尝试抓取和抓取网站的表格。我有一个网站帐户，我发现 Rcrawl 可以帮助我根据特定关键字等获取表格的部分内容。问题是在 GitHub 页面上没有提及如何使用帐户抓取网站/密码保护。

登录示例如下：

你知道Rcrawler是否有这个功能吗？例如：

我确信我上面的代码是错误的，但我希望它能让您了解我想要做什么。

r web-scraping web-crawler web-mining rcrawler

2018-07-09T10:56:39.957

问题标签 [web-mining]

Reference