问题标签 [web-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 为什么我不能使用 BeautifulSoup 提取页面的副标题?
我正在尝试提取此页面的名称和副标题(例如)。我提取名称没有问题,但副标题却不成功。在 Chrome 中使用检查元素,我发现子标题文本“Canada Census, 1901”嵌入如下:
所以我将我的脚本编码如下:
这是结果,无法定位和提取子标题:
r - 以编程方式在 R 中查找股票代码
我有一个包含公司名称的数据字段,例如
等等。
该软件包tm.plugin.webmining
允许您从 Yahoo! 查询数据!基于股票代码的财务:
我错过了中间步骤。如何根据公司名称以编程方式查询票号?
python-2.7 - Twitter流媒体API,在哪里可以找到发起人的名字?
我正在使用 Python 通过 API 流式传输 Twitter 的推文。例如,单词“car”会生成以下结果:
在我看来,写这条推文的 Twitter 用户的 ID 为“507683414255108096”,有没有办法用写相应推文的实际 Twitter 用户的用户名导出 Twitter 的 API 推文?
如果不通过 API,我是否需要真正关注人们以获取带有用户名的推文流?或者还有其他方法吗?
python - Python Mechanize - 如何在下拉菜单中提交未列出的值
我正在使用 Python 的 mechanize 将商品添加到亚马逊购物车中。在项目的产品页面上,您在表单的下拉菜单中选择数量并提交添加到购物车。
下拉菜单允许您从 1 到 30 中选择数量。
以下代码适用于添加数量为 1 到 30 的任何产品。但是,当我尝试添加大于 30 的数量时,即当下拉菜单中未明确表示该值时,它不起作用。
下拉菜单中的最大值 30 是人为约束。实际上,您最多可以添加 999 个项目而不会出现问题(使用 Firebug 提交大于 30 的值证实了这一点)。
我的问题-如何更改以下代码以成功提交未在下拉菜单中列为值的数量?
如果数量为 1-30,则上述代码有效。当数量为 31 或更多时,错误为:
python - 从动态电子商务网页中抓取数据
我正在尝试取消电子商务网站(在本例中为 Flipkart)网页上列出的所有产品的标题。现在,我要抓取的产品将取决于用户输入的关键字。如果我输入产品“XYZXYZ”,生成的典型 URL 将是:
现在,使用此链接作为模板,我编写了以下脚本,根据输入的关键字删除任何给定网页下列出的所有产品的标题:
但是,上面的脚本None
作为输出返回。当我尝试在每一步调试时,我发现requests
模块无法获取网页的源代码。这里似乎发生了什么?
javascript - Node.js 中是否有任何用于情感分析的网络挖掘库?
我正在使用 Node.js 在 Javascript 中进行情绪分析。我正在寻找 Node 中的网络挖掘包来清理网页。Node 中是否有任何内置的 web 挖掘包,就像我们在 R tm.plugin.webmining 包中一样?
谢谢
c# - 网页抓取一个网址相同但位置在 C# 中的搜索框中发生变化的网页
我必须在 c# 中抓取一个网页,我正在使用 Httpclient,我的问题是,当我抓取一个网址时,例如https://somethng.com/search/?query=mobile,它给我的结果是没有找到产品,但是当我在网站中手动搜索并在网页的搜索文本框中提供位置,例如:某个城市,它在页面上显示产品,但 url 与我想在我的应用程序中抓取的网址相同https://somethng.com/search/?query=mobile, url 中没有位置查询字符串。我的问题是如何在网页抓取中处理它?因为 url 在我的应用程序中没有显示任何产品,但是当我手动搜索并且两个 url 相同时显示产品。
r - 使用“rJava”和“tm.plugin.webmining”包的文本挖掘问题
如果我对这个主题的格式不正确,我深表歉意这是我第一次在社区中发帖,我会尽力做到最好。我一直在努力解决这个问题,但一直在努力解决它。我目前正在关注“Text Mining with R: A Tidy Data Approach”一书,并且正在使用“tm.plugin.webmining”包对金融文章进行情绪分析。最初的问题是,当我尝试从库中加载包时,它会报告错误。
错误:“tm.plugin.webmining”的包或命名空间加载失败:“rJava”的 loadNamespace() 中的 .onLoad 失败,详细信息:调用:dyn.load(file, DLLpath = DLLpath, ...) 错误:无法加载共享对象'/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so':dlopen(/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs /rJava.so, 6):库未加载:@rpath/libjvm.dylib 引用自:/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so 原因:找不到图像
在做了一些研究之后,我发现这与 R 和 Java 在 mac OS High Sierra 上的通信方式有关。所以为了解决这个问题,我遵循了这篇文章。它似乎奏效了。一旦我用 java 和 r 解决了这个问题,我终于能够加载“tm.plugin.webmining”包。但是当我尝试运行书中的示例来加载语料库时,出现以下错误。
StartTag:无效元素名称 文档末尾的额外内容 mutate_impl(.data,dots)中的错误:评估错误:1:StartTag:无效元素名称 2:文档末尾的额外内容
我似乎无法在任何地方找到有关此问题的信息,也没有足够的经验来自己解决此问题,因此非常感谢我可以尝试解决此问题的任何见解或想法。下面我发布了我运行的代码,它给了我这个问题。先感谢您。
r - Rcrawler - 如何爬取受帐户/密码保护的网站?
我正在尝试抓取和抓取网站的表格。我有一个网站帐户,我发现 Rcrawl 可以帮助我根据特定关键字等获取表格的部分内容。问题是在 GitHub 页面上没有提及如何使用帐户抓取网站/密码保护。
登录示例如下:
你知道Rcrawler是否有这个功能吗?例如:
我确信我上面的代码是错误的,但我希望它能让您了解我想要做什么。