问题标签 [web-scripting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 作为开发人员如何在 Alfresco 中使用 Web Script?
我是 Alfresco 的新手并使用 Alfresco 5.2。我开始作为 ECM 学习它,现在我可以在一定程度上理解 Share 界面。但是我需要掌握 Alfresco 作为开发人员,为此我必须掌握 Web Script。但我不确定如何朝着这个方向前进。我无法理解在哪里可以使用 Web 脚本以及它对我有何帮助。另外,我不知道如何在 Alfresco 中编写 Web Script/JavaScript 程序来执行复杂的操作。我被互联网上所有可用的文档和教程困住了。任何建议或建议都会有很大帮助。
python-2.7 - 使用 beautifulSoup 添加“if”子句
我正在使用 BeautifulSoup 来抓取公司网站的工作职位(我有权限)。下面的代码能够运行,输出是职位发布的 url,但是我想添加一个条件,该条件在返回 url 之前必须为真。
当前代码
我想要达到的目标
我想运行上面的代码,但仅对于“级别”为 = 毕业生的链接,我才想实际显示输出。我已经写了以下内容,但它不起作用。
我正在抓取的网站
http://implementconsultinggroup.com/career/#/1143
理想输出
理想情况下,我将能够运行我创建的代码,它会过滤掉 Level != 毕业的位置。
python - ScrapyRT 可以处理多少个爬取请求
我有一个带有 Web 界面的项目,我应该每周(每月)从那里下载3000
到url。20000
我使用工单系统来显示进度:下载了什么、等待下载的内容、哪些 url 有超时错误和类似问题。现在我正在使用ScrapyD
它,但打算切换到ScrapyRT
. 因为它看起来更容易运行单个 URL 并在它之后获得结果 - 更新票证状态。我的问题是可以收到多少个独立请求ScrapyRT
?我尝试了接近 50-100 个请求来抓取异步,而服务器只是停止工作。
还是存在其他方式如何做到这一点?Scrapy 集群或 Frontera 不适合我
c# - 我可以在 URL 中使用格式字符串导航到网页,替换 URL 的指定部分吗?
我有兴趣创建某种简单的 C# 应用程序,它需要一个用户字符串并将其传递到 URL 的目标部分。例如,由于用户查询在页面 URL DuckDuckGo 中可见
示例: https ://duckduckgo.com/?q=web+browsers&ia=web
在这种情况下,URL 显示我搜索了“网络浏览器”。我希望用户能够将任何字符串传递给应用程序(通过启动应用程序时出现的某种提示),然后启动 Web 浏览器并导航到目标 URL,并将用户输入插入到 URL 中指定查询。(即https://duckduckgo.com/?q=operating+systems&ia=web),用户输入字符串“操作系统”。
所以我想知道使用哪种类型的 C# 应用程序可以与操作系统(Windows 10)交互,以及如何编写格式字符串和用户提示的代码。任何指导将不胜感激。
r - 在 R 中将 HTML 解析为具有 Div 级别的文本
由于 div 级别/结构,上面的代码读取文本两次,我只需要读取一次文本。感谢您的时间和帮助。IE
doc.text[2] # 包含在 3 到 59 中再次重复的所有文本
python - Python/Selenium webdriver 中的 ElementNotVisibleException 错误
我为网络抓取工作编写了这段代码:
browser.find_element_by_class_name('open_all_j').click()
此代码行给了我一个错误:
selenium.common.exceptions.ElementNotVisibleException:消息:元素不可见
我的完整代码:
我尝试使用:
browser.find_element_by_xpath("//div[@class = 'open_all_r']").click()
这段代码行给了我同样的错误。
请帮我...
javascript - 如何通过篡改猴子脚本修复网页的连续重新加载?
我正在尝试构建一个脚本,该脚本将连续单击 3 个按钮,但在单击第一个按钮后,脚本会无限重新加载。
我试图点击按钮的网站:JDoodle
您需要登录才能看到这些按钮。正如您在屏幕截图中看到的那样:
按钮 1
按钮 2
尝试过的方法:
1.
结果 :unsafeWindow.r not defined
2.
结果:无限重新加载。
- 只需在没有方法 1 和 2 的情况下执行,脚本不会单击任何按钮。
web-scraping - 从网站填写表格和抓取网页
不是一个好的开始方式,但如果这不是主题,请原谅我,虽然这似乎是一个编程问题......
从 ASP.NET 网站,我想在新浏览器中打开一个页面,该浏览器顶部有一个工具栏,底部有一个类似 iframe 的窗口。类似框架的窗口将支持选项卡式浏览并加载第三方网站。工具栏将包含允许用户操作 HTML 的按钮(表单填充和网页抓取)。例如,工具栏按钮可能是“提取网页数据”或“填写表格”。
理想情况下,它适用于 IE、Edge、Chrome 和 Safari,但绝对最低要求是 IE,更可取的最低要求是 Chrome 和 Edge。
我已经看到其他专有软件可以做到这一点。我不知道他们是否需要特定的浏览器(比如可以安装插件的 IE)或者他们是如何做到的,这是我的问题。
所以我把这个问题缩小到三种可能性:
使用纯 HTML、Javascript 等。- 使用 iFrame 几乎可以完美运行,但内容不会在同一个域中,因此我无法访问 iFrame 的 HTML。
使用(或编写)专有浏览器 - 我认为您不能(或不想)从网页启动 EXE,而且这本身似乎相当复杂。
使用(或编写)插件 - 可能限制使用 IE。我认为 IE 插件可以根据我见过的其他插件做我想做的事。
我有过去使用 Web 自动化和脚本产品的桌面编程经验,虽然很有希望,但我认为它们不能提供我需要的东西:
他们有一个运行服务器端的 ASP.NET COM 组件,因此它不会向用户显示界面,但可用于基于脚本静默填充和抓取网站。
他们还有一个专有的浏览器,可以显示用户界面并运行脚本来填充和抓取。但这是一个EXE,所以不能从网站启动。
他们有一个 IE 插件,它添加了一个将自身附加到 IE 的伴随弹出窗口。类似于他们的浏览器并运行脚本。
问题 - 这可以做到,我已经看到了,但是机制是什么?我倾向于使用 IE 插件。
如果插件是答案,chrome有扩展,有可能吗?
python - 如何在 GitHub 上拉取请求后运行脚本?
大家,早安,
我想创建一个脚本,当有人根据拉取请求评论在我们的 GitHub 上提出拉取请求时,它会自动更新 RedMine 上的问题。
我使用 selenium 和 redmine REST API 在 Python 中编写了一个脚本,该脚本检索其请求者在 GitHub 上提出的拉取请求的评论,但我必须手动执行它。
您知道是否可以在拉取请求后自动执行 python 脚本?
(目前脚本存储在我的计算机上,但理想情况下它会存储在外部服务器上,以便我和我的伙伴可以更轻松地使用它)
我已经搜索了一些基于 WebHooks 或 CRON 的解决方案,但似乎没有任何问题可以回答我的问题。
我正在使用 Python 2.7
如果你能帮助我或者你对我的问题有更好的解决方案,谢谢
python -
保留用 ` `分隔的多行地址
- 如何删除地址行之间的多余空行?我正在使用 Beautifulsoup从网页中抓取。
- 我知道这会
<br/>
产生一条新线。但是,如果我要使用替换空间或条带():少数地址行变成一行。如何保持我仍然有一些地址行,如下面的预期输出所示?
来自 html 的输入:
我的代码如下:
我的类(c2)跨度输出如下:
在 span 的循环中测试输出结果如下:
这导致了我当前不受欢迎的输出结果:
1233/B, LAC II, St. 37/B, Mehmoodabad #6, (Behind United Bakery),
卡拉奇 - 75640
巴基斯坦
预期输出结果:
1233/B, LAC II, St. 37/B, Mehmoodabad #6,(Behind United Bakery),
Karachi - 75640
Pakistan