0

我正在编写一个脚本,其中涉及根据用户的要求(我将其作为输入)向用户显示网页并在 Firefox 中打开它。例如,这个的粗略版本是:

#!/bin/bash
read -p "What do you want to search" search_term
link=$(echo "http://www.mywebsite_whatever.com/search?q="$search_term)
firefox $link

主要问题是我无法 wget/urllib 这个网站,因为我没有权限。

现在我想做的是:

让用户只查看网页上的某些关键字。所以为此我想:

  1. 打开find带有关键字的框(Ctrl + F)打开firefox(不更改firefox的源代码)

  2. 不知何故让firefox打开网站,将其保存为html并退出。(我不知道)然后我可以grep根据需要输出关键字。[请不要开始说这是不道德的。我这样做只是作为练习]

我在 Linux 上工作。

4

2 回答 2

3

要控制程序中的浏览器,请尝试Selenium。它支持Java,Python等。

请参阅示例源代码:http ://seleniumhq.org/docs/03_webdriver.html

package org.openqa.selenium.example;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;
import org.openqa.selenium.support.ui.ExpectedCondition;
import org.openqa.selenium.support.ui.WebDriverWait;

public class Selenium2Example  {
    public static void main(String[] args) {
    // Create a new instance of the Firefox driver
    // Notice that the remainder of the code relies on the interface, 
    // not the implementation.
    WebDriver driver = new FirefoxDriver();

    // And now use this to visit Google
    driver.get("http://www.google.com");
    // Alternatively the same thing can be done like this
    // driver.navigate().to("http://www.google.com");

    // Find the text input element by its name
    WebElement element = driver.findElement(By.name("q"));

    // Enter something to search for
    element.sendKeys("Cheese!");

    // Now submit the form. WebDriver will find the form for us from the element
    element.submit();

    // Check the title of the page
    System.out.println("Page title is: " + driver.getTitle());

    // Google's search is rendered dynamically with JavaScript.
    // Wait for the page to load, timeout after 10 seconds
        (new WebDriverWait(driver, 10)).until(new ExpectedCondition<Boolean>() {
           public Boolean apply(WebDriver d) {
               return d.getTitle().toLowerCase().startsWith("cheese!");
           }
        });

        // Should see: "cheese! - Google Search"
        System.out.println("Page title is: " + driver.getTitle());

        //Close the browser
        driver.quit();
    }
}
于 2012-06-05T07:02:56.600 回答
1

例如,将 Wget 与--user-agent开关一起使用,以便网站认为您正在使用 Firefox

wget --user-agent="Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:12.0) Gecko/20100101 Firefox/12.0"

当然,对于永久脚本,您应该改用--user-agent="MyScript/1.0 (http://mywebsite/)"或类似的脚本,这样如果出现问题,他们就知道该联系谁。

于 2012-06-05T08:43:04.177 回答