2

我真正需要提取的信息是:

a) 是否是GET请求

b) 文件地址(例如 index.html)

c) 主机信息(例如 localhost:8081)

我刚才有代码可以做到这一点(见我的帖子底部),但它似乎效率低下,相当静态,并且不提取主机信息。

所以我想有一个理智的解决方案来解析 C 中的 HTTP 请求。干杯!

HTTP 请求

GET /index.html HTTP/1.1
Host: localhost:8081
Connection: keep-alive
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.70 Safari/537.17
DNT: 1
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8,en-GB;q=0.6
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3

当前代码

int parsehttp(char *inputstring, int *type, char *getaddress) {
    if((strncmp(inputstring, "GET", 3)) == 0) {
        *type = 1;
    } else {
        *type = 0;
    }
    char firstline[BUFLEN] = "";
    int charoffset = getlineend(inputstring); //this function returns the int offset of '\r\n'
    strncpy(firstline, inputstring, charoffset-2);
    firstline[charoffset-1] = '\0';
    sscanf(firstline,"%*s %s %*s",getaddress);
    inputstring = (inputstring + charoffset);
    return 1;
}
4

2 回答 2

3

可能对您有所帮助的是 strstr 函数。它试图在您提供的字符串中找到给定的字符串。由于 HTTP 请求包含以 0xD,0xA 结尾的行,因此您可以拆分这些行。通常,一行文本的信息使用空格分隔。所以要找到你使用的“GET”或“POST”

char* getpost = strstr("GET /index.html HTTP/1.1", "GET");

如果 getpost 是 != NULL,您将拥有您的字符串,并且可以在 GET 或 POST 之后剪切它。

其次,您将寻找“主机:”并跳过该部分,直到您到达 0xD,0xA 以便您获得主机地址。

有关strstr的联机帮助页,请参见 strstr。

于 2013-02-15T12:03:39.283 回答
0

您不必担心效率低下,毕竟它是网络,并且总是比您的 CPU、缓存、RAM 慢很多数量级。

如果您正在编写一个 http-server,那么您唯一应该关心的是内存安全以及如果客户端发送了意外的内容,您的代码会做什么。

一些示例:您的代码(以及此 / 之后的代码取决于其解析)在以下情况下会做什么:

  • 客户端发送 > 10 MB 的数据,全部格式错误,例如根本没有换行符。
  • 客户端发送错误的小数(即 ip/port/content-length)
  • 客户端发送正确的数据但恶意缓慢,例如每秒 1 个字节。
  • ......更多。
于 2013-02-15T12:08:41.347 回答