问题标签 [google-news]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 抓取谷歌新闻搜索
我正在尝试从谷歌新闻搜索中获取特定日期的结果数量。在浏览器中这很容易 - 进行谷歌搜索,单击“新闻”选项卡,单击“工具”,然后将时间段更改为您想要的日期,然后再次单击“工具”,您可以看到有多少它发现的故事。
开始日期和结束日期可以在 URL 中看到。例如,这是过去一周对“堆栈溢出”的搜索 - https://www.google.com/search?q=stack+overflow&source=lnt&tbs=cdr%3A1%2Ccd_min%3A1%2F3%2F2018%2Ccd_max% 3A1%2F10%2F2018&tbm=nws
问题是当我尝试请求其中一个 URL 时,它会为我提供它的当前结果并忽略我指定的日期范围。我可以在浏览器中更改这些参数,结果会按预期更改,它只是无法以编程方式工作。
我在 python 和 C# 中尝试了几种方法,总是得到相同的结果。
例如 -
rss - 我可以在我的网站上自定义 Google 新闻 RSS 提要的外观吗?
我对 Google News RSS Feed 的使用有疑问。谷歌新闻帮助指出:
为什么 Google 可能会阻止 RSS 提要 在某些情况下,Google 新闻可能会阻止提要。如果您是:
- 使用 Google 新闻提要获取利润或增加网站流量
- 重新格式化新闻结果,使它们看起来像您自己的内容
- 根据 Google 新闻中的内容更改、编辑或创作作品
有人可以澄清这些观点吗?我不能自定义提要的外观吗?我想为与我网站上的内容相关的新闻创建一个单独的页面。如果我自定义它的外观,我会违反第二条规则吗?例如,我将在顶部显示一个幻灯片,在底部显示一个列表,就像 FeedWind 或 Feedgrabber 小部件一样。
我肯定不会违反第三条。但是每个人都在他们的网站上显示谷歌新闻来维持流量,对吗?不是每个在其网站上使用 Google 新闻 RSS 提要的人都违反了第一条规则吗?
python - 使用 gensim 加载 word2vec 时出现内存错误
我正在使用 gensim 库从 GoogleNews 数据集中加载预训练的词向量。该数据集包含 3000000 个词向量,每个词向量 300 个维度。当我想加载 GoogleNews 数据集时,我收到了内存错误。我之前试过这段代码没有内存错误,我不知道为什么我现在收到这个错误。我已经检查了很多网站来解决这个问题,但我无法理解。这是我加载 GoogleNews 的代码:
这是我收到的错误:
有谁能够帮我?谢谢。
python - 通过 gensim 向 GoogleNews 添加新词
我想为语料库中的单词获取单词嵌入。我决定通过gensim库在GoogleNews中使用预训练的词向量。但我的语料库包含一些不在 GoogleNews 单词中的单词。对于这些缺失的单词,我想在 GoggoleNews 单词中使用 n 个最相似单词的算术平均值。首先,我加载 GoogleNews 并检查其中是否包含“to”一词?
我收到一个错误:keyError: "word 'to' not in vocabulary"
这么大的数据集可能没有这个词吗?对于像“a”这样的其他常用词也是如此!
为了向 word2vec 模型添加缺失的单词,首先我想获取 GoogleNews 中的单词索引。对于缺少的单词,我使用了索引 0。
然后我计算每个缺失词的最相似词的嵌入向量的平均值。
然后我通过以下方式将这些新闻嵌入添加到 word2vec 模型中:
有不一致的地方。当我打印missing_embed 时,它是空的。仿佛没有遗漏的字眼。但是当我通过这个检查它时:
我发现了很多缺失的单词。现在,我有 3 个问题: 1- 为什么missing_embed是空的,而有一些缺失的单词?2- GoogleNews 有没有可能没有像“to”这样的词?3-如何将新嵌入附加到 word2vec 模型?我使用了 build_vocab和syn0。谢谢。
python - 解码已编码的 Google 新闻网址
我在https://news.google.com/中保存了搜索,但 google 不使用在其结果页面上找到的实际链接。相反,您会找到如下链接:
我想要使用 python 解决的“真实链接”。如果你把上面的 url 插入浏览器,一会儿你会看到
打开https://www.pokernews.com/strategy/wsop-main-event-tips-nine-champions-31287.htm
我使用 Requests 模块尝试了一些事情,但“没有雪茄”。
如果做不到,这些谷歌链接是永久的吗?它们总是可以用来打开网页吗?
更新 1:
发布此问题后,我使用 hack 来解决问题。我只是再次使用 urllib 打开 google url,然后解析源代码以找到“真实 url”。
看到 TDG 的回答令人兴奋,因为它可以帮助我的程序运行得更快。但谷歌是神秘的,它并没有永远工作的链接。
对于今天早上的新闻提要,它轰炸了第四条新闻:
更新 2:
在阅读了 base64 之后,我认为“不正确的填充”填充消息意味着输入字符串必须能被 4 整除。所以我添加了“aa”到
并没有收到错误消息:
python-3.x - Python:请求在日期范围内抓取 Google 新闻不起作用
我正在尝试从 Google 新闻中抓取指定日期范围内的新闻文章。
我正在使用上面的代码,但它返回最新消息并忽略日期范围。我必须改变什么才能让它工作?我已经尝试过类似问题的解决方案,例如使用用户代理标头,但它仍然无法按预期工作。
excel - 谷歌在vba的新闻标签中自动搜索
我正在尝试在 excel/VBA 中搜索术语。我所有的搜索词都在从 A2 开始的 A 列中。我希望搜索结果的超链接出现在它旁边的列中。我已经修改了在 stackoverflow 上找到的代码,它在这方面做得很好,但我希望在“新闻”选项卡中搜索搜索词,而不是谷歌搜索中的“全部”选项卡,因为搜索词与时事相关。我已经做了一些 VBA,但我仍然认为自己是初学者,所以任何帮助将不胜感激。这是我到目前为止的代码。正如您在代码中看到的那样,我只是将“新闻”附加到每个搜索词作为快速解决方案,但结果不如新闻选项卡中的结果好或最新。
ios - Passing parameters in Google News app URL scheme
I want to integrate the Google News app with another iOS customized app. I've found the URL scheme for Google News (googlenews://
) and it opens the app. Now I am trying to pass a parameter in order to automatically search news for it. I've used the following URLs with no success.
googlenews://news.google.com/search?q=stackoverflow
googlenews://q=stackoverflow
googlenews://?q=stackoverflow
Looks simple but it doesn't work. How to do that correctly?