问题标签 [wikipedia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
207 浏览

wikipedia - 来自维基百科的挖掘人群

我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须遍历所有部分并从每个部分中获取人员。

我应该怎么做?我应该使用爬虫并获取页面并搜索使用 BeautifulSoup 的页面吗?
或者是否有任何其他替代方法可以从 Wikipedia 获得相同的信息?

0 投票
4 回答
3931 浏览

api - 从维基百科文章中获取摘录?

我一直在Wikipedia API上下浮动,但我不知道是否有一种很好的方法来获取文章的摘录(通常是第一段)。获得该段落的 HTML 格式也会很好。

我目前看到的获得类似于片段的东西的唯一方法是执行全文搜索(example),但这并不是我真正想要的(太短了)。

除了野蛮地解析 HTML/WikiText 之外,还有其他方法可以获取 Wikipedia 文章的第一段吗?

0 投票
3 回答
1202 浏览

sql - 如何用 R 分析维基百科文章的数据库?

这是一个“大”问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”的问题,我将道歉关闭线程。

我想通过维基百科的数据库(比如说英文的),做统计。例如,我对维基百科在每个时间点(假设在过去 2 年)有多少活跃编辑(应该定义)感兴趣。

我不知道如何建立这样的数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:

  1. 我需要什么工具(除了基本的 R)?我的电脑上的MySQL?RODBC 数据库连接?
  2. 你如何开始规划这样一个项目?
0 投票
2 回答
1018 浏览

web-scraping - 维基百科文章名称(无内容)

我正在做一个项目,为此我需要知道所有维基百科的文章名称(我不需要内容)。有没有可以下载这些数据的地方。

0 投票
7 回答
31757 浏览

text - 维基百科文字下载

我正在为我的大学项目下载完整的维基百科文本。我是否必须编写自己的蜘蛛才能下载此内容,或者是否有在线的维基百科公共数据集?

只是给你一些我的项目的概述,我想找出我感兴趣的几篇文章中有趣的词。但是为了找到这些有趣的词,我打算应用 tf/idf 来计算每个词的词频并挑选那些频率高的。但是要计算 tf,我需要知道整个维基百科的总出现次数。

如何才能做到这一点?

0 投票
2 回答
4668 浏览

tags - 将标签添加到 MediaWiki 并在首页上显示标签云?

我想在 mediawiki 页面中添加“标签”,例如美味的,然后使用它在首页上显示标签云。

我该怎么做呢?

0 投票
1 回答
298 浏览

queue - 一次只能读取一个循环缓冲区的元素

我已经将标准的单消费者、单生产者队列实现为 C 语言中的循环缓冲区,该缓冲区由一个数组和两个索引组成:一个用于读取,一个用于写入。

如果您尝试将项目插入完整队列并使用一个空槽来区分空环形缓冲区和完整的环形缓冲区,我的循环缓冲区是一种返回错误的类型。

在调试它时,我注意到它有时会进入一个一致的状态,在获得意味着缓冲区已满的返回值之前,您一次只能读取一个项目,即使有一个正在进行的线程一直在插入。

我以为我在实施过程中一定做了一些愚蠢的事情,但找不到任何东西。然后我决定仔细检查逻辑并重新阅读描述此类队列的维基百科值

令我惊讶的是,我注意到文本中有以下神秘的评论:

如果您无法读取缓冲区边界,则会出现很多情况,您一次只能读取一个元素。

因此,如果我正确理解了含义,这似乎表明这是某种继承问题,这种实现这种环形缓冲区的方式存在问题。

唉,我虚弱的大脑无法理解这个问题的根本原因:为什么会发生这种情况?什么样的插入和擦除序列可以使这样的环形缓冲区进入这种状态?

非常感谢您的帮助。

0 投票
4 回答
274 浏览

algorithm - 在 25 GB 的语料库中搜索单个单词

我必须在 25 GB 的维基百科语料库中搜索一个单词。我使用了 grep 但它需要很多时间。是否有一种可以快速搜索的高效且简单的表示。另外,我想找到完全匹配的。

谢谢你。

0 投票
5 回答
7869 浏览

java - Wikipedia : 移除维基百科文本标记的 Java 库

我下载了维基百科转储,现在想删除每个页面内容中的维基百科标记。我尝试编写正则表达式,但它们太多了,无法处理。我找到了一个 python 库,但我需要一个 java 库,因为我想集成到我的代码中。

谢谢你。

0 投票
1 回答
281 浏览

javascript - 用于 dokuwiki 页面上 clickNshow 的 jQuery 脚本

我正在为我们公司制作一个 dokuwiki,但由于文档往往会变得非常大,我想折叠这些部分并只显示标题。单击标题后,应显示这些部分。

dokuwiki 提示和技巧页面显示了一个很好的小 jquery 脚本,它有助于这种单击和显示行为。我对其进行了修改,使其仅适用于“h2”而不适用于其他任何标题。

现在我唯一想要的是 2 级部分默认隐藏。我试图在div.level2{display:none;}主页上添加一个 CSS,但这并没有真正起到作用。它确实隐藏了这些部分,但在单击标题时它们不再出现。

当使用 javascript 代码加载页面时,有没有办法隐藏 h2 标题下方的所有部分?