问题标签 [pymongo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
657 浏览

python - 使用 python 和 mongoDB 索引 20M 的记录

我想谈谈我的小项目,以及我是否走上正轨。我需要处理 Medline 的所有文章(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)。对于那些不熟悉 Medline 数据库的人,我补充一点信息:

  • 大约有。20.000.000 条记录(83.4 GB 磁盘空间),每条记录都有许多字段和子字段。
  • 您可以以 XML 格式下载此 DB(带有许可证)。
  • 这 20M 的记录分布在 653 个文件中。
  • 每个文件都有一个 MedlineCitationSet,这是一组记录 (MedlineCitation's)。

我想处理这些记录并获取标题,摘要等信息......然后我想用python和mongodb索引这些文件(或记录)。我有一个选择:

我创建了一个 medline 解析器,并为每条记录创建了一个用于 mongoDB 的 JSON 条目,并在通过 pubmedID 进行索引之后。然后我可以创建一个类似 get_abstract('pubmedID'):string 的函数。

我的问题是:

  • 这是个好主意吗?(XML 解析 --> JSON --> 插入和索引!)
  • 我可以使用 GridFS 并获取与每个文件的记录等效的块吗?如何?
  • 你知道其他方法吗?
0 投票
2 回答
2687 浏览

mongodb - mongodb mapreduce中的条件

如何在 mongos mapreduce 中指定条件,就像我们在 mongos 组函数中所做的那样。

我的数据就像

我只想发出值为 1000 的盖子emit(this.lid, this.age)。但这将发出所有值。我想在这里有个条件。map reduce 有什么方法吗?我尝试在 reduce 函数中使用 if 条件进行过滤,但它不起作用

0 投票
1 回答
2753 浏览

insert - pymongo 在循环内插入

我对循环内的 pymongo insert 有一个棘手的问题,为什么如果我使用 insert() 结果只是第一条记录,或者如果我使用 save() 则结果是最后一条记录。

我只是在 Mongo 中插入了 10000 个条目,但我只能找到一个条目。为什么?

0 投票
6 回答
36732 浏览

python - Pymongo / MongoDB:创建索引还是确保索引?

我不明白pymongocreate_indexensure_indexpymongo 之间的区别。在MongoDB 索引页面上,它说

您可以通过调用 ensureIndex()

但是在 pymongo 中有两个不同的命令create_indexensure_index,创建索引的文档有:

与尝试无条件创建索引的 create_index() 不同,ensure_index() 利用驱动程序中的一些缓存,使其仅尝试创建可能不存在的索引。当 PyMongo 创建(或确保)索引时,它会被“记住” ttl 秒。在该时间限制内重复调用 ensure_index() 将是轻量级的——它们不会尝试实际创建索引。

我是否理解这ensure_index将创建一个永久索引,还是我需要为此使用create_index

0 投票
2 回答
208 浏览

python - 有没有办法使用 couchdb-python 获取对 CouchDB 的即席查询的时间(以毫秒为单位)?

我通过其 query() 函数在 couchdb-python 中使用临时 JavaScript 映射函数。有没有办法获得处理查询所需的时间?

我已经尝试过为脚本计时,但对我来说很明显我得到的时间不正确。如果我遍历 query() 函数返回的 ViewResult 并打印所有结果,我相信我会得到一个更接近事实的答案,但我不希望打印包含在我的计时中。

有人有什么想法吗?

非常感谢!

0 投票
4 回答
9648 浏览

python - 如何释放 mongodb 连接?

我在短时间内有一个具有高读/写能力的 mongo 服务器。我使用了 python 和 pymongo,今天早上醒来时发现无法与 mongod master 建立连接,因为它的连接数达到了 19992,这是一个非常可怕的数字

即使我停止了所有程序,连接数似乎也没有变化

我检查了套接字连接

0 投票
3 回答
5155 浏览

django - 无法使用带有 Django 的 MongoEngine Pymongo 返回 JSON 对象?

所以我试图为一个项目返回一个 JSON 对象。我花了几个小时试图让 Django 返回 JSON。

下面是我们一直在使用的视图:

这是我的模型:

这是它返回的内容:

关于如何返回 JSON 的任何想法?

0 投票
1 回答
781 浏览

mongodb - 批量更新 MongoDB 时间戳

我的收藏中有几张唱片。其中一个键是“available_on”,它是一个日期时间/时间戳值。我想批量更新并为所有这些字段添加一个间隔。

所需的用法如下:

我正在使用 pymongo 1.10,据我了解,无法向updateor提供 JavaScript 代码find_and_modify。而且我只能使用更新修饰符。

0 投票
1 回答
116 浏览

python - What's the "u'" at the beginning of every field in MongoDB?

There's nothing here because the question fit into the title field.

0 投票
1 回答
484 浏览

python - PyMongo 驱动程序是否聚合数据

...在它从 MongoDB 检索所有数据并通过网络传输之后?

我想问的是 - 在传统的数据库场景中,COUNT、SUM 等是在数据库端执行的。PyMongo 是否通过网络传输所有记录然后进行聚合?

例如,我正在查看PyMongo 教程中的查询:posts.find({"author": "Mike"}).count()