问题标签 [pymongo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 python 和 mongoDB 索引 20M 的记录
我想谈谈我的小项目,以及我是否走上正轨。我需要处理 Medline 的所有文章(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)。对于那些不熟悉 Medline 数据库的人,我补充一点信息:
- 大约有。20.000.000 条记录(83.4 GB 磁盘空间),每条记录都有许多字段和子字段。
- 您可以以 XML 格式下载此 DB(带有许可证)。
- 这 20M 的记录分布在 653 个文件中。
- 每个文件都有一个 MedlineCitationSet,这是一组记录 (MedlineCitation's)。
我想处理这些记录并获取标题,摘要等信息......然后我想用python和mongodb索引这些文件(或记录)。我有一个选择:
我创建了一个 medline 解析器,并为每条记录创建了一个用于 mongoDB 的 JSON 条目,并在通过 pubmedID 进行索引之后。然后我可以创建一个类似 get_abstract('pubmedID'):string 的函数。
我的问题是:
- 这是个好主意吗?(XML 解析 --> JSON --> 插入和索引!)
- 我可以使用 GridFS 并获取与每个文件的记录等效的块吗?如何?
- 你知道其他方法吗?
mongodb - mongodb mapreduce中的条件
如何在 mongos mapreduce 中指定条件,就像我们在 mongos 组函数中所做的那样。
我的数据就像
我只想发出值为 1000 的盖子emit(this.lid, this.age)
。但这将发出所有值。我想在这里有个条件。map reduce 有什么方法吗?我尝试在 reduce 函数中使用 if 条件进行过滤,但它不起作用
insert - pymongo 在循环内插入
我对循环内的 pymongo insert 有一个棘手的问题,为什么如果我使用 insert() 结果只是第一条记录,或者如果我使用 save() 则结果是最后一条记录。
我只是在 Mongo 中插入了 10000 个条目,但我只能找到一个条目。为什么?
python - Pymongo / MongoDB:创建索引还是确保索引?
我不明白pymongocreate_index
和ensure_index
pymongo 之间的区别。在MongoDB 索引页面上,它说
您可以通过调用
ensureIndex()
但是在 pymongo 中有两个不同的命令create_index
和ensure_index
,创建索引的文档有:
与尝试无条件创建索引的 create_index() 不同,ensure_index() 利用驱动程序中的一些缓存,使其仅尝试创建可能不存在的索引。当 PyMongo 创建(或确保)索引时,它会被“记住” ttl 秒。在该时间限制内重复调用 ensure_index() 将是轻量级的——它们不会尝试实际创建索引。
我是否理解这ensure_index
将创建一个永久索引,还是我需要为此使用create_index
?
python - 有没有办法使用 couchdb-python 获取对 CouchDB 的即席查询的时间(以毫秒为单位)?
我通过其 query() 函数在 couchdb-python 中使用临时 JavaScript 映射函数。有没有办法获得处理查询所需的时间?
我已经尝试过为脚本计时,但对我来说很明显我得到的时间不正确。如果我遍历 query() 函数返回的 ViewResult 并打印所有结果,我相信我会得到一个更接近事实的答案,但我不希望打印包含在我的计时中。
有人有什么想法吗?
非常感谢!
python - 如何释放 mongodb 连接?
我在短时间内有一个具有高读/写能力的 mongo 服务器。我使用了 python 和 pymongo,今天早上醒来时发现无法与 mongod master 建立连接,因为它的连接数达到了 19992,这是一个非常可怕的数字
即使我停止了所有程序,连接数似乎也没有变化
我检查了套接字连接
django - 无法使用带有 Django 的 MongoEngine Pymongo 返回 JSON 对象?
所以我试图为一个项目返回一个 JSON 对象。我花了几个小时试图让 Django 返回 JSON。
下面是我们一直在使用的视图:
这是我的模型:
这是它返回的内容:
关于如何返回 JSON 的任何想法?
mongodb - 批量更新 MongoDB 时间戳
我的收藏中有几张唱片。其中一个键是“available_on”,它是一个日期时间/时间戳值。我想批量更新并为所有这些字段添加一个间隔。
所需的用法如下:
我正在使用 pymongo 1.10,据我了解,无法向update
or提供 JavaScript 代码find_and_modify
。而且我只能使用更新修饰符。
python - What's the "u'" at the beginning of every field in MongoDB?
There's nothing here because the question fit into the title field.
python - PyMongo 驱动程序是否聚合数据
...在它从 MongoDB 检索所有数据并通过网络传输之后?
我想问的是 - 在传统的数据库场景中,COUNT、SUM 等是在数据库端执行的。PyMongo 是否通过网络传输所有记录然后进行聚合?
例如,我正在查看PyMongo 教程中的查询:posts.find({"author": "Mike"}).count()