4

我有一个名为 MyCollection 的集合,它在 mongodb 的 bd MyDB 中包含 200 个元素

> use MyDB
switched to db MyDB 
> db.MyCollection.count()
200

我得到了一种非常罕见的行为,即使以不同的方式加载光标并对其进行迭代,这是我的代码:

DBCollection collection = getCollection("MyBD", "MyCollection");
DBCursor cursor = collection.find();
//DBCursor cursor = collection.find().limit(200); 
System.out.println("Cursor length: "+cursor.length());
Iterator<DBObject> itrc = cursor.iterator();
//while(cursor.hasNext()){
while (itrc.hasNext()) {
    //DBObject obj = (DBObject)cursor.next();
    DBObject obj = (DBObject)itrc.next();
    //BSONObject obj2 = (BSONObject)obj.get("scores");
    Integer intg = (Integer) obj.get("_id");
    System.out.println("_id:"+intg.toString());

    // operations remove and insert  on the collection
    // that affect the cursor behavior
    BasicDBList bl = (BasicDBList) obj.get("fieldArray");
    BasicDBObject bdo = new BasicDBObject();
    bdo.put("fieldArray", bl);
    Integer intid = (Integer) obj.get("_id");
    bdo.put("_id", intid);
    String str = (String) obj.get("fieldString");
    bdo.put("fieldString", str);
    collection.remove(obj);
    obj=null;
    collection.insert(bdo);

    if(intg.intValue()==199){
        System.out.println("Reached: "+intg.intValue());
    }   
}

这是输出:

Cursor length: 200
_id:0 _id:1 _id:2 _id:3 _id:4 _id:5 _id:6 _id:7 _id:8 _id:9 _id:10 _id:11 _id:12 _id:13 _id:14 _id:15 _id:16 _id:17 _id:18 _id:19 _id:20 _id:21 _id:22 _id:23 _id:24 _id:25 _id:26 _id:27 _id:28 _id:29 _id:30 _id:31 _id:32 _id:33 _id:34 _id:35 _id:36 _id:37 _id:38 _id:39 _id:40 _id:41 _id:42 _id:43 _id:44 _id:45 _id:46 _id:47 _id:48 _id:49 _id:50 _id:51 _id:52 _id:53 _id:54 _id:55 _id:56 _id:57 _id:58 _id:59 _id:60 _id:61 _id:62 _id:63 _id:64 _id:65 _id:66 _id:67 _id:68 _id:69 _id:113 _id:101 _id:102 _id:103 _id:104 _id:105 _id:106 _id:107 _id:108 _id:109 _id:110 _id:111 _id:112 _id:114 _id:115 _id:116 _id:117 _id:118 _id:119 _id:120 _id:121 _id:122 _id:123 _id:124 _id:125 _id:126 _id:127 _id:128 _id:129 _id:130 _id:131 _id:132 _id:133 _id:134 _id:135 _id:136 _id:137 _id:138 _id:139 _id:140 _id:141 _id:142 _id:143 _id:144 _id:145 _id:146 _id:147 _id:148 _id:149 _id:150 _id:151 _id:152 _id:153 _id:154 _id:155 _id:156 _id:157 _id:158 _id:159 _id:160 _id:161 _id:162 _id:163 _id:164 _id:165 _id:166 _id:167 _id:168 _id:169 _id:170 _id:171 _id:172 _id:173 _id:174 _id:175 _id:176 _id:177 _id:178 _id:179 _id:180 _id:181 _id:182 _id:183 _id:184 _id:185 _id:186 _id:187 _id:188 _id:189 _id:190 _id:191 _id:192 _id:193 _id:194 _id:195 _id:196 _id:197 _id:198 _id:199
***************************
Reached: 199
***************************
 _id:70 _id:71 _id:72 _id:73 _id:74 _id:75 _id:76 _id:77 _id:78 _id:79 _id:80 _id:81 _id:82 _id:83 _id:84 _id:85 _id:86 _id:87 _id:88 _id:89 _id:90 _id:91 _id:92 _id:93 _id:94 _id:95 _id:96 _id:97 _id:98 _id:99 _id:100_id:96 _id:97 _id:98 _id:99 _id:100

可以看到,一旦达到 200 个元素的限制(元素 _id:199),它会跳转到 _id:70 的元素,然后重复 31 次额外的迭代,直到达到元素 _id:100,而不是在正确的时间将是 200 次迭代。

替代方案:一个在代码中注释(使用光标的方法:hasNext()),另一个正在运行(使用迭代器)都具有相同的输出。

如果我删除集合上的操作部分(在我的情况下是删除/插入),那么罕见的行为就不会发生。

这是预期的输出:

Cursor length: 200
_id:0 _id:1 _id:2 _id:3 _id:4 _id:5 _id:6 _id:7 _id:8 _id:9 _id:10 _id:11 _id:12 _id:13 _id:14 _id:15 _id:16 _id:17 _id:18 _id:19 _id:20 _id:21 _id:22 _id:23 _id:24 _id:25 _id:26 _id:27 _id:28 _id:29 _id:30 _id:31 _id:32 _id:33 _id:34 _id:35 _id:36 _id:37 _id:38 _id:39 _id:40 _id:41 _id:42 _id:43 _id:44 _id:45 _id:46 _id:47 _id:48 _id:49 _id:50 _id:51 _id:52 _id:53 _id:54 _id:55 _id:56 _id:57 _id:58 _id:59 _id:60 _id:61 _id:62 _id:63 _id:64 _id:65 _id:66 _id:67 _id:68 _id:69 _id:113 _id:101 _id:102 _id:103 _id:104 _id:105 _id:106 _id:107 _id:108 _id:109 _id:110 _id:111 _id:112 _id:114 _id:115 _id:116 _id:117 _id:118 _id:119 _id:120 _id:121 _id:122 _id:123 _id:124 _id:125 _id:126 _id:127 _id:128 _id:129 _id:130 _id:131 _id:132 _id:133 _id:134 _id:135 _id:136 _id:137 _id:138 _id:139 _id:140 _id:141 _id:142 _id:143 _id:144 _id:145 _id:146 _id:147 _id:148 _id:149 _id:150 _id:151 _id:152 _id:153 _id:154 _id:155 _id:156 _id:157 _id:158 _id:159 _id:160 _id:161 _id:162 _id:163 _id:164 _id:165 _id:166 _id:167 _id:168 _id:169 _id:170 _id:171 _id:172 _id:173 _id:174 _id:175 _id:176 _id:177 _id:178 _id:179 _id:180 _id:181 _id:182 _id:183 _id:184 _id:185 _id:186 _id:187 _id:188 _id:189 _id:190 _id:191 _id:192 _id:193 _id:194 _id:195 _id:196 _id:197 _id:198 _id:199
***************************
Reached: 199
***************************

我发现了一个类似的 SO question,但我不清楚:

  • 操作删除/插入如何以我之前公开的方式影响光标行为?
  • 如何使用快照选项?
  • 提前考虑,如果我需要使用有序集合怎么办?

顺便说一句,如果我使用没有迭代器的选项,如下所示:

while(cursor.hasNext()){
    DBObject obj = (DBObject)cursor.next();
  • 为什么我必须删除下一行?

    System.out.println("光标长度:"+cursor.length());

为了避免下一个异常:

Exception in thread "main" java.lang.IllegalArgumentException: can't switch cursor access methods
    at com.mongodb.DBCursor._checkType(DBCursor.java:412)
    at com.mongodb.DBCursor.hasNext(DBCursor.java:483)
    at tasks.UpdateRemoveHW.main(Test.java:56)
4

2 回答 2

3

只需抛出异常 IllegalArgumentException,然后您会发现使用 DBCursor.length() 已经将光标转换为数组。因此,在使用 hasext() 之后,接下来是非法的。如果您想更好地使用 hasext() 或 next() 在迭代之前删除 length() 。

于 2014-09-15T04:47:21.193 回答
2

我不确定您在问题的第一部分中的罕见行为发生了什么,但是通常在迭代任何数据结构时修改它是不安全的,除非通过 Iterator.remove() 方法。


您问题的最后一部分由DBCursor API 文档顶部的以下警告间接回答:

警告:在 DBCursor 上调用 toArray 或 length 将不可撤销地将其转换为数组。这意味着,如果游标正在迭代超过一千万个结果(它是从数据库中延迟获取的),那么内存中就会突然出现一千万个元素的数组。在转换为数组之前,请确保使用 skip() 和 limit() 有合理数量的结果。

如果您阅读了引发IllegalArgumentException的 DBCursor 的源代码(第 483 行),您可以看到任何对 DBCursor.length() 的调用都会将光标变成一个数组,之后对 DBCursor.next() 或 DBCursor 的所有调用.hasNext() 变得非法。

我认为这种行为肯定违反了最小意外原则。数组仍然可以有迭代器,所以如果内部数据结构被隐藏并且迭代器方法继续工作会更好。此外,调用 DBCursor.length() 不必从数据库中获取任何记录,我认为它的行为应该类似于 DBCursor.count() 但以某种方式考虑到 limit() 和 skip() 然后缓存结果。

于 2013-03-26T01:37:30.063 回答