[SERVER-16649] mongos_rs_auth_shard_failure_tolerance.js should wait for writes to be replicated before shutting down the primary Created: 25/Nov/14 Updated: 15/Jan/15 Resolved: 24/Dec/14 |
|
| Status: | Closed |
| Project: | Core Server |
| Component/s: | Replication, Sharding, Testing Infrastructure |
| Affects Version/s: | None |
| Fix Version/s: | 2.8.0-rc5 |
| Type: | Bug | Priority: | Minor - P4 |
| Reporter: | Ian Whalen (Inactive) | Assignee: | Spencer Brody (Inactive) |
| Resolution: | Done | Votes: | 0 |
| Labels: | None | ||
| Remaining Estimate: | Not Specified | ||
| Time Spent: | Not Specified | ||
| Original Estimate: | Not Specified | ||
| Attachments: |
|
||||||||
| Issue Links: |
|
||||||||
| Backwards Compatibility: | Fully Compatible | ||||||||
| Operating System: | ALL | ||||||||
| Participants: | |||||||||
| Description |
|
| Comments |
| Comment by Githook User [ 24/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Author: {u'username': u'stbrody', u'name': u'Spencer T Brody', u'email': u'spencer@mongodb.com'}Message: shard_failure_tolerance.js tests | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Spencer Brody (Inactive) [ 23/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
In all the logs I see it looks like the secondary of the shard being queried hasn't figured out a sync source yet for most of the test, and only starts syncing from the primary moments before the primary is shut down. This may be as simple as the data just hadn't replicated to the secondary yet. I'm putting together a patch that adds a {w:2}write concern to the relevant inserts, I think that may fix it. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ian Whalen (Inactive) [ 19/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
also, just noting that this does still seem to be happening, but doesn't seem to be frequent enough to be an RC blocker, so I'm bumping down in priority. still happening often enough that we should really probably fix. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ian Whalen (Inactive) [ 19/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
mark.benvenuto what's the next step here? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by David Storch [ 12/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Saw this again in a recent patch build: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Randolph Tan [ 03/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by David Storch [ 03/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
After discussing with Mark, this could be the same issue (or at least related to) the WT corruption that he is looking into. Reassigning so that Mark can take a look. Happy to keep digging if you have any suggestions for how we might track this one down. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by David Storch [ 01/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
A few observations:
This is going to require some more digging. Update: I can reproduce consistently on a build of HEAD simply by running the following commands on a linux-64-amzn-test EC2 instance:
One hypothesis is that this is a symptom of the node running out of disk space. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ian Whalen (Inactive) [ 01/Dec/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
just noting that this is still happening as of 12/01. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Randolph Tan [ 26/Nov/14 ] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Was able to reproduce this intermittently on linux-64-amzn-test. Just attached the log with custom explain logging with verbose 1 on mongod. It looks like the document was somehow lost, or cannot be observed. Appears to only happen only wiredTiger variants running on the auth version of this test (mongos_rs_shard_failure_tolerance.js seems to be passing all the time). Explain for fail case:
Explain for passing case:
|