[SERVER-10341] sync_passive2.js fails on Nightly Solaris-SmartOS 64-bit, Linux 32-bit Created: 25/Jul/13 Updated: 11/Jul/16 Resolved: 26/Aug/13 |
|
| Status: | Closed |
| Project: | Core Server |
| Component/s: | Testing Infrastructure |
| Affects Version/s: | None |
| Fix Version/s: | 2.5.3 |
| Type: | Bug | Priority: | Major - P3 |
| Reporter: | Matt Kangas | Assignee: | Matt Dannenberg |
| Resolution: | Done | Votes: | 0 |
| Labels: | buildbot | ||
| Remaining Estimate: | Not Specified | ||
| Time Spent: | Not Specified | ||
| Original Estimate: | Not Specified | ||
| Environment: |
Nightly Solaris-SmartOS 64-bit Build #462, #464 |
||
| Issue Links: |
|
||||||||
| Operating System: | ALL | ||||||||
| Participants: | |||||||||
| Description |
|
Nightly Solaris-SmartOS 64-bit Build #462 July 24 http://buildbot.mongodb.org/builders/Nightly%20Solaris-SmartOS%2064-bit/builds/462/steps/test_11/logs/stdio
Nightly Solaris-SmartOS 64-bit Build #464 July 25 appears to fail the same way |
| Comments |
| Comment by auto [ 26/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Author: {u'username': u'dannenberg', u'name': u'matt dannenberg', u'email': u'matt.dannenberg@10gen.com'}Message: | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 22/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Commit e71ca210ed was verbally lgtm'd by Greg | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by auto [ 22/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Author: {u'username': u'kangas', u'name': u'Matt Kangas', u'email': u'matt.kangas@10gen.com'}Message: We identified a performance regression that prevents this test from finishing | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Eric Milkie [ 22/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
With Drew's help I found what seems to be a problem at least on Windows 32-bit. It is affected the most because the builder has only one cpu and so it is more susceptible to CPU looping processes. | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 22/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Buildbot builders failing on this as of Wed Aug 21
And on MCI: | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 21/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Again on Solaris Solaris-SmartOS 64-bit Build #1237 Aug 20
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 15/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Not dead yet | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 06/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Solaris-SmartOS 64-bit Build #1205
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 06/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
V2.4 Windows 32-bit Build #187 (Tue Aug 6, rev 3fc69c4aa)
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 05/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Note re: Tad's comment above:
These commits have not been backported to v2.4, so they cannot be the cause of failures on the v2.4 branch. | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 05/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
More failures: V2.4 Windows 32-bit Build #180 (Sat Aug 3)
V2.4 Windows 32-bit Build #184 (Sun Aug 4)
Solaris-SmartOS 64-bit Build #1201 (Mon Aug 5)
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 01/Aug/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Again: Solaris-SmartOS 64-bit Build #1179 July 31 http://buildbot.mongodb.org/builders/Solaris-SmartOS%2064-bit/builds/1179/steps/test_9/logs/stdio
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Tad Marshall [ 31/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Another SmartOS failure:
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Tad Marshall [ 30/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Another Linux 32-bit failure:
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Tad Marshall [ 28/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
I was able to reproduce the failure on a Solaris 11.1 VM. On one host machine, it failed after 4 successful passes (running "buildscripts/smoke.py jstests/replsets/sync_passive2.js"), failing on the 5th run. On a different host machine, it passed 70 times and failed on the 71st pass. I tried reverting commits 27c4e7fbd2ef6eeb04dccd1bcdecdb21b00522d1, 96c541693cc5b6954a5286788f7ef88f5c680bc6 and 90526f8ca838873e40cda563e77c9f4ba71936e5 . With these three commits reverted, the test passed 800 times on the Solaris 11.1 VM, at which point I stopped the test. The cause appears to be a deadlock of some kind, where one of the nodes stops responding on the network. This seems similar to | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Tad Marshall [ 26/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
This time on Linux 32-bit: | |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 26/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Same, again. Solaris-SmartOS 64-bit Build #1163 July 25
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 25/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Same failure on Solaris-SmartOS 64-bit Build #1157 July 24 http://buildbot.mongodb.org/builders/Solaris-SmartOS%2064-bit/builds/1157/steps/test_9/logs/stdio
| |||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Matt Kangas [ 25/Jul/13 ] | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Tad, can you look at this? |