[SERVER-14540] Error Running mongotop after large collection drop Created: 12/Jul/14 Updated: 10/Dec/14 Resolved: 21/Jul/14 |
|
| Status: | Closed |
| Project: | Core Server |
| Component/s: | Storage |
| Affects Version/s: | 2.4.9 |
| Fix Version/s: | None |
| Type: | Bug | Priority: | Major - P3 |
| Reporter: | Nick Brown | Assignee: | Ramon Fernandez Marina |
| Resolution: | Done | Votes: | 0 |
| Labels: | None | ||
| Remaining Estimate: | Not Specified | ||
| Time Spent: | Not Specified | ||
| Original Estimate: | Not Specified | ||
| Attachments: |
|
||||||||
| Issue Links: |
|
||||||||
| Operating System: | ALL | ||||||||
| Participants: | |||||||||
| Description |
|
When I dropped a large collection a few days ago, I received a message that one of the shards could not be reached. I issued the command to drop it again and was told the ns did not exist. I checked all shards, and the collection was indeed gone. However, since that time, one of the shards will not run mongotop anymore. I get the following message when trying to run mongotop: mongotop -h localhost:10030 And from the mongod log: Sat Jul 12 12:14:00.907 [conn1942477] Assertion: 13548:BufBuilder attempted to grow() to 134217728 bytes, past the 64MB limit.0xde46e1 0xda5e1b 0x6e7d8d 0xda627f 0xa856e6 0xa89efc 0x9fe119 0x9ff633 0x6e8518 0xdd0cae 0x7f3e413c09d1 0x7f3e40765b6d Sat Jul 12 12:14:00.910 [conn1942477] ntoskip:0 ntoreturn:1 ntoreturn:1 keyUpdates:0 exception: BufBuilder attempted to grow() to 134217728 bytes, past the 64MB limit. code:13548 reslen:117 429ms |
| Comments |
| Comment by Ramon Fernandez Marina [ 21/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
nibrown@vivint.com, glad to hear your cluster is back to normal. Closing this ticket now. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 18/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
It was intended to be both. We were somewhat concerned about our ability to run mongotop in the event we have to live-debug a performance issue with our applications. But, more than that, we were concerned that the underlying issue might be something more insidious that would have a more critical impact on our stack. The issue was only occurring on one machine, and we have a had a host of other problems with that same machine, including balancer and connection-related problems. I saw | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Thomas Rueckstiess [ 18/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Hi Nick, To adequately prioritize this, could you let us know the impact of this issue and what your priority is on fixing this? Was this intended more as a bug report or are you interested in a resolution for your affected shard? Regards, | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 16/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Here are the results of the command and the attempt to run it again. I will attach a portion of the mongod log when the command was run. I assume you don't want the entire log as it is several hundred megabytes. The exception can be seen at 13:01:57 in the log.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ramon Fernandez Marina [ 16/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
nibrown@vivint.com, the E11000 error you posted is due to Once this error has gone away, I'd like to ask you to send us full logs when running the top command again:
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 15/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I've also just noticed this happening repeatedly on the same shard: Tue Jul 15 14:45:41.006 [slaveTracking] warning: DBException thrown :: caused by :: 11000 E11000 duplicate key error index: local.slaves.$id dup key: { : ObjectId('5347e09855129acfc8f092f2') } | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 15/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ramon Fernandez Marina [ 15/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Thanks nibrown@vivint.com, looks like a large number of collections is not the cause of this behavior. It may be that the top command is throwing an exception with a large message. Can you please post the output of running:
in the affected shard? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 14/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ramon Fernandez Marina [ 14/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
nibrown@vivint.com, can you send us the output of running the following command on the affected shard?
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Nick Brown [ 14/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
We are running 2.4.9. I have not seen the error as a result of any other operation, and don't have a reason to believe it's affecting data operations at this point. But, I haven't looked thoroughly enough to rule that out yet. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Ramon Fernandez Marina [ 14/Jul/14 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
nibrown@vivint.com, which version of MongoDB are you running? Also, is mongotop the only time you see an error? Is everything else (data operations) working? |