Loading...

XML

Word

Printable

JSON

Type: Bug
Resolution: Gone away
Priority: Major - P3
Fix Version/s: None
Affects Version/s: None
Component/s: Replication
Labels:

Assigned Teams:

Replication
Operating System:
ALL
Confidence Status:
None
Work Order:
3
CAR Domain/s:
None

Aha! Reference:
None
Tracking Level:
None
Risk Status:
None
Exec Notes:
None
Goal Name(s):
None
Goal Link:
None

This issue was originally discovered by the Coverity Static Analysis tool.

Consider the following lock acquisitions in InitialSyncer and ReplicationCoordinatorImpl:

`ReplicationCoordinatorImpl::processReplSetSyncFrom`

Acquire ReplicationCoordinatorImpl::_mutex code
Acquire InitialSyncer::_mutex code

`InitialSyncer::_multiApplierCallback`

Acquire InitialSyncer::_mutex code
Acquire ReplicationCoordinatorImpl::_mutex code

Since these two functions acquire the same two locks but in reverse orders, it creates the potential for a deadlock, if each of these functions are running concurrently. One way to fix this would be to stop InitialSyncer from updating the optime of the ReplicationCoordinator on every batch. Alternatively, the _multiApplierCallback could call the _opts.setLastOpTime outside of holding it's own mutex, since it doesn't seem necessary to synchronize access to the InitialSyncer::_lastApplied after it's been written to in that function.

This issue also occurs in InitialSyncer::_getNextApplierBatchCallback, which acquires the InitialSyncer mutex, and then tries to acquire ReplicationCoordinator's mutex when calling _opts.getSlaveDelay().

Original Coverity Report Message:

Defect 100780 (STATIC_C)
Checker ORDER_REVERSAL (subcategory none)
File: /src/mongo/db/repl/replication_coordinator_impl.cpp
Function mongo::repl::ReplicationCoordinatorImpl::processReplSetSyncFrom(mongo::OperationContext *, const mongo::HostAndPort &, mongo::BSONObjBuilder *)

is duplicated by

SERVER-28859 Coverity analysis defect 101487: Thread deadlock

Closed

SERVER-28886 Coverity analysis defect 101486: Thread deadlock

Closed

is related to

SERVER-34758 replSetGetStatus can deadlock with initialSyncer

Closed

SERVER-35372 replSetSyncFrom can cause deadlock between ReplicationCoordinator and InitialSyncer

Closed

related to

SERVER-31487 Replace replSetSyncFrom resync option with initialSyncSource server parameter

Closed

Assignee:: [DO NOT USE] Backlog - Replication Team
Reporter:: Coverity Collector User
Participants:: [DO NOT USE] Backlog - Replication Team, Coverity Collector User, Spencer Brody, Will Schultz
Votes:: 0 Vote for this issue
Watchers:: 5 Start watching this issue

Created:: Apr 18 2017 03:17:10 PM UTC
Updated:: Oct 27 2023 08:44:08 PM UTC
Resolved:: Jun 18 2018 06:58:40 PM UTC
Confidence Status Last Update:: 10/Jul/17 7:37 PM

Details

Description

ReplicationCoordinatorImpl::processReplSetSyncFrom

InitialSyncer::_multiApplierCallback

Attachments

Issue Links

Forms

Activity

People

Dates

`ReplicationCoordinatorImpl::processReplSetSyncFrom`

`InitialSyncer::_multiApplierCallback`