Improve node management. by dongluochen · Pull Request #1569 · docker-archive/classicswarm

dongluochen · 2015-12-30T21:29:34Z

This change improves swarm node management according to proposal #1486.

Introduce pending state. Pending nodes need validation before moving to healthy state. Resolve issues of duplicate ID and no join retry for unreachable node issues.
Expose error and last update time in docker info.
Use connect success/failure to drive state transition between healthy and unhealthy.

Signed-off-by: Dong Chen dongluo.chen@docker.com

1. Introduce pending state. Pending nodes need validation before moving to healthy state. Resolve issues of duplicate ID and dead node drop issues. 2. Expose error and last update time in docker info. 3. Use connect success/failure to drive state transition between healthy and unhealthy. Signed-off-by: Dong Chen <dongluo.chen@docker.com>

abronan · 2016-01-04T19:06:12Z

Design LGTM. Will review the code and test shortly.

ping @vieux for design approval.

@dongluochen This might need a set of integration tests (or improve the existing ones) to validate that the state machine works and that a node transitions correctly from a state to another. At least for Pending to Healthy and from Healthy to Unhealthy.

dongluochen · 2016-01-04T19:43:24Z

@abronan thanks Alex! I'll update test cases soon.

vieux · 2016-01-05T19:16:39Z

@dongluochen small comment, but could we please put └ Error: <none> or └ Error: (none) instead of blanc ?

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

dongluochen · 2016-01-05T23:09:39Z

@vieux I updated no error to └ Error: (none). Thanks for the comment.

…l. Each pending node has its own validation interval according to failure count. So reducing sleep interval is not increasing validation frequency for unreachable nodes. Signed-off-by: Dong Chen <dongluo.chen@docker.com>

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

vieux · 2016-01-07T00:01:28Z

LGTM

dongluochen · 2016-01-07T22:36:56Z

ping @docker/swarm-maintainers.

abronan · 2016-01-07T23:08:18Z

cluster/engine.go

@dongluochen This is just for convenience but can we add a TODO and reference to the issue (#1508) here? Because the comment is there anyway :)

abronan · 2016-01-07T23:26:42Z

Tested and seems to work as expected, just very small nits but LGTM

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

dongluochen · 2016-01-07T23:57:04Z

Thanks @abronan! I've updated code accordingly.

abronan · 2016-01-08T00:14:33Z

Sweet! Thanks @dongluochen!

Improve node management.

abronan · 2016-01-08T00:15:04Z

🎉

Improve node management.

GordonTheTurtle added the status/0-triage label Dec 30, 2015

abronan mentioned this pull request Dec 30, 2015

Do not close nil channel. With the change in swarm, engine in pending… samalba/dockerclient#209

Merged

abronan added kind/enhancement status/1-design-review and removed status/0-triage labels Jan 4, 2016

vieux mentioned this pull request Jan 4, 2016

[experimental] Simple container rescheduling on node failure #1578

Merged

vieux mentioned this pull request Jan 5, 2016

Proposal: Container Rescheduling #1488

Closed

Add integration test for state machine.

52a7616

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

dongluochen added 3 commits January 5, 2016 15:56

Fix format issue in state.bats.

6a1b49c

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

Update failureCount scenario and test cases.

58a0e17

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

vieux added this to the 1.1.0 milestone Jan 7, 2016

vieux added the priority/P1 label Jan 7, 2016

vieux assigned vieux and dongluochen and unassigned vieux Jan 7, 2016

dongluochen added status/2-code-review and removed status/1-design-review labels Jan 7, 2016

abronan reviewed Jan 7, 2016
View reviewed changes

Name constants.

7e266f1

Signed-off-by: Dong Chen <dongluo.chen@docker.com>

abronan added a commit that referenced this pull request Jan 8, 2016

Merge pull request #1569 from dongluochen/nodeManagement

8b173fd

Improve node management.

abronan merged commit 8b173fd into docker-archive:master Jan 8, 2016

abronan mentioned this pull request Jan 12, 2016

Proposal Node failover #755

Closed

dongluochen deleted the nodeManagement branch February 2, 2016 18:23

ChristianKniep pushed a commit to ChristianKniep/swarm that referenced this pull request Jul 27, 2017

Merge pull request docker-archive#1569 from dongluochen/nodeManagement

37ef87a

Improve node management.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve node management.#1569

Improve node management.#1569
abronan merged 6 commits intodocker-archive:masterfrom
dongluochen:nodeManagement

dongluochen commented Dec 30, 2015

Uh oh!

abronan commented Jan 4, 2016

Uh oh!

dongluochen commented Jan 4, 2016

Uh oh!

vieux commented Jan 5, 2016

Uh oh!

dongluochen commented Jan 5, 2016

Uh oh!

vieux commented Jan 7, 2016

Uh oh!

dongluochen commented Jan 7, 2016

Uh oh!

abronan Jan 7, 2016

Uh oh!

abronan commented Jan 7, 2016

Uh oh!

dongluochen commented Jan 7, 2016

Uh oh!

abronan commented Jan 8, 2016

Uh oh!

abronan commented Jan 8, 2016

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

Conversation

dongluochen commented Dec 30, 2015

Uh oh!

abronan commented Jan 4, 2016

Uh oh!

dongluochen commented Jan 4, 2016

Uh oh!

vieux commented Jan 5, 2016

Uh oh!

dongluochen commented Jan 5, 2016

Uh oh!

vieux commented Jan 7, 2016

Uh oh!

dongluochen commented Jan 7, 2016

Uh oh!

abronan Jan 7, 2016

Choose a reason for hiding this comment

Uh oh!

abronan commented Jan 7, 2016

Uh oh!

dongluochen commented Jan 7, 2016

Uh oh!

abronan commented Jan 8, 2016

Uh oh!

abronan commented Jan 8, 2016

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants