问题现象
提交大量Spark任务,概率性出现个别Task卡住一段时间,进而导致Stage整体耗时开销异常。
可能原因
NodeManager FullGC
问题分析
采样Job836
异常Stage2249 -> 卡住Task8:
对应Executor日志:
1 |
|
查看主机10.12.122.244的端口27337发现为NodeManager。查看其内存开销发现其内存已经用尽,进一步查看其GC日志,发现NodeManager存在频繁的长时间Full GC,进而导致其在GC阶段长时间无法响应Executor的请求,进而导致Executor卡住。
问题解决方案
调整NodeManager堆内存,适应业务场景开销。