在机器学习中,Linear Regression有两种方法:梯度下降和 Normal Equation,对应到数学就是微积分和线性代数的知识。梯度下降容易理解但实现起来略复杂,Normal Equation 则十分简洁,为什么竟然可行?其背后的数学原理是什么?