解决经过

起因是公司内开发过程中需要连接另一个内网的数据库

当时我的操作是这样的:

  1. 将同事给我的添加路由的命令执行一遍
  2. 挂上代理
  3. 开工打码

然而启动项目后却报数据库连接不上的错, 画风是这样的:

...
Caused by: com.mysql.cj.exceptions.CJCommunicationsException: Communications link failure
The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.
...

重复几次均如此, 排除偶发原因, 猜想原因如下:

  1. 本地项目配置问题
  2. 网络连接问题
  3. 数据库问题

再三检查配置后确认配置无误, 于是检查网络, 先 telnet 一下数据库的主机和端口:

➜   telnet 192.168.41.106 3306
Trying 192.168.41.106...
telnet: connect to address 192.168.41.106: Network is unreachable
telnet: Unable to connect to remote host

问题已经确定了, 正是网络连接有问题

为什么我没有使用 ping 命令去 ping 远程主机呢

一是考虑到路由或主机可能会过滤 icmp 协议, 二是考虑到 ping 命令不能调试 3306 端口

已知 代理 的服务器地址是 172.31.41.253

已知上头给出的添加静态路由的命令是

sudo route -n add -net 192.168.41.0 -netmask 255.255.255.0 192.168.8.1

接下来话不多说, 直接查看路由表:

➜   netstat -nr
Routing tables

Internet:
Destination        Gateway            Flags        Netif Expire
default            172.31.41.1        UGSc           en0
default            link#18            UCSI          ppp0
1.0.0.1            192.168.8.3        UH            ppp0
127                127.0.0.1          UCS            lo0
127.0.0.1          127.0.0.1          UH             lo0
169.254            link#4             UCS            en0      !
169.254            link#7             UCSI           en1      !
169.254.108.233/32 link#7             UCS            en1      !
172.31.41/24       link#4             UCS            en0      !
172.31.41.1/32     link#4             UCS            en0      !
172.31.41.1        42:61:fb:bd:5e:a7  UHLWIir        en0   1186
172.31.41.82/32    link#4             UCS            en0      !
172.31.41.86       14:9d:99:7a:2d:2f  UHLWI          en0   1080
172.31.41.98       link#4             UHLWIi         en0      !
172.31.41.99       14:9d:99:7a:27:ae  UHLWI          en0   1142
172.31.41.253      d4:5d:64:d7:0:d9   UHLWIi         en0   1200
192.168.8          ppp0               USc           ppp0
192.168.41         192.168.8.1        UGSc           en0
...

再来看下网口:

~ ifconfig
en0: flags=8863<UP,BROADCAST,SMART,RUNNING,SIMPLEX,MULTICAST> mtu 1500
	options=50b<RXCSUM,TXCSUM,VLAN_HWTAGGING,AV,CHANNEL_IO>
	ether 68:5b:35:7c:6b:1c
	inet6 fe80::1816:5698:e281:5b74%en0 prefixlen 64 secured scopeid 0x7
	inet 172.31.41.82 netmask 0xffffff00 broadcast 172.31.41.255
	nd6 options=201<PERFORMNUD,DAD>
	media: autoselect (1000baseT <full-duplex>)
	status: active
...
ppp0: flags=8051<UP,POINTOPOINT,RUNNING,MULTICAST> mtu 1280
	inet 192.168.8.3 --> 1.0.0.1 netmask 0xffffff00

结合网口, 从路由表的最后两行路由可以看出问题了

公司的代理一般使用 ppp 协议, 当代理网络建立后, 会在系统注册一个虚拟网卡, 路由表倒数第二行的 ppp0 就是这个网卡(或 Net Interface, 网口)

路由表倒数第二行的路由信息表示访问 192.168.8 网段的数据包将走 ppp0 这个网口的 ppp0 网关进行传输

最后一行的地址是数据库所在内网的网段, 表示的是访问 192.168.41 网段的数据包将走 en0 网口的 192.168.8.1 这个网关传输

于是问题来了, en0 的内网地址是 172.31.41.82, 而 ppp0 地址是 192.168.8.3, 显然最后一行的路由是错的, 因为 en0 在 172 网段内, 根本没有办法找到 192.168.8.1 这个地址, 所以数据库当然连接不上了

解决方案: 删除错误的路由, 建立正确的路由

手动删除并添加:

$ sudo route delete 192.168.41.0
Password:
delete net 192.168.41.0
$ sudo route add 192.168.41.0/24 192.168.8.1
add net 192.168.41.0: gateway 192.168.8.1

再看看路由:

$ netstat -nr
Routing tables

Internet:
Destination        Gateway            Flags        Netif Expire
default            172.31.41.1        UGSc           en0
default            link#18            UCSI          ppp0
1.0.0.1            192.168.8.3        UH            ppp0
127                127.0.0.1          UCS            lo0
127.0.0.1          127.0.0.1          UH             lo0
169.254            link#4             UCS            en0      !
169.254            link#7             UCSI           en1      !
169.254.108.233/32 link#7             UCS            en1      !
169.254.193.72     f0:18:98:f3:f3:84  UHLSW          en0   1057
172.31.41/24       link#4             UCS            en0      !
172.31.41.1/32     link#4             UCS            en0      !
172.31.41.1        42:61:fb:bd:5e:a7  UHLWIir        en0   1191
172.31.41.82/32    link#4             UCS            en0      !
172.31.41.83       f0:18:98:f3:f3:84  UHLWI          en0   1062
172.31.41.84       0:e0:4c:73:12:8    UHLWI          en0   1046
172.31.41.86       14:9d:99:7a:2d:2f  UHLWI          en0   1181
172.31.41.91       f0:18:98:f2:48:54  UHLWI          en0   1146
172.31.41.98       68:5b:35:7c:6b:1c  UHLWIi         en0    320
172.31.41.99       14:9d:99:7a:27:ae  UHLWI          en0   1194
172.31.41.101      14:9d:99:7b:6:c0   UHLWI          en0    746
172.31.41.253      d4:5d:64:d7:0:d9   UHLWIi         en0   1198
192.168.8          ppp0               USc           ppp0
192.168.41         192.168.8.1        UGSc          ppp0
...

这个路由应该是正确了, 直接 telnet 看看:

$ telnet 192.168.41.106 3306
Trying 192.168.41.106...
Connected to 192.168.41.106.
Escape character is '^]'.
...

成功

问题回顾

问题是解决了, 可是为什么会出现呢?

回想了一下操作步骤, 发现了, 这个问题原来是开启代理和添加路由的顺序不对引发的

由于加路由时还没有开代理所以 ppp0 网口并不存在, 添加的路由没法找到 192.168.8 的网段, 所以直接绑定了 en0 网口

重复操作一遍,成功重现问题

真相大白, 这个问题要引以为戒, 保证操作网络的步骤顺序

另外上头给的添加静态路由的命令也过于复杂化了, 多了一些多余的参数

直接

sudo route add 192.168.41.0/24 192.168.8.1

就行了

如果网络中 ppp 协议只有一个网口(假设就叫 ppp0),也可以直接用

sudo route add 192.168.41.0/24 ppp0