socket,检测连接丢失

我正在使用TCP连接连接服务器进程和客户端进程,我必须检测
两台机器之间的物理连接断开了。 我正在尝试使用keepalive,
将默认系统范围值减小为:

TCP_KEEPIDLE = 5
TCP_KEEPCNT = 5
TCP_KEEPINTVL = 1

当连接断开(我断开电缆)时,只有服务器在10秒内检测到连接已丢失,客户端只挂起发送。

这是客户端代码:

#include  #include  #include  #include  #include  #include  #include  int main(int argc, char** argv) { char myVector[1600]; int mySocket = socket(AF_INET, SOCK_STREAM, IPPROTO_IP); if (mySocket < 0 ) { std::cout << "error creating the socket" << strerror(errno) << std::endl; ::exit(-1); } struct sockaddr_in sin; memset( (char *)&sin, 0, sizeof( sin ) ); sin.sin_addr.s_addr = inet_addr("192.168.21.27"); sin.sin_port = htons(7788); sin.sin_family = AF_INET; if ( connect( mySocket, (struct sockaddr *)&sin, sizeof( sin )) < 0 ) { std::cout << "Error on connection: " << strerror(errno) << std::endl; ::exit(-1); } int optval = 1; socklen_t optlen = sizeof(optval); /*Enabling keep alive*/ if(setsockopt(mySocket, SOL_SOCKET, SO_KEEPALIVE, &optval, optlen) < 0) { std::cout << "Error setting SO_KEEPALIVE: " << strerror(errno) << std::endl; } optval = 5; optlen = sizeof(optval); if(setsockopt(mySocket, SOL_TCP, TCP_KEEPIDLE, &optval, optlen) < 0) { std::cout << "Error setting TCP_KEEPIDLE: " << strerror(errno) << std::endl; } optval = 5; optlen = sizeof(optval); if(setsockopt(mySocket, SOL_TCP, TCP_KEEPCNT, &optval, optlen) < 0) { std::cout << "Error setting TCP_KEEPCNT: " << strerror(errno) << std::endl; } optval = 1; optlen = sizeof(optval); if(setsockopt(mySocket, SOL_TCP, TCP_KEEPINTVL, &optval, optlen) < 0) { std::cout << "Error setting TCP_KEEPINTVL: " << strerror(errno) << std::endl; } for (;;) { ssize_t myRet= ::send(mySocket, myVector, sizeof(myVector), 0); if (myRet < 0) { std::cout << "Error: " << strerror(errno) << std::endl; break; } std::cout << myRet << "."; std::cout.flush(); sleep(1); } } 

我确定我错过了什么,但是什么?

TCP Keepalive不适用于此用途。

如果要检测应用程序层的中断,请执行SSH,IMAP和IRC之类的协议 – 在应用程序层实现echo / ping类型的消息。 定期发送,如果没有及时回复,可以假定连接已关闭。

我们不久前在我们公司想到了这个问题:“如何检测到这种连接失败了?”。 为了可靠地解决这个问题,我们必须实现一个“心跳”系统,即客户端通过执行伪ping来定期检查(在我们的情况下每秒)服务器仍在那里。 如果您不想这样做,您可以等待操作系统实际检测到连接断开,但不要指望它是可靠的……

因此,在进一步调查之后,即使“TCP Keepalive”不是用于此用途,我发现保持活动探测器开始在“空闲连接”上发送。 问题是:“当连接被认为处于空闲状态时?”。 当没有数据“被传输”时,连接被认为是空闲的,因此如果两个对等端中的一个在发送(…)上被阻塞,则实际上有一些数据被传输并且该连接不被认为是空闲的。 我想我现在唯一的选择是使用带有超时的send / recv进行ping / pong,当这些计时器到期时声明连接“丢失”。

Gaetano,IMO,TCP keep-alives可用于检测死连接。 在您的示例中,客户端可能实际上挂在发送中等待TCP重试耗尽自己。 根据退避算法和TCP堆栈状态机,这可以持续几分钟而没有任何保持活动的探测器,因此无法耗尽keepcnt。

我假设服务器主要是读取阻塞的,在这种情况下,它的keep-alives将在每个keepidle / slowhz秒发出(slowhz通常是2而不是1),它会很快检测到连接丢失。

如果使用tcpdump捕获数据包跟踪,您将确切地看到网络上发生了什么。

您应该用IPPROTO_TCP替换SOL_TCP
有关更多信息,请访问以下链接

  • TCP-保持连接-HOWTO
  • 套接字keepalive无法正常工作