百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

Linux 网络错误 TCP: too many orphaned sockets 分析与解决

yund56 2025-07-23 21:44 2 浏览

问题起因:在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务。

当QPS达到几十万以上时,该实例(VPS、云服务器)崩溃,直接僵死状态,且无法再次启动。

使用命令 dmesg 查看系统日志,发现大量日志,如下:

# dmesg
[63286.239125] TCP: too many orphaned sockets
[63286.239129] TCP: too many orphaned sockets
[63286.239133] TCP: too many orphaned sockets
[63286.239136] TCP: too many orphaned sockets
[63665.151037] net_ratelimit: 50 callbacks suppressed
[63665.151063] TCP: too many orphaned sockets
[63665.599039] TCP: too many orphaned sockets
[63665.663052] TCP: too many orphaned sockets

备注:查看系统日志,也可以查出问题,如下:

# vim /var/log/messages
61233 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets
61234 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets
61235 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets
61236 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets
61237 Oct 28 21:58:52 localhost kernel: net_ratelimit: 56 callbacks suppressed
61238 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets
61239 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets
61240 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets

上面的日志,说明 sockets资源耗尽了

一、端口与socket

1、端口

Linux下端口号范围0~65535,其中0~1023是系统保留端口号,

1024~65535是用户可使用端口号,Linux下默认用户可用端口号范围如下:

# cat /proc/sys/net/ipv4/ip_local_port_range
32768   60999

可用端口号为 28232个(60999 - 32768 + 1 = 28232),可以通过参照
https://charlescui.iteye.com/blog/341713 这个链接中的方式修改

2、socket

要明确两点:

1)端口并不等同于socket ,网络中每个通信实体的 socket 是用一个三元组标识的。

三元组指的是:协议族(地址族),网络地址、传输层端口 (某些时候其实也可以把协议族去了,理解为二元组)。socket pair(也就是一个TCP连接中两端的socket)则是(source_ip; source_port; destination_ip; destination_port)组成的四元组,socket pair唯一标识一个网络上的每个TCP连接。其中任意一元不同,都是一个新的新的连接。参考:《TCP-IP详解》卷一

2)在Linux中,一切都可以看成文件,包括磁盘、外设等,内核(kernel)利用文件描述符(file descriptor)来访问文件。文件描述符是非负整数,打开现存文件或新建文件时,内核会返回一个文件描述符。读写文件也需要使用文件描述符来指定待读写的文件。socket是一个抽象出来的概念,本质上也是一个文件描述符。参考:《unix网络编程》·卷1

二、端口耗尽

端口号的可用范围为 0~65535,1024~65535,32768~60999,是有限的,有被耗尽的风险,这种情况一般是出现在客户端机器上的。

因为一般服务端都是固定端口的,由客户端动态的使用一个端口号,与目标服务器连接。

比如下面的客户端代码:

# 创建 socket 对象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
host = '10.32.4.95'
port = 9999
# 连接服务,指定主机和端口
s.connect((host, port))

客户端都是动态的使用一个端口号,来连接服务端(10.32.4.95:9999),如果在客户端上不断的同服务端建立连接,那么客户端端口号可能被耗尽。压测的时候就算是使用短连接,也可能导致客户端端口被耗尽。

因为TCP四次挥手最后过程,主动关闭连接的一端都会处于TIME_WAIT等待2MSL,一般是60s

修改内核参数的目标就是加快TIME_WAIT状态套接字的回收,快速回收无效连接

客户端:

#开启TCP连接中TIME-WAIT套接字的快速回收  
net.ipv4.tcp_tw_recycle=1     
  
#开启重用,表示是否允许将处于TIME-WAIT状态的socket(TIME-WAIT的端口)用于新的TCP连接 。  
net.ipv4.tcp_tw_reuse=1       
  
#对于本端断开的socket连接,TCP保持在FIN-WAIT-2状态的时间(秒)。  
#对方可能会断开连接或一直不结束连接或不可预料的进程死亡。  
net.ipv4.tcp_fin_timeout=5      
  
#TCP时间戳(会在TCP包头增加12个字节),以一种比重发超时更精确的方法(参考RFC 1323)  
#来启用对RTT 的计算,为实现更好的性能应该启用这个选项。  
net.ipv4.tcp_timestamps=1    
  
#收缩TIME_WAIT状态socket的回收时间窗口   
net.ipv4.tcp_tw_timeout=3     

一般也就上面这些参数,参考:

短连接导致端口耗尽

linux下TCP/IP及内核参数优化调优(TIME_WAIT)

三、socket资源耗尽

注意,是套接字资源耗尽,并不是socket耗尽,资源耗尽是指什么呢?

严格来讲,socket是一个三元组(或者说二元组),一抽象出来的东西因此我觉得不存在socket耗尽的说法,但由于socket本质是一个文件描述符,因此存在文件描述符被耗尽的可能,下面再说

引用下这个总结

Linux系统单机支持的tcp连接数主要受三个方面的限制:

1. 文件描述符的限制 (socket本质上也是一个文件描述符)

2. 系统内存限制

3. Linux内核的限制

参考:linux文件描述符限制和单机最大长连接数

对于上面三点,一一说明一下

文件描述符的限制:在64位的系统上,文件描述符单机可以达到20亿+,因此这个限制基本不用考虑,绝对够用

系统内存限制:一个socket连接大概占用4~10Kb内存,要想单机1百万连接,那么就至少需要大概4G内存。这个用量对于现在的服务器来说还是很轻松就满足的

因此最关键的在于 Linux内核的限制,如果突破了这个限制就会出问题。

Linux对TCP、UPD连接是做了内存限制的,通过以下命令查看

cat /proc/sys/net/ipv4/tcp_mem 
186135	248180	372270
 
cat /proc/sys/net/ipv4/udp_mem
372270	496361	744540

上面的数据 (参考连接)

第一个:low:当TCP使用了低于该值的内存页面数时,TCP不会考虑释放内存。

第二个:pressure:当TCP使用了超过该值的内存页面数量时,TCP试图稳定其内存使用,进入pressure模式,当内存消耗低于low值时则退出pressure状态。

第三个:high:允许所有tcp sockets用于排队缓冲数据报的页面量,当内存占用超过此值,系统拒绝分配socket,后台日志输出“TCP: too many of orphaned sockets” (应该是Out of Socket memory)。

如果超过最大限制,dmesg中会报Out of Socket memory错误,且程序会被杀死

上面的数据单位是页,页大小通过以下命令查看

# getconf PAGESIZE
4096

1 page =4096 byte

计算下得到,在我的电脑上Linux默认TCP连接可使用的内存上限是:1.4GB左右,当然了这个是我笔记本上的参数,服务器上的会更大

可以通过如下图所示命令查看tcp socket使用情况

[]

tcp_mem是设定了所有tcp连接能够使用的内存大小,此外对于单个tcp连接还可以调节一下参数:

rmem_max最大的TCP数据接收缓冲

wmem_max最大的TCP数据发送缓冲

tcp_rmem

tcp_wmem

这几个是tcp读写缓冲区的大小。

echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf

对于一般情况来说,上面的操作就已经足够了:保证能提供足够的连接数和足够的内存

但是还应该考虑soconnmax这个参数,这个参数限制了socket接收新 TCP 连接侦听队列的大小,在高并发的请求中,默认的值可能会导致链接超时或者重传。默认是128,挺小的,对于一个经常处理新连接的高负载 web服务环境来说建议调大。

参考:

linux内核调优tcp_max_syn_backlog和somaxconn的区别

理解 Linux backlog/somaxconn 内核参数

随手记之Linux内核Backlog笔记

四、回到正题来

dmesg中出现tcp too many orphaned sockets信息是为什么呢?

HTTPDNS服务器中,一般都是一些短连接,因此会产生大量orphan socket

什么是orphan socket?

First of all: what’s an orphan socket? It’s simply a socket that isn’t associated to a file descriptor. For instance, after you close() a socket, you no longer hold a file descriptor to reference it, but it still exists because the kernel has to keep it around for a bit more until TCP is done with it. Because orphan sockets aren’t very useful to applications (since applications can’t interact with them), the kernel is trying to limit the amount of memory consumed by orphans, and it does so by limiting the number of orphans that stick around. If you’re running a frontend web server (or an HTTP load balancer), then you’ll most likely have a sizeable number of orphans, and that’s perfectly normal.

意思就是说:orphan sockets是没有与任何文件描述符关联的socket,当你调用close()关闭一个socket后,你就不再拥有这个socket的引用了,但是它仍然存在与操作系统中,直到TCP完成挥手流程。因为orphan sockets对程序来说没有什么用,因此内核会限制其数量

Linux内核对orphaned sockets也做出了限制,不同的服务器对应的限制数不同

#####  aliyun  #####
# cat /proc/sys/net/ipv4/tcp_max_orphans
65536

# cat /proc/sys/net/ipv4/tcp_max_orphans
32768

# cat /proc/sys/net/ipv4/tcp_max_orphans
16384

# cat /proc/sys/net/ipv4/tcp_max_orphans
4096

#####  vps  #####
# cat /proc/sys/net/ipv4/tcp_max_orphans
2048

要避免这种情况,可以将tcp_max_orphans的值也设大一点,并且建议同时也参照上述2(快速回收无效连接),3(增加TCP socket可使用内存)进行优化

也看到一些建议修改
net.ipv4.tcp_orphan_retries参数的

问题的解决办法

echo "net.ipv4.ip_local_port_range = 1024 65535" >> /etc/sysctl.conf
echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

相关推荐

遨游于Linux的“老鸟想要一份学习pdf:鸟哥的Linux私房菜学习篇

您是准备学习Linux的“小菜鸟”,却不知道该如何下手?您是遨游于Linux的“老鸟想要一本案头必备的工具书?《鸟哥的Linux私房菜基础学习篇(第四版)》是您绝佳的选择!全新改版,提供您更新的技术...

Nodejs安装、配置与快速入门(nodejs安装要哪个模式)

Nodejs是现代JavaScript语言产生革命性变化的一个主要框架,它使得JavaScript从一门浏览器语言成为可以在服务器端运行、开发各种各样应用的通用语言。在不同的平台下,Nodejs的安装...

Linux 网络错误 TCP: too many orphaned sockets 分析与解决

问题起因:在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务。当QPS达到几十万以上时,该实例(VPS、云服务器)崩溃,直接僵死状态,且无法再次启动。使用命令...

嵌入式Linux系列第2篇:运行Hello World

1.引言今天给大家介绍的是在一个嵌入式Linux板子上运行HelloWorld,软硬件入门学习的经典操作。依稀记得两年前,我第一次在飞思卡尔(现NXP)I.MX6上运行出HelloWorld的那种...

程序员入门必读的5本编程书(程序员入门必读的5本编程书是什么)

万事开头难,编程也是一样。掌握正确的学习方法和进阶路线,能够取到事半功倍的效果。在这里给初学编程的新手程序员,推荐5本入门的编程书籍。这五本书包括C语言、数据结构、算法、LINUX系统,还有数据库。如...

linux命令之重定向(linux重定向的类型和使用方法)

输出重定向bash的输出分为标准输出和错误输出标准输出文件描述符是1错误输出文件描述符是2而输出重定向可以将本应该输出到控制台的内容输出到文件标准输出重定向命令>文件覆盖原文件内容...

linux命令之权限管理(linux权限d)

权限管理命令权限的查看及含义可以使用ls-l来查看每个文件或目录的权限,一共有十位ls-ls-------------------------------------------------...

手摸手教你 CentOS 入门必备基础知识(建议收藏)

这里记录一下我的CentOS学习过程,相当于自己记个笔记,同时分享出来,如果有同学刚好有需要而这个文章帮助到了你的话,在下也会十分开心。文章最后推介了几个免费视频,B站和慕课上的免费学习视频挺多...

linux学习线路图(linux学习视频)

随着android的大热,基于linux的开发也更热了。linux的开发包括driver的开发以及应用程序的开发。由于我们习惯了windows,在开始使用linux的时候可能感觉很茫然,不知道如何下手...

【Python3.13】跟着官网学习Python系列

开篇个人而言,Python是写起来最顺手、看起来最喜欢的编程语言,也是实际工作中使用最多的编程语言。从Python入门,到完全使用Java,再回归Python,编程语言本质上是工具,与Excel、XM...

8个免费自学网站,值得收藏(免费的自学网站大全)

1.智慧教育(国家出品全年龄自学网站)国家教育部开发的线上智慧教育平台,适合从小学到大学到就业各年龄段爱自学的人,主要有三大类:中小学智慧教育一年级到高中三年级自学视频课程,,跟教材完全同步,还能免费...

10个最值得收藏的编程学习网站(好的编程网站)

程序员是一个需要不断学习的职业。幸运的是,在这个互联网时代,知识就在那里,等着我们去获取。以下我列举一些免费的编程学习网站包含多个开发语言Java、php、html、javascript等多个。1、h...

"不会Linux,干啥都费劲!”资深程序员:别再瞎努力了

学习过Linux都知道,它不像Windows是靠鼠标点击操作,而是靠指令和参数进行操控。如果你没系统的学习过它,那么工作时难免要遇到下面这些问题:1)面试开发,因为不会Linux的一个简单参数,马上就...

盘点 20 个编程学习教程网站,建议收藏

欢迎关注@程序员柠檬橙私信回复「1024」获取海量编程学习资源!如果你想学习编程,现在互联网这么方便,不用着急报名培训班,有很多高质量的编程学习资源网站可供你学习,程序员日常浏览的技术教程网站有哪些...

JavaScript 中 new Function() 和 new function() 之间的区别

新人求关注,点击右上角↗关注,博主日更,全年无休,您的关注是我的更新的动力~感谢大家了JavaScript确实很灵活,但这种灵活性也带来了一些困惑。例如,你可以用多种方式来做同一件事,比如创...