Socket 起源于 Unix,而Unix基本哲学之一就是一切皆文件
,都可以用“打开open –> 读写write/read –> 关闭close
”模式来操作。Socket就是该模式的一个实现,网络的Socket数据传输是一种特殊的I/O,Socket也是一种文件描述符。
Socket也具有一个类似于打开文件的函数调用:Socket(),该函数返回一个整型的Socket描述符,随后的连接建立、数据传输等操作都是通过该Socket实现的。使用TCP/IP协议的应用程序通常采用应用编程接口:UNIX BSD的套接字(socket)和UNIX System V的TLI(已经被淘汰),来实现网络进程之间的通信。
套接字的特性由3个属性确定,它们分别是:域、类型和协议。
-
套接字的域:它指定套接字通信中使用的网络介质,最常见的套接字域是AF_INET,它指的是Internet网络。当客户使用套接字进行跨网络的连接时,它就需要用到服务器计算机的IP地址和端口来指定一台联网机器上的某个特定服务,所以在使用socket作为通信的终点,服务器应用程序必须在开始通信之前绑定一个端口,服务器在指定的端口等待客户的连接。另一个域AF_UNIX表示UNIX文件系统,它就是文件输入/输出,而它的地址就是文件名。
-
套接字类型:因特网提供了两种通信机制:流(stream)和数据报(datagram),因而套接字的类型也就分为流套接字和数据报套接字。这里主要讲流套接字。
流套接字由类型SOCK_STREAM指定,它们是在AF_INET域中通过TCP/IP连接实现,同时也是AF_UNIX中常用的套接字类型。流套接字提供的是一个有序、可靠、双向字节流的连接,因此发送的数据可以确保不会丢失、重复或乱序到达,而且它还有一定的出错后重新发送的机制。
与流套接字相对的是由类型SOCK_DGRAM指定的数据报套接字,它不需要建立连接和维持一个连接,它们在AF_INET中通常是通过UDP/IP协议实现的。它对可以发送的数据的长度有限制,数据报作为一个单独的网络消息被传输,它可能会丢失、复制或错乱到达,UDP不是一个可靠的协议,但是它的速度比较高,因为它并一需要总是要建立和维持一个连接。
-
套接字协议:只要底层的传输机制允许不止一个协议来提供要求的套接字类型,我们就可以为套接字选择一个特定的协议。通常只需要使用默认值。
既然socket是“open—write/read—close”模式的一种实现,那么socket就提供了这些操作对应的函数接口。下面以TCP为例,介绍几个基本的socket接口函数。
socket函数
:使用给定的协议族、套接字类型、协议编号(默认为0)来创建套接字。
socket函数对应于普通文件的打开操作。普通文件的打开操作返回一个文件描述字,而socket()用于创建一个socket描述符(socket descriptor),它唯一标识一个socket。这个socket描述字跟文件描述字一样,后续的操作都有用到它,把它作为参数,通过它来进行一些读写操作。
int socket(int domain, int type, int protocol);
socket函数的三个参数分别为:
- domain:
协议域
。常用的协议族有AF_INET、AF_INET6等。协议族决定了socket的地址类型,在通信中必须采用对应的地址,如AF_INET决定了要用ipv4地址(32位的)与端口号(16位的)的组合。 - type:
socket类型
。常用的socket类型有,SOCK_STREAM、SOCK_DGRAM、SOCK_RAW、SOCK_PACKET、SOCK_SEQPACKET等等。 - protocol:
指定协议
。常用的协议有,IPPROTO_TCP、IPPTOTO_UDP等,它们分别对应TCP传输协议、UDP传输协议。
注意:type和protocol不可以随意组合的,如SOCK_STREAM不可以跟IPPROTO_UDP组合。当protocol为0时,会自动选择type类型对应的默认协议。
我们调用socket创建一个socket后,返回的socket描述符存在于协议族空间中,但没有一个具体的地址。如果想要给它赋值一个地址,就必须调用bind()函数,否则就当调用connect()、listen()时系统会自动随机分配一个端口。
bind函数
:将套接字绑定到地址。
int bind(int sockfd, struct sockaddr * my_addr, int addrlen);
三个参数分别为:
- sockfd : 即socket描述字,通过socket()函数创建,唯一标识一个socket。
- my_addr : 结构体指针变量,指向要绑定给sockfd的协议地址。这个地址结构根据地址创建socket时的地址协议族的不同而不同。
- addrlen : 对应的是地址的长度。
通常服务器在启动的时候都会绑定一个地址(如ip地址+端口号),用于提供服务,客户就可以通过它来接连服务器;而客户端就不用指定,系统自动分配一个端口号和自身的ip地址组合。这就是为什么通常服务器端在listen之前会调用bind(),而客户端就不会调用,而是在connect()时由系统随机生成一个。
listen函数
:使服务器的这个端口和IP处于监听状态,等待网络中某一客户机的连接请求。如果客户端有连接请求,端口就会接受这个连接。
int listen(int sockfd, int backlog);
两个参数分别为:
- sockfd: socket描述字。
- backlog:
指定同时能处理的最大连接要求,通常为10或者5。最大值可设至128。参见 Socket_Listen 的详细说明。
accept函数
:接受远程计算机的连接请求,建立起与客户机之间的通信连接。服务器处于监听状态时,如果某时刻获得客户机的连接请求,此时并不是立即处理这个请求,而是将这个请求放在等待队列中,当系统空闲时再处理客户机的连接请求。
int accept(int sockfd, struct sockaddr * addr,int * addrlen);
三个参数分别为:
- sockfd : socket描述字。
- addr: 为结构体指针变量,和bind的结构体是同种类型的,系统会把远程主机的信息(远程主机的地址和端口号信息)保存到这个指针所指的结构体中。
- addrlen : 表示结构体的长度
accept的第一个参数为服务器的socket描述字,是服务器开始调用socket()函数生成的,称为监听socket描述字
;而accept函数返回的是已连接的socket描述字
。一个服务器通常通常仅仅只创建一个监听socket描述字,它在该服务器的生命周期内一直存在。内核为每个由服务器进程接受的客户连接创建了一个已连接socket描述字,当服务器完成了对某个客户的服务,相应的已连接socket描述字就被关闭。
connect函数
用来请求连接远程服务器.
int connect (int sockfd,struct sockaddr * serv_addr,int addrlen);
三个参数分别为:
- sockfd : socket描述字,前面socket的返回值;
- serv_addr : 存储着远程服务器的IP与端口号信息;
- addrlen : 表示结构体变量的长度。
recv函数
:负责从缓冲区中读取内容。当读成功时,read返回实际所读的字节数,如果返回的值是0表示已经读到文件的结束了,小于0表示出现了错误。
int recv(int sockfd,void *buf,int len,unsigned int flags);
四个参数分别为:
- sockfd : 为前面accept的返回值.也就是新的套接字。
- buf : 表示缓冲区
- len : 表示缓冲区的长度
- flags : 通常为0
send函数
:将buf中的n bytes字节内容写入socket描述字。成功时返回写的字节数。失败时返回-1,并设置errno变量。
int send(int sockfd,const void * msg,int len,unsigned int flags);
- sockfd : 为前面socket的返回值.
- msg : 一般为常量字符串
- len : 表示长度
- flags : 通常为0
close函数
:关闭套接字。若顺利关闭则返回0,发生错误时返回-1。
int close(int sockfd);
TCP中 Socket 通信的基本步骤如下:
一个简单的 C/S 程序如下(客户端发出的数据, 服务器会回显到客户端的终端上。只是一个简单的模型, 没考虑错误处理等问题。)
服务器端如下:
import socket # socket模块
BUF_SIZE = 1024 # 设置缓冲区大小
server_addr = ('127.0.0.1', 8888) # IP和端口构成表示地址
server = socket.socket(socket.AF_INET,
socket.SOCK_STREAM) # 生成一个新的socket对象
server.setsockopt(socket.SOL_SOCKET,
socket.SO_REUSEADDR, 1) # 设置地址复用
server.bind(server_addr) # 绑定地址
server.listen(5) # 监听, 最大监听数为5
while True:
client, client_addr = server.accept() # 接收TCP连接, 并返回新的套接字和地址
print 'Connected by', client_addr
while True:
data = client.recv(BUF_SIZE) # 从客户端接收数据
print data
client.sendall(data) # 发送数据到客户端
server.close()
客户端如下:
import socket
BUF_SIZE = 1024
server_addr = ('127.0.0.1', 8888)
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
client.connect(server_addr)
while True:
data = raw_input("Please input some string > ")
client.sendall(data)
data = client.recv(BUF_SIZE)
print data
client.close()
不过真实的网络编程环境中,一定要使用大量的错误处理,可以尽量的发现错误,也能够使代码显得更加严谨。
三次握手 SYN_SENT connect() 阻塞 --- accept() 阻塞 SYS_RCV ESTABLISHED connect() 返回 --- accept() 返回 ESTABLISHED
四次挥手 FIN_WAIT1 close() 阻塞 --- read() 读 0 字节 LAST_ACK FIN_WAIT2 close()
sendto()
函数:发送UDP数据,将数据发送到套接字。返回实际发送的数据字节长度或在出现发送错误时返回-1。
int sendto(int sockfd, const void *msg,int len,unsigned int flags,const struct sockaddr *to, int tolen);
recvfrom()
函数:接受UDP套接字的数据, 与recv()类似。返回接收到的字节数或当出现错误时返回-1,并置相应的errno。
int recvfrom(int sockfd,void *buf,int len,unsigned int flags,struct sockaddr *from,int *fromlen);
UDP通信流程图如下:
简单的客户端服务器UDP连接,服务器端:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import socket
BUF_SIZE = 1024 # 设置缓冲区大小
server_addr = ('127.0.0.1', 8888) # IP和端口构成表示地址
# 生成新的套接字对象
server = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
server.bind(server_addr) # 套接字绑定IP和端口
while True:
print "waitting for data"
# 从客户端接收数据
data, client_addr = server.recvfrom(BUF_SIZE)
print 'Connected by', client_addr, ' Receive Data : ', data
# 发送数据给客户端
server.sendto(data, client_addr)
server.close()
客户端如下:
import socket
BUF_SIZE = 1024 # 设置缓冲区
server_addr = ('127.0.0.1', 8888) # IP和端口构成表示地址
client = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
while True:
data = raw_input('Please Input data > ')
client.sendto(data, server_addr) # 向服务器发送数据
data, addr = client.recvfrom(BUF_SIZE) # 从服务器接收数据
print "Data : ", data
client.close()
Socket通信原理简介
简单理解Socket
Python爬虫(三)-Socket网络编程
Linux Socket编程(不限Linux)