万维网WWW

2022.08.21

799701667637178_.pic

WWW的概念与组成结构

万维网(World Wide Web,WWW)是一个分布式、联机式的信息存储空间,在这个空间中:一样有用的事物称为一样“资源”,并由一个全域“统一资源定位符”(URL)标识。这些资源通过超文本传输协议(HTTP)传送给使用者,而后者通过单击链接来获取资源。

万维网使用链接的方法能非常方便地从因特网上的一个站点访问另一个站点(即"链接到另一个站点"),从而主动地按需获取丰富的信息。超文本标记语言(HyperText Markup Language, HTML)使得万维网页面的设计者可以很方便地用一个超链接从本页面的某处链接到因特网上的任何一个万维网页面,并能够在自己的计算机屏幕上显示这些页面。

万维网的内核部分是由三个标准构成的:

URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁表示。URL相当于一个文件名在网络范围的扩展。URL的一般形式是:<协议>://<主机><端口><路径>

<协议>指用什么协议来获取万维网文档,常见的协议有http、ftp等;

<主机>是存放资源的主机在因特网中的域名或IP地址:<端口>和<路径>有时可省略。在URL中不区分大小写。

万维网以客户/服务器方式工作。浏览器是在用户主机上的万维网客户程序,而万维网文档所驻留的主机则运行服务器程序,这台主机称为万维网服务器。客户程序向服务器程序发出请求,服务器程序向客户程序送回客户所要的万维网文档。工作流程如下:

  1. Web用户使用浏览器(指定URL)与Web服务器建立连接,并发送浏览请求。
  2. Web服务器把URL转换为文件路径,并返回信息给Web浏览器。
  3. 通信完成,关闭连接。

万维网是无数个网络站点和网页的集合,它们在一起构成了因特网最主要的部分(因特网也包括电子邮件、Usenet和新闻组)。

超文本传输协议(HTTP)

HTTP定义了浏览器(万维网客户进程)怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。从层次的角度看,HTTP是面向事务的(Transaction-oriented)应用层协议,它规定了在浏览器和服务器之间的请求和响应的格式与规则,是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

HTTP操作过程

从协议执行过程来说,浏览器要访问WWW服务器时,首先要完成对WWW服务器的域名解析。一旦获得了服务器的IP地址,浏览器就通过TCP向服务器发送连接建立请求。万维网的大致工作过程如图所示。每个万维网站点都有一个服务器进程,它不断地监听TCP的端口80(默认),当监听到连接请求后便与浏览器建立TCP连接。然后,浏览器就向服务器发送请求获取某个Web页面的HTTP请求。服务器收到请求后,将构建所请求Web页的必需信息,并通过HTTP响应返回给浏览器。浏览器再将信息进行解释,然后将Web页显示给用户。最后,TCP连接释放。

img

在浏览器和服务器之间的请求与响应的交互,必须遵循规定的格式和规则,这些格式和规则就是HTTP。因此HTTP有两类报文:请求报文(从Wb客户端向Web服务器发送服务请求)和响应报文(从Web服务器对Web客户端请求的回答)。用户单击鼠标后所发生的事件按顺序如下(以访问清华大学的网站为例):

1)浏览器分析链接指向页面的URL(http://www.tsinghua.edu.cn/chn/index.htm)。

2)浏览器向DNS请求解析www.tsinghua.edu.cn的IP地址。

3)域名系统DNS解析出清华大学服务器的IP地址。

4)浏览器与该服务器建立TCP连接(默认端口号为80)。

5)浏览器发出HTTP请求:GET/chn/index.htm。

6)服务器通过HTTP响应把文件index.htm发送给浏览器。

7)释放TCP连接。

8)浏览器解释文件index.htm,并将Web页显示给用户。

HTTP特点

Keywords:

  1. HTTP使用TCP。

  2. Cookie,为用户产生唯一识别码,set-cookie。

  3. HTTP/1.0,非持久链接。一个请求两个RTT(建立TCP+传文件)。

  4. HTTP/1.1,持久链接。

    1. 非流水线方式:请求一个文件发一个。
    2. 流水线方式:逐个地连续发出对各个引用对象的请求。
  5. HTTP/1 to HTTP/2 to HTTP/3(中英字幕)

HTTP使用TCP作为运输层协议,保证了数据的可靠传输。HTTP不必考虑数据在传输过程中被丢弃后又怎样被重传。但是,HTTP本身是无连接的(务必注意)。也就是说,虽然HTTP使用了TCP连接,但通信的双方在交换HTTP报文之前不需要先建立HTTP连接。HTTP是无状态的。也就是说,同一个客户第二次访问同一个服务器上的页面时,服务器的响应与第一次被访问时的相同。因为服务器并不记得曾经访问过的这个客户,也不记得为该客户曾经服务过多少次。

HTTP的无状态特性简化了服务器的设计,使服务器更容易支持大量并发的HTTP请求。在实际应用中,通常使用Cookie加数据库的方式来跟踪用户的活动(如记录用户最近浏览的商品等)。Cookie的工作原理:当用户浏览某个使用Cookie的网站时,该网站服务器就为用户产生一个唯一的识别码,如“123456”,接着在给用户的响应报文中添加一个Set-cookie的首部行“Set cookie:123456”。用户收到响应后,就在它管理的特定Cookie文件中添加这个服务器的主机名和Cookie识别码,当用户继续浏览这个网站时,会取出这个网站的识别码,并放入请求报文的Cookie首部“Cookie::123456”。服务器根据请求报文中的Cookie识别码就能从数据库中查询到该用户的活动记录,进而执行一些个性化的工作,如根据用户的历史浏览记录向其推荐新品等。

HTTP既可以使用非持久连接,也可以使用持久连接(HTTP/1.1支持)。对于非持久连接,每个网页元素对象(如JPEG图形、Flash等)的传输都需要单独建立一个TCP连接,如图所示(第三次握手的报文段中捎带了客户对万维网文档的请求)。请求一个万维网文档所需的时间是该文档的传输时间(与文档大小成正比)加上两倍往返时间RTT(一个RTT用于TCP连接,另一个RTT用于请求和接收文档)。每个对象引用都导致2xRTT的开销,此外每次建立新的TCP连接都要分配缓存和变量,使万维网服务器的负担很重。所谓持久连接,是指万维网服务器在发送响应后仍然保持这条连接,使同一个客户(浏览器)和该服务器可以继续在这条连接上传送后续的HTTP请求和响应报文,如图所示。

img

持久连接又分为非流水线和流水线两种方式。对于非流水线方式,客户在收到前一个响应后才能发出下一个请求,服务器发送完一个对象后,其TCP连接就处于空闲状态,浪费了服务器资源。HTTP/1.1的默认方式是使用流水线的持久连接,这种情况下,客户每遇到一个对象引用就立即发出一个请求,因而客户可以逐个地连续发出对各个引用对象的请求。如果所有的请求和响应都是连续发送的,那么所有引用的对象共计经历1个RTT延迟,而不是像非流水线方式那样,每个引用都必须有1个RTT延迟。这种方式减少了TCP连接中的空闲时间,提高了效率。

HTTP的报文结构

Keywords:

  1. 请求报文与相应报文格式
  2. GET、HEAD、POST、CONNECT

HTTP是面向文本的(Text-Oriented),因此报文中的每个字段都是一些ASCII码串,并且每个字段的长度都是不确定的。有两类HTTP报文:

img

请求报文:从客户向服务器发送的请求报文

响应报文:从服务器到客户的回答

HTTP请求报文和响应报文都由三个部分组成。从图可以看出,这两种报文格式的区别就是开始行不同。

开始行:用于区分是请求报文还是响应报文。在请求报文中的开始行称为请求行,而在响应报文中的开始行称为状态行。开始行的三个字段之间都以空格分隔,最后的“CR”和“LF”分别代表“回车”和“换行”。请求报文的“请求行”有三个内容:方法、请求资源的URL及HTTP的版本。其中,“方法”是对所请求对象进行的操作,这些方法实际上也就是一些命令。表中给出了HTTP请求报文中常用的几个方法。

img

首部行:用来说明浏览器、服务器或报文主体的一些信息。首部可以有几行,但也可以不使用。在每个首部行中都有首部字段名和它的值,每一行在结束的地方都要有“回车”和“换行”。整个首部行结束时,还有一空行将首部行和后面的实体主体分开。

实体主体:在请求报文中一般不用这个字段,而在响应报文中也可能没有这个字段。

下图所示为使用Wireshark捕获的HTTP请求报文的示例,下面结合前几章的内容对请求报文(图中下部分)进行分析。根据帧的结构定义,在图6.15所示的以太网数据帧中,第1~6个字节为目的MAC地址(默认网关地址),即00-0fe2-3f-27-3f;第7~12个字节为本机MAC地址,即00-27-13-67-73-8d;第1314个字节08~00为类型字段,表示上层使用的是IP数据报协议。第15~34个字节(共20B)为P数据报的首部,其中第27~30个字节为源P地址,即db-df-d2-70,转换成十进制为219.223.210.112;第3134个字节为目的P地址,即71-69-4e-0a,转换成十进制为113.105.78.10。第35~54个字节(共20B)为TCP报文段的首部。从第55个字节开始才是T℃P数据部分(阴影部分),即从应用层传递下来的数据(本例中即请求报文),GET对应请求行的方法,/face/20gif对应请求行的URL,HTTP/1.1对应请求行的版本,左边数字是对应字符的ASCIl码,如'G'=0x47、E=0x45、T=0x54等。图6.15的请求报文中首部行字段内容的含义,建议读者自行了解,也可以自己动手抓包分析。

img

右下角开始的“…??.'gs…E.%@.@.0…pgi”等是上面介绍过的第1一54个字节中对应的ASCI码字符,而这些字符在这里不代表任何意义。

应用程序协议端口号
FTP数据连接TCP20
FTP控制链接TCP21
TELNETTCP23
SMTPTCP25
DNSUDP53
TFTPUDP69
HTTPTCP80
POP3TCP110
SNMPUDP161