对url编解码总结

需要用到urllib库中的parse模块

  1. import urllib.parse
  2. # Python3 url编码
  3. print(urllib.parse.quote("天天"))
  4. # Python3 url解码
  5. print(urllib.parse.unquote("%E5%A4%E5%A4%"))

urlparse()

  1. # urllib.parse.urlparse(urlstring,scheme='',allow_fragments=True)
  2. # urlstring : 这个是必填项,即待解析的URL
  3. result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
  4. print(type(result),result)
  5. # scheme : 它是默认的协议,只有在URL中不包含scheme信息时生效
  6. result = urlparse('www.baidu.com/index.html;user?id=5#comment',scheme='https')
  7. print(result)
  8. # allow_fragments : 即是否忽略fragment 设置成False就会忽略,它会被解析为path,parameters或者query的一部分,而fragment部分为空
  9. result = urlparse('http://www.baidu.com/index.html;user?id=5#comment',allow_fragments=False)
  10. print(result)
  11. # 返回的结果其实是一个元组,我们可以通过索引来获取,也可以用属性名来获取
  12. # ParseResult的属性 scheme(:// 协议),netloc(/ 域名),path(访问路径),params(; 参数),query(查询条件),fragment(# 锚点)
  13. result = urlparse('http://www.baidu.com/index.html;user?id=5#comment',allow_fragments=False)
  14. print(result.scheme,result[0],result.netloc,result[1],sep='\n')

urlunparse()

  1. # urlunparse() 长度必须为6个参数,否则会抛出参数数量不足或者过多的问题
  2. data = ['http','www.baidu.com','index.html','user','a=6','comment']
  3. print(urlunparse(data))

urlsplit()

  1. # urlsplit() 和urlparse()方法很相似,不再解析params 参数
  2. result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment')
  3. print(result)
  4. # 返回的结果其实也是一个元组,我们可以通过索引来获取,也可以用属性名来获取
  5. # SplitResult的属性 scheme(:// 协议),netloc(/ 域名),path(访问路径),query(查询条件),fragment(# 锚点)
  6. result = urlparse('http://www.baidu.com/index.html;user?id=5#comment',allow_fragments=False)
  7. print(result.scheme,result[0])

urlunsplit()

  1. # urlunsplit() 和urlunparse()方法很相似,只不过长度变成5个参数
  2. data = ['http','www.baidu.com','index.html','a=6','comment']
  3. print(urlunsplit(data))

urljoin()

  1. # urljoin() 也是合并链接的一种方式,相比之前俩种方法,没有之前特定的指定参数对象的长度
  2. # urljoin()方法提供俩个参数,base_url(基础链接)作为第一个参数,讲新的链接作为第二个参数,该方法会分析base_url的scheme,netloc和path
  3. # 这三个内容并对新链接确实的部分进行补充,最后返回结果
  4. print(urljoin('http://www.baidu.com','https://cuiqingcai.com/FAQ.html'))
  5. print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html'))
  6. print(urljoin('http://www.baidu.com','FAQ.html'))
  7. print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html?question=2'))
  8. print(urljoin('http://www.baidu.com?wd=abc','https://cuiqingcai.com/index.php'))
  9. print(urljoin('http://www.baidu.com','?category=2#comment'))
  10. print(urljoin('www.baidu.com','?category=2#comment'))
  11. print(urljoin('www.baidu.com#comment','?category=2'))

urlencode()

  1. # urlencode() 序列化字典类型转换为请求类型
  2. params = {
  3. 'name' : 'germey',
  4. 'age' : 22
  5. }
  6. base_url = 'http://www.baidu.com?'
  7. url = base_url + urlencode(params)
  8. print(url)

parse_qs()

  1. # parse_qs() 反序列化将请求参数转回字典参数
  2. from urllib.parse import parse_qs
  3. query = 'name=germey&age=22'
  4. params = parse_qs(query)
  5. print(params)

parse_qs1()

  1. # parse_qs1() 它用于把参数转化为元组组成的列表
  2. from urllib.parse import parse_qsl
  3. query = 'name=germey&age=22'
  4. params = parse_qsl(query)
  5. print(params)

quote()

  1. # quote() 该方法可以将内容转化为URL编码的格式,URL中带有中文参数时,又是可能会导致乱码的问题,用这个方法可以将中文字符转化为URL编码
  2. from urllib.parse import quote
  3. keyword = '壁纸'
  4. url = 'http://www.baidu.coms?wd='+quote(keyword)
  5. print(url)

unquote()

  1. # unquote() 它对应上面的方法, 可以进行URL解码
  2. from urllib.parse import unquote
  3. url = 'http://www.baidu.coms?wd=%E5%A3%81%E7%BA%B8'
  4. print(unquote(url))

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:http://wakemeupnow.cn/article/urllib/