阳光小饺子的空间

CET6

2021-09-16T05:13:54.000Z

还没开始·····················

Python爬虫学习笔记

2021-07-24T05:13:54.000Z

真不戳！！！🙄

ZY.Zhang
本文档基于B站视频教程

一、爬虫基础简介

1. 爬虫简介

**什么是爬虫：**通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2. 爬虫合法性探究

爬虫究竟是合法还是违法的？

在法律中是不被禁止的
具有违法风险
善意爬虫 & 恶意爬虫

爬虫带来的风险可以体现在如下两个方面：

爬虫干扰了被访问网站的正常运营
爬虫抓取了受到法律保护的特定类型的数据或信息

如何在编写使用的过程中避免进入局子的厄运？

时常优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私或者商业机密等敏感内容，需要及时停止爬取或者传播。

3. 爬虫初试深入

爬虫在使用场景中的分类：

**通用爬虫：**抓取系统的重要组成部分。抓取的是一整张页面数据。
**聚焦爬虫：**是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
**增量式爬虫：**监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬虫的矛与盾：

**反爬机制：**门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
**反反爬策略：**爬虫程序，可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

**robots.txt协议：**君子协议。规定了网站中那些数据可以被爬虫爬取，那些数据不允许被爬取。

例如：www.tabao.com/robots.txt

4. http&https协议

（1）http协议

**概念：**就是服务器和客户端进行数据交互的一种形式。

常用请求头信息：

**User-Agent：**请求载体的身份标识
**Connection：**请求完毕后，是断开连接还是保持连接

常用响应头信息：

**Content-Type：**服务器响应回客户端的数据类型

（2）https协议

**概念：**安全的超文本传输协议

（3）加密方式

对称秘钥加密
非对称秘钥加密
存在缺点：第一个是如何保证接收端向发送端发出公开秘钥的时候，发送端确保收到的是预先要发送的，而不会被挟持，只要是发送秘钥，就有可能有被挟持的风险；第二个是非对称秘钥加密方式效率比较低，处理起来更为复杂，通信过程中使用就有一定的效率问题而影响通信速度。
证书秘钥加密：
- 服务器的开发者携带公开密钥，向数字证书认证机构提出公开密钥的申请，数字证书认证机构在认清申请者的身份审核通过以后，会对开发者申请的公开密钥做数字签名，然后分配这个已签名的公开密钥，并将密钥放在证书里面，绑定在一起；
- 服务器将这份数字证书发送给客户端，因为客户端也认可证书机构，客户端可以通过数字证书中的数字签名来验证公钥的真伪，来确保服务器传过来的公开密钥是真实的。一般情况下，证书的数字签名是很难被伪造的，这取决于认证机构的公信力。一旦确认信息无误之后，客户端就会通过公钥对报文进行加密发送，服务器接收到以后用自己的私钥进行解密。

二、requests模块基础

1. requests第一血

**requests模块：**Python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。

**作用：**模拟浏览器发请求。

如何使用：（requests模块的编码流程）

指定 url
发起请求
获取响应数据
持久化存储

环境的安装：pip install requests

实战编码：

需求：爬取搜狗首页的数据

import requests
if __name__ == '__main__':
    #step1 指定url
    url = 'https://www.sogou.com/'
    #step2 发起请求
    #get方法会返回一个响应对象
    response = requests.get(url = url)
    #step3 获取响应数据，text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    #step4 持久化存储
    with open('./sogou.html','w',encoding = 'utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！')

2. requests巩固深入案例介绍

（1）简易网页采集器

UA检测
UA伪装

#UA：User-Agent请求载体的身份标识
'''UA检测：门户网站的服务器会监测对应请求的载体身份标识，
如果检测到请求载体身份标识是某一款浏览器,说明该请求时一个正常的请求；
但是，如果检测到请求的载体身份不是基于某一款浏览器的，则表示该请求为不正常请求（爬虫）,
则服务器很有可能拒绝该次请求'''

#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器，躲过UA检测
import requests
if __name__ == '__main__':
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    #step1 指定url query
    url = 'https://www.sogou.com/web'
    #处理url携带的参数 封装到字典中
    kw = input('Enter a word:')
    param ={
        'query':kw
    }
    #step2 对指定的url发起请求，对应的url是携带参数的，并且处理过程中处理了参数
    response = requests.get(url = url,params = param,headers = headers)
    #step3
    page_text = response.text
    #step4
    fileName = kw + '.html'
    with open(fileName,'w',encoding ='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功！！')

（2）破解百度翻译

post请求（携带了参数）
响应数据是一组json数据

import requests
import json
if __name__ == '__main__':
    #step1 指定URL
    post_url = 'https://fanyi.baidu.com/sug'
    
    #step2 进行UA伪装
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    
    #step3 post请求参数处理（同get请求类似）
    word = input('Enter a word:\n')
    data = {
        'kw':word
    }
    
    #step4 请求发送
    response = requests.post(url = post_url,data = data,headers = headers)
    
    #step5 获取响应数据:json()方法返回的是obj  (如果确认响应数据是json类型-->通过Content-Type分辨，才可以直接用json方法)
    dict_obj = response.json()
    print(dict_obj)
    
    #step6 持久化存储
    fileName = word + '.json'
    fp = open(fileName,'w',encoding='utf-8')
    json.dump(dict_obj,fp = fp,ensure_ascii = False)
    
    print('Over!')

（3）豆瓣电影

import requests
import json
if __name__ == '__main__':
    url = 'https://movie.douban.com/j/chart/top_list'
    param = {
        'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'0',#从库中的第几部电影去取
        'limit':'20'#一次取出的个数
    }
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    response = requests.get(url = url,params = param,headers = headers)
    list_data = response.json()
    fp = open('./douban.json','w',encoding = 'utf-8')
    json.dump(list_data,fp = fp,ensure_ascii = False)
    print('Over!')

3. 作业—肯德基餐厅查询

import requests
import json

if __name__ == '__main__':
    post_url = 'https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    keyword = input('请输入要查询的城市：')

    data ={
        'cname': '',
        'pid': '',
        'keyword': keyword,
        'pageindex': '1',
        'pageSize': '10'
    }
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    response = requests.post(url = post_url, data = data, headers = headers)

    # 持久化存储
    # page_text = response.text
    # fileName = keyword + '.html'
    # with open(fileName, 'w', encoding= 'utf-8') as fp:
    #     fp.write(page_text)
    # print(fileName, 'Over!')

    # 直接打印出来
    page = response.json()
    for dict in page['Table1']:
        StoreName = dict['storeName']
        address = dict['addressDetail']
        print('StoreName:' + StoreName, 'address:' + address + '\n')

4. 综合练习—药监总局

爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据（http://scxk.nmpa.gov.cn:81/xk/）
**动态加载数据：**首页中对应的企业信息是通过 ajax 动态请求到的
通过对详情页url的观察发现：
- url的域名都是一样的，只有携带的参数（id）不一样
- id值可以从首页对应的 ajax 请求到的 json 串中获取
- 域名和id值拼接出一个完整的企业对应的详情页的url
详情页的企业详情数据也是动态加载出来的！！！
- 观察后发现，所有 post 请求的url都是一样的，只有参数id值不同
- 如果我们可以批量获取多家企业的id后，就可以就id和url形成一个完整的详情页对应详情数据的 ajax 请求的url

import requests
import json

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    id_list = []  # 存储企业的id
    all_data_list = []  # 存储企业所有的详情数据
    # 批量获取不同企业的id值
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    # 参数的封装
    for page in range(1, 11):
        page = str(page)
        data = {
            'on': 'true',
            'page': page,
            'pageSize': '15',
            'productName': '',
            'conditionType': '1',
            'applyname': '',
            'applysn': '',
        }
    json_ids = requests.post(url=url, headers=headers, data=data).json()
    # 从 json_ids 字典中拿到 list 对应的 value 值，对 value 值列表进行遍历
    for dic in json_ids['list']:
        id_list.append(dic['ID'])
    # print(id_list,'\n')

    # 获取企业详情数据,也是动态加载出来的，携带一个参数 id，其值可以通过前一步生成的 id列表提取
    post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    for id in id_list:
        data = {
        'id': id
        }

        json_detail = requests.post(url=post_url, data=data, headers=headers).json()
        #print(json_detail, '-------------END----------')
        all_data_list.append(json_detail )
        all_data_list.append('---------------------------------------------------------')


    # 持久化存储all_data_list
    fp = open('./allData.json', 'w', encoding='utf-8')
    json.dump(all_data_list, fp=fp, ensure_ascii=False, indent= True)  # indent 自动排版
    print('Over!')

三、数据解析

1. 数据解析概述

**聚焦爬虫：**爬取页面中指定的页面内容。
- 编码流程：1. 指定URL → 2. 发起请求 → 3. 获取响应数据 → 4. 数据解析 → 5. 持久化存储
数据解析分类：
- 正则表达式
- bs4 解析
- xpath 解析（重点）
**数据解析原理概述：**解析的局部的文本内容都会在标签对应的属性中进行存储。
- 进行指定标签的定位
- 标签或者标签对应的属性中存储的数据值进行提取（解析）

2. 图片数据爬取—正则表达式

操作符	说明	实例
.	表示任意单个字符
[ ]	字符集，对单个字符给出取值范围	[abc]表示a,b,c,[a-z]表示a-z的
[^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*****	前一个字符0次或无限次扩展	abc* 表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+ 表示abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc？表示ab、abc
\|	左右表达式任意一个	abc\|def 表示abc、def

{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符m至n次（含n）	ab{1，2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
( )	分组标记，内部只能使用\|操作符	(abc)表示abc，(abc\|def)表示abc、def
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Za-z0-9_]

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜搜字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别匹配
re.M	多行匹配，影响^和$
re.S	使.匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符，这个标志影响\w,\W,\b,\B
re.X	该标志通过给予你跟灵活的格式以便你将正则表达式写得更易于理解

常用的正则表达式

单字符：
.:除换行以外所有字符

[ ]: [aoe]  [a-w] 匹配集合中任意一个字符

\d:数字 [0-9]

\D:非数字

\w:数字、字母、下划线、中文

\W:非\w

\s :所有的空白字符包，包括空格、制表符、换页符等等，等价于[ \f \n \r \t \v ]

\S:非空白

数量修饰：
 \*:任意多次>=0

\+:至少一次>=1

?:可有可无0次或者1次

{m}:固定m次hello{3,}

{m,}:至少m次

{m,n}:m-n次

边界：
\$:以某某结尾

^:以某某开头

分组：
(ab)

贪婪模式：.\*

非贪婪（惰性）模式：.\*?

re.I:忽略大小写

re.M:多行匹配

re.S:单行匹配

re.sub:正则表达式，替换内容，字符串

'''正则练习'''
import re
#提取出python
key = "javapythonc++php"
re.findall('python', key)[0]

#提取出hello world
key = ""
re.findall('(.*)
', key)[0]

#提取170
string = '我喜欢身高为170的女孩’
re.findall('\d+', string)

#提取出http://和https://
key = 'http://www.baidu.com and https://boob.com'
re.findall('https?://', key)

#提取出hello
key = 'lalalahahah' #输出
re.findall('<[Hh][Tt][mM][lL]>(.*)', key)

#提取出hit.
key = 'bobo@hit.edu.com'#想要匹配到hit
re.findall('h.*?\.', key)

#匹配sas和saas
key = 'sasa and sas and saaas'
re.findall('sa{1,2}s', key)

import requests
if __name__ == '__main__':
    #如何爬取图片
    url = 'https://pic.qiushibaike.com/system/pictures/12409/124098453/medium/YNPHJQC101MS31E1.jpg'
    #content返回的是二进制形式的图片数据
    #text(字符串)  content(二进制)json(队形)
    img_data = requests.get(url = url).content
    with open('./qiutu.jpg', 'wb') as fp:
        fp.write(img_data)

3. 正则解析案例

# 需求：爬取糗事百科中糗图板块下所有的糗图图片
'''



'''
import re
import os
import requests

if __name__ == '__main__':
    # 创建一个文件夹，保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')

    url = 'https://www.qiushibaike.com/imgrank/ '
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url, headers=headers).text
    #print(page_text)

    #使用聚焦爬虫将页面中所有的糗图进行解析提取
    ex = '.*?'

    img_src_list = re.findall(ex, page_text, re.S)
    print(img_src_list)
    for src in img_src_list:
        #拼接出完整的图片url
        src = 'https:' + src
        img_data = requests.get(url = src, headers = headers).content
        #生成图片名称
        img_name = src.split('/')[-1]
        imgPath = './qiutuLibs/' + img_name
        with open(imgPath, 'wb') as fp:
            fp.write(img_data)
        print(img_name, '下载成功!')

# 对上述代码进行进一步处理，使得能够分页爬取图片
import re
import os
import requests

if __name__ == '__main__':
    # 创建一个文件夹，保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    # 设置一个通用的url模板
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    for pageNum in range(1, 11):
        # 对应页码的 url
        new_url = format(url % pageNum)
        headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
        }
        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url, headers=headers).text
        #print(page_text)

        #使用聚焦爬虫将页面中所有的糗图进行解析提取
        ex = '.*?'

        img_src_list = re.findall(ex, page_text, re.S)
        print(img_src_list)
        for src in img_src_list:
            #拼接出完整的图片url
            src = 'https:' + src
            img_data = requests.get(url = src, headers = headers).content
            #生成图片名称
            img_name = src.split('/')[-1]
            imgPath = './qiutuLibs/' + img_name
            with open(imgPath, 'wb') as fp:
                fp.write(img_data)
            print(img_name, '下载成功!')

4. bs4解析概述

数据解析的原理：
- 1. 标签定位
  2. 提取标签、标签属性中存储的数据值
bs4数据解析的原理：
- 1. 实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中
  2. 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
环境安装：pip install bs4 pip install lxml

5. bs4 解析具体讲解

如何实例化 BeautifulSoup 对象：
导包，from bs4 import BeautifulSoup
- 对象的实例化：
  - （1）将本地的 html 文档中的数据加载到该对象中；
  - （2）将互联网上获取的页面源码加载到该对象中。
- 提供的用于数据解析的方法和属性：
  - soup.tagName：返回的是文档中第一次出现的 tagName 标签；
  - soup.find(tagName)：可以等同于soup.tagName；也可以进行属性定位；
  - soup.find_all( )：返回符合要求的所有标签；
  - select('某种选择器(id,class,标签...选择器)')返回的是一个列表；层级选择器
- 获取标签之间的文本数据：soup.a.text/string/get_text( )
  - text/get_text( )：可以获取某一个标签中所有的文本内容
  - string：只可以获取该标签下面直系的文本内容
- 获取标签中的属性值：soup.a['href']

<html lang="en">
<head>
<meta charset="UTF-8" />
<title>测试bs4title>
head>
<body>
<div>
<p>百里守约p>
div>
<div class="song">
<p>李清照p>
<p>王安石p>
<p>苏轼p>
<p>柳宗元p>
<a href="http://www.song.com/" title="赵匡胤" target="_self">
<span>this is spanspan>
宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱a>
<a href="" class="du">总为浮云能蔽日,长安不见使人愁a>
<img src="http://www.baidu.com/meinv.jpg" alt="" />
div>
<div class="tang">
<ul>
<li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村a>li>
<li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山a>li>
<li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君a>li>
<li><a href="http://www.sina.com" class="du">杜甫a>li>
<li><a href="http://www.dudu.com" class="du">杜牧a>li>
<li><b>杜小月b>li>
<li><i>度蜜月i>li>
<li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘a>li>
ul>
div>
body>
html>

from bs4 import BeautifulSoup

if __name__ == '__main__':
    # 将本地的html文档中的数据加载到该对象中
    fp = open('./test.html', 'r', encoding='utf-8')
    soup = BeautifulSoup(fp, 'lxml')
    # print(soup)
    # page_text = response.text
    # soup = BeautifulSoup(page_text,'lxml')
    print(soup.a)  # soup.tagName 返回的是html中第一次出现的tagName标签
    print(soup.div)

    print(soup.find('div'))  # find(tagName) 等同于 soup.div
    print(soup.find('div', class_='song'))  # 属性定位

    print(soup.find_all('a'))  # 返回符合要求的所有标签（列表）

    print(soup.select('.tang'))  # 返回的是一个列表
    print(soup.select('.tang > ul > li > a')[0])  # 层级选择器   > 表示一个层级
    print(soup.select('.tang > ul  a')[0])  # 空格表示多个层级
    print(soup.select('.tang > ul  a')[0].text)
    print(soup.select('.tang > ul  a')[0].get_text())
    print(soup.select('.tang > ul  a')[0].string)
    print(soup.select('.tang > ul  a')[0]['href'])

6. bs4 解析案例实战

# 需求：爬取三国演义小说所有的章节标题和章节内容
# https://www.shicimingju.com/book/sanguoyanyi.html
import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
    #对首页的页面数据进行爬取
    headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'

    response = requests.get(url = url, headers = headers)
    response.encoding = 'utf-8'
    page_text = response.text

    #在首页中解析出章节的标题和详情页的url
    #实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text, 'lxml')
    # 解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    fp = open('./sanguo.txt', 'w', encoding = 'utf-8')
    for li in li_list:
        title = li.a.string
        detail_url ='http://www.shicimingju.com' + li.a['href']
        #对详情页发起请求，解析出章节内容
        detail_response = requests.get(url = detail_url, headers = headers)
        detail_response.encoding = 'utf-8'
        detail_page_text = detail_response.text
        #解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text, 'lxml')
        div_tag = detail_soup.find('div', class_ = 'chapter_content')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title + ':' + content + '\n')
        print(title, '爬取成功！')

7. xpath解析基础

**xpath解析：**最常用且最便捷高效的一种解析方式。通用性。
xpath解析原理：
- （1）实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中；
- （2）调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
环境的安装：pip install lxml (lxml解析器)
如何实例化一个etree对象：from lxml import etree
- （1）将本地的html文档中的源码数据加载到etree对象中：etree.parse(filePath)
- （2）可以将从互联网上获取的源码数据加载到该对象中：etree.HTML('page_text')
xpath(‘xpath表达式’)：
- 其中 / 表示从根节点定位或者表示一个层级；
- // 表示多个层级或者从任意位置开始定位；
- 属性定位：tag[@attrName="attrValue"]；
- 索引定位：tag[@attrName="attrValue"]/p[3]，注意索引从1开始
- 取文本：/text( ) ：获取的是标签中直系的文本内容；//text( ) ：标签中非直系的文本内容（所有的文本内容）
- 取属性：/@attrName ==> img/@src

from lxml import etree
if __name__ == "__main__":
    #实例化好了一个etree对象，且将被解析的源码加载到了该对象中
    tree = etree.parse('test.html')
    # r = tree.xpath('/html/body/div')
    # r = tree.xpath('/html//div')
    # r = tree.xpath('//div')
    # r = tree.xpath('//div[@class="song"]')
    # r = tree.xpath('//div[@class="tang"]//li[5]/a/text()')[0]
    # r = tree.xpath('//li[7]//text()')
    # r = tree.xpath('//div[@class="tang"]//text()')
    r = tree.xpath('//div[@class="song"]/img/@src')

    print(r)

8. xpath实战-58二手房

#需求：爬取58二手房中的房源信息
#作者提醒：此处代码与视频课中有差别，原因是视频课拍摄时的网页源码和作者实际学习时网页源码有变化，作者代码于2021/02/26运行正常。
import requests
from lxml import etree
if __name__ == '__main__': 
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    #爬取页面源码数据
    url = 'https://bj.58.com/ershoufang/'
    page_text = requests.get(url = url,headers = headers).text
    
    #数据解析
    tree = etree.HTML(page_text)
    #存储的是标签对象
    div_list = tree.xpath('//section[@class="list"]/div')
    fp = open('58.txt','w',encoding = 'utf-8')
    for div in div_list:
        #页面数据的局部解析
        title = div.xpath('./a/div[2]//h3/text()')[0]
        fp.write(title + '\n\n')
print('---------------Over!------------------')

9. xpath解析案例

（1）4k图片解析下载

#需求：解析下载图片数据 http://pic.netbian.com/4kmeinv/
import requests
from lxml import etree
import os
if __name__ == "__main__":
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    # 手动设定响应数据的编码格式
    # response.encoding = 'utf-8'
    page_text = response.text

    #数据解析：src的属性值  alt属性
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')


    #创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')

    for li in li_list:
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
        #通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')

        # print(img_name,img_src)
        # 请求图片进行持久化存储
        img_data = requests.get(url=img_src, headers=headers).content
        img_path = 'picLibs/'+img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '下载成功！！！')
print('------------------------OVER!---------------------------------')

（2）全国城市名称爬取

# 需求：解析出所有城市名称  https://www.aqistudy.cn/historydata/
import requests
from lxml import etree

if __name__ == '__main__':
    '''headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)

    #数据解析
    hot_li_list = tree.xpath('//div[@class="bottom"]/ul/li')
    all_city_names = []
    #解析热门城市名字
    for li in hot_li_list:
        hot_city_names = li.xpath('./a/text()')[0]
        all_city_names.append(hot_city_names)

    #解析全部城市名字：
    city_names_list = tree.xpath('.//div[@class="bottom"]/ul/div[2]/li')
    for li in city_names_list:
        city_name = li.xpath('./a/text()')[0]
        all_city_names.append(city_name)

    print(all_city_names,len(all_city_names))'''

    # 第二种方法，一起解析

    headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    page_text = requests.get(url=url, headers=headers).text

    tree = etree.HTML(page_text)
    # 数据解析  解析到热门城市和全部城市对应的a标签
    # 热门城市标签层级div/ul/li/a
    # 全部城市标签层级div/ul/div[2]/li/a
    a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a ')
    all_city_names = []
    for a in a_list:
        a_name = a.xpath('./text()')[0]
        all_city_names.append(a_name)
    print(all_city_names, len(all_city_names))

10. xpath作业—爬取站长素材中免费简历模板

# 爬取站长素材中免费的简历模板  https://sc.chinaz.com/jianli/free.html
# 代码参考：https://blog.csdn.net/nanke_nk/article/details/108966854
import os
import requests
from lxml import etree

if __name__ == '__main__':
    if not os.path.exists('./jianli'):
        os.mkdir('./jianli')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://sc.chinaz.com/jianli/free_%d.html'
    page = int(input('您一共想要爬取多少页：'))
    for pageNum in range(1, page):
        if pageNum == 1:
            new_url = 'https://sc.chinaz.com/jianli/free.html'
        else:
            new_url = format(url%pageNum)
        page_text = requests.get(url = new_url, headers = headers).text
        tree = etree.HTML(page_text)
        url_div_list = tree.xpath('//*[@id="container"]/div')
        for detail_url in url_div_list:
            detail_url = 'https:' + detail_url.xpath('./a/@href')[0]

            detail_page_text = requests.get(url = detail_url, headers =headers).text
            tree = etree.HTML(detail_page_text)
            name = tree.xpath('//h1/text()')[0].encode('iso-8859-1').decode('utf-8')
            download_url = tree.xpath('//*[@id="down"]/div[2]/ul/li[1]/a/@href')[0]
            file_path = 'jianli/' + name + '.rar'
            download_content = requests.get(url = download_url, headers = headers).content
            with open(file_path, 'wb') as fp:
                fp.write(download_content)
            print(name, '下载完成')
print('-------------------------------OVER!---------------------------------------')

四、验证码

1. 验证码识别简介

验证码和爬虫之间的爱恨情仇：

反爬机制：验证码。识别验证码图片中的数据，用于模拟登录操作。

识别验证码的操作：

人工肉眼识别（不推荐）
第三方自动识别（推荐）

2. 云打码使用流程

#!/usr/bin/env python
# coding:utf-8

from lxml import etree
import requests
from hashlib import md5

class Chaojiying_Client(object):

def __init__(self, username, password, soft_id):
self.username = username
password =  password.encode('utf8')
self.password = md5(password).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}

def PostPic(self, im, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
return r.json()

def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()

def tranformImgCode(imgPath,imgType):
chaojiying = Chaojiying_Client('此处是账户', '此处是密码', '此处是软件ID')#用户中心>>软件ID 生成一个替换 
im = open(imgPath, 'rb').read()
return chaojiying.PostPic(im,imgType)['pic_str']#1902 验证码类型  官方网站>>价格体系 3.4+版 

print(tranformImgCode('./a.jpg',1902))

3. 古诗文网验证码识别

####将本部分代码复制到上一节代码之后，因为要调用上述封装的tranformImgCode方法

session = requests.Session()

# 识别验证码图下载
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
page_text = session.get(url=url, headers=headers).text
# 解析验证码图片的地址
tree = etree.HTML(page_text)
img_src = 'https://so.gushiwen.org' + tree.xpath('//*[@id="imgCode"]/@src')[0]
# 将验证码图片保存本地
img_data = session.get(img_src, headers=headers).content
with open('./code.jpg', 'wb') as fp:
fp.write(img_data)

# 识别验证码
code_text = tranformImgCode('./code.jpg', 1902)
print(code_text)
login_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'
data = {
'__VIEWSTATE': 'f1ECt6+6MPtdTZMJtYOYS/7ww2d/DPy9t8JQcIt1QuOneLTbNQuYqPcCjZNbDAbfb9vj3k6f0M7EKTf0YqElM1k1A5ELwyTvUzBii+9LDRBbIMmc/jb0DJPsYfI=',
'__VIEWSTATEGENERATOR': 'C93BE1AE',
'from': 'http://so.gushiwen.cn/user/collect.aspx',
'email': '账号',
'pwd': '密码',
'code': code_text,  # 动态变化
'denglu': '登录',
}
# 对点击登录按钮发起请求
page_text_login = session.post(url=login_url, headers=headers, data=data).text
with open('./gushiwen.html', 'w', encoding='utf-8') as fp:
fp.write(page_text_login)

在请求参数中如果看到了一组乱序的请求参数，最好去验证这组请求参数是否为动态变化
- 处理：
  - 方式1：常规来讲一般动态变化的请求参数会被隐藏在前台页面中，那么我们就要去前台页面源码中寻找；
  - 方式2：如果前台页面没有的话，我们就可以基于抓包工具进行全局搜索。
基于百度AI实现的爬虫给功能：
- 图像识别
- 语音识别&合成
- 自然语言处理
使用流程：
- 点击控制台进行登录
- 选择想要实现的功能
- 实现功能下创建一个app
- 选择对应的 pythonSDK 文档进行代码实现
  需求：https://duanziwang.com/
  讲段子王中的段子内容爬取到本地，然后基于语音合成为mp3的音频文件，然后自己搭建一个web服务器，线上实时播放音频文件。

五、requests模块高级

1. 模拟登录实现流程梳理

**模拟登录：**爬取基于某些用户的用户信息。

**需求：**对人人网进行模拟登录

点击登录按钮后会发起一个post请求
post请求中会携带登陆之前录入的相关的登录信息（用户名、密码、验证码…）
验证码：每次请求都会动态变化

2. 人人网模拟登录

#1. 验证码的识别,获取验证码图片的文字数据
#2. 对post请求进行发送
#3. 对响应数据进行持久化存储

import requests
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
url = 'http://www.renren.com/SysHome.do'
page_text = response.get(url = url,headers = headers).text
tree = etree.HTML(page_text)
code_img_src = tree.xpath('//*[@id="verifyPic_login"]/@src')[0]
code_img_data = requests.get(url = code_img_src,headers = headers).content
with open('./code.jpg','wb') as fp:
    fp.write(code_img_data)
    
#下面需要使用打码平台提供的示例代码进行识别，云打码平台已挂
######了解视频代码使用思路即可，可自行使用其他打码平台实现操作，

#post请求发送
login_url = ' '
data = {
    
}
response = requests.post(url = login_url,headers = headers,data = data)
print(response.satus_code)

#login_page_text = response.text
#with open('renren.html','w',encoding = 'utf-8') #as fp:
    fp.write(login_page_text)

'''视频UP主的源代码'''

#编码流程：
#1.验证码的识别，获取验证码图片的文字数据
#2.对post请求进行发送（处理请求参数）
#3.对响应数据进行持久化存储

from CodeClass import YDMHttp
import requests
from lxml import etree
#封装识别验证码图片的函数
def getCodeText(imgPath,codeType):
    # 普通用户用户名
    username = 'bobo328410948'

    # 普通用户密码
    password = 'bobo328410948'

    # 软件ＩＤ，开发者分成必要参数。登录开发者后台【我的软件】获得！
    appid = 6003

    # 软件密钥，开发者分成必要参数。登录开发者后台【我的软件】获得！
    appkey = '1f4b564483ae5c907a1d34f8e2f2776c'

    # 图片文件：即将被识别的验证码图片的路径
    filename = imgPath

    # 验证码类型，# 例：1004表示4位字母数字，不同类型收费不同。请准确填写，否则影响识别率。在此查询所有类型 http://www.yundama.com/price.html
    codetype = codeType

    # 超时时间，秒
    timeout = 20
    result = None
    # 检查
    if (username == 'username'):
        print('请设置好相关参数再测试')
    else:
        # 初始化
        yundama = YDMHttp(username, password, appid, appkey)

        # 登陆云打码
        uid = yundama.login();
        print('uid: %s' % uid)

        # 查询余额
        balance = yundama.balance();
        print('balance: %s' % balance)

        # 开始识别，图片路径，验证码类型ID，超时时间（秒），识别结果
        cid, result = yundama.decode(filename, codetype, timeout);
        print('cid: %s, result: %s' % (cid, result))
    return result


#1.对验证码图片进行捕获和识别
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'http://www.renren.com/SysHome.do'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
code_img_src = tree.xpath('//*[@id="verifyPic_login"]/@src')[0]
code_img_data = requests.get(url=code_img_src,headers=headers).content
with open('./code.jpg','wb') as fp:
    fp.write(code_img_data)

#使用云打码提供的示例代码对验证码图片进行识别
result = getCodeText('code.jpg',1000)
print(result)
#post请求的发送（模拟登录）
login_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2019431046983'
data = {
    'email': 'www.zhangbowudi@qq.com',
    'icode': result,
    'origURL': 'http://www.renren.com/home',
    'domain': 'renren.com',
    'key_id': '1',
    'captcha_type': 'web_login',
    'password': '06768edabba49f5f6b762240b311ae5bfa4bcce70627231dd1f08b9c7c6f4375',
    'rkey': '1028219f2897941c98abdc0839a729df',
    'f':'https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dgds6TUs9Q1ojOatGda5mVsLKC34AYwc5XiN8OuImHRK%26wd%3D%26eqid%3D8e38ba9300429d7d000000035cedf53a',
}
response = requests.post(url=login_url,headers=headers,data=data)
print(response.text)
print(response.status_code)

# login_page_text = response.text
#
#
# with open('renren.html','w',encoding='utf-8') as fp:
#     fp.write(login_page_text)

3. 模拟登录cookie操作

**需求：**爬取当前用户的相关用户信息（个人主页中显示的用户信息）
**http/https协议：**无状态。
没有请求到对应页面数据的原因：发起的第二次基于个人主页页面请求的时候，服务器并不知道该次请求是基于登录状态下的请求。
**cookie：**用来让服务器端记录客户端的相关状态
- 手动处理：抓包工具获取 Cookie 值，将值封装到 headers 中（不推荐）
- 自动处理：
  Cookie 值的来源是哪里？模拟登录 post 请求后，由服务器端创建的。
  session会话对象：1. 可以进行请求的发送；2. 如果请求过程中产生了Cookie，则该Cookie会被自动存储/携带在该session对象中。
  创建一个session对象：session = requests.Session( )
  使用session对象进行模拟登录post请求的发送（Cookie会被存储在session中）
  session对象对个人主页对应的get请求进行发送（携带了Cookie）

#####基于前一节代码之上####
session = requests.Session()

#爬取当前用户的相关用户信息
'''手动获取Cookie（不推荐） headers = {
   ‘'Cookie':'xxxx'
    }'''
detail_url = 'http://www.renren.com/976279344/profile'
detail_page_test = session.get(url = detail_url,headers = headers).text
with open('bobo.html','w',encoding = 'utf-8' ) as fp:
    fp.write(detail_page_test)

4. 代理理论讲解

**代理：**破解封 IP 这种反爬机制。
**什么是代理？**代理服务器。
代理的作用：
- 突破自身 IP 被访问的限制
- 可以隐藏自身真实的 IP，免受攻击
相关网站：
- 快代理
- 西祠代理
- www.goubanjia.com
代理 ip 的类型：
- http：只能应用到 http 协议对应的 url 中
- https：只能应用到 https 协议对应的 url 中
代理ip的匿名度：
- 透明：服务器知道该次请求使用了代理，也知道请求对应的真实 ip
- 匿名：知道使用了代理，不知道真实 ip
- 高匿：不知道使用了代理，也不知道真实 ip

5. 代理在爬虫中的应用

import requests

url = 'http://www.baidu.com/s?wd=ip'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
page_text = requests.get(url = url, headers = headers, proxies = {"http": "http://124.205.155.153:9090"}).text
with open('ip.html', 'w', encoding = 'utf-8') as fp:
    fp.write(page_text)

六、高性能异步爬虫

1. 异步爬虫概述

**同步：**不同程序单元为了完成某个任务，在执行过程中需靠某种通信方式以协调一致，称这些程序单元是同步执行的。例如购物系统中更新商品库存，需要用 “行锁” 作为通信信号，让不同的更新请求强制排队顺序执行，那更新库存的操作是同步的。简言之，同步意味着有序。
**异步：**为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。例如，爬虫下载网页。调度程序调用下载程序后，即可调度其他任务，而无需与该下载任务保持通信以协调行为。不同网页的下载、保存等操作都是无关的，也无需相互通知协调。这些异步操作的完成时刻并不确定。简言之，异步意味着无序。
**目的：**在爬虫中使用异步实现高性能的数据爬取操作。

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
urls = [
    'https://downsc.chinaz.net/Files/DownLoad/jianli/202102/jianli14667.rar',
    'https://downsc.chinaz.net/Files/DownLoad/jianli/202102/jianli14665.rar',
    'https://downsc.chinaz.net/Files/DownLoad/jianli/202102/jianli14648.rar'
]

def get_content(url):
    print('正在爬取：', url)
    # get方法是一个阻塞的方法
    response = requests.get(url=url, headers=headers)
    if response.status_code == 200:
        return response.content

def parse_content(content):
    print('响应数据的长度为：', len(content))

for url in urls:
    content = get_content(url)
    parse_content(content)

2. 多线程and多线程

异步爬虫的方式：

多线程，多进程：（不建议）
- 好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行
- 弊端：无法无限制的开启多线程或者多进程

3. 线程池and进程池

线程池、进程池：（适当使用）
- 好处：可以降低系统对进程或者线程创建和销毁的一个频率，从而很好地降低系统地开销。
- 弊端：池中线程或进程地数量是有上限的。

4. 线程池的基本使用

import time
#使用单线程串行方式执行
def get_page(str):
    print('正在下载：',str)
    time.sleep(2)
    print('下载成功：',str)
    
name_list = ['xiaozi','aa','bb','cc']
start_time = time.time()
for i in range(len(name_list)):
    get_page(name_list[i])
end_time = time.time()
print('%d second' % (end_time-start_time))

#导入线程池模块对应的类
import time
from multiprocessing.dummy import Pool

#使用线程池方式执行
start_time = time.time()
def get_page(str):
    print('正在下载：', str)
    time.sleep(2)
    print('下载成功：', str)

name_list = ['xiaozi','aa','bb','cc']

#实例化一个线程池对象
pool = Pool(4)      #线程池开辟4个线程
#将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page, name_list)

end_time = time.time()
print(end_time - start_time)

5. 线程池案例应用

# 需求：爬取梨视频视频数据
import requests
import os
from multiprocessing.dummy import Pool
from lxml import etree
import random

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
# 原则：线程池处理的是阻塞且耗时的操作

if __name__ == '__main__':
    # 生成一个存放视频的文件夹
    if not os.path.exists('./video'):
        os.mkdir('./video')
        # 对下述url发起请求解析出视频详情页的url和视频的名称
    url = 'https://www.pearvideo.com/category_5'
    page_text = requests.get(url=url, headers=headers).text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//ul[@id="listvideoListUl"]/li')
urls = []  # 存储所有视频的链接和文字
for li in li_list:
    detail_url = 'https://www.pearvideo.com/' + li.xpath('./div/a/@href')[0]
    name = li.xpath('./div/a/div[2]/text()')[0] + '.mp4'
    # print(detail_url,name)

    # 对详情页的url发起请求
    detail_page_text = requests.get(url=detail_url, headers=headers).text
    # 从详情页中解析出视频的地址
    #### 视频的方法在2021/02/27 不可使用，梨视频又更改了页面源码，mp4是动态加载出来的，mp4文件经ajax请求得到，需要抓包ajax
    #### 参考 https://www.cnblogs.com/qianhu/p/14027192.html的操作
    detail_tree = etree.HTML(detail_page_text)
    name = detail_tree.xpath('//*[@id="detailsbd"]/div[1]/div[2]/div/div[1]/h1/text()')[0]
    str_ = str(li.xpath('./div/a/@href')[0]).split('_')[1]
    ajax_url = 'https://www.pearvideo.com/videoStatus.jsp?'
    params = {
        'contId': str_,
        'mrd': str(random.random())
    }
    ajax_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
        'Referer': 'https://www.pearvideo.com/video_' + str_
    }
    dic_obj = requests.get(url=ajax_url, params=params, headers=ajax_headers).json()
    video_url = dic_obj["videoInfo"]['videos']["srcUrl"]

    video_true_url = ''
    s_list = str(video_url).split('/')
    for i in range(0, len(s_list)):
        if i < len(s_list) - 1:
            video_true_url += s_list[i] + '/'
        else:
            ss_list = s_list[i].split('-')
            for j in range(0, len(ss_list)):
                if j == 0:
                    video_true_url += 'cont-' + str_ + '-'
                elif j == len(ss_list) - 1:
                    video_true_url += ss_list[j]
                else:
                    video_true_url += ss_list[j] + '-'
    dic = {
        'name': name,
        'url': video_true_url
    }
    urls.append(dic)


def get_video_data(dic):
    urll = dic['url']
    data = requests.get(url=urll, headers=headers).content
    path = './video/' + dic['name'] + '.mp4'
    print(dic['name'], '正在下载.......')
    # 持久化存储操作
    with open(path, 'wb') as fp:
        fp.write(data)
        print(dic['name']+ '.mp4', '下载成功！')


# 使用线程池对视频数据进行请求（较为耗时的阻塞操作）
pool = Pool(4)
pool.map(get_video_data, urls)

pool.close()
pool.join()

6. 协程相关概念回顾

**协程：**英文叫做 Coroutine，又称微线程，纤程，协程是一种用户态的轻量级线程。协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈。因此协程能保留上一次调用时的状态，即所有局部状态的一个特定组合，每次过程重入时，就相当于进入上一次调用的状态。协程本质上是个单进程，协程相对于多进程来说，无需线程上下文切换的开销，无需原子操作锁定及同步的开销，编程模型也非常简单。我们可以使用协程来实现异步操作，比如在网络爬虫场景下，我们发出一个请求之后，需要等待一定的时间才能得到响应，但其实在这个等待过程中，程序可以干许多其他的事情，等到响应得到之后才切换回来继续处理，这样可以充分利用 CPU 和其他资源，这就是异步协程的优势。
单线程+异步协程：（推荐）
- event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。
- coroutine：协程对象，我们可以将协程对象注册到事件循环中，它会被事件循环调用，我们可以使用 async 关键字来定义一个方法，这个方法在调用时不会立即执行，而是返回一个协程对象。
- task：任务，他是对协程对象的进一步封装，包含了任务的各个状态。
- future：代表将来执行或还没有执行的任务，实际上和 task 没有本质区别。
- async：定义一个协程。
- await：用来挂起阻塞方法的执行。

7. 协程相关操作回顾

import asyncio
async def request(url):
    print('正在请求的url是',url)
    print('请求成功,',url)
    return url
#asyncio修饰的函数，调用之后返回的一个协程对象
c = request('www.baidu.com')

# #创建一个事件循环对象
# loop = asyncio.get_event_loop()
#
# #将协程对象注册到loop中，然后启动loop
# loop.run_until_complete(c)

# #task的使用
# loop = asyncio.get_event_loop()
# #基于loop创建一个task任务对象
# task = loop.create_task(c)
# print(task)
#
# loop.run_until_complete(task)
# print(task)

# #future的使用
# loop = asyncio.get_event_loop()
# task = asyncio.ensure_future(c)
# loop.run_until_complete(task)
# print(task)

def callback_func(task):
    #result返回的就是任务对象中封装的协程对象对应函数的返回值
    print(task.result())
#绑定回调
loop = asyncio.get_event_loop()
task = asyncio.ensure_future(c)
#将回调函数绑定到任务对象中
task.add_done_callback(callback_func)
loop.run_until_complete(task)

8. 多任务异步协程实现

import time
import asyncio

async def request(url):
    print('正在下载',url)
    #在异步协程中如果出现了同步模块相关的代码，那么就无法实现异步
    #time.sleep(2)
    #当asyncio中遇到阻塞操作，必须手动挂起
    await asyncio.sleep(2)
    print('下载完毕',url)

start = time.time()
urls =[
    'www.baidu.com',
    'www.sougou.com',
    'www.goubanjia.com'
]
#任务列表：存放多个任务对象
stasks = []
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stasks.append(task)

loop = asyncio.get_event_loop()
#需要将任务列表封装到wait中
loop.run_until_complete(asyncio.wait(stasks))

print(time.time()-start)

9. aiohttp 模块引出

######未能实现异步进程，还是同步操作
import requests
import asyncio
import time

start = time.time()
urls = [
    'http://127.0.0.1:1080/bobo',
    'http://127.0.0.1:1080/jay',
    'http://127.0.0.1:1080/tom'
]

async def get_page(url):
    print('正在下载', url)
    #requests模块发起的请求是基于同步的，不能在异步模块中使用，否则会中断异步操作，必须使用基于异步的网络请求模块进行url的请求发送
    #aiphttp模块引入
    response = requests.get(url = url)
    print('下载完毕', response.text)

tasks = []

for url in urls:
    c = get_page(url)
    task = asyncio.ensure_future(c)
    tasks.append(task)

loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print('总耗时：', end-start)

10. aiohttp + 多任务异步协程实现异步爬虫

#环境的安装    pip install aiohttp
#使用aiohttp模块中的ClientSession
import asyncio
import time
import aiohttp

start = time.time()
urls = [
    'http://www.baidu.com',
    'http://www.sougou.com',
    'http://www.taobao.com'
]

async def get_page(url):
    async with aiohttp.ClientSession() as session:
        #get()、post():
        #headers,params/data,proxy='http://ip:port'
        async with await session.get(url) as response:
            #text()返回的是字符串形式的响应数据
            #read()返回的是二进制形式的响应数据
            #json()返回的是json对象
            #注意：在获取响应数据操作之前，一定要使用await手动挂起
            page_text = await response.text()
            #print(page_text)

tasks = []

for url in urls:
    c = get_page(url)
    task = asyncio.ensure_future(c)
    tasks.append(task)

loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print('总耗时：', end-start)

七、动态加载数据处理

1. selenium简介

问题：selenium模块和爬虫之间具有怎样的关联？
- 便捷地获取网站中动态加载的数据
便捷实现模拟登录
什么是selenium模块？
基于浏览器自动化的一个模块。

2. selenium初试

selenium使用流程：

环境安装：pip install selenium
下载一个对应浏览器的驱动程序（以谷歌浏览器为例）
- 下载路径：http://npm.taobao.org/mirrors/chromedriver/或者http://chromedriver.storage.googleapis.com/index.html
- 驱动程序和浏览器的映射关系：http://blog.csdn.net/huilan_same/article/details/51896672
- 实例化一个浏览器对象
- 编写基于浏览器自动化的操作代码
  - 发起请求：get(url)
  - 标签定位：find系列方法
  - 标签交互：send_keys('xxxxxx')
  - 执行js程序：excute_script('jsCode')
  - 前进、后退：forward( )、back( )
  - 关闭浏览器：quit( )

# selenium操纵浏览器
#### Tip：作者Chrome是88版本，直接下载88的chromedriver成功运行

from selenium import webdriver
from lxml import etree
from time import sleep
# 实例化一个浏览器对象（传入浏览器的驱动程序）
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 让浏览器发起一个指定的url对应请求
bro.get('http://scxk.nmpa.gov.cn:81/xk/')     

# 获取浏览器当前页面的页面源码数据
page_text = bro.page_source

# 解析企业名称
tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@id="gzlist"]/li')
for li in li_list:
    name = li.xpath('./dl/@title')[0]
    print(name)
sleep(5)
bro.quit()

3. selenium其他自动化操作

from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://www.taobao.com/')
# 标签定位
search_input = bro.find_element_by_id('q')
# 标签的交互
search_input.send_keys('iphone')
# 执行一组js程序   相当于F12--Console执行js代码
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
# 点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')
btn.click()

bro.get('https://baidu.com/')
sleep(2)
# 回退
bro.back()
sleep(2)
# 前进
bro.forward()

sleep(5)
bro.quit()

4. iframe 处理+动作链

**selenium处理iframe：**

如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id)
动作链（拖动）：from selenium.webdriver import ActionChains
- 实例化一个动作链对象：action = ActionChains(bro)
- click_and_hold(div)：长按且点击
- move_by_offset(x,y)
- perform( )：让动作链立即执行
- action.release( )：释放动作链对象

from selenium import webdriver
from time import sleep
# 导入动作链对应的类
from selenium.webdriver import ActionChains

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-example-droppable')

# 如果定位的标签是存在与iframe标签之中的，直接通过find方式会报错，则必须通过另外的操作来进行标签定位
bro.switch_to.frame('iframeResult')     #切换浏览器标签定位的作用域
div = bro.find_element_by_id('draggable')

# 动作链
action = ActionChains(bro)      #实例化动作链对象
# 点击并且长按指定的标签
action.click_and_hold(div)

for i in range(5):
    #perform 表示立即执行动作链操作
    #move_by_offset(x,y)   x表示水平方向，y表示竖直方向
    action.move_by_offset(11, 0).perform()
    sleep(0.3)

# 释放动作链
action.release()

bro.quit()

5. selenium模拟登录QQ空间

#模拟登录QQ空间，运行前需要将代码中“QQ号码”和“QQ密码”改写
from selenium import webdriver
from time import sleep

bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://qzone.qq.com/')
bro.switch_to.frame('login_frame')

a_tag = bro.find_element_by_id('switcher_plogin')
a_tag.click()

userName_tag = bro.find_element_by_id('u')
password_tag = bro.find_element_by_id('p')
sleep(1)
userName_tag.send_keys('QQ号码')
password_tag.send_keys('QQ密码')
sleep(1)
btn = bro.find_element_by_id('login_button')
btn.click()

sleep(3)

bro.quit()

6. 无头浏览器+规避操作

from selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.chrome.options import Options
#实现规避检测
from selenium.webdriver import ChromeOptions

#实现无可视化界面的操作
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

#如何实现让selenium规避被检测到的风险
bro = webdriver.Chrome(executable_path='./chromedriver.exe', chrome_options=chrome_options,options=option)

#无可视化界面（无头浏览器） phantomJs
bro.get('https://www.baidu.com')

print(bro.page_source)
sleep(2)
bro.quit()

7. 超级鹰的基本使用

**超级鹰：**https://www.chaojiying.com/about.html

注册：普通用户
登录：普通用户
题分查询：充值
软件ID——创建一个软件ID
下载示例代码

8. 12306模拟登录

编码流程：

使用selenium打开登录界面
对当前selenium打开的这张界面进行截图
对截取的图片进行局部区域（验证码图片）的裁剪
- 好处：将验证码图片和模拟登录进行一一对应
使用超级鹰识别验证码图片（坐标）

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

########下述为超级鹰示例代码
class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

############上述为超级鹰的示例代码


# 使用selenium打开登录页面
from selenium import webdriver
import time
from PIL import Image
from selenium.webdriver import ActionChains


bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

# bro.execute_script(script)
bro.get('https://kyfw.12306.cn/otn/resources/login.html')

#最大化浏览器窗口
bro.maximize_window()
time.sleep(1)

# 先点击选择  账号登录
zhanghao_tag = bro.find_element_by_class_name('login-hd-account')
zhanghao_tag.click()
time.sleep(1)

# save_screenshot就是将当前页面进行截图且保存
bro.save_screenshot('aa.png')

#确定验证码图片对应的左上角和右下角的坐标（裁剪的区域就确定）
code_img_ele = bro.find_element_by_class_name('touclick-wrapper')
location = code_img_ele.location  # 验证码图片左上角的坐标 x,y
print('location:', location)
size = code_img_ele.size  #验证码标签对应的长和宽
print('size:', size)


# 左上角和右下角坐标  #此处 *1.25 原因是作者window电脑默认显示布局为125%（电脑设置--显示--缩放与布局），不乘1.25取不到图片正确位置
rangle = (location['x']*1.25, location['y']*1.25, (location['x']+size['width'])*1.25, (location['y']+size['height'])*1.25)
# 至此验证码图片区域就确定下来了

i = Image.open('./aa.png')
code_img_name = './code.png'

# crop根据指定区域进行图片裁剪
frame = i.crop(rangle)
frame.save(code_img_name)
time.sleep(3)


# 将验证码图片提交给超级鹰进行识别

chaojiying = Chaojiying_Client('超级🦅账号', '超级🦅密码', '软件ID')
im = open('code.png', 'rb').read()
print(chaojiying.PostPic(im, 9004)['pic_str'])


result = chaojiying.PostPic(im, 9004)['pic_str']
all_list = []   #要存储即将被点击的点的坐标  [[x1,y1],[x2,y2]]
if '|' in result:
    list_1 = result.split('|')
    count_1 = len(list_1)
    for i in range(count_1):
        xy_list = []
        x = int(list_1[i].split(',')[0])
        y = int(list_1[i].split(',')[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(',')[0])
    y = int(result.split(',')[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)
print(all_list)
# 遍历列表，使用动作链对每一个列表元素对应的x,y指定的位置进行点击操作
for l in all_list:
    x = l[0]
    y = l[1]
    #这里的/1.25，是因为，电脑设置125%，而网页是100%的，所以，要确定网页中对应位置，除以1.25即可
    ActionChains(bro).move_to_element_with_offset(code_img_ele, x/1.25, y/1.25).click().perform()
    time.sleep(1)

bro.find_element_by_id('J-userName').send_keys('12306账号')
time.sleep(1)
bro.find_element_by_id('J-password').send_keys('12306密码')
time.sleep(1)
bro.find_element_by_id('J-login').click()
time.sleep(5)

# # 滑块操作，12306检测selenium,,,,滑块总是刷新重试，
# action = ActionChains(bro)
# try:
#     slider = bro.find_element_by_css_selector('#nc_1_n1z')
#     action.click_and_hold(slider)
#     action.move_by_offset(300, 0).perform()
#     time.sleep(15)
#     action.release()
# except Exception as e:
#     print(e)

bro.quit()

八、scrapy框架

1. scrapy框架初识

什么是框架？
就是一个集成了很多功能并且具有很强通用性的一个项目模板。
如何学习框架？
专门学习框架封装的各种功能的详细用法。
什么是scrapy？
爬虫中封装好的一个明星框架。
**功能：**高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式

2. scrapy基本使用

scrapy框架的基本使用：

环境的安装：
- mac or linux：pip install scrapy
- windows:
  - pip install wheel
  - 下载twisted，下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  - 安装twisted：pip install Twisted-20.3.0-cp39-cp39-win_amd64.whl
  - pip install pywin32
  - pip install scrapy
  - 测试：在终端里录入scrapy指令，没有报错即表示安装成功！
创建一个工程：scrapy startproject xxxPro
cd xxxPro
在spiders子目录中创建一个爬虫文件
- scrapy genspider spiderName www.xxx.com
执行工程：
- scrapy crawl spiderName

###firstBlood__first
import scrapy


class FirstSpider(scrapy.Spider):
    #爬虫文件的名称：就是爬虫源文件的一个唯一标识
    name = 'first'
    #允许的域名：用来限定start_urls列表中哪些url可以进行请求发送
    # allowed_domains = ['www.baidu.com']

    #起始的url列表：该列表中存放的url会被scrapy自动进行请求的发送
    start_urls = ['https://www.baidu.com/', 'https://www.sogou.com/']

    #用作于数据解析：response参数表示的就是请求成功后对应的响应对象
    def parse(self, response):
        print(response)

3. scrapy数据解析操作

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        #解析作者的名称+段子的内容
        div_list = response.xpath('//div[@id="col1 old-style-col1"]/div')
        for div in div_list:
            #xpath返回的是列表，当时列表元素一定是Selector类型的对象
            #extract可以将Selector对象中data参数存储的字符串提取出来
            author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            #列表调用了extract之后。则表示将列表中每一个Selector对象中data对应的字符串提取了出来
            content = div.xpath('./a[1]/div/span//text()').extract()
            content = ''.join(content)


            print(author,content)
            break

4. 基于终端指令的持久化存储

scrapy持久化存储：

基于终端指令：
- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件类型只可以为：json、jsonlines、jl、csv、xml、marshal、pickle
- 指令：scrapy crawl xxx -o filePath
- 好处：简洁高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

5. 基于管道持久化存储操作

基于管道：

编码流程：
- 数据解析
- 在item类中定义相关的属性
- 将解析的数据封装到item类型的对象
- 将item类型的对象提交给管道进行持久化存储的操作
- 在管道类的process_item中要将其接收到的item对象中存储的数据进行持久化存储操作
- 在配置文件中开启管道
好处：
- 通用性强。

面试题：将爬取到的数据一份存储到本地，一份存储到数据库，如何实现？

管道文件中一个管道类对应的是将数据存储到一种平台
爬虫文件提交的item只会给管道文件中第一个被执行的管道类接收
process_item中的return item表示将item传递给下一个即将被执行的管道类

6. 全站数据爬取

**基于spider的全站数据爬取：**就是将网站中某板块下的全部页码对应的页面数据进行爬取。

爬取：校花网明星写真的名称
实现方式：
- 将所有页面的url添加到start_urls列表（不推荐）
- 自行手动进行请求发送（推荐）

'''------------校花网xiaohua.py----------------'''
# -*- coding: utf-8 -*-
import scrapy


class XiaohuaSpider(scrapy.Spider):
    name = 'xiaohua'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.521609.com/tuku/mxxz/']

    #生成一个通用的url模板(不可变)
    url = 'http://www.521609.com/tuku/mxxz/index_%d.html'
    page_num = 2

    def parse(self, response):
        li_list = response.xpath('/html/body/div[4]/div[3]/ul/li')
        for li in li_list:
            img_name = li.xpath('./a/p/text()').extract_first()
            print(img_name)

        if self.page_num <= 28:
            new_url = format(self.url%self.page_num)
            self.page_num += 1
            #手动请求发送:callback回调函数是专门用作于数据解析
            yield scrapy.Request(url=new_url,callback=self.parse)

            
'''---------------校花网pipelines.py--------------------'''
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class XiaohuaproPipeline(object):
    def process_item(self, item, spider):
        return item
    
'''----------------校花网settings.py部分代码---------------------------'''
ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'

7. 五大核心组件

五大核心组件：

Spiders：
- 产生URL，对URL进行手动发送
- 进行数据解析
引擎（Scrapy Engine）：
- 数据流处理
- 触发事务
调度器（Scheduler）：
- 过滤器去重
- 去重后的请求对象压到队列中
下载器（Downloader）：
- 负责获取页面数据并提供给引擎，而后提供给Spider
项目管道（Item Pipeline）：
- 负责处理爬虫从网页中抽取的实体，页面被爬虫解析所需的数据存入item后，将被发送到管道，经过特定的次序处理数据，最后存入本地文件或者数据库。

8. 请求传参

**使用场景：**如果爬取解析的数据不在同一张页面中。（深度爬取）
**需求：**爬取boss的岗位名称和岗位描述

#### 我尝试着并未有啥结果.......等大佬
import scrapy
from bossPro.items import BossproItem

class BossSpider(scrapy.Spider):
    name = 'boss'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/c100010000/?page=1&ka=page-1']

    url = 'https://www.zhipin.com/c100010000/?page=%d'
    page_num = 2

   #回调函数接收item
    def parse_detail(self,response):
        item = response.meta['item']

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
        job_desc = ''.join(job_desc)
        print(job_desc)
        item['job_desc'] = job_desc

        yield item

    #解析首页中的岗位名称
    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')
        for li in li_list:
            item = BossproItem()

            job_name = li.xpath('.//div/div[1]/div[1]/div/div[1]/span[1]/a/text()').extract_first()
            item['job_name'] = job_name
            print(job_name)
            detail_url = 'https://www.zhipin.com' + li.xpath('.//div/div[1]/div[1]/div/div[1]/span[1]/a/@href').extract_first()
            #对详情页发请求获取详情页的页面源码数据
            #手动请求的发送
            #请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
            yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})

        #分页操作
        if self.page_num <= 5:
            new_url = format(self.url%self.page_num)
            self.page_num += 1

            yield scrapy.Request(new_url,callback=self.parse)

9. scrapy图片爬取

图片数据爬取之ImagesPipline：

基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？
- 字符串：只需要基于xpath进行解析且提交管道进行持久化存储
- 图片：xpath解析出图片的src属性值，单独的对图片地址发起请求获取二进制类型的数据
ImagesPipeline：
- 只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取图片的二进制类型的数据，且还会帮我们进行持久化存储。
**需求：**爬取站长素材的高清图片
使用流程：
- 数据解析（图片的地址）
- 将存储图片地址的item提交到指定的管道类
- 在管道文件中自己定制一个基于ImagesPipeLine的一个管道类
  - get_media_request( )
  - file_path
  - item_completed
- 在配置文件中操作
  - 指定图片存储目录：IMAGES_STORE = './imgs_ZYZhang'
  - 指定开启的管道：自定制的管道类

'''----------------爬取站长素材高清图片  img.py-----------------------'''
# -*- coding: utf-8 -*-
import scrapy
from imgsPro.items import ImgsproItem

class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list = response.xpath('//div[@id="container"]/div')
        for div in div_list:
            #注意：使用伪属性 src2
            src = 'https:' + div.xpath('./div/a/img/@src2').extract_first()

            item = ImgsproItem()
            item['src'] = src

            yield item
'''----------------------爬取站长素材高清图片  pipelines.py---------------------------'''            
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


# class ImgsproPipeline(object):
#     def process_item(self, item, spider):
#         return item

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class imgsPileLine(ImagesPipeline):

    #可以根据图片地址进行图片数据的请求
    def get_media_requests(self, item, info):

        yield scrapy.Request(item['src'])

    #指定图片存储的路径
    def file_path(self, request, response=None, info=None):
        imgName = request.url.split('/')[-1]
        return imgName

    def item_completed(self, results, item, info):
        return item #返回给下一个即将被执行的管道类
'''---------------------------------爬取站长素材高清图片  items.py-----------------------------'''
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ImgsproItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()
    # pass
'''------------------------------爬取站长素材高清图片 setting.py部分代码-------------------'''
#指定图片存储的目录
IMAGES_STORE = './imgs_ZYZhang'
ITEM_PIPELINES = {
   'imgsPro.pipelines.imgsPileLine': 300,
}
LOG_LEVEL = 'ERROR'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

10. 中间件

下载中间件：
- 位置：引擎和下载器之间
- 作用：批量拦截到整个工程中所有的请求和响应
- 拦截请求：
  - UA伪装：process_request
  - 代理IP：process_exception:return request
- 拦截响应：
  - 篡改响应数据，响应对象
  - 网易新闻爬取

11. 网易新闻

**需求：**爬取网易新闻的新闻数据（标题和内容）

通过网易新闻的首页解析出几大板块对应的详情页的url（经验证，无动态加载）
每个板块点击后，其中的新闻标题都是动态加载出来的（动态加载）
通过解析出每一条新闻详情页的url，获取详情页的页面源码，解析出新闻内容

'''-------------------------------网易新闻  wangyi.py------------------------'''
# -*- coding: utf-8 -*-
import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem
class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.cccom']
    start_urls = ['https://news.163.com/']
    models_urls = []  #存储五个板块对应详情页的url
    #解析五大板块对应详情页的url

    #实例化一个浏览器对象
    def __init__(self):
        self.bro = webdriver.Chrome(executable_path='F:\PythonProjects\爬虫\动态加载数据处理\chromedriver.exe')

    def parse(self, response):
        li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        alist = [3,4,6,7,8]
        for index in alist:
            model_url = li_list[index].xpath('./a/@href').extract_first()
            self.models_urls.append(model_url)

        #依次对每一个板块对应的页面进行请求
        for url in self.models_urls:      #对每一个板块的url进行请求发送
            yield scrapy.Request(url,callback=self.parse_model)

    #每一个板块对应的新闻标题相关的内容都是动态加载
    def parse_model(self,response):    #解析每一个板块页面中对应新闻的标题和新闻详情页的url
        # response.xpath()
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div/div/ul/li/div/div')
        for div in div_list:
            title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
            new_detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()

            item = WangyiproItem()
            item['title'] = title

            #对新闻详情页的url发起请求
            yield scrapy.Request(url=new_detail_url, callback=self.parse_detail, meta={'item': item})
    def parse_detail(self,response):       # 解析新闻内容
        content = response.xpath('//*[@id="content"]/div[2]//text()').extract()
        content = ''.join(content)
        item = response.meta['item']
        item['content'] = content

        yield item


    def closed(self, spider):
        self.bro.quit()

'''-------------------------------网易新闻  pipelines.py-----------------------------------'''
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class WangyiproPipeline(object):
    def process_item(self, item, spider):
        print(item)
        return item
'''-------------------------------网易新闻  middlewares.py-------------------------'''
# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals


from scrapy.http import HtmlResponse
from time import sleep
class WangyiproDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy框架 acts as if the downloader middleware does not modify the
    # passed objects.

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    # 通过该方法拦截五大板块对应的响应对象，进行篡改，使其满足需求
    def process_response(self, request, response, spider):    #spider爬虫对象
        bro = spider.bro  #获取了在爬虫类中定义的浏览器对象

        #挑选出指定的响应对象进行篡改
        #    通过url指定request
        #    通过request指定response
        if request.url in spider.models_urls:
            bro.get(request.url)   #五个板块对应的url进行请求
            sleep(3)
            page_text = bro.page_source  #包含了动态加载的新闻数据

            #response #五大板块对应的响应对象
            #针对定位到的这些response进行篡改
            #实例化一个新的响应对象（符合需求：包含动态加载出的新闻数据），替代原来旧的响应对象
            #如何获取动态加载出的新闻数据？
                #基于selenium便捷的获取动态加载数据
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)

            return new_response
        else:
            #response #其他请求对应的响应对象
            return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass
'''-----------------------------网易新闻 setting.py部分代码---------------------------------'''
#USER_AGENT = 'wangyiPro (+http://www.yourdomain.com)'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
}
ITEM_PIPELINES = {
   'wangyiPro.pipelines.WangyiproPipeline': 300,
}
LOG_LEVEL = 'ERROR'

12. CrawlSpider的全站数据爬取

**CrawlSpider：**基于Spider的一个子类

全站数据爬取的方式
- 基于Spider：手动请求发送
- 基于CrawlSpider
CrawlSpider的使用：
- 创建一个工程
- cd XXX
- 创建爬虫文件（CrawlSpider）
  - scrapy genspider -t crawl xxx www.xxxx.com
  - **链接提取器（LinkExtractor）：**根据指定规则（allow=“正则”）进行指定链接的提取
  - **规则解析器（Rule）：**将链接提取器提取到的链接进行指定规则（callback）的解析操作
**需求：**爬取阳光热线网站中的编号，新闻标题，新闻内容，标号
- 分析：爬取的数据没有在同一张页面中
- 1. 可以使用链接提取器提取所有的页码链接
  2. 让链接提取器提取所有的问政详情页链接

'''---------------------阳光问政    sun.py---------------------------'''
'''网站页面源码跟视频课有改动，建议follow先改False爬一下，不然容易被封IP，有兴趣的可以改改，搞个代理啥的再爬'''
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItem, DetailItem

# 需求：爬取阳光热线网站中的编号，新闻标题，新闻内容，标号
class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=']

    #链接提取器：根据指定规则（allow="正则"）进行指定链接的提取
    link = LinkExtractor(allow=r'id=1&page=\d+')
    link_detail = LinkExtractor(allow=r'index\?id=\d+')
    rules = (
        #规则解析器：将链接提取器提取到的链接进行指定规则（callback）的解析操作
        Rule(link, callback='parse_item', follow=False),
        #follow=True：可以将链接提取器 继续作用到 链接提取器提取到的链接 所对应的页面中
        Rule(link_detail, callback='parse_detail')
    )
    #http://wz.sun0769.com/political/politics/index?id=490505
    #http://wz.sun0769.com/political/politics/index?id=490504

    # 解析新闻编号和新闻的标题
    # 如下两个解析方法中是不可以实现请求传参！
    # 无法将两个解析方法解析的数据存储到同一个item中，可以依次存储到两个item中
    def parse_item(self, response):
        #注意：xpath表达式中不可以出现tbody标签
        li_list = response.xpath('/html//div[2]/div[3]/ul[2]/li')
        for li in li_list:
            new_num = li.xpath('./span[1]/text()').extract_first()
            new_title = li.xpath('./span[3]/a/text()').extract_first()

            item = SunproItem()
            item['title'] = new_title
            item['new_num'] = new_num

            yield item

    #解析新闻内容和新闻编号
    def parse_detail(self,response):
        new_id = response.xpath('/html//div[3]/div[2]/div[2]/div[1]/span[4]/text()').extract_first().strip().replace("\r\n", "").replace(" ", "")
        new_content = response.xpath('/html//div[3]/div[2]/div[2]/div[2]/pre/text()').extract()
        new_content = ''.join(new_content)

        # print(new_id,new_content)
        item = DetailItem()
        item['content'] = new_content
        item['new_id'] = new_id

        yield item
        
'''-------------------------------pipelines.py------------------------------'''
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class SunproPipeline(object):
    def process_item(self, item, spider):
        #如何判定item的类型
        #将数据写入数据库时，如何保证数据的一致性
        if item.__class__.__name__ == 'DetailItem':
            print(item['new_id'],item['content'])
        else:
            print(item['new_num'],item['title'])
        return item
    
'''---------------------------items.py----------------------'''
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class SunproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    new_num = scrapy.Field()


class DetailItem(scrapy.Item):
    new_id = scrapy.Field()
    content = scrapy.Field()

13. 分布式概述及搭建

分布式爬虫：

概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。
作用：提升爬取数据的效率

如何实现分布式？

安装一个scrapy-redis的组件
原生的scrapy是不可以实现分布式爬虫的，必须要让scrapy-redis组件一起实现分布式爬虫。

为什么原生的scrapy不可以实现分布式？

调度器不可以被分布式机群共享
管道不可以被分布式机群共享

scrapy-redis组件作用：

可以给原生的scrapy框架提供可以被共享的管道和调度器。

scrapy-redis实现流程：

创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改当前的爬虫文件：
- 导包：from scrapy_redis.spiders import RedisCrawlSpider
- 将start_urls和allowed_domains进行注释
- 添加一个新属性：redis_key = ’ ’ 可以被共享的调度器队列的名称
- 编写数据解析相关的操作
- 将当前爬虫类的父类修改成 RedisCrawlSpider
修改配置文件settings
- 指定使用可以被共享的管道：
- ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 400 }
- 指定调度器：
- 增加了一个去重容器类的配置，作用是用Redis的set集合来存储请求的指纹数据，从而实现请求去重的持久化
  DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
  使用scrapy-redis组件自己的调度器
  SCHEDULER = "scrapy_redis.scheduler.Scheduler"
  配置调度器是否要持久化，也就是当爬虫结束了，要不要清空Redis中请求队列和去重指纹的set。如果是True，就表示要持久化存储，就不清数据，否则清空数据
  SCHEDULER_PERSIST = True
- 指定redis服务器
redis相关操作配置：
- 配置redis的配置文件：
  - linux或者mac：redis.conf
  - windows：redis.windows.conf
  - 打开配置文件修改：
    - 将bind 127.0.0.1进行注释或删除
    - 关闭保护模式：protected-mode yes改为no
- 结合着配置文件开启redis服务
  - redis-server 配置文件
  - 启动客户端：redis-cli
执行工程：
- scrapy runspider xxx.py
向调度器的队列中放入一个起始的url：
- 调度器的队列在redis的客户端中
- lpush xxx www.xxx.com
爬取到的数据存储在了 redis 的 proName:items 这个数据结构中

14. 增量式爬虫

**概念：**监测网站数据更新的情况，只会爬取网站最新更新出来的数据。
分析：
- 指定一个起始url
- 基于CrawlSpider获取其他页码链接
- 基于Rule将其他页码链接进行请求
- 从每一个页码对应的页面源码中解析出每一个电影详情页的URL
- 核心：检测电影详情页的url之前有没有请求过
  - 将爬取过的电影详情页的url存储
  - 存储到redis的set数据结构
- 对详情页的url发起请求，然后解析出电影的名称和简介
- 进行持久化存储

九、补充——异步编程

为什么要讲？

这一部分的知识点不太容易学习（异步非阳塞、 asyncio）
异步相关话题和框架越来越多，例如：tornado、fastapi、django 3.x asgi、aiohttp都在异步→提升性能

如何讲解？

第一部分：协程
第二部分：asyncio模块进行异步编程
第三部分：实战案例

1. 协程

协程不是计算机提供，程序员人为创造。

协程（ Coroutine），也可以被称为微线程，是一种用户态内的上下文切换技术。简而言之，其实就是通过一个线程实现代码块相互切换执行。

def func1():
    print(1)
    ...
    print(2)
def func2():
    print(3)
    ...
    print(4)
func1()
func2()

实现协程的集中方法：

greelet，早期模块
yield关键字
asyncio装饰器（py3.4及以后版本）
async、await关键字（py3.5及以后版本）

（1）greenlet实现协程

pip install greenlet

from greenlet import greenlet
def func1():
    print(1)
    gr2.switch()#切换到func2函数
    print(2)
    gr2.switch()#切换到func2函数，从上一次执行的位置继续向后执行
def func2():
    print(3)
    gr1.switch()#切换到func1函数，从上一次执行的位置继续向后执行
    print(4)
gr1 = greenlet(func1)
gr2 = greenlet(func2)
gr1.switch()#去执行func1函数

（2）yield关键字

def func1():
    yield 1
    yield from func2()
    yield 2
def func2():
    yield 3
    yield 4
f1 = func1()
for item in f1:
    print(item)

（3）asyncio装饰器

==遇到IO阻塞自动切换==

import asyncio
@asyncio.coroutine
def func1():
    print(1)
    yield from asyncio.sleep(2)#遇到IO耗时操作，自动化切换到tasks中的其他任务
    print(2)
@asyncio.coroutine
def func2():
    print(3)
    yield from asyncio.sleep(2)#遇到IO耗时操作，自动化切换到tasks中的其他任务
    print(4)
tasks = [
    asyncio.ensure_future(func1()),
    asyncio.ensure_future(func2())
]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

（4）async、await关键字（推荐）

import asyncio
async def func1():
    print(1)
    await asyncio.sleep(2)#遇到IO耗时操作，自动化切换到tasks中的其他任务
    print(2)
async def func2():
    print(3)
    await asyncio.sleep(2)#遇到IO耗时操作，自动化切换到tasks中的其他任务
    print(4)
    
tasks = [
    asyncio.ensure_future(func1()),
    asyncio.ensure_future(func2())
]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

2. 协程的意义

在一个线程中，如果遇到IO等待的时间，线程不会等待，利用空闲的时间去做其他的事情。

需求：下载三张图片（网络IO）

'''普通的request方式'''
import requests

def download_image(url):
    print('开始下载：', url)
    response = requests.get(url)
    print('下载完成')

    file_name = url.rsplit('-')[-1]
    with open(file_name, mode='wb') as file_object:
        file_object.write(response.content)

if __name__ == '__main__':
    url_list = [
        'https://pic.netbian.com/uploads/allimg/210302/000706-1614614826df15.jpg',
        'https://pic.netbian.com/uploads/allimg/210228/010301-1614445381005c.jpg',
        'https://pic.netbian.com/uploads/allimg/190902/152344-1567409024af8c.jpg'
    ]
    for item in url_list:
        download_image(item)

'''使用aiohttp模块下载    协程方式'''
import aiohttp
import asyncio
import time

start = time.time()
async def fetch(session, url):
    print('发送请求：', url)
    async with session.get(url, verify_ssl = False) as response:
        content = await response.content.read()
        file_name = url.rsplit('-')[-1]
        with open(file_name, mode='wb') as file_object:
            file_object.write(content)
        print('下载完成', url)

async def main():
    async with aiohttp.ClientSession() as session:
        url_list = [
            'https://pic.netbian.com/uploads/allimg/210302/000706-1614614826df15.jpg',
            'https://pic.netbian.com/uploads/allimg/210228/010301-1614445381005c.jpg',
            'https://pic.netbian.com/uploads/allimg/190902/152344-1567409024af8c.jpg'
        ]
        tasks = [asyncio.create_task(fetch(session, url)) for url in url_list]
        await asyncio.wait(tasks)

if __name__ == '__main__':
    #asyncio.run(main())     #正常运行但是会报错,换成loop方式就ok
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

print(time.time() - start)

3. 异步编程

（1）事件循环

**概念：**理解为一个死循环，去检测并执行某些代码。

# 伪代码
任务列表 = [任务1 , 任务2 , 任务3 ....]
while True:
可执行的任务列表，已完成的任务列表-->去任务列表中检测所有的任务，将“可执行”和“已完成”的任务返回
for 就绪任务 in 可执行的任务列表:
执行已就绪的任务
    for 已完成的任务 in 已完成的任务列表:
    在任务列表中移除 已完成的任务
    如果 任务列表 中的任务都已经完成，则终止循环。

import asyncio

# 去生成或获取一个事件循环
loop = asyncio.get_event_loop()
# 将任务task放到 任务列表
loop.run_until_complete(task)

（2）快速上手

**协程函数：**定义函数时 async def 函数名

**协程对象：**执行协程函数得到的对象

1
2
3

async def func():
pass
result = func()

import asyncio
async def func():
print('快来打我吧！')
result = func()

loop = asyncio.get_event_loop()
loop.run_until_complete(result)
#asyncio.run(result)#python3.7

（3）await关键字

await 可等待的对象(协程对象、Future对象、Task对象)

'''示例一'''
import asyncio
async def func():
    print('来玩呀')
    response = await asyncio.sleep(2)
    print('结束', response)

asyncio.run(func())

'''示例二'''
import asyncio
async def others():
    print('start')
    await asyncio.sleep(2)
    print('end')
    return '返回值'
async def func():
    print('执行协程函数内部代码')

    #遇到IO操作挂起当前协程（任务），等IO操作完成以后再继续往下执行，当前协程挂起时，事件循环可以去执行其他区协程（任务
    response = await others()
    print('IO请求结束，结果为：', response)
asyncio.run(func())

'''示例三'''
import asyncio
async def others():
    print('start')
    await asyncio.sleep(2)
    print('end')
    return '返回值'
async def func():
    print('执行协程函数内部代码')

    #一个协程函数中可以有多个await关键字
    response1 = await others()
    print('IO请求结束，结果为：', response1)

    response2 = await others()
    print('IO请求结束，结果为：', response2)

asyncio.run(func())

（4）Task对象

Task对象官方文档

主要就是在事件循环中添加多个任务。

Task 用于并发调度协程，通过asyncio.create_task(协程对象) 的方式创建 Task 对象，这样可以让协程加入事件循环中等待被调度执行。除了使用 asyncio.create_task() 函数之外，还可以使用低层级的 loop.create_task() 或者 ensure_future() 函数，不建议手动实例化 Task 对象

'''示例1'''
import asyncio
async def func():
    print(1)
    await asyncio.sleep(2)
    print(2)
    return '返回值'
async def main():
    print('main开始')
    # 创建Task对象，将当前执行func函数任务添加到事件循环
    task1 = asyncio.create_task(func())
    # 创建Task对象，将当前执行func函数任务添加到事件循环
    task2 = asyncio.create_task(func())
    print('main结束')
    # 当执行某协程遇到IO操作时，会自动华切换执行其他任务
    # 此处的 await 是等待相对应的协程全部执行完毕并获取结果
    ret1 = await task1
    ret2 = await task2
    print(ret1,ret2)

asyncio.run(main())

'''示例2'''
import asyncio
async def func():
    print(1)
    await asyncio.sleep(2)
    print(2)
    return '返回值'
async def main():
    print('main开始')
    
    task_list = [
        asyncio.create_task(func(), name='n1'),
        asyncio.create_task(func(), name='n2')
    ]#多个任务，更常使用列表形式
    print('main结束')    
    
    done, pending = await asyncio.wait(task_list, timeout=None)
    print(done)
    
asyncio.run(main())#loop事件循环首先创建，然后列表才创建进去

'''示例3'''
import asyncio

async def func():
    print(1)
    await asyncio.sleep(2)
    print(2)
    return '返回值'

#使用这段代码会报错，因为列表里的代码会立即加到事件循环中去，但是此时事件循环还没有创建
# task_list = [
#     asyncio.create_task(func(), name='n1'),
#     asyncio.create_task(func(), name='n2')
# ]
task_list = [
    func(),
    func()
]

done, pending = asyncio.run(asyncio.wait(task_list))
print(done)

（5）asyncio.Future对象

asyncio.Future官方文档

Task 对象继承 Future，Task 对象内部 await 结果的处理是基于 Future 对象来的。

'''示例1'''
import asyncio
async def main():
    # 获取当前事件循环
    loop = asyncio.get_running_loop()

    # 创建一个任务（Future对象），这个任务什么都不干
    fut = loop.create_future()

    #  等待任务最终的结果（Future对象）,没有结果则会一直等下去。
    await fut

asyncio.run(main())

'''示例2'''
import asyncio
async def set_after(fut):
    await asyncio.sleep(2)
    fut.set_result('666')
async def main():
    #的获取当前事件循环
    loop = asyncio.get_running_loop()

    # 创建一个任务（Task对象），绑定了set_after函数，函数内部在2s之后，会给fut赋值
    # 即手动设置future任务的最终结果，那么fut就可以结束了
    await loop.create_task(set_after(fut))

    # 等待 future 对象获取最终结果，否则会一直等下去
    data = await fut
    print(data)

asyncio.run(main())

（6）concurrent.futures.Future对象

concurrent.futures官方文档

使用进程池或者线程池实现异步操作时用到的对象。

import time
from concurrent.futures import Future
from concurrent.futures.thread import ThreadPoolExecutor
from concurrent.futures.process import ProcessPoolExecutor

def func(value):
    time.sleep(1)
    print(value)
    
# 创建线程池
pool = ThreadPoolExecutor(max_workers= 5)
#创建进程池
#  pool = ProcessPoolExecutor(max_workers = 5)

for i in range(10):
    fut = pool.submit(func, i)
    print(fut)

以后写代码或许还有交叉使用。例如：crm项目80%都是属于基于协程异步编程 + MySQL（不支持）【线程或者进程做异步编程】

import time
import asyncio
import concurrent.futures

def func1():
    # 某个耗时操作
    time.sleep(2)
    return "SB"

async def main():
    loop = asyncio.get_running_loop()

    # 1.Run is the default loop's executor(默认ThreadPoolExecutor)
    # step1 ：内部调用ThreadPoolExecutor 的 submit 方法去线程池中申请一个线程去执行 func1 函数，并返回一个 concurrent.futures.Future 对象
    # step2 ：调用asyncio.wrap_future 将 concurrent.futures.Future 对象包装为 asyncio.Future 对象
    # 因为 concurrent.futures.Future 对象不支持 await 语法，所以需要包装为 asyncio.Future 对象，才可以使用
    fut = loop.run_in_executor(None, func1)
    result = await fut
    print('default thread pool', result)
    # 2.Run in a custom thread pool:
    # with concurrent.futures.ThreadPoolExecutor() as pool:
    # result = await loop.run_in_executor(pool,func1)
    # print('custom thread pool',result)

    # 3.Run in a custom process pool:
    # with concurrent.futures.ThreadPoolExecutor() as pool:
    # result = await loop.run_in_executor(pool,func1)
    # print('custom process pool',result)

asyncio.run(main())

（7）案例：asyncio + 不支持异步的模块

# 跟前一节代码一样的效果，但是更耗费资源
import requests
import asyncio

async def download_image(url):
    # 发送网络请求，下载图片（遇到网络下载图片的IO请求，自动化切换到其他任务）
    print('开始下载', url)

    loop = asyncio.get_event_loop()
    # requests模块默认不支持异步操作，所以就使用线程池来配合实现了
    future = loop.run_in_executor(None, requests.get, url)

    response = await future
    print('下载完成')
    # 图片保存到本地文件
    file_name = url.rsplit('-')[-1]
    with open(file_name, mode='wb') as file_object:
        file_object.write(response.content)

if __name__ == '__main__':
    url_list = [
        'https://pic.netbian.com/uploads/allimg/210302/000706-1614614826df15.jpg',
        'https://pic.netbian.com/uploads/allimg/200910/200207-1599739327e5a8.jpg',
        'https://pic.netbian.com/uploads/allimg/190902/152344-1567409024af8c.jpg'
    ]

    tasks = [download_image(url) for url in url_list]

    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.wait(tasks))

（8）异步迭代器

什么是异步迭代器？

实现了 __aiter__() 和 __anext__() 方法的对象。__anext__() 必须返回一个 awaitable 对象。async for 会处理异步迭代器的 __anext__() 方法所返回的可等待对象，直到其引发一个 StopAsyncIteration 异常。由 PEP 492 引入。

什么是异步可迭代对象？
可在 async for 语句中被使用的对象。必须通过它的 __aiter__() 方法返回一个 asynchronous iterator。由 PEP 492 引入。

import asyncio

class Reader(object):
    '''自定义异步迭代器 （同时也是一部可迭代对象）'''
    def __init__(self):
        self.count = 0

    async def readline(self):
        # await asyncio.sleep(1)
        self.count  += 1
        if self.count == 100:
            return None
        return self.count

    def __aiter__(self):
        return self

    async def __anext__(self):
        val = await self.readline()
        if val == None:
            raise StopAsyncIteration
        return val

async def func():
    obj = Reader()
    async for item in obj:
        print(item)

asyncio.run( func() )

（9）异步上下文管理器

此种对象通过定义 __aenter__() 和 __aexit__() 方法来对 async with 语句中的环境进行控制。

import asyncio

class AsyncContextManager:
    def __init__(self, conn=None):
        self.conn = conn

    async def do_something(self):
        # 异步操作数据库
        return 666

    async def __aenter__(self):
        # 异步链接数据库
        self.conn = await asyncio.sleep(1)
        return self

    async def __aexit__(self, exc_type, exc, tb):
        # 异步关闭数据库链接
        await asyncio.sleep(1)

async def func():
    async with AsyncContextManager() as f:
        result = await f.do_something()
        print(result)

asyncio.run(func())

4. uvloop

uvloop 是 asyncio 的事件循环的替代方案。事件循环 > 默认 asyncio 的事件循环。

pip install uvloop

import asyncio
import uvloop
asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())

# 编写 asyncio 的代码，与之前写的代码一致

# 内部的事件循环自动化会变为 uvloop
asyncio.run(...)

5. 实战案例

（1）异步 redis

在使用 python 代码操作 redis 时，链接/操作/断开都是网络IO。

pip install aioredis

#作者未设置 redis，故此代码未测试
import asyncio
import aioredis

async def execute(address, password):
    print('开始执行', address)
    # 网络IO操作：创建 redis 链接
    redis = await aioredis.create_redis(address, password = password)
    # 网络IO操作：在 redis 中设置哈希值 car，内部再设三个键值对，即：redis = {car:{key1:1,key2:2,key3:33}}
    await redis.hmset_dict('car', key1 = 1, key2 = 2, key3 = 3)
# 网络IO操作：去 redis 中获取值
    result = await redis.hgetall('car', encoding = 'utf-8')
    print(result)

    redis.close()
    # 网络IO操作：关闭 redis 链接
    await redis.wait_closed()
    print('结束', address)

asyncio.run(execute('redis://47.93.4.198:6379', "root!2345"))

'''示例2'''
import asyncio
import aioredis

async def execute(address, password):
    print('开始执行', address)
    # 网络IO操作：先去连接 47.93.4.197:6379 遇到IO自动切换任务，去连接 47.93.4.198:6379
    redis = await aioredis.create_pool(address, password = password)
    # 网络IO操作：遇到IO自动切换任务
    await redis.hmset_dict('car', key1 = 1, key2 = 2, key3 = 3)
# 网络IO操作：遇到IO自动切换任务
    result = await redis.hgetall('car', encoding = 'utf-8')
    print(result)

    redis.close()
    # 网络IO操作：遇到IO自动切换任务
    await redis.wait_closed()
    print('结束', address)
    
task_list =[
    execute('redis://47.93.4.197:6379','root!2345'),
    execute('redis://47.93.4.198:6379','root!2345')
]

asyncio.run(asyncio.wait(task_list))

（2）异步MySQL

pip3 install aiomysql

'''示例1'''
import asyncio
import aiomysql

async def execute():
    # 网络IO操作：连接 MySQL
    conn = await aiomysql.connect(host='127.0.0.1', port= 3306, user = 'root', password = '123',db= 'mysql')
    # 网络IO操作：创建 CURSOR
    cur = await conn.cursor()
# 网络IO操作：执行 SQL
    await cur.execute('SELECT Host,User FROM user')
    # 网络IO操作：获取SQL结果
    result = await cur.fetchall()
    print(result)
    # 网络IO操作：关闭 链接
    await cur.close()
    conn.close()

asyncio.run(execute())

'''示例2'''
import asyncio
import aiomysql

async def execute(host, password):
    print('开始', host)
    # 网络IO操作：先连197，遇到IO自动切换，去连198
    conn = await aiomysql.connect(host = host, port= 3306, user = 'root', password = password,db= 'mysql')
    # 网络IO操作：遇到IO自动切换
    cur = await conn.cursor()
# 网络IO操作：遇到IO自动切换
    await cur.execute('SELECT Host,User FROM user')
    # 网络IO操作：遇到IO自动切换
    result = await cur.fetchall()
    print(result)
    # 网络IO操作：遇到IO自动切换
    await cur.close()
    conn.close()
    print('结束', host)
task_list =[
    execute('47.93.4.197:6379','root!2345'),
    execute('47.93.4.198:6379','root!2345')
]

asyncio.run(asyncio.wait(task_list))

（3）FastAPI框架

pip3 install fastapi pip3 install uvicorn

'''示例'''
import uvicorn
import asyncio
from fastapi import FastAPI

app = FastAPI()

@app.get("/")
def index():
    '''普通操作接口'''
    return{"message":"Hello World"}

if __name__ == '__main__':
    uvicorn.run("luffy:app",host= '127.0.0.1',port= 5000, log_level= 'info')

'''示例2'''
from aioredis import Redis
import uvicorn
import aioredis
import asyncio
from fastapi import FastAPI

app = FastAPI()
# 创建一个redis的连接池 实际运行时更换自己的redis
REDIS_POOL = aioredis.ConnectionPool('redis://47.193.14.198:6379', password= 'root123', minsize = 1 , maxsize = 10)

@app.get("/")
def index():
    '''普通操作接口'''
    return{"message":"Hello World"}
@app.get('/red')
async def red():
    # 异步操作接口
    print('请求来了')
    await asyncio.sleep(3)
    
    # 连接池获取一个连接
    conn = await REDIS_POOL.acquire()
    redis = Redis(conn)
    
    # 设置值
    await redis.hmset_dict('car',key1 = 1,key2 = 2,key3 =3)
    
    # 读取值
    result = await redis.hgetall('car', encoding ='utf-8')
    print(result)
    
    #连接归还连接池
    REDIS_POOL.release(conn)
    return result
if __name__ == '__main__':
    uvicorn.run("脚本名:app",host= '127.0.0.1',port= 5000, log_level= 'info')

（4）异步爬虫

pip3 install aiohttp

'''使用aiohttp模块下载    协程方式'''
import aiohttp
import asyncio


async def fetch(session, url):
    print('发送请求：', url)
    async with session.get(url, verify_ssl = False) as response:
        text = await response.text()
        file_name = url.rsplit('-')[-1]
        print('得到结果：', url , len(text))
        return text

async def main():
    async with aiohttp.ClientSession() as session:
        url_list = [
            'https://python.org',
            'https://www.baidu.com',
            'https://www.pythonav.com'
        ]
        tasks = [asyncio.create_task(fetch(session, url)) for url in url_list]
        done, pending = await asyncio.wait(tasks)

if __name__ == '__main__':
    asyncio.run(main())

yarn的安装使用

2021-02-06T05:13:54.000Z

背景

在 Node 生态系统中，依赖通常安装在项目的 node_modules 文件夹中。然而，这个文件的结构和实际依赖树可能有所区别，因为重复的依赖可以合并到一起。npm 客户端把依赖安装到 node_modules 目录的过程具有不确定性。这意味着当依赖的安装顺序不同时，node_modules 目录的结构可能会发生变化。这种差异可能会导致类似“我的电脑上可以运行，别的电脑上不行”的情况，并且通常需要花费大量时间定为与解决。

有时候就会遇到这种情况，完整可运行的项目上传到 git 上，别人 pull 下来以后，npm install 会报错。

Yarn 一开始的主要目标是解决由于语义版本控制而导致的 npm 安装的不确定性问题。虽然可以用 npm shrinkwrap 来实现可预测的依赖关系树，但它并不是默认选项，而是取决于所有的开发人员指导并启用这个选项。

npm 5+ 以后的版本加入了 package-lock.json 可以用来锁版本，package-lock.json 的名字，一看就懂，更清楚，但是不向后兼容。
npm-shrinkwrap.json 向后兼容 npm 2-4。

举个例子：
npm 对包引入顺序也十分的敏感，比如在一个空项目里执行以下命令：

npm init -y
npm install globule@0.1.0 -S
npm install babel-generator@6.19.0 -S
npm install babel-helper-define-map@6.18.0 -S

我们这里安装了 3 个包都依赖于 lodash，不过 globule 依赖 lodash@1.0.3，另外另个依赖 lodash@4.x。
现在目录依赖结构如下：

这是假设我们在项目里使用 lodash，但是忘记重新安装 lodash

1 2	var lodash = require('lodash') console.log(lodash.VERSION) // v1.0.3

另一个同事获取项目代码，执行 npm install，这时的目录依赖结构里面，第一层依赖的 lodash 变成了 4.x 版本，这样就造成了依赖版本不一致的问题。而 yarn 则会保证无论怎样引入的顺序，目录依赖结构都是一致的，确保不会发生这样的BUG。

什么是 Yarn

Yarn 就是一个类似于 npm 的包管理工具，它是由 facebook 推出并开源。

与 npm 相比，yarn 有着众多的优势，主要的优势在于：速度快、离线模式、版本控制。

速度快

npm 会等一个包完全安装完才跳到下一个包，但 yarn 会并行执行包，因此速度会快很多。

Yarn 会缓存它下载的每个包，所以无需重复下载。它还能并行化操作以最大化资源利用率，安装速度之快前所未有。

离线模式

之前安装过的包会被保存进缓存目录，以后安装就直接从缓存中复制过来，这样做的本质还是会提高安装下载的速度，避免不必要的网络请求。

可靠可确定性

保证各平台依赖的一致性

网络优化

力求网络资源最大利用化，让资源下载完美队列执行，避免大量的无用请求，下载失败会自动重新请求，避免整个安装过程失败

扁平化模式

对于不匹配的依赖版本的包创立一个独立的包，避免创建重复的。
对于多个包依赖同一个子包的情况，yarn 会尽量提取为同一个包，防止出现多处副本，浪费空间。

版本控制

npm 用下来比较强的一个痛点就是：当包的依赖层次比较深时，版本控制不够精确。会出现相同 package.json，但不同人的电脑上安装出不同版本的依赖包，出现类似“我的电脑上可以运行，别的电脑上不行”的 bug 很难查找。你可以使用 npm-shrinkwrap 来实现版本固化，版本信息会写入 npm-shrinkwrap.json 文件中，但它毕竟不是 npm 的标准配置。

而 yarn 天生就能实现版本固化。会生成一个类似 npm-shrinkwrap.json 的 yarn.lock 文件，而文件内会描述包自身的版本号，还会锁定所有它依赖的包的版本号：

"@babel/code-frame@7.0.0-beta.47":
  version "7.0.0-beta.47"
  resolved "https://registry.yarnpkg.com/@babel/code-frame/-/code-frame-7.0.0-beta.47.tgz#d18c2f4c4ba8d093a2bcfab5616593bfe2441a27"
  dependencies:
    "@babel/highlight" "7.0.0-beta.47"

yarn.lock 存储着你的每个包的确切依赖版本，能确保从本地开发到生产环境，所有机器上都有精确相同的依赖版本。

其他关于 Yarn 的介绍

我们在使用 Yarn 时，依然要访问 npm 仓库，但 Yarn 能够更快速地安装软件包和管理依赖关系，并且可以在跨机器或者无网络的安全环境中保持代码的一致性。

Yarn 安装

windows

在 Yarn 中文网可以找到 window 下的三种安装方法：

[

不过我觉得这三种方法都不好用，快速好用的安装方法应该还是使用 npm 来安装：

1	npm install -g yarn

关于为什么使用 -g，以及 -g 会带来哪来影响，这个可以看我的这篇文章：npm详细介绍，里面详细介绍了为什么要使用 -g，以及 -g 的作用。

mac

方式一

1	npm install -g yarn

如果有报： Please try running this command again as root/Administrator.，可能就是权限不足，因此你需要切换到最高权限去执行命令

1 2	sudo -s npm install yarn -g

方式二

使用另一种初始化脚本的方法，可能就会比较简单一些：

1	curl -o- -L https://yarnpkg.com/install.sh \| bash

方式三

如果你的电脑上面已经安装了 Homebrew 的话，你可以通过 Homebrew 包管理器安装 Yarn

1	brew install yarn

Yarn 换源

Yarn 源仓库包下载不稳定

// 查看 yarn 配置
yarn config get registry
或者
yarn config list

> registry: 'https://registry.yarnpkg.com'

1 2	安装淘宝镜像 yarn config set registry https://registry.npm.taobao.org

Yarn 常用命令

npm install === yarn —— install安装是默认行为
npm install taco --save === yarn add taco —— taco包立即被保存到 package.json 中。
npm uninstall taco --save === yarn remove taco
npm install taco --save-dev === yarn add taco --dev
npm update --save === yarn upgrade

npm install taco@latest --save === yarn add taco
npm install taco --global === yarn global add taco —— 一如既往，请谨慎使用 global 标记。

注意：使用yarn或yarn install安装全部依赖时是根据package.json里的”dependencies”字段来决定的

npm init === yarn init
npm init --yes/-y === yarn init --yes/-y
npm link === yarn link
npm outdated === yarn outdated
npm publish === yarn publish
npm run === yarn run
npm cache clean === yarn cache clean
npm login === yarn login
npm test === yarn test

Yarn 独有的命令

yarn licenses ls —— 允许你检查依赖的许可信息
yarn licenses generate —— 自动创建依赖免责声明 license
yarn why taco —— 检查为什么会安装 taco，详细列出依赖它的其他包
yarn why vuepress —— 检查为什么会安装 vuepress，详细列出依赖它的其他包

特性

Yarn 除了让安装过程变得更快与更可靠，还添加了一些额外的特性，从而进一步简化依赖管理的工作流。

同时兼容 npm 与 bower 工作流，并支持两种软件仓库混合使用
可以限制已安装模块的协议，并提供方法输出协议信息
提供一套稳定的共有 JS API，用于记录构建工具的输出信息
可读、最小化、美观的 CLI 输出信息

termux高阶使用教程

2021-02-02T07:37:07.000Z

本文摘自国光 https://www.sqlsec.com/2018/05/termux.html

Termux 高级终端安装使用配置教程，刚写这篇文章的时候，当时国内 Termux 相关的文章和资料相对来说还是比较少的，就花了几天写了这一篇文章，没想到居然火了，受宠若惊。所以这篇文章国光就打算定期更新了，想打造成 termux 的中文文档，希望本文可以帮助到更多对 Termux 感兴趣的朋友，发挥 Android 平台更大的 DIY 空间。

版权声明

17 年开始接触到 Termux，就发现它有很多值得挖掘的潜力，于是抽空在 18 年的某一个法定的整整花了三天假期开才写完第一版文章，然后文章陆陆续续更新到现在，期间有一次误操作不小心把博客所有的评论都删了，否则这篇文章的评论数会更多。现在本文的截图数量达到了150张左右了，文字数目已经数万多了。自己花了很长时间写出来的原创文章，抄袭白嫖党直接Ctrl+C Ctrl+V只要几秒钟。原创很辛苦，抄袭的成本却很低，维权的成本又很高，虽然国内目前的抄袭风气很严重，但是我相信尊重原创，保护原创从现在做起从大家做起，tomorrow is another day! 如果大面转载引用的话希望标明文章出处:

Termux 高级终端安装使用配置教程

https://www.sqlsec.com/2018/05/termux.html

学习资源

考虑到手机用户体验和离线观看教程的需求，国光打包了几种风格的 PDF版本，并且已经插入好目录，阅读体验会比较友好。

黑色背景的 PDF : Termux入门指南（Vue 黑）

白色背景的 PDF : Termux入门指南（Github 白）

macOS light风格 : Termux入门指南（macOS 白）

Gothic风格 : Termux入门指南（简约线条）

早期我的信息安全交流群里面陆陆续续加了很多 Temux 玩家，然而那是一个信息安全交流群，Termux 的提问经常没有人回答，所以后来我就把博客所有的加群链接给去了。现在国光我单独建立了 1 个Temux 群，加群链接藏在本文当中，是一个彩蛋，缘妙不可言，随缘入群吧。好了话不多说，教程开始了，希望本文可以帮助到大家。

Termux 简介

文档相关

下载地址

Google Play 下载的版本比酷安要新，而且插件这块安装也很方便，有能力的朋友建议首先考虑下载Google PLay版本的，然后考虑 F-Droid版本，最后再考虑可怜兮兮的酷安版本。

Termux 是一个 Android 下一个高级的终端模拟器,开源且不需要 root，支持 apt 管理软件包，十分方便安装软件包，完美支持 Python、 PHP、 Ruby、 Nodejs、 MySQL等。随着智能设备的普及和性能的不断提升，如今的手机、平板等的硬件标准已达到了初级桌面计算机的硬件标准，用心去打造 DIY 的话完全可以把手机变成一个强大的极客工具。

初始化

第一次启动Termux的时候需要从远程服务器加载数据，然而可能会遇到这种问题：

Verilog

1
2
3

Ubable to install
Termux was unable to install the bootstrap packages.
Check your network connection and try again.

这里的Termux官方远程的服务器地址是: http://termux.net/bootstrap/

目前解决方法有两种：

VPN 全局代理（成功率很高）
如果你是 WiFi 的话尝试切换到运营商流量（有一定成功率）
① Google Play ② F-Droid ③ 酷安根据这个顺序重复1、2操作

基本操作

基本操作还是要学习一下的，可以事半功倍。

缩放文本

可以使用缩放手势来调整其字体大小。对就是双指放大缩小照片那样操作。

长按屏幕

长按屏幕会调出显示菜单项（包括复制、粘贴、更多），方便我们进行复制或者粘贴

More 菜单的说明如下：

Bash

长按屏幕
├── COPY:    # 复制
├── PASTE:   # 粘贴
├── More:    # 更多
   ├── Select URL:             # 提取屏幕所有网址
   └── Share transcipt:        # 分享命令脚本
   └── Reset:                  # 重置
   └── Kill process:           # 杀掉当前会话进程
   └── Style:                  # 风格配色 需要自行安装
   └── Keep screen on:         # 保持屏幕常亮
   └── Help:                   # 帮助文档

会话管理

显示隐藏式导航栏，可以新建、切换、重命名会话session和调用弹出输入法

同时在Android的通知栏中也可以看到当前Termux运行的会话数：

常用按键

常用键是PC端常用的按键如: ESC键、Tab键、CTR键、ALT键，有了这些按键后可以提高我们日常操作的效率，所以Termux后面的版本默认都是显示这个扩展功能按键的。 (18年的时候默认是不显示的)

打开和隐藏这个扩展功能按键目前有下面两种方法：

方法一

从左向右滑动,显示隐藏式导航栏,长按左下角的KEYBOARD

方法二

使用Termux快捷键:音量++Q键或者 音量++K键

当然这个常用按键在 Termux 后面的版本也支持自定义的，详情见本文的「进阶配置」-「定制常用按键」这一小节。

基础知识

这些基础知识简单了解一下就可以了，Linux 用的多了就会慢慢熟悉理解了。

快捷键表

Ctrl键是终端用户常用的按键，但大多数触摸键盘都没有这个按键，因此 Termux 使用音量减小按钮来模拟Ctrl键。
例如，在触摸键盘上按音量减小+ L就相当于是键盘上按Ctrl + L的效果一样，达到清屏的效果。

Ctrl + A -> 将光标移动到行首
Ctrl + C -> 中止当前进程
Ctrl + D -> 注销终端会话
Ctrl + E -> 将光标移动到行尾
Ctrl + K -> 从光标删除到行尾
Ctrl + U -> 从光标删除到行首
Ctrl + L -> 清除终端
Ctrl + Z -> 挂起（发送SIGTSTP到）当前进程
Ctrl + alt + C -> 打开新会话（仅适用于黑客键盘）

音量加键也可以作为产生特定输入的特殊键.

音量加 + E -> Esc键
音量加 + T -> Tab键
音量加 + 1 -> F1（音量增加 + 2 → F2…以此类推）
音量加 + 0 -> F10
音量加 + B -> Alt + B，使用readline时返回一个单词
音量加 + F -> Alt + F，使用readline时转发一个单词
音量加 + X -> Alt+X
音量加 + W -> 向上箭头键
音量加 + A -> 向左箭头键
音量加 + S -> 向下箭头键
音量加 + D -> 向右箭头键
音量加 + L -> | （管道字符）
音量加 + H -> 〜（波浪号字符）
音量加 + U -> _ (下划线字符)
音量加 + P -> 上一页
音量加 + N -> 下一页
音量加 + . -> Ctrl + \（SIGQUIT）
音量加 + V -> 显示音量控制
音量加 + Q -> 切换显示的功能键视
音量加 + K -> 切换显示的功能键视图

快捷键用的熟悉的话也可以极大提高操作的效率。

基本命令

Termux 除了支持 apt 命令外，还在此基础上封装了pkg命令，pkg 命令向下兼容 apt 命令。apt命令大家应该都比较熟悉了，这里直接简单的介绍下pkg命令:

Bash

pkg search               # 搜索包
pkg install            # 安装包
pkg uninstall          # 卸载包
pkg reinstall          # 重新安装包
pkg update                      # 更新源
pkg upgrade                     # 升级软件包
pkg list-all                    # 列出可供安装的所有包
pkg list-installed              # 列出已经安装的包
pkg show               # 显示某个包的详细信息
pkg files              # 显示某个包的相关文件夹路径

国光建议大家使用 pkg 命令，因为 pkg 命令每次安装的时候自动执行 apt update 命令，很是方便

软件安装

除了通过上述的 pkg 命令安装软件以外，如果我们有 .deb 软件包文件，也可以使用 dpkg 进行安装。

Bash

dpkg -i ./package.de         # 安装 deb 包
dpkg --remove [package name] # 卸载软件包
dpkg -l                      # 查看已安装的包
man dpkg                     # 查看详细文档

目录结构

Bash

echo $HOME
/data/data/com.termux/files/home

echo $PREFIX
/data/data/com.termux/files/usr

echo $TMPPREFIX
/data/data/com.termux/files/usr/tmp/zsh

长期使用 Linux 的朋友可能会发现，这个HOME路径看上去和我们电脑端的不太一样，这是为了方便 Termux 提供的特殊的环境变量。

端口查看

Android 10 以下版本

Andorid 10 以下的版本是可以正常使用netstat 命令的，这样可以方便的查看端口开放信息

Bash

# 查看所有端口
netstat -an

# 查看3306端口的开放情况
netstat -an|grep 3306

Android 10 版本

Andorid 10 版本的Termux 下无法正常使用 netstat -an 命令，国光的解决方法是安装一个 nmap，然后扫描本地端口（弯道超车）：

Bash

# 安装nmap端口扫描神器
pkg install nmap

# 扫描本地端口
nmap 127.0.0.1

使用 nmap 操作纯属无奈之举，但是又不是不能用（源于：罗永浩名言 :-)）

进阶配置

要想使用体验好，进阶配置少不了。（单押）

更换国内源

使用pkg update 更新一下的时候发现默认的官方源网速有点慢，在这个喧嚣浮躁的时代，我们难以静下心等待，这个时候就得更换成国内的Termux清华大学源了，加快软件包下载速度。

方法一：自动替换（推荐）

可以使用如下命令自动替换官方源为 TUNA 镜像源

pkg update 卡住的话多按几次回车不要傻乎乎的等

Bash

sed -i 's@^\(deb.*stable main\)$@#\1\ndeb https://mirrors.tuna.tsinghua.edu.cn/termux/termux-packages-24 stable main@' $PREFIX/etc/apt/sources.list

sed -i 's@^\(deb.*games stable\)$@#\1\ndeb https://mirrors.tuna.tsinghua.edu.cn/termux/game-packages-24 games stable@' $PREFIX/etc/apt/sources.list.d/game.list

sed -i 's@^\(deb.*science stable\)$@#\1\ndeb https://mirrors.tuna.tsinghua.edu.cn/termux/science-packages-24 science stable@' $PREFIX/etc/apt/sources.list.d/science.list

pkg update

更换源几秒钟就可以执行完pkg update了，心里顿时乐开了花。

方法二：手动修改

请使用内置或安装在 Termux 里的文本编辑器，例如 vi / vim / nano 等直接编辑源文件，不要使用 RE 管理器等其他具有 ROOT 权限的外部 APP 来修改 Termux 的文件

编辑 $PREFIX/etc/apt/sources.list 修改为如下内容

Bash

1 2	# The termux repository mirror from TUNA: deb https://mirrors.tuna.tsinghua.edu.cn/termux/termux-packages-24 stable main

编辑 $PREFIX/etc/apt/sources.list.d/science.list 修改为如下内容

Bash

1 2	# The termux repository mirror from TUNA: deb https://mirrors.tuna.tsinghua.edu.cn/termux/science-packages-24 science stable

编辑 $PREFIX/etc/apt/sources.list.d/game.list 修改为如下内容

Bash

1 2	# The termux repository mirror from TUNA: deb https://mirrors.tuna.tsinghua.edu.cn/termux/game-packages-24 games stable

安装基础工具

更换源之后来赶紧来下载安装一些基本工具吧，这些工具基本上是 Linux 系统自带的，因为 Termux 为了体积不过大，默认是没有带这些工具的，执行下面的命令来安装:

Bash

1 2	pkg update pkg install vim curl wget git tree -y

终端配色方案

脚本项目地址：https://github.com/Cabbagec/termux-ohmyzsh/

该脚本主要使用了zsh来替代bash作为默认 shell，并且支持色彩和字体样式，同时也激活了外置存储，可以直接访问SD卡下的目录。主题默认为 agnoster，颜色样式默认为 Tango，字体默认为 Ubuntu。

执行下面这个命令确保已经安装好了 curl 命令

Bash

1	sh -c "$(curl -fsSL https://github.com/Cabbagec/termux-ohmyzsh/raw/master/install.sh)"

如果因为不可抗力的原因，出现port 443: Connection refused网络超时的情况，那么执行下面国光迁移到国内的地址的命令即可：

Bash

1	sh -c "$(curl -fsSL https://html.sqlsec.com/termux-install.sh)"

Android6.0 以上会弹框确认是否授权访问文件,点击始终允许授权后 Termux 可以方便的访问SD卡文件。

手机 App 默认只能访问自己的数据，如果要访问手机的存储，需要请求权限，如果你刚刚不小心点了拒绝的话，那么可以执行以下命令来重新获取访问权限:

Bash

1	termux-setup-storage

脚本允许后先后有如下两个选项:

Bash

1 2	Enter a number, leave blank to not to change: 14 Enter a number, leave blank to not to change: 6

分别选择色彩样式和字体样式，重启Termux app后生效配置。不满意刚刚的效果，想要继续更改配色方案的话，可以根据下面命令来更改对应的色彩配色方案：

设置色彩样式：

输入chcolor命令更换色彩样式，或者：~/.termux/colors.sh命令

设置字体

运行chfont更换字体，或者：~/.termux/fonts.sh命令

创建目录软连接

执行过上面的一键配置脚本后，并且授予 Termux 文件访问权限的话，会在家目录生成storage目录，并且生成若干目录，软连接都指向外置存储卡的相应目录:

创建QQ文件夹软连接

手机上一般经常使用手机QQ来接收文件,这里为了方便文件传输,直接在storage目录下创建软链接.
QQ

Bash

1	ln -s /data/data/com.termux/files/home/storage/shared/tencent/QQfile_recv QQ

TIM

Bash

1	ln -s /data/data/com.termux/files/home/storage/shared/tencent/TIMfile_recv TIM

这样可以直接在home目录下去访问QQ文件夹，大大提升了工作效率。

定制常用按键

在 Termux v0.66 的版本之后我们可以通过 ~/.termux/termux.properties 文件来定制我们的常用功能按键，默认是不存在这个文件的，我们得自己配置创建一下这个文件。

下面做尝试简单配置一下这个文件:

Bash

1 2	# 新建并编辑配置文件 vim ~/.termux/termux.properties

内容为：

Bash

extra-keys = [ \
 ['ESC','|','/','HOME','UP','END','PGUP','DEL'], \
 ['TAB','CTRL','ALT','LEFT','DOWN','RIGHT','PGDN','BKSP'] \
]

如果无法创建这个文件，那么得首先新建一下这个目录 mkdir ~/.termux

修改完成保存文件后，重启 Termux app生效配置：

可以直接输入特殊的字符串，例如上面的例子中的|就是一个字符串，此外 Termux 还有封装了一些特殊按键，入上面例子中的ESC就是 Termux 自带的按键，完整的特殊按键表如下：

按键	说明
`CTRL`	`特殊按键`
`ALT`	`特殊按键`
`FN`	`特殊按键`
ESC	退出键
TAB	表格键
HOME	原位键
END	结尾键
PGUP	上翻页键
PGDN	下翻页键
INS	插入键
DEL	删除键
BKSP	退格键
UP	方向键上
LEFT	方向键左
RIGHT	方向键右
DOWN	方向键下
ENTER	回车键
BACKSLASH	反斜杠 `\`
QUOTE	双引号键
APOSTROPHE	单引号键
F1~F12	F1-F12按键

上面列出的三个特殊键中的每一个最多只能在附加键定义中列出一次，超过次数将会报错。

下面是国光我自用的按键表：

Bash

extra-keys = [ \
 ['ESC','|','/','`','UP','QUOTE','APOSTROPHE'], \
 ['TAB','CTRL','~','LEFT','DOWN','RIGHT','ENTER'] \
]

zsh 主题配色

编辑家目录下的.zshrc配置文件

Bash

1	$ vim .zshrc

第一行可以看到,默认的主题是agnoster主题:

实际上这个主题也蛮酷的，如果你还想更换其他主题的话，那么在.oh-my-zsh/themes目录下放着oh-my-zsh所有的主题配置文件，只要将默认的 agnoster 更换为其他的主题文件名即可。
下面是国光认为还不错的几款主题

agnoster

robbyrussell

主题比较多，国光这里就不列举了，感兴趣大家可以一个个尝试去看看。当然如果你是个变态的话，可以尝试random 主题,每打开一个会话配色主题都是随机的.

1	ZSH_THEME="random"

zsh 插件推荐

zsh 之所以受欢迎除了好看的配色以为，另一个原因就是强大的插件了。下面国光列举一款比较实用的插件的安装方法，更多强大的插件等待大家自己去探索。

autosuggestions

根据用户的平时使用习惯，终端会自动提示接下来可能要输入的命令，这个实际使用效率还是比较高的：

Bash

1 2	# 拷贝到 plugins 目录下 git clone git://github.com/zsh-users/zsh-autosuggestions $ZSH_CUSTOM/plugins/zsh-autosuggestions

在 ~/.zshrc 中配置：

Ini

1	plugins=(其他的插件 zsh-autosuggestions)

输入zsh命令生效配置:

效果图

可以看到国光我只敲了一个v后面的命令就自动提示补全了，这时候只要按右方向键，在 Termux 里面的快捷键是 音量加 + D，就可以直接补全命令了。

修改启动问候语

默认的启动问候语如下:

这个启动问候语在前期对于初学者有一定的帮助，但是随着你们 Termux 的熟悉，这个默认的问候语就会显得比较臃肿。编辑问候语文件可以直接修改启动显示的问候语:

Bash

1	vim $PREFIX/etc/motd

修改完的效果如下:

本文版本归国光所有转载注明出处哦

这样启动新的会话的时候看上去就会简洁很多。什么你也想要这个效果？呐下面是国光自己生成的，可以直接复制粘贴:

Ini

 _____                              
|_   _|__ _ __ _ __ ___  _   ___  __
  | |/ _ \ '__| '_ ` _ \| | | \ \/ /
  | |  __/ |  | | | | | | |_| |>  < 
  |_|\___|_|  |_| |_| |_|\__,_/_/\_\

超级管理员身份

利用ffmpeg制作视频床

2020-12-04T15:09:26.000Z

正文

首先你得了解 Jsdeliver，他只加载 20MB 以内的资源，如果你的视频正好控制这一范围的话，你就可以使用默认的内容了
但是由于 Jsdeliver 对视频资源的解析不友好，所以我们就得对视频资源做一定的处理。

用过 QQ 浏览器的都知道下载网页上的视频下来都是 M3U8 的视频格式，即使你不下载，只是看视频都会产生 M3U8 文件和 TS 文件。

什么是 M3U8、TS 文件？

M3U8
M3U8 是指 UTF-8 编码格式的 M3U 文件 (M3U 使用 Latin-1 字符集编码)

M3U 文件是一个记录索引的纯文本文件，打开它时播放软件并不会播放它

而是根据它的索引找到对应的音视频文件的网络地址进行在线播放

TS
ts 是日本高清摄像机拍摄下进行的封装格式，全称为 MPEG2-TS。ts 即”Transport Stream” 的缩写。

将一个视频文件 (MP4) 切片分为很多个 TS 文件，一个 TS 文件的视频时常可以自定义，比如切片为 5 秒

那么其他 ts 文件也是 5 秒，但是这个不是完全准确，也就是说会有误差，会产生 4-7 秒左右的 ts 视频文件

那他是这么工作的呢？(以下图片是本地运行过程)

ffmpeg 工具

什么是 ffmpeg 在这里我就不再赘述了，感兴趣的可以自行搜索

了解了 M3U8 和 TS，我该怎么把视频切片呢？
使用 ffmpeg 工具进行切片

官网：https://ffmpeg.org/download.html

下载解压后打开 bin 目录，在里面找到 ffmpeg.exe 复制到自己新建的一个文件夹里，再把想要切片的视频 Copy 进来

视频切片

当前目录下有
00.mp4
ffmpeg.exe
打开 cmd，cd 进入到刚刚新建的文件夹，关于怎么操作我就不多 bb 了
既然都用上 Github，用 Jsdeliver 加速了，你电脑里一定装了 Git 工具
在当前目录打开 Git Bash 命令行
(cmd 不需要 ./ )

将 mp4 转成 ts 格式，1 对 1，转换后视频质量与大小无变化。(执行下方代码得到 Lete.ts)

1	./ffmpeg.exe -y -i 00.mp4 -vcodec copy -acodec copy -vbsf h264_mp4toannexb 00.ts

按时间隔分片，1 对 N，下面的 5 即每个分片5秒，自行修改

segment_list 00.m3u8 为切片后得到的 m3u8 文件
segment_time 5 %03d.ts 为切片后得到的 ts 文件名 5 代表每个 ts 文件 5 秒播放时常 (有误差，不完全 5 秒)

1	./ffmpeg -i 00.ts -c copy -map 0 -f segment -segment_list 00.m3u8 -segment_time 5 00%03d.ts

这时你的文件了会有如下图文件

那么将剩下的东西 push 到自己的仓库吧

现在访问是 m3u8 是不可以播放视频的 (会自动下载对吧)
访问文件也是不行的 (乱码对吧)

HLS 技术

什么是 HLS 技术？

HLS (HTTP Live Streaming) 是 Apple 的动态码率自适应技术。主要用于 PC 和 Apple 终端的音视频服务。
包括一个 m3u (8) 的索引文件，TS 媒体分片文件和 key 加密串文件。(摘抄自百度百科)

CDN：https://cdn.jsdelivr.net/npm/hls.js

视频播放

属性	值	说明
autoplay	autoplay	如果出现该属性，则视频在就绪后马上播放
controls	controls	如果出现该属性，则向用户显示控件，比如播放按钮
height	pixels	设置视频播放器的高度
loop	loop	如果出现该属性，则当媒介文件完成播放后再次开始播放
muted	muted	规定视频的音频输出应该被静音.
poster	URL	规定视频下载时显示的图像，或者在用户点击播放按钮前显示的图像。
preload	preload	如果出现该属性，则视频在页面加载时进行加载，并预备播放。如果使用 “autoplay”，则忽略该属性。
src	url	要播放的视频的 URL
width	pixels	设置视频播放器的宽度

Lete  https://blog.lete114.top/article/Jsdeliver-video.html


抓包下载钉钉直播回放
2020-12-01T09:33:26.000Z
下载回放到本地（针对管理员设置不能下载的视频回放）
准备工作
fiddler（汉化版最好）
m3u8视频下载器
钉钉电脑版
主要步骤
设置fiddler
打开 Fiddler-> 工具 -> 选项
还是 Fiddler-> 工具 -> 选项里，切换到连接选项卡，记下 Fiddle 本地监听端口，比如默认的是 8888，如非必要（比如端口冲突）可以不修改
设置钉钉
退出之前登陆的钉钉账号，打开登陆设置

设置代理如下，注意代理端口要和 Fiddler监听端口保持一致！
代理类型：HTTP 代理
代理地址：127.0.0.1
代理端口：8888
开始抓包
打开钉钉，进入班级，打开直播回放界面，但是 不要点开任何视频
打开 Fiddler，Ctrl + A 选择所有会话，鼠标右键点击移除，选择所有会话移除
这时候打开钉钉直播的一个视频，可以看到 Fiddler 开始捕获钉钉的会话
在 Fiddler 会话列表用快捷键 Ctrl + F 进行查找会话，查找框输入关键词 m3u8，其他不用动，点击查找会话
找到 Host主机名为 dtliving-pre.alicdn.com 并且 URL 带有 m3u8 的会话：
鼠标右键单击会话，复制这个会话的 URL
打开 M3U8-Downloader，将刚才复制的下载地址粘贴到下载框里面
点击下载，等待下载完成打开目录即可看到你下载的回放视频（文中使用的 M3U8 下载器下载合并的格式是 mp4，不同的 M3U8 下载器可能有所不同）
修改自 Spoience   https://spoience.com/ddzhibo.html
下载完的视频正好可以分享给我的那三个室友看😁


GitHub学生包的申请过程
2020-10-30T10:24:23.000Z
记一次申请Github学生开发包以及获得Jetbrains教育许可的经历
Github 学生开发包简介
Github 作为全球最大的开源代码托管平台，在其 Github Education 官网有关于 Github 学生开发包的说明：
Learn to ship software like a pro. There’s no substitute for hands-on experience. But for most students, real world tools can be cost-prohibitive. That’s why we created the GitHub Student Developer Pack with some of our partners and friends: to give students free access to the best developer tools in one place so they can learn by doing.
这份学生开发包有什么？查看官方👉🕳
Canva Pro 免费订阅 12 个月
在你学生身份有效期内免费试用 Github Pro
免费访问 25 种以上的 Microsoft Azure 云服务以及 100 刀的 Microsoft Azure 额度
在 Namecheap 上免费一年的.me 域名和 SSL 证书
Name.com 上一个免费域名和免费高级安全性 SSL 证书
Jetbrains 免费订阅专业版桌面 IDE：IntelliJ IDEA、PyCharm、PhpStorm 等（每次免费订阅一年，每年续订一次）
Unity 免费学生计划（在学生身份有效期内）
Educative 超过 60 多个课程 6 个月的免费课程：Web 开发、Python、Java 和机器学习等主流课题
在学生身份有效期内免费的 BootStrap Studio 的许可证
Heroku 提供的免费的 Hobby Dyno，最多两年
GitKraken Pro Suite 在学生身份有效期内可用
免费一年的.tech 域名以及两个免费的电子邮件账户和 100MB 的存储空间
Education Host 免费一年的设计师套件，升级可享受打折
在学生身份有效期内免费使用 Termius 高级计划
PompDone Lite 免费提供 2 年
IconScout 一年内每月免费下载 60 个高级图标
$200 的 MongoDB Atlas 积分，以及使用 MongoDB Compass 和 MongoDB University 的权利，包括免费证书
Netwise 免费托管单个服务器软件包 1 年
next.tech 免费访问一年的所有交互式课程和云计算环境
Travis CI 在学生身份有效期内免费构建无限制的私人仓库
学生期间，适用于 iPhone 和 iPad 强大的 Git 客户端 Working Copy Pro 免费
学生期间，blackfire.io 免费订阅 Profiler
Sentry：每月 50 万事件跟踪、无限项目、无限团队成员
CodeScene: 一个功能强大的可视，化工具，它使用 Predictive Analytics 识别代码中的社交模式，检测交付风险并管理技术债务，学生期内，一个免费的 Student 帐户，用于分析私有 GitHub 存储库
AccessLint：引入您的开发工作流程自动化的 Web 可访问性测试，学生期内，可以无限使用公共和私人存储库
……
申请流程
在 Github 文档上，它向我们提供了学生开发包的申请流程和介绍：
在申请个人折扣之前，请检查您的学习社区是否已作为 GitHub Education 学校与我们合作。 更多信息请参阅 “关于 GitHub Education”。
在国内，有些院校不给学生提供教育邮箱或者院校没有作为 GitHub Education 学校与 Github 合作，这时候我们只能通过其他方式证明我们身份并设法通过学生开发包的申请。
申请要求
要获得申请 GitHub Student Developer Pack 的资格，必须：
现正攻读学位或文凭授予课程，如高中、初中、大专、大学、自主学习或类似教育机构
具有学校发放的可验证电子邮件地址，或者上传能证明您目前学生身份的文档
拥有 GitHub 用户帐户
至少年满 13 岁
证明您现任学生身份的文件包括学校 ID 照看、班级课程表、成绩单和归属或入学签到函。
在作为学生期间，Github 可能会提示您定期重新验证目前的学业身份。
如何申请
学校有教育邮箱
Github 是接受国内高等院校申请的，如果您所在的大学很良心的提供血汗俄国教育邮箱（国内是 edu.cn），你仅需要把这教育邮箱绑定你的 Github 账号或者使用这个邮箱注册 Github，然后在申请页面选择该邮箱即可。
没有教育邮箱？
如果你像我一样的倒霉蛋，在一所不提供教育邮箱的 * 大学，那你需要尝试使用证明你学生身份的文件申请，这种方法需要人工审核，需要的时间可能长一点，还有概率申请被拒绝，请做好心里准备…… 随让咱们学校垃圾呢😀
开始前，准备…
Github 账号
学生证照片
打开浏览器进入 GitHub Education，右上角选择 Get benefits
俺们肯定选择学生
填入你的学校英文全称（可以维基百科看下正式英文全称），注意 How do you plan to use Github 一定要好好写，点击 “Submit your information” 提交申请
因为俺们这学校没有教育邮箱，所以提交上面的申请后 Github 需要你提供更多信息以证明你的身份，左边的是使用学生证来证明你的身份
下拉页面，你可以选择现在拍照或者上传学生证照片（注意图片不能超过 5MB）
完成后点击提交申请
完成
感谢您的提交！ 请务必检查您的电子邮件。如果您在一小时内没有收到我们的回音，您应该在不到 1 个月的时间内收到我们的电子邮件。祝您度过一个美好的一天！
检查邮箱开始等待申请结果
我的不到一个小时就申请通过了💌（开心，可以愉快玩耍了）
转自 Spoience  https://spoience.com/github-jetbrains-edu.html


Git命令大全200个左右
2020-10-04T15:09:26.000Z
我平时使用 Git 的时候，很多的 Git 命令我都不是很常用，工作中一般我们会配合一些可视化工具，或者编辑器自带的一些插件去维护 Git 仓库，但是我们也要记得一些常用 Git 命令来应变一些特殊的场景，下面是我收录整理的常用和不常用的一些 Git 命令，希望能帮助到大家更好的掌握 Git 的使用，如果文章和笔记能带您一丝帮助或者启发，请不要吝啬你的赞和收藏，你的肯定是我前进的最大动力。
新建
创建一个新的 git 版本库。这个版本库的配置、存储等信息会被保存到.git 文件夹中
1
2
3
4
5
6
7
8
9
10
11
12
13
# 初始化当前项目
$ git init

# 新建一个目录，将其初始化为Git代码库
$ git init [project-name]

# 在指定目录创建一个空的 Git 仓库。运行这个命令会创建一个名为 directory，只包含 .git 子目录的空目录。

$ git init --bare 

# 下载一个项目和它的整个代码历史
# 这个命令就是将一个版本库拷贝到另一个目录中，同时也将分支都拷贝到新的版本库中。这样就可以在新的版本库中提交到远程分支
$ git clone [url]
配置
更改设置。可以是版本库的设置，也可以是系统的或全局的
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 显示当前的Git配置
$ git config --list

# 编辑Git配置文件
$ git config -e [--global]

# 输出、设置基本的全局变量
$ git config --global user.email
$ git config --global user.name

$ git config --global user.email "MyEmail@gmail.com"
$ git config --global user.name "My Name"

# 定义当前用户所有提交使用的作者邮箱。
$ git config --global alias. 

# 为Git命令创建一个快捷方式（别名）。
$ git config --system core.editor 
帮助
git 内置了对命令非常详细的解释，可以供我们快速查阅
1
2
3
4
5
6
7
8
9
10
11
# 查找可用命令
$ git help

# 查找所有可用命令
$ git help -a

# 在文档当中查找特定的命令
# git help <命令>
$ git help add
$ git help commit
$ git help init
状态
显示索引文件（也就是当前工作空间）和当前的头指针指向的提交的不同
1
2
3
4
5
# 显示分支，未跟踪文件，更改和其他不同
$ git status

# 查看其他的git status的用法
$ git help status
信息
获取某些文件，某些分支，某次提交等 git 信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
# 显示commit历史，以及每次commit发生变更的文件
$ git log --stat

# 搜索提交历史，根据关键词
$ git log -S [keyword]

# 显示某个commit之后的所有变动，每个commit占据一行
$ git log [tag] HEAD --pretty=format:%s

# 显示某个commit之后的所有变动，其"提交说明"必须符合搜索条件
$ git log [tag] HEAD --grep feature

# 显示某个文件的版本历史，包括文件改名
$ git log --follow [file]
$ git whatchanged [file]

# 显示指定文件相关的每一次diff
$ git log -p [file]

# 显示过去5次提交
$ git log -5 --pretty --oneline

# 显示所有提交过的用户，按提交次数排序
$ git shortlog -sn

# 显示指定文件是什么人在什么时间修改过
$ git blame [file]

# 显示暂存区和工作区的差异
$ git diff

# 显示暂存区和上一个commit的差异
$ git diff --cached [file]

# 显示工作区与当前分支最新commit之间的差异
$ git diff HEAD

# 显示两次提交之间的差异
$ git diff [first-branch]...[second-branch]

# 显示今天你写了多少行代码
$ git diff --shortstat "@{0 day ago}"

# 比较暂存区和版本库差异
$ git diff --staged

# 比较暂存区和版本库差异
$ git diff --cached

# 仅仅比较统计信息
$ git diff --stat

# 显示某次提交的元数据和内容变化
$ git show [commit]

# 显示某次提交发生变化的文件
$ git show --name-only [commit]

# 显示某次提交时，某个文件的内容
$ git show [commit]:[filename]

# 显示当前分支的最近几次提交
$ git reflog

# 查看远程分支
$ git br -r

# 创建新的分支
$ git br 

# 查看各个分支最后提交信息
$ git br -v

# 查看已经被合并到当前分支的分支
$ git br --merged

# 查看尚未被合并到当前分支的分支
$ git br --no-merged
添加
添加文件到当前工作空间中。如果你不使用 git add 将文件添加进去，那么这些文件也不会添加到之后的提交之中
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 添加一个文件
$ git add test.js

# 添加一个子目录中的文件
$ git add /path/to/file/test.js

# 支持正则表达式
$ git add ./*.js

# 添加指定文件到暂存区
$ git add [file1] [file2] ...

# 添加指定目录到暂存区，包括子目录
$ git add [dir]

# 添加当前目录的所有文件到暂存区
$ git add .

# 添加每个变化前，都会要求确认
# 对于同一个文件的多处变化，可以实现分次提交
$ git add -p
删除
rm 和上面的 add 命令相反，从工作空间中去掉某个文件
1
2
3
4
5
6
7
8
9
10
11
# 移除 HelloWorld.js
$ git rm HelloWorld.js

# 移除子目录中的文件
$ git rm /pather/to/the/file/HelloWorld.js

# 删除工作区文件，并且将这次删除放入暂存区
$ git rm [file1] [file2] ...

# 停止追踪指定文件，但该文件会保留在工作区
$ git rm --cached [file]
分支
管理分支，可以通过下列命令对分支进行增删改查切换等
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
# 查看所有的分支和远程分支
$ git branch -a

# 创建一个新的分支
$ git branch [branch-name]

# 重命名分支
# git branch -m <旧名称> <新名称>
$ git branch -m [branch-name] [new-branch-name]

# 编辑分支的介绍
$ git branch [branch-name] --edit-description

# 列出所有本地分支
$ git branch

# 列出所有远程分支
$ git branch -r

# 新建一个分支，但依然停留在当前分支
$ git branch [branch-name]

# 新建一个分支，并切换到该分支
$ git checkout -b [branch]

# 新建一个分支，指向指定commit
$ git branch [branch] [commit]

# 新建一个分支，与指定的远程分支建立追踪关系
$ git branch --track [branch] [remote-branch]

# 切换到指定分支，并更新工作区
$ git checkout [branch-name]

# 切换到上一个分支
$ git checkout -

# 建立追踪关系，在现有分支与指定的远程分支之间
$ git branch --set-upstream [branch] [remote-branch]

# 合并指定分支到当前分支
$ git merge [branch]

# 选择一个commit，合并进当前分支
$ git cherry-pick [commit]

# 删除分支
$ git branch -d [branch-name]

# 删除远程分支
$ git push origin --delete [branch-name]
$ git branch -dr [remote/branch]

# 切换到某个分支
$ git co 

# 创建新的分支，并且切换过去
$ git co -b 

# 基于branch创建新的new_branch
$ git co -b  

# 把某次历史提交记录checkout出来，但无分支信息，切换到其他分支会自动删除
$ git co $id

# 把某次历史提交记录checkout出来，创建成一个分支
$ git co $id -b 

# 删除某个分支
$ git br -d 

# 强制删除某个分支 (未被合并的分支被删除的时候需要强制)
$ git br -D 
检出
将当前工作空间更新到索引所标识的或者某一特定的工作空间
1
2
3
4
5
6
# 检出一个版本库，默认将更新到master分支
$ git checkout
# 检出到一个特定的分支
$ git checkout branchName
# 新建一个分支，并且切换过去，相当于"git branch <名字>; git checkout <名字>"
$ git checkout -b newBranch
远程同步
远程同步的远端分支
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
# 下载远程仓库的所有变动
$ git fetch [remote]

# 显示所有远程仓库
$ git remote -v

# 显示某个远程仓库的信息
$ git remote show [remote]

# 增加一个新的远程仓库，并命名
$ git remote add [shortname] [url]

# 查看远程服务器地址和仓库名称
$ git remote -v

# 添加远程仓库地址
$ git remote add origin git@ github:xxx/xxx.git

# 设置远程仓库地址(用于修改远程仓库地址)
$ git remote set-url origin git@ github.com:xxx/xxx.git

# 删除远程仓库
$ git remote rm 

# 上传本地指定分支到远程仓库
# 把本地的分支更新到远端origin的master分支上
# git push <远端> <分支>
# git push 相当于 git push origin master
$ git push [remote] [branch]

# 强行推送当前分支到远程仓库，即使有冲突
$ git push [remote] --force

# 推送所有分支到远程仓库
$ git push [remote] --all
撤销
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# 恢复暂存区的指定文件到工作区
$ git checkout [file]

# 恢复某个commit的指定文件到暂存区和工作区
$ git checkout [commit] [file]

# 恢复暂存区的所有文件到工作区
$ git checkout .

# 重置暂存区的指定文件，与上一次commit保持一致，但工作区不变
$ git reset [file]

# 重置暂存区与工作区，与上一次commit保持一致
$ git reset --hard

# 重置当前分支的指针为指定commit，同时重置暂存区，但工作区不变
$ git reset [commit]

# 重置当前分支的HEAD为指定commit，同时重置暂存区和工作区，与指定commit一致
$ git reset --hard [commit]

# 重置当前HEAD为指定commit，但保持暂存区和工作区不变
$ git reset --keep [commit]

# 新建一个commit，用来撤销指定commit
# 后者的所有变化都将被前者抵消，并且应用到当前分支
$ git revert [commit]

# 恢复最后一次提交的状态
$ git revert HEAD

# 暂时将未提交的变化移除，稍后再移入
$ git stash
$ git stash pop

# 列所有stash
$ git stash list

# 恢复暂存的内容
$ git stash apply

# 删除暂存区
$ git stash drop
commit
将当前索引的更改保存为一个新的提交，这个提交包括用户做出的更改与信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 提交暂存区到仓库区附带提交信息
$ git commit -m [message]

# 提交暂存区的指定文件到仓库区
$ git commit [file1] [file2] ... -m [message]

# 提交工作区自上次commit之后的变化，直接到仓库区
$ git commit -a

# 提交时显示所有diff信息
$ git commit -v

# 使用一次新的commit，替代上一次提交
# 如果代码没有任何新变化，则用来改写上一次commit的提交信息
$ git commit --amend -m [message]

# 重做上一次commit，并包括指定文件的新变化
$ git commit --amend [file1] [file2] ...
diff
显示当前工作空间和提交的不同
1
2
3
4
5
6
7
8
# 显示工作目录和索引的不同
$ git diff

# 显示索引和最近一次提交的不同
$ git diff --cached

# 显示工作目录和最近一次提交的不同
$ git diff HEAD
grep
可以在版本库中快速查找
可选配置：
1
2
3
4
5
6
7
8
9
10
11
# 感谢Travis Jeffery提供的以下用法：
# 在搜索结果中显示行号
$ git config --global grep.lineNumber true

# 是搜索结果可读性更好
$ git config --global alias.g "grep --break --heading --line-number"
# 在所有的java中查找variableName
$ git grep 'variableName' -- '*.java'

# 搜索包含 "arrayListName" 和, "add" 或 "remove" 的所有行
$ git grep -e 'arrayListName' --and \( -e add -e remove \)
log
显示这个版本库的所有提交
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 显示所有提交
$ git log

# 显示某几条提交信息
$ git log -n 10

# 仅显示合并提交
$ git log --merges

# 查看该文件每次提交记录
$ git log 

# 查看每次详细修改内容的diff
$ git log -p 

# 查看最近两次详细修改内容的diff
$ git log -p -2

#查看提交统计信息
$ git log --stat
merge
合并就是将外部的提交合并到自己的分支中
1
2
3
4
5
6
# 将其他分支合并到当前分支
$ git merge branchName

# 在合并时创建一个新的合并后的提交
# 不要 Fast-Foward 合并，这样可以生成 merge 提交
$ git merge --no-ff branchName
mv
重命名或移动一个文件
1
2
3
4
5
6
7
8
9
10
11
12
# 重命名
$ git mv test.js test2.js

# 移动
$ git mv test.js ./new/path/test.js

# 改名文件，并且将这个改名放入暂存区
$ git mv [file-original] [file-renamed]

# 强制重命名或移动
# 这个文件已经存在，将要覆盖掉
$ git mv -f myFile existingFile
tag
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 列出所有tag
$ git tag

# 新建一个tag在当前commit
$ git tag [tag]

# 新建一个tag在指定commit
$ git tag [tag] [commit]

# 删除本地tag
$ git tag -d [tag]

# 删除远程tag
$ git push origin :refs/tags/[tagName]

# 查看tag信息
$ git show [tag]

# 提交指定tag
$ git push [remote] [tag]

# 提交所有tag
$ git push [remote] --tags

# 新建一个分支，指向某个tag
$ git checkout -b [branch] [tag]
pull
从远端版本库合并到当前分支
1
2
3
4
5
6
# 从远端origin的master分支更新版本库
# git pull <远端> <分支>
$ git pull origin master

# 抓取远程仓库所有分支更新并合并到本地，不要快进合并
$ git pull --no-ff
ci
1
2
3
4
5
6
7
$ git ci 
$ git ci .
# 将git add, git rm和git ci等操作都合并在一起做
$ git ci -a
$ git ci -am "some comments"
# 修改最后一次提交记录
$ git ci --amend
rebase (谨慎使用)
将一个分支上所有的提交历史都应用到另一个分支上不要在一个已经公开的远端分支上使用 rebase.
1
2
3
# 将experimentBranch应用到master上面
# git rebase  
$ git rebase master experimentBranch
reset (谨慎使用)
将当前的头指针复位到一个特定的状态。这样可以使你撤销 merge、pull、commits、add 等 这是个很强大的命令，但是在使用时一定要清楚其所产生的后果
1
2
3
4
5
6
7
8
9
10
11
12
13
# 使 staging 区域恢复到上次提交时的状态，不改变现在的工作目录
$ git reset

# 使 staging 区域恢复到上次提交时的状态，覆盖现在的工作目录
$ git reset --hard

# 将当前分支恢复到某次提交，不改变现在的工作目录
# 在工作目录中所有的改变仍然存在
$ git reset dha78as

# 将当前分支恢复到某次提交，覆盖现在的工作目录
# 并且删除所有未提交的改变和指定提交之后的所有提交
$ git reset --hard dha78as
其他
1
2
3
4
5
6
7
8
9
10
11
# 生成一个可供发布的压缩包
$ git archive

# 打补丁
$ git apply ../sync.patch

# 测试补丁能否成功
$ git apply --check ../sync.patch

# 查看Git的版本
$ git --version
参考文档
常用 Git 命令清单: https://www.ruanyifeng.com/blog/2015/12/git-cheat-sheet.html
Linux、MySQL、Nginx、PHP、Git、Shell 等笔记: https://github.com/guanguans/notes


pip高阶用法
2020-10-04T14:09:26.000Z
pip 应该是大家最熟悉的 Python 包安装与管理工具了，但是除了pip install 这个最常用的命令，还有很多有用的玩法。这里就介绍几个我平时会用到的，希望对大家有所帮助。
pip freeze
这个命令可以查看已经安装的包及版本信息，当你要换电脑，或者朋友想复刻你已安装的包，又不想一个一个重新安装。这时就可以使用pip freeze > requirements.txt ，批量导出当前开发环境的包信息，然后安装requirements.txt依赖就行了。
1
2
pip freeze > requirements.txt 
pip install -r requirements.txt
pip cache
用pip安装python模块的时候，重复安装某一模块会经常出现“Using cache”，这样很容易装错版本。而且cache还会占用不少C盘空间，如果空间不足，可以直接删除这些缓存。 方法：
Win + R ，输入%LocalAppData%\pip\Cache
删掉 cache/ 目录下的所有文件夹就好了
pip list
pip list 命令列出所有安装包和版本信息，pip list --outdate可以列出所有可升级的包。
但是当前内建命令并不支持升级所有已安装的Python模块，不过可以写一个：
1
2
3
4
5
import pip
from subprocess import call
from pip._internal.utils.misc import get_installed_distributions
for dist in get_installed_distributions():
    call("pip install --upgrade " + dist.project_name, shell=True)
替代方案是使用pip-review，这是一个分叉pip-tools，升级包就太方便了。安装和使用方法：
1
2
3
4
5
6
7
pip install pip-review
#查看可更新 
pip-review
#自动批量升级 
pip-review --auto
#以交互方式运行，对每个包进行升级 
pip-review --interactive
pip.init
pip 用国外的源下载安装包会比较慢，还经常出错安装失败，可以将安装源切换成国内镜像，速度×10！改一些pip.init配置，一劳永逸，具体做法：Win + R ，输入  %APPDATA% 在当前目录下新建 pip 文件夹，然后新建 pip.ini 文件，内容如下
1
2
[global]
index-url = https://mirrors.aliyun.com/pypi/simple/trusted-host=mirrors.aliyun.com
我直接设置成了阿里的,豆瓣的源速度也很快。
1
2
3
豆瓣(douban) http://pypi.douban.com/simple/ 
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 



青年大学习跳过视频，直接满分
2020-09-07T14:37:18.000Z
废话不多说直接上教程
食用教程
第一步在微信中打开下面的链接（发送给任意好友，或者微信公众号也可以。）
1
debugtbs.qq.com
接着，打开 DebugX5 圈红处
然后，点击如下图所示的顶部的"信息"，勾选 打开vconsole调试功能

复制好下面的代码1
2
3
4
5
Bvideo.currentTime=900;
Cvideo.currentTime=900;
video.ended=1;
score=100;allScore=100;
__vconsole.style.display="none";
打开青年大学习看视频，右下角会有个绿色的 vconsole 把复制的代码填进去，点击OK，直接跳过视频
亲测有效，搞不定的留言🍬


优雅的进行签到-dora&云函数&GitHubAction
2020-09-05T15:24:09.000Z
🎈前言须知
每天自动签到，解放你的双手，再也不怕忘记签到了
🗡必备技巧
会抓取网页和手机端cookie
活的脑子和手
📑签到列表-(自用)
爱奇艺会员摇一摇(必须是会员才能参加)
哔哩哔哩签到
京东签到得京豆
4.网抑云签到（300首）
wps打卡得会员
天翼云签到得空间（一天100M）
吾爱pojie
v2ex
glados
好游快爆
多看阅读
💊dora.js APP下载
订阅 @chegege 的签到盒

我的订阅列表分享
个人感觉这个app挺好用得，可以取代原生得app，有兴趣得可以去研究下
🎯GitHubAction
项目里都有教程(顺便求一波star)
wps打卡
V2ex
吾爱pojie
glados
天翼云
bilibili 直播签到
网抑云
以上源码来自于网络收集，我只是个工具人请自行查看原作者
📌腾讯云函数
云函数就不放源码了，有点麻烦，有需要的请留言🔑
🍧以上签到打卡基本都支持 Qmsg酱 和 server酱 提醒
Qmsg酱 QQ提醒-(现已不开放注册了，已经注册的可以继续食用)  https://qmsg.zendee.cn/
server酱 微信提醒  http://sc.ftqq.com/?c=code



快速搭建自己的网页版GitHub图床（真香）
2020-08-24T01:03:49.000Z
🥢前言
由于本博客需要一个较稳定且快速的图床来存储自己的博客图片，所以才有了下面
白嫖Github的存储空间，通过jsdelivr全球加速(含有国内节点)。实现图床的目的。
白嫖Gitee的存储空间， 实现图床的目的。存储和访问节点都在国内，请在遵循国内相关法律的前提下使用。 文件在1M以上需要访客登录才能访问。1M以下，相当稳。
参考
https://github.com/yumusb/autoPicCdn
https://plushine.cn/38834.html
🍬准备工作
脑子和手
一个域名
一台虚拟主机（国外的，域名可以免备案）
一个GitHub账号或着gitee
🍖开工
下载项目地址 https://github.com/yumusb/autoPicCdn
配置up.php中的相关字段
1
2
3
4
5
define("TYPE","GITHUB");//选择github
define("USER","pic-cdn");//你的GitHub/Gitee的用户名
define("REPO","cdn2");//必须是上面用户名下的 公开仓库
define("MAIL","yumusb@foxmail.com");//邮箱无所谓，随便写
define("TOKEN","YourToken");
https://github.com/settings/tokens  去这个页面生成一个有写权限的token（repo：Full control of private repositories 和write:packages前打勾）
文件配置好之后就可以上传到自己的虚拟主机了  参见 https://ysnsn.cn/2817.html  或者推荐  https://plushine.cn/38834.html
绑定域名之后就可以通过域名访问，自己测试下能不能上传成功
php版本选择 7.2
🍳gitee跟GitHub差不多一样完事，真香


python基础学习笔记(一)
2020-08-22T02:47:43.000Z
给pip设置清华镜像源或设置自己的代理点击展开👉 命令


jsdelivr的正确使用方法
2020-08-21T10:08:29.000Z
前言
CDN的全称是Content Delivery Network，即内容分发网络。CDN是构建在网络之上的内容分发网络，依靠部署在各地的边缘服务器，通过中心平台的负载均衡、内容分发、调度等功能模块，使用户就近获取所需内容，降低网络拥塞，提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术。——百度百科
放在Github的资源在国内加载速度比较慢，因此需要使用CDN加速来优化网站打开速度，jsDelivr + Github便是免费且好用的CDN，非常适合博客网站使用。
食用方法
新建Github仓库
上传资源（图片）
使用jsdelivr直接访问仓库里的图片连接如下1
https://cdn.jsdelivr.net/gh/GitHub用户名/新建的仓库名/**图片**.jpg
完事，图床做好了
发现问题
当你的release包大于50MB，那么jsdelivr会给你报错并且不给你提供加速服务，例如下面这条链接
https://cdn.jsdelivr.net/gh/Ysnsn/picture/111/03613.jpg
打开就会出现1
Package size exceeded the configured limit of 50 MB
感觉上面的使用方法有点复杂,
解决方法
一. 当你的release版本号写为master时，只需要第一次发布release即可，后面直接用master分支的文件，也没有50MB的文件包大小限制按照官方的格式，就是
1
https://cdn.jsdelivr.net/gh//@/
例如，下面就可以访问了
1
https://cdn.jsdelivr.net/gh/Ysnsn/picture@master/111/03613.jpg
打开你的图床仓库，选择creat a new release
按照下图填写1处填写 master 不要写错，2处可不写 3处填写描述（随便）最后点击绿色方框提交
问题解决（此时就能访问  https://cdn.jsdelivr.net/gh/Ysnsn/picture@master/111/03613.jpg  ）
二. 通过picgo配合GitHub 来使图片快速上传，配置picgo如下

token获取路径

下面的小方格可以全部选上（如果不知道是啥意思时）




实用软件分享
2020-08-21T00:28:26.000Z
🧨前言须知
本博客不提供任何经过第三方修改的软件
仅仅是为了记录自己使用过的一些实用软件
🎃正确的访问Google（主要是看到好多人还不会）
谷歌邮箱 谷歌搜索 谷歌扩展商店 谷歌家的东西基本都能访问了
IGG谷歌访问助手👉IGG
选择离线安装，下载得到压缩包并解压得到图3
打开你的Chrome浏览器的 更多工具>扩展程序页面
1、点击右上角 开发者模式 开关 2、再点击左上角 “添加已解压的扩展程序” 3、选择本次下载包里目录（即图3所示）  4、确认选取.
插件安装成功后如下图所示 并打开点击连接，就可以正常使用Google
以上是谷歌浏览器的方法，其它浏览器请正常安装。
🍡软件分享网站
果核剥壳  https://www.ghpym.com/
小众软件 https://www.appinn.com/
吾爱  https://www.52pojie.cn/
异星软件  http://www.yxssp.com/
懒得勤快  https://masuit.com/
电影分享蓝光原盘  http://www.yinfans.me/
正版中国 这是一个提供正版软件下载的网站，由一群大学生创建，旨在让更多人能用上正版软件。比如在官网首页，我们就能看到Office相关的折扣信息，力度很大，最低的直接到了2折，真的能省不少钱。不过这类的打折活动往往有时间限制。
removebg这是国外一个专注于人物抠图的神器，抠图速度快（5秒内搞定），效果好。你只需上传图片，剩下的事情它会帮你搞定。
爱资料工具在日常工作中，我们总是因为一些低频需求，被迫去网上寻找各种软
MikuTools
⚡卸载工具
小巧而能力强大的geek，免费版基本够用👉geek
上面这一个就够日常使用，不再推荐了
🚀下载神器
IDM 多线程下载，速度没得说快就完事🤞IDM正版需要付费，当然网上那些修改版的也有（自己去Google）
哔哩哔哩视频及弹幕下载 🚩唧唧
百度网盘下载6盘小白羊
网页版速盘可以自己搭建
音乐下载music download批量无损下载 🛴直达
网页版也有很多（Google）
🎇视频music
[potplayer] (https://daumpotplayer.com/download/)
音乐xiazmusic tool 下载 🎧官网
3.解锁网抑云灰色歌曲下载  主程序地址  https://github.com/nondanee/UnblockNeteaseMusic
✅杀毒软件
win10自带的就够日常使用
火绒安全
♻垃圾清理
CCleaner🍀这里直达
火绒也自带垃圾清理   https://www.huorong.cn/
🔶电脑录屏
screen to gif官网
点我下载班底录屏传送
点我下载傲软录屏  https://www.apowersoft.cn/record-all-screen
点我下载office中的PPT也可以录屏
🛴解压缩
bandizip小巧
Winrar好像有广告直达🌂把下面这段code文本复制到一个新建的记事本txt文档中，然后另存为rarreg.key文件，注意后缀名.txt改为 .key才行
 1
2
3
4
5
6
7
8
9
10
11
RAR registration data
Federal Agency for Education
1000000 PC usage license
UID=b621cca9a84bc5deffbf
6412612250ffbf533df6db2dfe8ccc3aae5362c06d54762105357d
5e3b1489e751c76bf6e0640001014be50a52303fed29664b074145
7e567d04159ad8defc3fb6edf32831fd1966f72c21c0c53c02fbbb
2f91cfca671d9c482b11b8ac3281cb21378e85606494da349941fa
e9ee328f12dc73e90b6356b921fbfb8522d6562a6a4b97e8ef6c9f
fb866be1e3826b5aa126a4d2bfe9336ad63003fc0e71c307fc2c60
64416495d4c55a0cc82d402110498da970812063934815d81470829275
然后把rarreg.key文件放入WinRAR安装目录即可完成注册。(没有弹窗)
👓缩放浏览
Bigjpg - AI人工智能图片无损放大  https://bigjpg.com/
ImageGlass 地址–
Quickerlook 送达🎢 win10 商店里也有还可以装插件, 支持一下格式
📜写作
VScode 写代码常用
typora ♥markdown写作常用 https://typora.io/
Quicker
为常用操作建立捷径，让效率触手可及!
🧴CAD下载
CAD自学网  http://www.cadzxw.com/
官网  https://www.autodesk.com/solutions/cad-design
🥠远程控制
teamview  免费 https://www.teamviewer.cn/cn/
todesk  个人免费  https://www.todesk.com/
🍭可以去我的网盘看看
🎈还有什么要补冲的请留言，后续会慢慢加上


butterfly重装所需
2020-08-19T08:45:03.000Z
主要步骤配置 Git 本地代理
点击展开👉 Git本地代理


人间一趟，积极向上
2020-08-10T10:10:31.000Z















天气之子
2020-07-30T00:39:29.000Z















github总结
2020-07-22T05:47:51.000Z
[TOC]
哔哩哔哩直播签到
哔哩哔哩直播自动签到, Github Actions 部署
效果图
wps云函数打卡
腾讯云函数打卡：每天自动答题邀请人
https://zt.wps.cn/2018/clock_in?csource=pc_clock_oldactivity
oneindex搭建网盘https://github.com/Ysnsn/oneindex
演示站 http://ns.s1213.icu/
不占用服务器空间，不走服务器流量，直接列出 OneDrive 目录，文件直链下载。与onemanager相比各有优缺点。
网易云签到打卡GitHub+action
github + actions 部署稳定可靠
示例
Nativefier为WhatsApp Web（或任何网页）制作本机包装
能够将任何网页转换为本地exe应用
效果图
1
2
npm install -g nativefier
nativefier "网址"
彩虹屁
一个在你编程时疯狂称赞你的 VSCode扩展在编码时会不断给您以赞美，它将检查代码的关键字以播放合适的声音。
演示站
视频
            ~~网易云打卡每日三百首~~已弃用
每天自动登陆听完300首歌
每天自动向你的微信推送听歌任务进度
这个项目分为Python客户端和API接口（服务器）支持了云函数，一共两个项目，各有三种部署方法。Python项目的部署最简单的是云函数法，API项目的部署最简单的是直接复制项目法。
狗屁不通文章生成记
截图
onemanager搭建网盘
支持云函数 &Heroku &VPS 或空间 &FG华为云函数工作流
演示站
天翼云打卡签到
使用github actions 每天自动打卡签到
原地址 https://github.com/peng4740/Cloud189Checkin-Actions
👀微信/QQ/TIM防撤回补丁
截图
onepoint
一个轻量级、多平台、多种网盘的文件目录索引和管理工具。
支持onedrive 国际版/世纪互联版/无全局管理员版 &google drive v3API/goindex兼容接口 & coding 团队网盘 & 本机文件系统  &  webdav(dev) & 自定义链接


精彩短句, 名言哲理
2020-07-20T02:48:42.000Z
经常更新-----来源于网络
与不义作斗争是必不可少的，但人并不仅仅是依靠与邪恶作斗争而活着，他们是依靠选择自己的目标而活着。——叶礼庭
2020-08-19 12:06:03
世俗，不过是陌生人的一张嘴而已，反而最在乎的人才是越难以对抗的。——郭强生
梦想在远方，只要你肯付出十几年的代价，或许你喜欢的人就近在眼前了。
Dreams are far away, as long as you are willing to pay the price of more than ten years, maybe the person you like is near your eyes.
我看见一道光，收了春华与秋实，夏繁与冬盛，最终藏在你眼里
没有谁的生活会一直完美，但无论什么时候都要眼看前方，满怀希望就会所向披靡。-—巫哲《撒野》
春风十里，五十里，一百里，体测八百米，海底两万里，德芙巧克力，香草味八喜，可可布朗尼，榴莲菠萝蜜，芝士玉米粒，鸡汁土豆泥，黑椒牛里脊，黄焖辣子鸡，红烧排骨酱醋鱼，不如你，全都不如你。
天空是蓝色的，太阳是黄色的，大地是棕色的，海洋是蓝色的，草是绿色的，鲜花是五颜六色的，心跳是红色的??而你是属于我世界的颜色
岁月染上的霜雪。光音踟蹰之后，经年里一成不变的，不是流年里的花开花落，也不是月色下的悲欢离合。经年流逝后，依旧没有改变的，是此间温暖而诚实的对白，亦如那句我喜欢你。——《愿你被世界温柔以待》
我见过春日夏风，秋叶冬雪；也踏遍南水北山，东麓西岭；可这四季春秋，苍山泱水；都不及你，冲我展眉一笑。
现在总是含着过去的明亮碎片，过去破碎到无法修补，却总也不会完全消亡。——唐娜·塔特《金翅雀》 
一件东西，身价再高也不是性命。万物有灵，生命可贵，生命里的心情更加可贵。——崔曼莉
许多东西未必需要喜欢，阅读游历，其实也不为都记下来，只是留个印象，在心里生根。日后触景生情，总会懂的。——张佳玮
过韧性的生活虽然最好，但终究还是为了有所作为，而不是把韧性本身当成目的。——伍国
我们一生不过是清醒地穿过梦境，每个人只不过是岁月的一个幽灵。——弗朗茨·卡夫卡 
无人与我立黄昏，无人问我粥可温，
无人与我捻灯熄，无人共我书半生。
无人陪我夜已深，无人与我把酒分。
无人拭我相泪，无人梦我与前程。
无人陪我顾星辰，无人醒我茶已冷。
不要失望，甚至对你并不感到失望这一点也不要失望，恰恰在似乎一切都完了的时候，新的力量来临，给你以支柱，而这正表明你是活着的。——[奥地利]卡夫卡《城堡》




17:06 2020年7月20日, 星期一
你为什么要努力，因为我喜欢的人都很优秀，我喜欢的东西都很贵，我想去的地方都很远。
让人舒服的是“人气”，或是“市井”气，我很喜欢它们，觉得这才是生活原来的样子。——流沙
忙碌的现代人总是向外追求幸福快乐的人生，却不知幸福快乐原是不假外求。——何健平
没有探究细节的好奇心，对一切都是漠然置之的态度，实际上也是一种自我的边缘化。——陶琦
希望和回忆育有一女，名唤艺术，她的居所远离人类用树杈高悬袍衫充当战旗的绝望之地。——威廉·巴特勒·叶芝《凯尔特的薄暮》 
生活的目的就是生活本身。生活的本质即表面。生活的意义就是不需要意义。——詹姆斯·索特《光年》
只有我们睁开眼睛醒过来的时候，黎明才会到来。 ——梭罗《瓦尔登湖》
我年轻过，落魄过，幸福过，我对生活一往情深。——马尔克斯《活着为了讲述》 
人不可以太倔强，活在世界上，一方面需要认真，有时候只能无所谓。——汪曾祺
相爱的人们也只是在黑暗中并肩行走，所能做到的仅是各自努力追求心中的光明，并互相感受到这种努力，互相鼓励。——周国平
人之为学，不日进则日退。——顾炎武
人的头脑越空虚，就越不愿意填满它，这是不受普遍规律支配的唯一例外。——陀思妥耶夫斯基《鳄鱼》
好东西不一定贵，平淡的东西也自有滋味。——林清玄
生活安逸时会做出绝望的诗，生活窘迫时会不断写出生的喜悦。——太宰治《叶》
幸福是一种心灵的振颤。它像会倾听音乐的耳朵一样，需要不断地训练。——毕淑敏
等待的未必能获得，而未曾等待的不速之客却飞快来到，而且绝对驱不走，避不开。——吴冠中
没有哪一次巨大的历史灾难不是以历史的进步为补偿的。——恩格斯
只有当你深入了解一个人的内心，站在他的立场上看待问题时，你才能真正理解他。——哈珀·李
幸福也不长驻，有时天气太冷，火生不起来，是让人着急的，只好拿着冰雪用手慢慢让它融化，边融边听。——林清玄
吃的关系微而妙。分一份美食，给谁不给谁，或者，请谁不请谁，都有讲究，轮廓理清，不能怠慢和遗忘。
曲雪中悍刀行，不关刀剑只关情。
西北有雏凤，单衣出北凉，
身旁唯有那缺门牙老黄，发配三千里，不知何日能返乡。
每逢遭难时，高喊风紧扯呼莫惊慌。
待到归来日，提刀上武当，听闻掌教王重楼，曾两指断大江。
大黄庭，长生莲，剑九六千里，去那武帝城头上，八百义从再出凉。
羊皮裘，木牛马，剑招或剑罡，两袖青蛇尽锋芒，剑开天门谁能挡？
勾心斗角靖安王，一刀卸甲芦苇荡。
行至徽山雪坪上，敬城撼昆仑，方知蚍蜉撼大树，可敬不自量！
孤身入北莽，峡谷入金刚。
春雷一刀仙人跪，春秋一剑守敦煌，为那一颗好头颅，拼的两鬓尽苍茫。
杀病虎，斩人猫，再败神武城中一头老天象。
山河庙堂皆退散，九楼之上览风光，可终究对不起，那弹琵琶的小姑娘。
武帝城里武帝出，北凉境内北凉王，呵呵一声响，王仙芝也死在我手上！
抗天雷，斩莽龙，转战千里抖威风。
太安城里战曹邓，钦天监内杀仙翁。
风雪龙骑下广陵，不需来世认酒窝。
可怜我，西北境内一藩王，武评宗师无人挡，到头来，可知为谁辛苦为谁忙？
不为那赵家天子守国门，只为那吾心安处即吾乡。
待到那，凉州城里天气凉，我便在，洛阳城里观落阳。