第一章爬虫环境与爬虫简介

Imagemap
第一章爬虫环境与爬虫简介认识爬虫爬虫概念又称网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本爬虫原理四种类型通用型网络爬虫深度优先策略广度优先策略聚焦网络爬虫基于内容评价的爬取策略基于链接结构评价的爬取策略基于增强学习的爬取策略基于语境图的爬取策略增量式网络爬虫统一更新法个体更新法基于分类的更新法深层网络爬虫基于领域知识的表单填写基于网页结构分析的表单填写爬虫合法性网络爬虫的合法性个人隐私数据不能爬明确禁止他人访问的数据不能爬涉及版权相关内容不能爬遵守robot.txt协议认识反爬虫反爬虫目的和手段目的:防止网站信息被 竞争对手随意获取反爬手段通过User-Agent校验反爬通过访问频度反爬通过验证码校验反爬通过变换网页结构反爬通过账号权限反爬爬取策略制定针对反爬手段制定爬取策略发送模拟User-Agent调整访问频度通过验证码校验应对网站结构变化通过账号权限限制通过代理IP规避配置Python爬虫环境安装Python30.国内镜像:https://npm.taobao.org/mirrors/py ...1,官网:http://python.org2,选择:download->windows->python3.9.73,运行安装包python-3.9.7-amd64.exe首页Add Python 3.9 to Path:选中选择Customize installationOptional Features全选Advanced OptionsInstall for all users:选中Create shortcuts for installed applicati ...Add Python to environment variables:选择Customize install location:建议:d:\app\pyt ...4,设置系统环境变量path如果安装时在首页选择了Add Python 3.9 to Path,可以省略此步 ...添加:D:\app\python3添加:D:\app\python3\Scripts爬虫相关库使用pip1,默认: pip install 库2,镜像: pip install 库 -i http://pypi.douba ...3,国内常用镜像清华大学镜像https://pypi.tuna.tsinghua.edu.cn/simple ...阿里云http://mirrors.aliyun.com/pypi/simple/中科大镜像https://pypi.mirrors.ustc.edu.cn/simple/豆瓣镜像http://pypi.douban.com/simple/中科大镜像2http://pypi.mirrors.ustc.edu.cn/simple/通用urllibrequestspip install requestspip uninstall requestsurllib3pip install urllib3pip uninstall urllib3框架scrapypip install scrapypip uninstall scrapy解析器lxmlpip install lxmlpip uninstall lxmlBeautiful Soup4pip install bs4pip uninstall bs4常见问题提示pip找不到需要将pip的目录添加到环境变量path中查阅帮助pip install过程提示要升级pip版本按提示,复制升级命令行进行升级pippip安装失败检查是否可以访问互联网,因为安装过程会从网上下载安装包检查包名是否正确,如scrapy,bs4检查提示是否有已安装,如果是先卸载pip uninstall ,再安装Mysql数据库windows安装MySQL5.6.401,download: mysql-installer-community-5. ...2,run mysql-installer-community-5.6.40.1 ...3,config:MYSQL_HOME=C:\Program Files\MySQL\MySQL  ...Path = Path & %MYSQL_HOME%\bin4,cmd startnet start mysql56net stop mysql565,use mysqlmysql -u root -p 常见问题安装完后,使用net start mysql56启动不了在安装过程中提示3306端口被占用安装MySQL8.0.261,download: mysql-installer-community-8. ...2,run mysql-installer-community-8.0.26.0 ...安装的时候,右击软件安装包,尽量选择以管理员身份运行端口设置默认:3306用户密码设置:root root服务名默认:MySQL803,cmd startnet start MySQL80net stop MySQL804,use mysql workbenchdatabase->manager connects->newConnection Name:localhostConnetcion Method:Standard(TCP/IP)Hostname:127.0.0.1Port:3306Username:rootDefault Sechema:Test ConnectionPassword:rootSave password in vault:truedatabase->connect to database->ok成功进入mysql后,截图,提交作业常见问题安装时提示3306端口冲突请通过windows控制面版,应用和功能,卸载所有的mysql版本Mysql服务使用net start启不来请注意服务名是MySQL80: net start MySQL80Service Mysql Server failed to start1,打开控制面板->计算机管理->服务->MySQL,启动2,启动服务错误10531,右击服务->属性->登陆->改为本地系统帐户登陆,再启动服务2,重装,使用管理员安装或运行3,参考其它方式,百度: MySQL 10533,关闭360等安全服务,如果有的话4,关闭防火墙,通过控制面板->安全中心->防火墙系统权限不足现象1:Initializing database(may take a lon ...1,提升管理员权限1首先键盘点击WIN+R调出“运行”窗口,输入control userpassw ...2出现用户账户窗口,点击属性3选择组成员选项卡,选择管理员,点击确定即可获取管理员权限2,尝试提升installer的安装权限0如没gpedit.msc则需要打开组策略1新建一个文本文档,内容如:@echo off  pushd "%~dp0"  dir /b C:\Wind ...2保存文件,将文件扩展名改为cmd3右键单击cmd文件,选择以管理员身份运行,这个地方最好运行后重启一下电脑4运行完成后,按组合键WIN+R调出运行5在运行窗口输入gpedit.msc,点击确定1按WIN+R,在运行框中输入“gpedit.msc” 确认,会打开本地组策略2打开本地策略组编辑器后依次展开 :“计算机配置”->“管理模板”->"wind ...3双击该选项,设置为“已启用”,并应用4最后我们还要在【用户配置】中进行同样的操作,跟上图一样,设置完成后退出即可正常 ...3,尝试命令方式动行msiexec1, 开始->windows powershell(管理员)2,进入安装包路径如: d: 切换到d盘 -> cd install 进入目录3,运行:msiexec.exe /package mysql-installe ...4,添加可以安装服务的用户1按WIN+R,在运行框中输入“gpedit.msc” 确认,会打开本地组策略2打开本地策略组编辑器后依次展开 :“计算机配置”->"Windows设置"-> ...3,双击该选项,添加用户或组,在弹出的用户输入框中输入:everyone,确定退 ...5,彻底删除原来的mysql1,按 WIN+R,在运行框中输入“regedit” 确认2,按Ctrl+F,搜索mysql,将找到的节点都删除,包括mysqld这类包含 ...3,打开资源管理,搜c盘下的mysql,将搜到的目录和文件统统删除4,重启电脑,重新安装mysqllinux1,downloadwget http://10.255.10.50/down/db/mysql-5 ...2,tartar -xvf mysql-5.7.33-1.el7.x86_64.rpm-b ...3,rpmrpm -ivh mysql*.rpm --force --nodeps4,vi my.cnfvi /etc/my.cnf [mysqld] skip-grant-table ...5,startservice mysqld start6,use mysqlmysql -u root -p密码为空,回车进入MongoDB数据库windows32位1,create path: D:\mongodb\ & D:\mongodb\data2,copy pathcopy \\10.255.10.50\public\db\mongo-win3 ...3,cmd rund:\mongodb\bin\mongod --dbpath D:\mongod ...4,checkhttp://127.0.0.1:27017windows64位win10安装Mongodb4.4.61,download:mongodb-windows-x86_64-4.4.6- ...2, run mongodb-windows-x86_64-4.4.6-sign ...若能以管理员身份运行能减少权限问题的出现3,自动打开Mongdb GUI点击连接成功进入mongodb后,截图,提交作业5,startnet start MongoDB net stop MongoDB 6,checkhttp://127.0.0.1:27017常见问题Service 'MongoDB Server'(MongoDB) failed ...1,打开控制面板->计算机管理->服务->MongoDb,启动2,启动服务错误10531,右击服务->属性->登陆->改为本地系统帐户登陆,再启动服务2,重装,使用管理员安装或运行3,参考其它方式,百度: MongoDb 10533,关闭360服务,如果有的话4,关闭防火墙系统权限问题1,安装过程报:Verify that you have sufficient  ...1,进入服务,找到MongoDB service,右击进入属性2,登录->改为本地系统帐户,并勾选充许服务与桌面交互3,继续MongoDb安装操作,retry...2,切换为本地帐户控制面板->帐户信息,改为本地帐户2,尝试提升installer的安装权限0如没gpedit.msc则需要打开组策略0,原文参考:https://jingyan.baidu.com/article ...1新建一个文本文档,内容如:@echo off  pushd "%~dp0"  dir /b C:\Wind ...2保存文件,将文件扩展名改为cmd3右键单击cmd文件,选择以管理员身份运行,这个地方最好运行后重启一下电脑4运行完成后,按组合键WIN+R调出运行5在运行窗口输入gpedit.msc,点击确定1按WIN+R,在运行框中输入“gpedit.msc” 确认,会打开本地组策略2打开本地策略组编辑器后依次展开 :“计算机配置”->“管理模板”->"wind ...3双击该选项,设置为“已启用”,并应用4最后我们还要在【用户配置】中进行同样的操作,跟上图一样,设置完成后退出即可正常 ...3,尝试命令方式动行msiexec0,在计算机管理->服务->windows installer服务,启动1, 开始->windows powershell(管理员)2,进入安装包路径如: d: 切换到d盘 -> cd install 进入目录3,运行:C:\WINDOWS\system32\msiexec.exe /pa ...4,添加可以安装服务的用户1按WIN+R,在运行框中输入“gpedit.msc” 确认,会打开本地组策略2打开本地策略组编辑器后依次展开 :“计算机配置”->“安全设置”->"本地策略 ...3,双击该选项,添加用户或组,在弹出的用户输入框中输入:everyone,确定退 ...完装完成后没有弹出客户端下载客户端程序安装程序:https://www.mongodb.com/try/ ...以管理员权限安装客户端win7安装Mongodb4.2.111,download:https://www.mongodb.com/downl ...linux1,downloadwget http://10.255.10.50/down/db/mongodb ...2,tar -xvftar -xvf mongodb-linux-x86_64-rhel70-3.6 ...3,mv pathmv ./mongodb-linux-x86_64-rhel70-3.6.23  ...4,configvi /usr/local/mongodb/bin/mongodb.confdbpath=/usr/local/mongodb/data/dblogpath=/usr/local/mongodb/data/logs/mon ...logappend=truefork=trueport=27017bind_ip = 0.0.0.0mkdirmkdir /usr/local/mongodb/datamkdir /usr/local/mongodb/data/dbmkdir /usr/local/mongodb/data/logs5,startcd /usr/local/mongodb/bin./mongod -f mongodb.conf6,checkhttp://127.0.0.1:27017http://10.255.10.52:27017 (注:10.255.10.5 ...
hide
第一章爬虫环境与爬虫简介
hidefull-3
配置Python爬虫环境
hide
Mysql数据库
hide
windows
hide
安装MySQL8.0.26
hide
常见问题
Arrow Link
hide
系统权限不足
hide
MongoDB数据库
hide
windows64位
hide
win10安装Mongodb4.4.6
hide
常见问题
hide
系统权限问题