justcode.ikeepstudying.com
Python爬虫入门, Python采集实例 - Just Code
准备工作: 1、下载Python3.6.5 https://www.python.org/downloads/ 2、下载IDA工具PythonCharm https://www.jetbrains.com/pycharm/download/#section=windows (查看破解方法) 3、配置环境变量 安装好Python后找到快捷键,右键点属性,找到目标路径复制 我的电脑,右键-属性-高级-环境变量-系统变量-修改Path,在变量值的最后面加一个;然后把目标路径复制进去 设置好环境变量后测试一下,Win+R,输入cmd,在输入python,如图,就证明已经设置好了环境变量 输一个简单的指令 print(“hello”),就可以在控制台打印出hello这句话. 好了准备工作,我们打开pyCharm编译器 首次使用 1、点击Create New Project. 2、输入项目名、路径、选择python解释器。如果没有出现python解释器 3、选择python解释器。可以看到,一旦添加了python解释器,pycharm就会扫描出你已经安装的python扩展包,和这些扩展包的最新版本。(估计是pycharm连接了pypi) 4、点击OK之后,就会创建一个空项目,里面包含一个.idea的文件夹,用于pycharm管理项目。 5、好了,写一个新的项目尝试一下pycharm吧!新建一个py文件, 如图1: 那我们就以爬编程区的帖子为例吧: 1.首先找到地址https://www.52pojie.cn/forum-24-1.html 2.我用的谷歌浏览器,按F12,右边Elements的标签里找我们需要的帖子链接和名字, 如图2: 先整理下思路 为了获取的内容更精确,我们先获取tbody里面的内容 然后获取链接和标题 【Python】萌新跟我来入门Python爬虫 那开始写代码: import urllib.request import re 先导入两个模块解释下这两个模块,新人朋友们了解下,其他有基础的朋友有兴趣可以深入研究下 urllib.request 原地址: https://docs.python.org/3.5/library/urllib.request.html#module-urllib.request urllib.request — 为打开url提供的可扩展类库源代码:Lib / urllib / request.pyurllib.request模块定义了方法和类,帮助打开url(主要是HTTP)在一个复杂的世界——基本和摘要式身份验证,重定向,cookies等等。 re模块 re …