Japanese Vegetarian
Five week course in London
A five week introduction to traditional Japanese vegetarian meals, teaching you a selection of rice and noodle dishes.
十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
本篇文章为大家展示了Python中关于数据采集和解析是怎样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
成都创新互联是一家集网站建设,锡山企业网站建设,锡山品牌网站建设,网站定制,锡山网站建设报价,网络营销,网络优化,锡山网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题,下面我们给出一个爬虫开发相关技术的清单以及这些技术涉及到的标准库和第三方库,稍后我们会一一介绍这些内容。
下载数据 - urllib / requests / aiohttp。
解析数据 - re / lxml / beautifulsoup4 / pyquery。
缓存和持久化 - pyMySQL / sqlalchemy / peewee/ redis / pymongo。
生成数字签名 - hashlib。
序列化和压缩 - pickle / json / zlib。
调度器 - 多进程(multiprocessing) / 多线程(threading)。
HTML页面
Home Yoko's Kitchen
Japanese Vegetarian
Five week course in London
A five week introduction to traditional Japanese vegetarian meals, teaching you a selection of rice and noodle dishes.
Sauces Masterclass
One day workshop
An intensive one-day course looking at how to create the most delicious sauces for use in a range of Japanese cookery.
如果你对上面的代码并不感到陌生,那么你一定知道HTML页面通常由三部分构成,分别是用来承载内容的Tag(标签)、负责渲染页面的CSS(层叠样式表)以及控制交互式行为的JavaScript。通常,我们可以在浏览器的右键菜单中通过“查看网页源代码”的方式获取网页的代码并了解页面的结构;当然,我们也可以通过浏览器提供的开发人员工具来了解更多的信息。
使用requests获取页面
GET请求和POST请求。
URL参数和请求头。
复杂的POST请求(文件上传)。
操作Cookie。
设置代理服务器。
【说明】:关于requests的详细用法可以参考它的官方文档。
页面解析
几种解析方式的比较
说明:BeautifulSoup可选的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。
使用正则表达式解析页面
如果你对正则表达式没有任何的概念,那么推荐先阅读《正则表达式30分钟入门教程》,然后再阅读我们之前讲解在Python中如何使用正则表达式一文。
XPath解析和lxml
XPath是在XML文档中查找信息的一种语法,它使用路径表达式来选取XML文档中的节点或者节点集。这里所说的XPath节点包括元素、属性、文本、命名空间、处理指令、注释、根节点等。
Harry Potter 29.99 Learning XML 39.95
对于上面的XML文件,我们可以用如下所示的XPath语法获取文档中的节点。
在使用XPath语法时,还可以使用XPath中的谓词。
XPath还支持通配符用法,如下所示。
如果要选取多个节点,可以使用如下所示的方法。
【说明】:上面的例子来自于菜鸟教程网站上XPath教程,有兴趣的读者可以自行阅读原文。
当然,如果不理解或者不太熟悉XPath语法,可以在Chrome浏览器中按照如下所示的方法查看元素的XPath语法。
BeautifulSoup的使用
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。
1.遍历文档树
获取标签
获取标签属性
获取标签内容
获取子(孙)节点
获取父节点/祖先节点
获取兄弟节点
2.搜索树节点
find / find_all
select_one / select
【说明】:更多内容可以参考BeautifulSoup的官方文档。
PyQuery的使用
pyquery相当于jQuery的Python实现,可以用于解析HTML网页。
实例 - 获取知乎发现上的问题链接
from urllib.parse import urljoin import re import requests from bs4 import BeautifulSoup def main(): headers = {'user-agent': 'Baiduspider'} proxies = { 'http': 'http://122.114.31.177:808' } base_url = 'https://www.zhihu.com/' seed_url = urljoin(base_url, 'explore') resp = requests.get(seed_url, headers=headers, proxies=proxies) soup = BeautifulSoup(resp.text, 'lxml') href_regex = re.compile(r'^/question') link_set = set() for a_tag in soup.find_all('a', {'href': href_regex}): if 'href' in a_tag.attrs: href = a_tag.attrs['href'] full_url = urljoin(base_url, href) link_set.add(full_url) print('Total %d question pages found.' % len(link_set)) if __name__ == '__main__': main()
上述内容就是Python中关于数据采集和解析是怎样的,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注创新互联行业资讯频道。