标签：python爬虫

python脚本-批量获取网页标题

2020-08-31陈海飞阅读(6448)

1、由于现在需要做的网站优化越来越多，导致偶尔有的网站出现异常情况，不能及时发现，所以才有了此脚本。 2、主要用于批量获取网站标题，运行此脚本的前提是先要获取批量监测的网址url。批量获取网页标题脚本： #coding:utf-8 #au...

2020-08-13陈海飞阅读(1454)

1、这个脚本主要是用于seo的链接提交，以及seo的主动推送，主要用于的是wordpress的网站站长。 2、这个脚本写着玩的，其实获取文章id的方法很多，最便捷的应该是通过数据库获取，此脚本涉及到一些爬虫的新知识，算是一个demo，算是一...

2019-08-08陈海飞阅读(1465)

需求：由于最近做了一批百度问答的词，想统计效果，由于数量较多，所以想到了用python抓取实现，以增加工作效率。通过分析分析发现，浏览量不是静态的，是通过另外一个链接获取的，如下图链接：https://zhidao.baidu.com/...

2018-05-15陈海飞阅读(3064)

1、BeautifulSoup是爬取网页信息使用频率最高的库，下面简单介绍一下我编写脚本过程中利用bs4获取信息的方法。 2、本文用到到网的某一购物场所作为例子： url=’http://www.tripadvisor.cn/A...

2017-12-29陈海飞阅读(4870)

现在查友链的工具响应都很慢，我这个脚本的逻辑就是先将我们的友链整理出来，再直接查，有没有我们网站的字段，以确定是否挂有我们的网站，要注意的是无法确定是否带有nofllow标签，还有就是因为http响应的效率问题，不保证100%准确，可以多试...

2017-12-29陈海飞阅读(4139)

此脚本的初衷是因为我们网站分站较多，而站长工具批量查询站点权重，无法导入，因此此脚本产生了。 #coding=utf8 import requests import re import json headers = { ‘Use...

2017-07-31陈海飞阅读(6025)

脚本作用：批量获取http状态码可以检测出有异常情况的页面，从而找到问题页面，寻找原因或者删除死链等。 python获取http状态码脚本如下： #coding:utf-8 #author:www.chenhaifei.com import...

2017-07-31陈海飞阅读(8497)

分析关键词在百度的相关结果数有利于了解关键词在百度的竞争程度，比如一个很热门的词，那么它的相关结果数必然很高，因为大家都想做此关键词的排名，对于做SEO，这类词是不适合我们竞争的，因为这类关键词基本需求已经处于饱和状态，想要获取排名，需要...

2017-07-31陈海飞阅读(3976)

1、寻找异步加载的接口通过谷歌浏览器的Network查找，一般异步加载常见的有两个可能：XHR，JS。所以我们在点击进行响应时，只要观察这两项加载的内容就可以清晰的知道接口的地址。（需要注意的是：Request常用的有两种情况，1.get...

2017-07-31陈海飞阅读(2613)

注意： 1、下面的脚本直接复制无法执行，会有缩进和中英文符号的问题导致脚本无法运行。（可以通过脚本截图进行修改） 2、此脚本主要是用与批量挖掘百度下拉框词的脚本。如下图：挖掘百度下拉框关键词python脚本 #coding=utf8 i...