标签:python爬虫

python

python脚本-批量获取网页标题

陈海飞阅读(6448)

1、由于现在需要做的网站优化越来越多,导致偶尔有的网站出现异常情况,不能及时发现,所以才有了此脚本。 2、主要用于批量获取网站标题,运行此脚本的前提是先要获取批量监测的网址url。 批量获取网页标题脚本: #coding:utf-8 #au...

python

wordpress 后台文章批量抓取id

陈海飞阅读(1454)

1、这个脚本主要是用于seo的链接提交,以及seo的主动推送,主要用于的是wordpress的网站站长。 2、这个脚本写着玩的,其实获取文章id的方法很多,最便捷的应该是通过数据库获取,此脚本涉及到一些爬虫的新知识,算是一个demo,算是一...

python

批量查找百度问答浏览量

陈海飞阅读(1465)

需求:由于最近做了一批百度问答的词,想统计效果,由于数量较多,所以想到了用python抓取实现,以增加工作效率。 通过分析分析发现,浏览量不是静态的,是通过另外一个链接获取的,如下图 链接:https://zhidao.baidu.com/...

python

BeautfulSoup4最常用的5个函数【转载】

陈海飞阅读(3064)

1、BeautifulSoup是爬取网页信息使用频率最高的库,下面简单介绍一下我编写脚本过程中利用bs4获取信息的方法。 2、本文用到到网的某一购物场所作为例子: url=’http://www.tripadvisor.cn/A...

python

查反链的友链脚本

陈海飞阅读(4870)

现在查友链的工具响应都很慢,我这个脚本的逻辑就是先将我们的友链整理出来,再直接查,有没有我们网站的字段,以确定是否挂有我们的网站,要注意的是无法确定是否带有nofllow标签,还有就是因为http响应的效率问题,不保证100%准确,可以多试...

python

[post+json]批量查询网站权重脚本

陈海飞阅读(4139)

此脚本的初衷是因为我们网站分站较多,而站长工具批量查询站点权重,无法导入,因此此脚本产生了。 #coding=utf8 import requests import re import json headers = { ‘Use...

python

python 批量获取http状态码

陈海飞阅读(6025)

脚本作用:批量获取http状态码可以检测出有异常情况的页面,从而找到问题页面,寻找原因或者删除死链等。 python获取http状态码脚本如下: #coding:utf-8 #author:www.chenhaifei.com import...

python

python批量获取百度关键词相关结果数

陈海飞阅读(8497)

分析关键词在百度的相关结果数 有利于了解关键词在百度的竞争程度,比如一个很热门的词,那么它的相关结果数必然很高,因为大家都想做此关键词的排名,对于做SEO,这类词是不适合我们竞争的,因为这类关键词基本需求已经处于饱和状态,想要获取排名,需要...

python

Python如何抓取异步加载数据

陈海飞阅读(3976)

1、寻找异步加载的接口 通过谷歌浏览器的Network查找,一般异步加载常见的有两个可能:XHR,JS。所以我们在点击进行响应时,只要观察这两项加载的内容就可以清晰的知道接口的地址。(需要注意的是:Request常用的有两种情况,1.get...

python

python脚本-挖掘百度下拉框关键词

陈海飞阅读(2613)

注意: 1、下面的脚本直接复制无法执行,会有缩进和中英文符号的问题导致脚本无法运行。(可以通过脚本截图进行修改) 2、此脚本主要是用与批量挖掘百度下拉框词的脚本。 如下图: 挖掘百度下拉框关键词python脚本 #coding=utf8 i...