微信公众号阅读数抓取怎么做?_微微风

微信公众号阅读数抓取怎么做?

2017-09-27 88 0

  微信公众号阅读数抓取怎么做?微信公众号阅读数抓取对于运营微信公众号来说至关重要,所以有很多的微信公众号运营者想知道微信公众号阅读数抓取怎么做,以下是微信公众号阅读数抓取怎么做的内容了。

  微信公众号阅读数抓取怎么做?

  微信公众号阅读数抓取需要使用到爬虫技术哦。爬虫抓取微信公众号阅读数的步骤如下:

  先抓取wxid(搜索要用到)

  目标时间段分片 10天一次搜索(避免超过10页需要登录)

  获得时间片内的记录数做分页

  循环分页数拼接url携带代理请求

  bs4分析网页内容 遇到验证码更换代理重新请求

  正则匹配出列表页中的详情页链接 多线程请求阅读点赞

  结果插入mysql

  以上操作使用多进程提升速度。

  微信公众号阅读数抓取的做法如下:

  获取wxid

  这里用selenium去获取配置文件的公众号的wxid

  class Craw_openid:

  __getWxIdApi = "http://weixin.sogou.com/weixin?zhnss=1&type=1&ie=utf8&query="

  __driver = webdriver.Chrome()

  __wechatIds = wechatIds['wxId']

  def __init__(self):

  pass

  def getWxId(self):

  for x in self.__wechatIds:

  url = self.__getWxIdApi + str(x[0])

  self.__driver.get(url)

  while (self.checkCaptcha(self.__driver.page_source) == False):

  time.sleep(0.5)

  reg = re.compile(r'"openid":"(.+?)"')

  reg2 = re.compile(r'"sourcename":"(.+?)"')

  wxId = re.findall(reg, self.__driver.page_source)[0]

  try:

  wxName = re.findall(reg2, self.__driver.page_source)[0]

  except Exception as e:

  wxName = ''

  print "['%s' , '%s' , '%s' , '%s']," % (x[0], x[1] , wxId , wxName)

  def checkCaptcha(self , content):

  soup = bs4.BeautifulSoup(content, 'html.parser', from_encoding='gb18030')

  strs = soup.select('.s1')

  if strs:

  temp = re.compile(r'>(.*?)').findall(str(strs[0]))[0]

  if temp == '您的访问出错了':

  return False

  else:

  return True

  else:

  return True1234567891011121314151617181920212223242526272829303132

  时间分段

  这里我统计的是2016年的

  def getBetweenDay(self):

  for x in xrange(1, 13):

  days = calendar.monthrange(self.__year, x)[1]

  temp = str(x)

  if len(temp) == 1:

  temp = '0' + str(temp)

  ss = str(days - 20)

  if len(ss) == 1:

  ss = '0' + ss

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-01', str(self.__year) + '-' + temp + '-' + ss]})

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-' + str(days - 19), str(self.__year) + '-' + temp + '-' + str(days - 10)]})

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-' + str(days - 9), str(self.__year) + '-' + temp + '-' + str(days)]})

  return self.__dates12345678910111213

  微信文章数和阅读点赞

  文章数即翻页列表数量的总数,阅读微信点赞可以替换详情页的前缀为getcomment

  def getSee(self):

  if self.__urlList:

  self.__totalNum = len(self.__urlList)

  for x in self.__urlList:

  url = x.replace('mp.weixin.qq.com/s?src' , 'mp.weixin.qq.com/mp/getcomment?src')

  json = self.getContent(url)

  readed = eval(json)['read_num']

  liked = eval(json)['like_num']

  if int(readed) >= 100000:

  self.__highRead += 1

  if readed > self.__topReaded:

  self.__topReaded = readed

  if liked > self.__topLiked:

  self.__topLiked = liked

  self.__readed += readed

  self.__liked += liked12345678910111213141516

  其他:

  抓取的方法有很多,重点是sogou的反爬虫做得比较严格(毕竟是专业做搜索引擎的),所以要在代理上下一些功夫,如果抓取不需要阅读点赞,可以参考github上一个go语言写的中间人攻击的方法,不需要代理,但是有可能微信号被封。

  微信公众号阅读数抓取怎么做呢?感谢大家的观看哦,微信公众号阅读数抓取的步骤都已经写在上方的内容中了哦,各位微信公众号运营者,您都学会了吗?大家请多关注微微风哦。

  更多推荐:

  如何采集抓取微信公众号文章内容阅读数?

  怎么实现微信阅读数点赞数抓取?

  微信群惊现关键字自动回复聊天机器人

微信公众号阅读数抓取怎么做?

发布:2017-09-27来源:lm8023yjw阅读:88

  微信公众号阅读数抓取怎么做?微信公众号阅读数抓取对于运营微信公众号来说至关重要,所以有很多的微信公众号运营者想知道微信公众号阅读数抓取怎么做,以下是微信公众号阅读数抓取怎么做的内容了。

  微信公众号阅读数抓取怎么做?

  微信公众号阅读数抓取需要使用到爬虫技术哦。爬虫抓取微信公众号阅读数的步骤如下:

  先抓取wxid(搜索要用到)

  目标时间段分片 10天一次搜索(避免超过10页需要登录)

  获得时间片内的记录数做分页

  循环分页数拼接url携带代理请求

  bs4分析网页内容 遇到验证码更换代理重新请求

  正则匹配出列表页中的详情页链接 多线程请求阅读点赞

  结果插入mysql

  以上操作使用多进程提升速度。

  微信公众号阅读数抓取的做法如下:

  获取wxid

  这里用selenium去获取配置文件的公众号的wxid

  class Craw_openid:

  __getWxIdApi = "http://weixin.sogou.com/weixin?zhnss=1&type=1&ie=utf8&query="

  __driver = webdriver.Chrome()

  __wechatIds = wechatIds['wxId']

  def __init__(self):

  pass

  def getWxId(self):

  for x in self.__wechatIds:

  url = self.__getWxIdApi + str(x[0])

  self.__driver.get(url)

  while (self.checkCaptcha(self.__driver.page_source) == False):

  time.sleep(0.5)

  reg = re.compile(r'"openid":"(.+?)"')

  reg2 = re.compile(r'"sourcename":"(.+?)"')

  wxId = re.findall(reg, self.__driver.page_source)[0]

  try:

  wxName = re.findall(reg2, self.__driver.page_source)[0]

  except Exception as e:

  wxName = ''

  print "['%s' , '%s' , '%s' , '%s']," % (x[0], x[1] , wxId , wxName)

  def checkCaptcha(self , content):

  soup = bs4.BeautifulSoup(content, 'html.parser', from_encoding='gb18030')

  strs = soup.select('.s1')

  if strs:

  temp = re.compile(r'>(.*?)').findall(str(strs[0]))[0]

  if temp == '您的访问出错了':

  return False

  else:

  return True

  else:

  return True1234567891011121314151617181920212223242526272829303132

  时间分段

  这里我统计的是2016年的

  def getBetweenDay(self):

  for x in xrange(1, 13):

  days = calendar.monthrange(self.__year, x)[1]

  temp = str(x)

  if len(temp) == 1:

  temp = '0' + str(temp)

  ss = str(days - 20)

  if len(ss) == 1:

  ss = '0' + ss

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-01', str(self.__year) + '-' + temp + '-' + ss]})

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-' + str(days - 19), str(self.__year) + '-' + temp + '-' + str(days - 10)]})

  self.__dates.append({x: [str(self.__year) + '-' + temp + '-' + str(days - 9), str(self.__year) + '-' + temp + '-' + str(days)]})

  return self.__dates12345678910111213

  微信文章数和阅读点赞

  文章数即翻页列表数量的总数,阅读微信点赞可以替换详情页的前缀为getcomment

  def getSee(self):

  if self.__urlList:

  self.__totalNum = len(self.__urlList)

  for x in self.__urlList:

  url = x.replace('mp.weixin.qq.com/s?src' , 'mp.weixin.qq.com/mp/getcomment?src')

  json = self.getContent(url)

  readed = eval(json)['read_num']

  liked = eval(json)['like_num']

  if int(readed) >= 100000:

  self.__highRead += 1

  if readed > self.__topReaded:

  self.__topReaded = readed

  if liked > self.__topLiked:

  self.__topLiked = liked

  self.__readed += readed

  self.__liked += liked12345678910111213141516

  其他:

  抓取的方法有很多,重点是sogou的反爬虫做得比较严格(毕竟是专业做搜索引擎的),所以要在代理上下一些功夫,如果抓取不需要阅读点赞,可以参考github上一个go语言写的中间人攻击的方法,不需要代理,但是有可能微信号被封。

  微信公众号阅读数抓取怎么做呢?感谢大家的观看哦,微信公众号阅读数抓取的步骤都已经写在上方的内容中了哦,各位微信公众号运营者,您都学会了吗?大家请多关注微微风哦。

  更多推荐:

  如何采集抓取微信公众号文章内容阅读数?

  怎么实现微信阅读数点赞数抓取?

  微信群惊现关键字自动回复聊天机器人

分类导航

微信运营微信开发微商学院

精选微信公众号素材

更多

最新最全的微信公众号求关注图片(附下载)

1

微信公众号求关注素材哪里找?

2

微信朋友圈视频软件推荐!怎么制作高大上微信朋友圈视频?

3

2017年微信引导分享动态图精选!

4

最新微信引导关注动图大全!

5

最新公众号阅读原文动态图素材

6

最新微信底部扫码关注模板

7

最新微信公众号求关注图标大全

8

最新微信关注我们动态图素材

9

点击按钮关注公众号,点击按钮关注公众号图片素材

10

最近更新

更多
1小程序分销商城开发的几大问题
2微信小程序靠右对齐怎么实现?
3小程序推广公众号广告是怎么回事?
42017微信指令代码大全
5微信网警监控恶搞代码怎么弄?
6淘宝客对接微信小程序怎么做呢?
7微信淘宝客小程序源码是什么?
8淘客微信小程序怎么制作?淘宝客小程序的入口有哪些?
9微信阅读数key生成怎么做?
10微信公众号阅读数抓取怎么做?

猜你喜欢

微信开发 | 穷游智能攻略小程序:让你没钱也能玩遍全世界
微信开发 | 小程序不能实现外链吗?小程序是否可以加外部链接?
微信开发 | 小程序玩转公交移动支付开启智慧出行
微信开发 | 小程序客服可发送小程序卡片,小程序分享卡片可定制配图
微信开发 | 门店管理升级门店小程序时会碰到的问题有哪些?
微信开发 | 教育行业小程序怎么开发呢?
微信开发 | 微信小程序笑话大全,微信小程序就是个笑话
微信开发 | 营销型小程序如何开发?营销型小程序有何特点?
微信开发 | 营销型微信小程序制作要怎么制作?
微信开发 | 什么是微信支付api证书?