博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python for android : BeautifulSoup 有 bug
阅读量:4940 次
发布时间:2019-06-11

本文共 818 字,大约阅读时间需要 2 分钟。

BeautifulSoup 善于网页数据分析 。可是 python for android : BeautifulSoup 有 bug ,

text = h4.a.text 仅仅能取得 None,因此我写了function: getText() 来fix this bug.

比如: 抓取CSDN极客头条内容  soup.py

import urllib2, refrom BeautifulSoup import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf-8')def getText(text):    begin = text.find('>',0)    if begin > -1:        begin += 1        end = text.find('',begin)        if begin < end:            return text[begin:end].strip()        else:            return None    else:        return Nonepage = urllib2.urlopen("http://geek.csdn.net/new")soup = BeautifulSoup(page)for h4 in soup.findAll('h4'):    if h4.a is not None:        href = h4.a.get('href')        text = getText(str(h4.a))        print text        print hrefpage.close()
请參考:  
 

转载于:https://www.cnblogs.com/claireyuancy/p/6788788.html

你可能感兴趣的文章
Spring注解 开发
查看>>
#!/bin/bash(转)
查看>>
BZOJ4589 Hard Nim(博弈+FWT)
查看>>
hdu 2473 Junk-Mail Filter 并查集删点,模板题
查看>>
【Maps】【搜狗】
查看>>
Linux命令详解-whatis
查看>>
分组求和
查看>>
eclipse 忽略 target 设置
查看>>
Reptile:requests代理IP
查看>>
HTML5应用缓存与Web Workers
查看>>
【并行计算-CUDA开发】英伟达硬件解码器分析
查看>>
Axure原型制作规范
查看>>
华阳彩票渠道管理平台
查看>>
大四中软实习笔记20130301
查看>>
8款功能强大的最新HTML5特效实例
查看>>
行为委托,简洁的 对象关联 编码风格
查看>>
lua 10进制转换成其它进制table表示
查看>>
数据类型
查看>>
ACM基础训练题解4301 城市地平线
查看>>
Python基础练习
查看>>