`
nbtlxx
  • 浏览: 248965 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

使用python开发简单的贴吧爬虫代码及python ide问题

阅读更多
贴吧例子代码来源于csdn网站,感谢作者技术分享,受益匪浅。
#encoding=utf8
import string, urllib2

def baidu_tieba(url, begin_page, end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i,5)+'.html'
		print '正在下载'+str(i)+ '个网页'
		f = open('data/'+sName,'w+')
		m = urllib2.urlopen(url+str(i)).read()
		f.write(m)
		f.close()

# bdulr = 'http://tieba.baidu.com/p/2296017831?pn='
bdulr = 'http://tieba.baidu.com/p/2494746884?pn='

begin_page = 1
end_page = 10

# bdulr = str(input(u'please input url:\r\n'))

# begin_page = int(input(u'input start pagenum'))
# end_page = int(input(u'end page num'))

baidu_tieba(bdulr,begin_page,end_page)



碰到的一个问题就是:
sublime2, 对raw_input()的总是提示:error, 貌似没有好的解决办法
然后使用eclipse, pydev, 但是很多时候api不支持,总是提示出错,比如

 
from twisted.internet.protocol import Protocol,Factory
from twisted.internet import reactor


class Echo(Protocol):
    
    def dataReceived(self, data):
        self.transport.write('hello: {}'.format(data))

class EchoFactory(protocol.Factory):
    def buildProtocal(self,addr):
        return Echo()
    
    def connectionLost(self, reason):
        print 'connect lost',reason

    
def main():
    f = Factory()
    f.protocol = Echo
    reactor.listenTCP(8000,f)   #语法提示错误,不影响执行
    reactor.run()
    
if __name__ == '__main__':
    main()
 


另外一种情况就是编译出错,比如
import binascii
import socket
import struct
import sys

#create a TCP/IP socket
# sock = socket.socket(socket.AF_INET6,socket.SOCK_STREAM)
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server_addr = ('',10000)
sock.bind(server_addr)
sock.listen(10)

unpacker = struct.Struct('I 2s f')

while True:
    print >>sys.stderr , '\n waiting for a client'
    conn, client_addr = sock.accept()
    
    try:
        data = conn.recv(unpacker.size())
        
        unpacked_data = unpacker.unpack(data)
        
    finally:
        conn.close()

报错信息如下:
Traceback (most recent call last):
  File "/Users/chenxu/work/python/pythontutorial/src/socket/server.py", line 14, in <module>
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
AttributeError: 'module' object has no attribute 'socket'

但是上面的代码使用sublime可以运行。

综合的办法就是
1. 使用eclipse, pydev来编写代码,这个ide有强大的代码补全功能,对于不熟悉python语法的人来说是福音
2. 使用sublime来运行代码,Command+b 运行快捷键
人生不如意,十有八九。
接受不能改变的事情吧。
1
0
分享到:
评论
1 楼 coolbamboo2008 2013-12-16  
不错,python还是简单

相关推荐

    Python网络爬虫实战.pdf

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    python爬虫实例教程

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。

    30 分钟上手 Python 爬虫 #02 - Python 开发环境与 IDE 搭建.mp4

    视频教程 30 分钟上手 Python 爬虫 #02 - Python 开发环境与 IDE 搭建 30 分钟带你快速上手 Python,详解了爬虫底层的原理与实现方法、BeautifulSoup 框架以及实战爬虫的实现,快速助力你成为一名大数据工程师。

    Python网络爬虫实战(完整版,高清

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    PYTHON 网络爬虫实战 ,胡松涛著 ,P294 ,2017.01.zip

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    Python网络爬虫实战

    本书共10章,涵盖的内容有Python3.6语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器、Pyspider...

    PYTHON 网络爬虫实战

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    在 VisualStudio 2017环境下使用Python之爬虫入门实例1-下载天气网图片

    用宇宙第一IDE学习Python很简单,不用复杂的配置环境,下载了就能用,环境变量什么都不用管,重点是中文看起来舒服极了。绝对比其它IDE方便。这是学习爬虫的入门实例1

    Python网络爬虫详解教程 + 知识总结

    爬虫python入门 Python语言十分简洁,使用起来又非常简单、易学,通过Python 进行编写就像使用英语进行写作一样。另外Python 在使用中十分方便,并不需要IDE。因为python的脚本特性,python易于配置,对字符的处理也...

    Python爬虫小例子——爬取51job发布的工作职位

    概述 不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习... 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm requests类库:本类库封装了python的内置模块,主要用于网络的请求和获

    Python爬虫基础知识

    同时,使用IDE或文本编辑器进行代码编写,并配置好代理和网络环境,以便顺利访问目标网站。 此外,开发者还需要遵守网站的robots.txt规则和数据使用条款,确保爬虫的合法性和合规性。在爬虫开发中,也应注意保护...

    开发入门. 爬虫项目介绍以及软件安装

    Python开发入门与爬虫项目实战课程介绍(视频教程) MAC版Python基础环境安装(视频教程) Win版Python基础环境安装(视频教程) Mac安装IDE-PyCharm(视频教程) Windows安装IDE-PyCharm(视频教程) 代码应该怎么...

    《基于Python语言的网络数据挖掘》实验指导书 共26页.doc

    IDLE是开发python程序的基本集成开发环境,具备基本的IDE的功能,是Python教学的不错的选择。当安装好python以后,IDLE就自动安装好了,不需要另外去找。同时,使用Eclipse这个强大的框架时IDLE也可以非常方便的调试...

    python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

    使用Python爬虫库requests多线程抓取猫眼电影TOP100思路: 查看网页源代码 抓取单页内容 正则表达式提取信息 猫眼TOP100所有信息写入文件 多线程抓取 运行平台:windows Python版本:Python 3.7. IDE:...

    基于Python+Flask+Echarts的疫情爬虫&amp;amp;amp;数据可视化项目+源代码+文档说明

    &gt;* 在Linux上部署web项目及爬虫 ## 项目环境 &gt;* Python 3.7 &gt;* MySQL 8.0.17 &gt;* Flask 1.1.1 &gt;* Linux上: &gt;&gt;* 阿里云 CentOS 8.0 64位 &gt;&gt;* Python3.6 &gt;&gt;* MySQL 8.0 ## IDE &gt; Pycharm / Vscode / Sublime -----...

    python文本爬虫(爬好-看-视频网站)下载急用

    环境:python3.7+wingide 建议:有一定python基础 需要文本爬虫处理网站的 可直接下载即可运行

    爬虫代理池Python3WebSpider源代码测试过程解析

    这篇文章主要介绍了爬虫代理池Python3WebSpider源代码测试过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 元类属性的使用 代码 主要关于元类的使用 ...

    python3第三方爬虫库BeautifulSoup4安装教程

    在做Python3爬虫练习时,从网上找到了一段代码如下: #使用第三方库BeautifulSoup,用于从html或xml中提取数据 from bs4 import BeautifulSoup 自己实践后,发现出现了错误,如下所示:    以上错误提示是说没有...

    Windows系统下Python编程环境搭建与配置指南

    使用场景及目标:无论你是想要学习数据分析、人工智能、网络爬虫还是网站开发,Python都是一种非常好的选择。通过本教程,你将能够成功在你的Windows电脑上安装Python,并配置好开发环境,为后续的Python学习打下...

Global site tag (gtag.js) - Google Analytics