- 博客(20)
- 问答 (4)
- 收藏
- 关注
用Python Mechanize做爬虫遇到的内存过高问题
今天在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。 整个过程是:1、获取目标页面地址2、取得目标地址前几页的所有图片url3、对这些url进行下载,并把索引数据保存到mysql数据库。 这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈) 当图片下载到大约15000张左右的时候,发现越来越慢,最后...
2012-03-27 18:36:31
482
Stack Overflow中文版
http://area51.stackexchange.com/proposals/37537/stack-overflow?referrer=CaYNn6KUQqXlhwCG4VbAXQ2 Stack Overflow作为目前世界上最高质量的是技术社区,还没有中文版分站。 我提交了Stack Overflow的中文版的申请,常问技术问题的一起支持一下,争取成为stack o...
2012-01-04 15:04:46
5263
3
Google's Python Class 5 (Python Dict and File)
原文:http://code.google.com/edu/languages/google-python-class/dict-files.html Python Dict and FileGoogle Code University › Programming LanguagesDict Hash TablePython有一个高效的哈希表数据结构:"dict"(字典)...
2011-12-31 13:40:13
174
Google's Python Class 4 (Python Sorting)
原文:http://code.google.com/edu/languages/google-python-class/sorting.html Python Sorting(排序)Google Code University › Programming Languages为list排序的最简单方法是使用sorted()函数,它会返回一个排序号的新的list. a = [5,...
2011-12-30 13:48:29
160
Google's Python Class 3 (Python Lists)
原文:http://code.google.com/edu/languages/google-python-class/lists.html Python ListsGoogle Code University › Programming LanguagesPython拥有一种强大的列表类型: "list". List 通过 [ ]进行声明. Lists与string类型的用...
2011-12-30 11:08:26
162
原创 Google's Python Class 2 (Python Strings)
原文:http://code.google.com/edu/languages/google-python-class/strings.htmlPython StringsGoogle Code University › Programming LanguagesPython有一个内置的字符串类叫做str,它有很多非常方便的功能 (还有一个比较老的类叫做string,应当避免使用). ...
2011-12-29 14:14:04
131
原创 Google's Python Class 1 (Python Introduction)
原文:http://code.google.com/intl/zh-CN/edu/languages/google-python-class/introduction.html Python IntroductionPython是一种动态解释型语言。Python代码不需要为方法和变量指定类型,这种特性让Python保持精简和灵活的同时也牺牲了编译期类型检查的优点。Python会在...
2011-12-29 12:15:21
216
原创 JAVA字符流、字节流结构图
Java的流分为字符流和字节流两大类,字节流是按照字节来传数据的(即8位一个字节)而字符流是按照某种编码格式的字符来传递的,我们可以自己设定编码方式字符流输入输出 字节流输入输出 ...
2010-09-11 11:29:19
426
原创 ORACLE 10G层次查询输出树状结构
表结构:sql:select A.id,A.name,A.job_name from ( select * from sys_users t start with t.employee_number='123' connect by NOCYCLE prior t.super_number = t.employee_number...
2010-07-23 10:38:30
246
原创 数据库join备忘
之前研究过几种JOIN方式的区别,但长时间不用又给迷糊了,这次一定记录下来防止忘了。 首先创建A、B两个表,如下图: 1、innner joininner join是默认的方式,可以缩写为join,也称为自然连接。2、outter join:外连接分为left outter join和right outter join,全外连接为full join.or...
2010-06-20 12:54:29
128
原创 HTTP的GET和POST格式解析
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yc0188/archive/2009/10/29/4741871.aspx HTTP报文是面向文本的,报文中的每一个字段都是一些ASCII码串,各个字段的长度是不确定的。HTTP有两类报文:请求报文和响应报文。请求报文一个HTTP请求报文由请求行(request line)、请求头部(hea...
2010-06-06 15:00:19
159
Python精简学习笔记(三) -- 类/文件
类class Person: def say(a,b): print("Hello you all! %d"%b) print(a)p=Person()p.say(1) 类中定义的方法,第一个对象总是当前类实例本身 class Person: def __init__(self,name): self....
2010-06-05 18:16:25
160
原创 Python精简学习笔记(二) -- 字符串/HTTP
函数:def say(): print("say hello")say() 注意,say()后面有冒号。即python的函数定义、条件判断后面均有冒号 def printMax(a,b): if a>b: print("a is max! %d"%a) if a<b: print("b...
2010-06-05 00:11:59
140
原创 Python精简学习笔记(一)
输出函数print("This is a string test %s"%"哈哈哈哈") 输入函数s = input("请输入...")数组sz=[1,2,3,'a','b'] 元组yz=(1,2,3,'aaa','bbb') 元组只相当于只读序列,数组可以改变。sz[1]=1111 acceptyz[1]=11...
2010-06-04 11:23:24
147
在JavaSE中获得EntityManagerFactory测试 EJB组件
在网上找了不少java se中获得enetityManagerFactory的方法,很多都讲的很简略,不知道是为何,总让人看不太明白。我就写个完整的吧。 1、在java se项目中的persistence.xml中添加如下代码:<persistence-unit name="oracle_test" transaction-type="RESOURCE_LOCAL">...
2010-05-29 13:47:52
185
使用Java调用Oracle 存储过程实验
//1、编写一个测试表Bookcreate table book(id number primary key,name varchar2(100),description varchar2(100))//2、定义一个插入数据的存储过程:create or replace procedure addBook(bookId number,bookName v...
2010-05-26 21:26:16
103
原创 观察者模式的实际应用
EJB3这的MDB就是观察者模式的一个体现。即,当被观察者的状态发生变化,或执行某项操作的时候,观察者即被触发执行设定的动作。 例如:ATM银行卡问题:被观察者:取款机观察者:摄像头,屏幕,监控系统当用户密码输入错误3次时,取款机将卡吞掉,触发观察者的动作,观察者会执行拍照、初始化屏幕等操作。这个好处就是,当银行的监控措施增...
2010-05-16 19:09:33
166
简单方法实现SSH使用多数据源
前段时间,跟朋友讨论怎么实现这个东西的时候想到的一个方法,不知道正规场合可行不可行,我自己测试的时候没啥问题,我是个新手,希望朋友们不吝指教。我测试的时候只是增删改查没啥问题,不知道事务是不是如我预料的那样没问题.... 当然,做分布式还是用JTA更好一些,现在的JAVA EE容器都直接支持了,下面这些方法只是给像我一样的野战军用的土方法,适用于Tomcat,哈哈。 第...
2010-05-10 11:13:03
303
原创 Lucene基础使用学习笔记
最近学习Lucene的使用,打算做一个基于lucene的知识管理,感觉这个东西真是太方便太好用了不过话说回来,如果数据量不是很大的话,就美必要用了 #- - ~~这个笔记主要是摘抄自网络,记录一下我的学习过程,和大家共勉~在此感谢那些无私奉献的人们! 1、整体结构说明索引和搜索过程图:...
2010-05-09 11:32:47
117
Tomcat客户端访问EJB远程方法错误解决(无法找到UserDaoImpl/Remote)
昨天做的一个EJB测试项目,搞得我郁闷坏了。Jboss5.0.1GATomcat6.0Jdk 1.6新建EJB服务器端为JAVAEE5.0项目WEB客户端也是JAVAEE5.0项目(默认包含javaee.jar这个包,跟jboss-javaee.jar基本相同,两者任意一个放到tomcat/lib下都可以,这是最后才知道的,刚开始没这么放) ...
2010-05-06 13:30:04
264
空空如也
EJB3中依赖注入,几个注解的意思谁能详解一下?谢谢!
2010-05-30
CXF入门问题,怎样在客户端给服务器端传递一个对象 ?
2010-04-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人