对于python抓取google搜索结果的一些了解

大学时期博文 1.问题 目前主流的搜索引擎,非google莫属,但其对于非法(流量异常、爬虫)请求的封锁也是异常严厉 本人前段时间有个脚本用到了谷歌搜索,具体见python之由公司名推算出公司官网(余弦相似度)当时直接使用的是一个python开源项目 但在使用过程中,单ip的情况下爬取速……

阅读全文

Mastering Pandas 01

1.pandas特性 对于python开发者来说,在面对海量数据时,pandas可谓是数据分析的首选,以下关键特性是它如此热门的原因: 1. 可以处理各种不同格式的数据集:时间序列,表格,矩阵数据 2. 促进csv、DB/SQL等来源数据的加载/导入 3. 可以在很大数据集的基础上进行一些过滤、合并……

阅读全文

CentOS7分布式部署pyspider

搭建环境: 系统版本:Linux centos-linux.shared 3.10.0-123.el7.x86_64 #1 SMP Mon Jun 30 12:09:22 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux python版本:Python 3.5.1 搭建python3环境: 本人在尝试过后选择集成环境Anaconda 编译 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 # 下载依赖 yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-deve # 下载pyth……

阅读全文

祝你生日快乐

很荣幸,能将你写到我的生命里 生命不过百年,你我相识六年有余 记忆中我为你过了四次生日,高一、大一、大二、大三 第五次,祝你生日快乐 这次却有些不同,因为我们相爱了,我可以加上一句,我爱你 或许有些矫情,可在这夜晚中我毫不介意 我爱你 如果把生命想象成一条线,我们早已经在某个点相交,然后相互环……

阅读全文

Python之由公司名推算出公司官网(余弦相似度)

1.问题 对展会数据分类后,我的新任务是如何通过公司名、公司地址、国家等海关数据推断出该公司的官网网站(若官网不存在则不考虑) 以下数据仅供参考: 公司名 国家 地址 JPW INDUSTRIES INC 427 NEW SANFORD RD LAVERGNE TN 37086 US Fujian Xishi Co., Ltd CN, CHINA BusinessPartner Co.,ltd BENKAI Co.,Ltd GOLD INC 18245 E 40TH AVE AURORA CO 80011 US 需要得到结果: 公司名 官方网站 JPW INDUSTRIES INC http://http://www.jpwindustries.com/ Fujian Xishi Co., Ltd http://www.xishigroup.com/ BusinessPartner Co.,ltd http://www.traderthailand.com/ BENKAI Co.,Ltd http://www.benkaico.com GOLD INC……

阅读全文

Python之朴素贝叶斯对展会数据分类

目的 在公司实习,分别从国内国外两个网站爬取了一些展会数据,在数据处理上目前需要将其按照各个类别分类好,并提供对应展会地址的经纬度,国内数据如下: 国内数据比较少,占四百多条,在类别上来看有所属行业这一列,所以比较好处理,国外数据就有些尴尬: 国外网站展会数据将近五万多条,跟分类有关的……

阅读全文

python之装饰器

认识装饰器 在python中,对于一个函数,若想在其运行前后做点什么,那么装饰器是再好不过的选择,话不多说,上代码。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 #!/usr/bin/env # -*-coding:utf-8-*- # script: 01.py __author__ = 'howie' from functools import wraps def decorator(func): @wraps(func) def wrapper(*args, **kwargs): print("%s was called" % func.__name__) func(*args, **kwargs) return wrapper @decorator def hello(name="howie"): print("Hello %s!" % name) hello() outputs: hello was called Hello howie! 这段代码,初看之下,确实不是很理解,接下来一步一步分……

阅读全文

cx_Freeze打包py文件

最近需要将python代码打包成exe,打包过程中出现了一些问题,特此记录,也顺便记录下cx_Freeze使用方法,留待日后查看。 首先进行下载,需要注意对应的版本号,比如本人使用python3.4,64位,故下载cx_Freeze-4.3.3.win-amd64-py3.4.ms……

阅读全文

MySQL基本操作命令汇总

一、基本操作 对数据库以及表的一些基本操作 1-1.关于数据库 1 2 3 4 5 6 7 8 9 10 11 12 //创建数据库 create database h_test; //查看数据库 show databases; //查看数据库信息 show create database h_test; //修改数据库的编码,可使用上一条语句查看是否修改成功 alter database h_test default character set gbk collate gbk_bin; //删除数据库 drop database h_test; //综上,可以直接创建数据库且设置编码方式……

阅读全文

Markdown简明教程

1.概述 本教程的目的是让你读完本教程后,能够使用Markdown来应付一些日常的书写;Markdown的目标是实现易读易写,在这里我觉得还要加上一点,那就是易学,既然易学,那为什么还要写教程呢?因为我必须让我女朋友也学会Markdown啊,哈哈。 参考: Markdown 语法说明 使用环境:可以自己……

阅读全文