这是全栈数据工程师养成攻略系列教程的第十二期:12 数据库 用Python操作MySQL。
我们已经接触了如何使用Web工具phpMyAdmin和本地软件Navicat操作MySQL,现在再来了解下如何使用Python操作MySQL。
MySQLdb
MySQLdb是Python中操作MySQL的功能包,在命令行中使用pip安装即可。
pip install mysql-python复制代码
如果可以在Python中import成功,则表示安装没有问题,否则还得继续折腾。不过安装和配置等事情毕竟是一劳永逸的,纠结一次,受益终身,绝知此事须躬行。
import MySQLdb复制代码
建立连接
在Sublime中新建一个代码,首先需要import相关的包。
import MySQLdbimport MySQLdb.cursors复制代码
打开MAMP或者WAMP并启动Web服务,使得MySQL运行起来,可以通过访问phpMyAdmin管理页面以确认MySQL成功运行。然后,使用以下代码即可建立MySQL数据库连接,其中host为数据库的主机地址,可以使用127.0.0.1
或localhost
表示本机,user和passwd分别为数据库的用户名和密码,db表示接下来要操作的数据库,port和charset表示连接的端口和字符集。以上参数分别替换成实际值即可,这里我们使用之前在本机数据库中新建的douban
数据库,得到的cursor变量可用于执行后续数据库操作。如果需要连接云端服务器的数据库,使用相应的配置参数即可。
db = MySQLdb.connect(host='127.0.0.1', user='root', passwd='root', db='douban', port=8889, charset='utf8', cursorclass = MySQLdb.cursors.DictCursor)db.autocommit(True)cursor = db.cursor()复制代码
执行操作
和数据库相关的操作无非CURD四种,即Create、Update、Read、Delete。要用到的数据可以在我的上找到,里面的data文件夹中除了上次的西游记小说,还包括这次要用到的douban_movie_clean.txt
,其中包含一行表头,之后每一行都是一条电影数据,包括id、title、url、cover、rate等15个字段,字段之间以^
分割,主要是避免中文内容里包括逗号导致冲突。
首先来看下如何向数据表中插入数据,以下代码读取douban_movie_clean.txt
中的数据并逐条插入数据表中。需要注意的是,数据表的结构应当和需要插入的字段保持一致,即movie
表应当中包含主键id、标题title、链接url、评分rate、时长length、简介description六个字段。
# 读取数据fr = open('douban_movie_clean.txt', 'r')count = 0for line in fr: count += 1 # count表示当前处理到第几行了 print count # 跳过表头 if count == 1: continue # strip()函数可以去掉字符串两端的空白符 # split()函数按照给定的分割符将字符串分割为列表 line = line.strip().split('^') # 插入数据,注意对齐字段 # execute()函数第一个参数为要执行的SQL命令 # 这里用字符串格式化的方法生成一个模板 # %s表示一个占位符 # 第二个参数为需要格式化的参数,传入到模板中 cursor.execute("insert into movie(title, url, rate, length, description) values(%s, %s, %s, %s, %s)", [line[1], line[2], line[4], line[-3], line[-1]])# 关闭读文件fr.close()复制代码
运行以上代码之后,在phpMyAdmin中选择douban
数据库中的movie
表,在Browse
标签页下即可看到成功插入的数据。点击SQL
标签,输入Select count(*) from movie
并点击Go
执行SQL命令,可以统计数据表中一共有多少条数据记录。
接下来再了解下如何更新数据库中的数据。SQL命令可以根据给定的条件,更新满足条件的记录,例如改变记录中的某些字段。既然每条数据都有唯一的主键id,不妨将id作为条件进行更新。当然也可以做一些更有意义的更新,例如添加一个“电影时长分类”字段,然后对于每条记录,如果时长大于100,则“电影时长分类”更新为“长电影”,否则更新为“短电影”。
# 更新需要提供条件、需要更新的字段、更新的新值# 以下对于id为1的记录,将其title和length两个字段进行更新cursor.execute("update movie set title=%s, length=%s where id=%s", ['全栈数据工程师养成攻略', 999, 1])复制代码
运行以上代码之后,在phpMyAdmin中Browse
标签页下即可看到,id为1的记录相应字段确实已经得到了更新。
然后就是最常用的读取操作,一方面是取出已有的数据进行加工和计算得到新的结果并再次存储,另一方面是在Web项目中从后端取出数据传递到前端展示。读取数据时可以仅读取一条,也可以选择多条;可以读取全部字段,也可以选择部分字段;还可以按某个字段进行排序,使得读取多条数据时的结果有序排列。
# 读取全部数据的全部字段cursor.execute("select * from movie")movies = cursor.fetchall()# 返回元组,每一项都是一个字典# 对应一条记录的全部字段和字段值print type(movies), len(movies), movies[0]# 读取一条数据的部分字段# 返回一个字段,对应所选择的部分字段和字段值cursor.execute("select id, title, url from movie")movie = cursor.fetchone()print type(movie), len(movie), movie# 读取一条数据的部分字段# 按id降序排序,默认为升序cursor.execute("select id, title, url from movie order by id desc")movie = cursor.fetchone()print type(movie), len(movie), movie复制代码
最后是从数据库中删除数据,删除数据是不可恢复的,所以务必需要谨慎操作,并一定要提供删除条件,这样仅满足删除条件的记录才会被删除。
# 删除数据务必要提供删除条件# 此处删除id为1的记录cursor.execute("delete from movie where id=%s", [1])复制代码
关闭连接
使用Python操作完数据库之后,别忘记了关闭数据库连接。
# 关闭数据库连接cursor.close()db.close()复制代码
扩展内容
我们会发现在使用Python操作数据库时,主要是使用execute()
函数并传入SQL命令。以上介绍的都是最基础的CURD操作,其实SQL命令可以融合非常多的功能并写得更为复杂。
以下链接提供了一份更加完整的SQL教程,,系统地讲解了SQL中的其他常用高级语法。强烈推荐学习一遍,这样才能在用Python操作数据库时,得心应手地写出满足需求的SQL命令来。
视频链接: