python requests 正则爬虫-APISpace

python requests 正则爬虫

代码：

import requestsfrom multiprocessing import Poolfrom requests.exceptions import RequestExceptionimport reimport jsondef get_one_page(url): try: if url=='': return None response=requests.get(url) if response.status_code==200: return response.text return None except RequestException: return Nonedef parse_one_page(html): if html=='': return None pattern=re.compile('

.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?

',re.S) items=re.findall(pattern,html) for item in items: yield { 'index':item[0], 'image':item[1], 'title':item[2], 'actor':item[3].strip()[3:], 'time':item[4].strip()[5:], 'score':item[5]+item[6] }def write_to_file(content): with open('result.txt','a',encoding='utf-8') as f:#a往后追加 f.write(json.dumps(content,ensure_ascii=False)+'\n') f.close()def main(offset): url=' html=get_one_page(url) # 得到html for item in parse_one_page(html): print(item) write_to_file(item)if __name__=='__main__': # for i in range(10): # main(i*10) pool=Pool() #多线程 pool.map(main,[i*10 for i in range(10)])

c语言sscanf函数的用法是什么

276 2022-09-04

python requests 正则爬虫

c语言sscanf函数的用法是什么

r语言清空数组的方法是什么

c语言一维数组怎么快速排列

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）