python requests 正则爬虫

网友投稿 276 2022-09-04

python requests 正则爬虫

代码:

import requestsfrom multiprocessing import Poolfrom requests.exceptions import RequestExceptionimport reimport jsondef get_one_page(url): try: if url=='': return None response=requests.get(url) if response.status_code==200: return response.text return None except RequestException: return Nonedef parse_one_page(html): if html=='': return None pattern=re.compile('

.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?
',re.S) items=re.findall(pattern,html) for item in items: yield { 'index':item[0], 'image':item[1], 'title':item[2], 'actor':item[3].strip()[3:], 'time':item[4].strip()[5:], 'score':item[5]+item[6] }def write_to_file(content): with open('result.txt','a',encoding='utf-8') as f:#a往后追加 f.write(json.dumps(content,ensure_ascii=False)+'\n') f.close()def main(offset): url=' html=get_one_page(url) # 得到html for item in parse_one_page(html): print(item) write_to_file(item)if __name__=='__main__': # for i in range(10): # main(i*10) pool=Pool() #多线程 pool.map(main,[i*10 for i in range(10)])

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:缓存数据生产服务的工作流程
下一篇:奥运会对“隐性营销”说不:花样百出的“神操作”到底伤害了谁?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~