Scrapy 如何存储图片？

在设置中找到 ITEM_PIPELINES 并加入以下代码

 scrapy.pipelines.images.ImagesPipeline: 301
 

settings 配置:

图片存储路径：

 IMAGES_STORE = “your path”
 

图片存储天数

 images_EXPIRES =  30
 

设置缩略图 (固定值):

 IMAGES_THUMBS = {
'small':(50,50)
'big':(270,270)
}
 

示例：

 # 配置图片管道参数
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
IMAGES_STORE = os.path.join(BASE_DIR,'images')
 

 # 寻找此文件的父级目录
os.path.dirname() 
# 当前脚本的绝对路径目录
os.path.abspath(__file__)
# __file__当前脚本的名字 

IMAGES_STORE = os.path.join(BASE_DIR,'images')
将BASE_DIR新增IMAGES文件夹路径
 

设置 spider 中获取 images_url 的提取方法

 item['image_urls'] = "提取语法"
# item['image_urls'] = response.css(".pic img:attr('src')").extract()
item['images'] = [] # 【】中不需要填写,下载图片之后，保存本地的文件位置
 

使用 ImagesPipeline 下载图片时，需要使用 images_urls 字段，images_urls 一般是可迭代的列表或元组类型

如果遇到图片反扒请打开

 # DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
# "referer":"自行配置"
# }
 

存入 MongoDB，示例代码

  import pymongo
from itemadapter import ItemAdapter

class MongoPipeline:

 collection_name = 'scrapy_items'

 def __init__(self, mongo_uri, mongo_db):
 self.mongo_uri = mongo_uri
 self.mongo_db = mongo_db

 @classmethod
 def from_crawler(cls, crawler):
 return cls(
 mongo_uri=crawler.settings.get('MONGO_URI'),
 mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
 )

 def open_spider(self, spider):
 self.client = pymongo.MongoClient(self.mongo_uri)
 self.db = self.client[self.mongo_db]

 def close_spider(self, spider):
 self.client.close()

 def process_item(self, item, spider):
 self.db[self.collection_name].insert_one(ItemAdapter(item).asdict())
 return item
 

更多详情请查阅官方文档：https://docs.scrapy.org/en/latest/topics/item-pipeline.html#take-screenshot-of-item

文章来源: cuiqingcai.com，作者：Payne，版权归原作者所有，如需转载，请联系作者。

原文链接：cuiqingcai.com/9634.html

（完）