我想要爬取一个pdf(canvas)格式的文件。
这个文件里的文字部分我都能通过数据包获取,但是图片类的就不行了。虽然我能在网页代码里找到图片链接,但是无法做到将图片取出来,并放在合适的位置。
如果我想将这个文件完整的爬取下来的话该怎么做呢?
我想要爬取一个pdf(canvas)格式的文件。
这个文件里的文字部分我都能通过数据包获取,但是图片类的就不行了。虽然我能在网页代码里找到图片链接,但是无法做到将图片取出来,并放在合适的位置。
如果我想将这个文件完整的爬取下来的话该怎么做呢?
需要在浏览器上临时显示后端实时处理的图像,需要将图像数据转成json字符串传输给js绘图。
后端python处理:
import cv2 as cv
from encodings import base64_codec
def img2dataURL(img):
ret, jpg_data = cv.imencode('.jpg', img)
data, data_size = base64_codec.base64_encode(jpg_data)
return 'data:image/png;base64,'+data
前端js绘图:
var image = new Image();
image.onload = function(){
var canvans = document.getElementById("canvas");
var ctx = canvans.getContext("2d");
ctx.drawImage(image, 0, 0, 320, 240);
}
image.src = data.data;