如图是数据集
想要把他转化为列表[[x1,y1],[x2,y2]...[xn,yn]]
n是对应的编号,x,y分别是对应的密度和含糖率
我已经尝试用PIL库做,但是尝试失败了,希望能得到一个思路
如图是数据集
想要把他转化为列表[[x1,y1],[x2,y2]...[xn,yn]]
n是对应的编号,x,y分别是对应的密度和含糖率
我已经尝试用PIL库做,但是尝试失败了,希望能得到一个思路
PIL + pytesseract,以及一些额外处理(虽然还是有一些问题
from PIL import Image
import pytesseract
import pandas as pd
data_ori = pytesseract.image_to_string(Image.open('data.png'))
data_s = ''.join(i if (i.isdigit() or i == '.') else ' ' for i in data_ori)
data_lst = [i for i in data_s.split() if '.' in i and i[0] != '.' and i[-1] != '.']
data = [[float(data_lst[6 * i]), float(data_lst[6 * i + 1])] for i in range(10)] + [[float(data_lst[6 * i + 2]), float(data_lst[6 * i + 3])] for i in range(10)] + [[float(data_lst[6 * i + 4]), float(data_lst[6 * i + 5])] for i in range(10)]
pd.DataFrame(data, columns = ['密度', '含糖率']).to_csv('ocr.csv', index = False)