如何利用spark计算欧氏距离

初学spark,求问利用spark计算欧氏距离的思路是什么样的?

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
请问光谱匹配算法(光谱角度、欧氏距离)的matlab源代码哪边能找到?
我的毕业设计需要用matlab编程实现光谱匹配算法(光谱角度、欧氏距离),但我不是计算机专业的,请问哪边有光谱匹配算法(光谱角度、欧氏距离)的源代码,最好是 * **MATLAB** * 的源代码, **C语言** 的也行,万分感谢。急用。
OpenCV PCA人脸识别时欧氏距离的问题
我用PCA+SVM方式对ORL人脸库进行人脸识别,使用Opencv的PCA库进行降维及特征提取,提取后的特征用于SVM训练,如果每人用两个图进行学习,最终测试样本的识别率能到85%+。 但是我如果用测试样本的特征向量和训练样本的特征向量进行欧式距离(NORM_L2)的计算,计算结果十分没有规律,不管是不是同一个人的特征,距离从一千多到四千多的都有。这种情况十分不合理呀,opencv还有个基于PCA样本距离的特征脸识别库不就是用L2距离进行比较来进行识别的吗?鉴于此我又实验了一下使用opencv的特征脸识别库EigenFaceRecognizer进行人脸识别,同样的样本划分,但是不自己写特征提取代码,直接输入原始图片,因为特提取的工作是特征脸库自己做的,识别率也能到80%+。 总结起来问题就是,我用PCA提取的特征进行SVM人脸识别,效果还可以,但是直接用测试样本的特征值和训练样本的特征值进行距离比较,却并不能得出同一人的样本距离会比较近,不同人的会比较远的结果,和特征脸识别的工作原理不符。不知是哪里有问题,求解!
海明距离解惑--如何计算短文本
海明距离-- 欧氏距离-- 资料搜集: 百度百科: 在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。 博客: 在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。 在实际的条件下: [篮球教程]篮球运球训练 [篮球教程]篮球传球训练 在海明距离的计算中,两个资讯是相似的.但是其实根据名称可以看出来,两篇资讯其实是不相同的,天差地别..这个计算的方式是怎么计算的呢? 1.分词 结果为 运球 --- 传球 两个不同.. 2.hash 运球 --- 传球 hash不同. 3.加权... 不懂! 不知道怎么加权,如果是按照词性或者词频来看的话,传球跟运球的词频词性基本相似... 会出现相同结果.. 求大牛指点! 求大牛给推荐一个短文本的相似性计算方式!
如何用python进行坐标遍历计算
已知有N个模块,每个模块里包含四个x和y坐标。 将每个模块中的每个坐标,计算与其他模块中每个坐标的欧式距离。 找到该坐标距离最近的其他模块的坐标,输出配对结果。 使用python该如何进行?
有什么机器学习的办法可以求两个60个数据的向量的距离
我现在手里有很多组60个数组成的特征向量,想要计算两两之间的距离,大概可以用什么样的方法,ps1:标签可以生成: ps2:试过欧氏距离之类的,效果不是很理想,打算试试机器学习的方法
关于knn类别判定的问题
我手里的数据类别是1,2,3。在计算欧氏距离之后取最近的k个训练项后,用距离加权合适吗?我的目标是离散的1,2,3啊,如果用平均值或者距离加权计算出来的应该还需要判断或者取整吧,这样合适吗?我现在的代码是直接看标签为1,2,3的项哪个多就归到那一类,一样多直接认为无法判断(判错)。这种离散目标值应该怎么选择算法呢。。。。
关于人脸识别的问题,有没有大神给解答一下啊
我需要做的是两张图片对比是不是一个人,不是从大量的人脸中找一个人,这种人脸比对有什么好的算法,还是直接用欧氏距离来做,有没有大神懂得
求大神指导,这段代码怎么添加判断条件。就是不满足这个条件的输出另外的结果
``` #include "stdafx.h" #include "Process.h" #include "My_Matrix.h" int _tmain(int argc, _TCHAR* argv[]) { double *T,*L,*m,*b,*q,*c,*p_q,*projected_train,*T_test,*projected_test,*eigenvector,*Euc_dist; double eps,temp; int i,j,flag,iteration,num_q; char res[20]; IplImage *tmp_img,*test_img; T = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*TRAIN_NUM); //原始数据 T_test = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*1); //测试数据 m = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH); //平均值 L = (double *)malloc(sizeof(double)*TRAIN_NUM*TRAIN_NUM); //L=T'*T,协方差矩阵 b = (double *)malloc(sizeof(double)*TRAIN_NUM); //L的特征值 q = (double *)malloc(sizeof(double)*TRAIN_NUM*TRAIN_NUM); //L特征值对应的特征向量 c = (double *)malloc(sizeof(double)*TRAIN_NUM); //实对称三对角矩阵的次对角线元素 eps = 0.000001; memset(L,0,sizeof(double)*TRAIN_NUM*TRAIN_NUM); //存储图像数据到T矩阵 for (i=1;i<=TRAIN_NUM;i++) { sprintf(res,".\\TrainDatabase\\%d.jpg",i); tmp_img = cvLoadImage(res,CV_LOAD_IMAGE_GRAYSCALE); load_data(T,tmp_img,i); } //求T矩阵行的平均值 calc_mean(T,m); //构造协方差矩阵 calc_covariance_matrix(T,L,m); //求L的特征值,特征向量 iteration = 60; cstrq(L,TRAIN_NUM,q,b,c); flag = csstq(TRAIN_NUM,b,c,q,eps,iteration); //数组q中第j列为数组b中第j个特征值对应的特征向量 if (flag<0) { printf("fucking failed!\n"); }else { printf("success to get eigen value and vector\n"); } //对L挑选合适的特征值,过滤特征向量 num_q=0; for (i=0;i<TRAIN_NUM;i++) { if (b[i]>1) { num_q++; } } p_q = (double *)malloc(sizeof(double)*TRAIN_NUM*TRAIN_NUM); //挑选后的L的特征向量,仅过滤,未排序 projected_train = (double *)malloc(sizeof(double)*TRAIN_NUM*num_q); //投影后的训练样本特征空间 eigenvector = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*num_q);//Pe=λe,Q(Xe)=λ(Xe),投影变换向量 pick_eignevalue(b,q,p_q,num_q); get_eigenface(p_q,T,num_q,projected_train,eigenvector); //读取测试图像 test_img = cvLoadImage(".\\TestDatabase\\4.jpg",CV_LOAD_IMAGE_GRAYSCALE); projected_test = (double *)malloc(sizeof(double)*num_q*1);//在特征空间投影后的测试样本 for (i=0;i<IMG_HEIGHT;i++) { for (j=0;j<IMG_WIDTH;j++) { T_test[i*IMG_WIDTH+j] = (double)(unsigned char)test_img->imageData[i*IMG_WIDTH+j] - m[i*IMG_WIDTH+j]; } } //将待测数据投影到特征空间 memset(projected_test,0,sizeof(double)*num_q); matrix_mutil(projected_test,eigenvector,T_test,num_q,IMG_WIDTH*IMG_HEIGHT,1); //计算projected_test与projected_train中每个向量的欧氏距离 Euc_dist = (double *)malloc(sizeof(double)*TRAIN_NUM); for (i=0;i<TRAIN_NUM;i++) { temp = 0; for (j=0;j<num_q;j++) { temp = temp + (projected_test[j]-projected_train[j*TRAIN_NUM+i])*(projected_test[j]-projected_train[j*TRAIN_NUM+i]); } Euc_dist[i] = temp; //printf("%f \n",temp); } //寻找最小距离 double min = Euc_dist[0]; int label; for (i=0;i<TRAIN_NUM;i++) { if (min>=Euc_dist[i]) { min = Euc_dist[i]; label = i; } } printf("%d.jpg is mathcing!",label+1); return 0; } ``` 这个代码是根据测试集与训练集投影向量之间的距离做排序,挑距离最小的作为匹配项。既然是找最小值,那么min的初始值默认为第一组距离。再增加个判断条件,就是当找到的最小值,仍大于某个阈值时,打印匹配失败。
谁来帮帮我运行android的时候出现这个问题怎么解决呢,回答有重赏。。。。。大神
05-20 05:07:15.757: W/dalvikvm(668): threadid=1: thread exiting with uncaught exception (group=0x409c01f8) 05-20 05:07:15.788: E/AndroidRuntime(668): FATAL EXCEPTION: main 05-20 05:07:15.788: E/AndroidRuntime(668): java.lang.NullPointerException 05-20 05:07:15.788: E/AndroidRuntime(668): at com.just.javacv.FaceDecetionForTest.loadTrainImageData(Androidbs2Activity.java:111) 05-20 05:07:15.788: E/AndroidRuntime(668): at com.just.javacv.Androidbs2Activity$1.onClick(Androidbs2Activity.java:42) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.view.View.performClick(View.java:3511) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.view.View$PerformClick.run(View.java:14105) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.os.Handler.handleCallback(Handler.java:605) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.os.Handler.dispatchMessage(Handler.java:92) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.os.Looper.loop(Looper.java:137) 05-20 05:07:15.788: E/AndroidRuntime(668): at android.app.ActivityThread.main(ActivityThread.java:4424) 05-20 05:07:15.788: E/AndroidRuntime(668): at java.lang.reflect.Method.invokeNative(Native Method) 05-20 05:07:15.788: E/AndroidRuntime(668): at java.lang.reflect.Method.invoke(Method.java:511) 05-20 05:07:15.788: E/AndroidRuntime(668): at com.android.internal.os.ZygoteInit$MethodAndArgsCaller.run(ZygoteInit.java:784) 05-20 05:07:15.788: E/AndroidRuntime(668): at com.android.internal.os.ZygoteInit.main(ZygoteInit.java:551) 05-20 05:07:15.788: E/AndroidRuntime(668): at dalvik.system.NativeStart.main(Native Method) package com.just.javacv; import android.app.Activity; import android.os.Bundle; import android.view.View; import android.widget.Button; import java.io.FileNotFoundException; import java.util.ArrayList; import java.util.Arrays; import com.googlecode.javacv.cpp.opencv_core.CvMat; import com.googlecode.javacv.cpp.opencv_core.CvScalar; import com.googlecode.javacv.cpp.opencv_core.IplImage; import com.just.util.FileUtil; import static com.googlecode.javacv.cpp.opencv_core.*; import static com.googlecode.javacv.cpp.opencv_highgui.*; public class Androidbs2Activity extends Activity { private Button button; /** Called when the activity is first created. */ @Override public void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.main); button=(Button)this.findViewById(R.id.button1); button.setOnClickListener(new View.OnClickListener() { @Override public void onClick(View v) { // TODO Auto-generated method stub FaceDecetionForTest faceDecetion = new FaceDecetionForTest(); //项目根目录下的train文件夹中,保存有训练样本orl图像文件200张 String str1 = ".//train"; String[] photos = FileUtil.readImageFromDir(str1); //加载训练样本 faceDecetion.loadTrainImageData(photos); faceDecetion.doPCA(); System.out.println("特征矩阵的大小为:rows="+faceDecetion.result.rows()+",cols="+faceDecetion.result.cols()); String testImage = ".//test//orl_022_007.bmp"; faceDecetion.loadTestImageData(testImage); //显示识别结果 // faceDecetion.showResult(faceDecetion.photos, testImage); System.out.println("识别结果文件路径:"+faceDecetion.getResultPhotoPath()); //将训练样本的特征矩阵写入文本文件中 try { FileUtil.writeMatToFile(faceDecetion.getResult(), ".//data//cvMat.txt"); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } // CvMat mat = FileUtil.readerMatFromFile(".//data//cvMat.txt"); } }); } } /** * 人脸识别图像PCA降维处理类,该类可加载某一文件夹中的图像,进行PCA降维生成特征矩阵 * @author Administrator * */ class FaceDecetionForTest{ //待训练的数据 private CvMat trainImagesRow; //待识别的数据 private CvMat testImagesRow; //降维后的特征矩阵 CvMat result; //测试样本得到的特征向量 private CvMat result2; private CvMat avg; private CvMat eigenVectors; //训练样本图像路径的集合 private ArrayList<String> photos; public FaceDecetionForTest() { //初始化数据 this.trainImagesRow = null; this.testImagesRow = null; this.result = new CvMat(); this.result2 = new CvMat(); this.avg = new CvMat(); this.eigenVectors = new CvMat(); this.photos = new ArrayList<String>(); } /** * 加载训练图片 * @param imageList */ public void loadTrainImageData(String[] photoArray) { //将读取到的图像路径保存在photos中,一边识别时按序号找到文件路径 for (int i = 0; i < photoArray.length; i++) { photos.add(photoArray[i]); } //按照图像文件路径,将图像加载为IplImage数据,并按顺序保存至faces中 ArrayList<IplImage> faces = new ArrayList<IplImage>(); for (int i = 0; i < photoArray.length; i++) { IplImage tempImage = cvLoadImage(photoArray[i],0); faces.add(tempImage); } //获取训练样本的大小rows*cols int rows = faces.size(); int cols = faces.get(0).width()*faces.get(0).height(); //设定训练样本的矩阵的大小和数据类型 trainImagesRow = cvCreateMat(rows,cols,CV_32FC1); //在控制台输出训练样本的大小 System.out.println("训练样本库的大小为:rows="+rows+",cols="+cols); //输出训练样本的个数 System.out.println("训练样本的个数为facesSize="+faces.size()); System.out.println("单个训练样本的大小为:rows="+faces.get(0).height()+",cols="+faces.get(0).width()); //循环获取faces中的数据,将IplImage转换为CvMat后加载至训练样本矩阵中 for (int i = 0; i < faces.size(); i++) { IplImage image = faces.get(i); //根据图像的大小生成同样大小的矩阵 CvMat mat = cvCreateMat(image.height(), image.width(), CV_32FC1); //将图像数据转换为矩阵保存 cvConvert(image, mat); int index = 0; //将一幅图像图像转换为 训练矩阵中的一行 保存 for (int j2 = 0; j2 < mat.rows(); j2++) { for (int k = 0; k < mat.cols(); k++) { trainImagesRow.put(i, index, mat.get(j2, k)); index++; } } } } /** * 加载测试样本 * @param imagePath 测试样本图像文件的路径 */ public void loadTestImageData(String imagePath) { //根据图像文件的路径,将文件加载为IplImage类型 IplImage image = cvLoadImage(imagePath,0); //根据image生成同样大小的测试样本矩阵 testImagesRow = cvCreateMat(1, image.width()*image.height(), CV_32FC1); //将图像数据保存为CvMat后加载至测试样本矩阵中 CvMat mat = cvCreateMat(image.height(), image.width(), CV_32FC1); cvConvert(image, mat); int index = 0; for (int i = 0; i < mat.rows(); i++) { for (int j = 0; j < mat.cols(); j++) { testImagesRow.put(0,index,mat.get(i,j)); index++; } } //按照测试样本的大小,生成测试样本特征向量的大小 () result2 = cvCreateMat(testImagesRow.rows(), result.cols(), CV_32FC1); System.out.println("测试样本特征向量的大小rows="+result2.rows()+",cols="+result2.cols()); //生成测试样本特征向量 cvProjectPCA(testImagesRow, avg, eigenVectors, result2); } public void doPCA(){ System.out.println("doPCA……start"); avg = cvCreateMat(1, trainImagesRow.cols(), CV_32FC1); //训练特征向量 CvMat eigenValues = cvCreateMat(1, Math.min(trainImagesRow.rows(), trainImagesRow.cols()), CV_32FC1); eigenVectors = cvCreateMat(Math.min(trainImagesRow.rows(), trainImagesRow.cols()), trainImagesRow.cols(), CV_32FC1); //取特征向量的前P个特征值,作为比较结果 result = cvCreateMat(trainImagesRow.rows(), Math.min(trainImagesRow.rows(), trainImagesRow.cols()), CV_32FC1); cvCalcPCA(trainImagesRow, avg, eigenValues, eigenVectors, CV_PCA_DATA_AS_ROW); //生成训练样本特征矩阵 cvProjectPCA(trainImagesRow, avg, eigenVectors, result); System.out.println("doPCA……over"); } /** * 显示识别结果 * @param photos 保存训练样本图像的list集合 * @param testImage 测试样本图像的路径 */ public void showResult(ArrayList<String> photos,String testImage) { //取得是被结果的类序号 int num = euclideanDistance(result, result2); //按类序号乘以类中图片的数量,获取识别结果的图像路径,显示图像 cvShowImage("result", cvLoadImage(photos.get(num*5))); //根据测试样本图像的路径,显示图像 cvShowImage("src", cvLoadImage(testImage)); cvWaitKey(5000); } /** * 获取欧式距离 * @param trainData * @param testData * @return */ public int euclideanDistance(CvMat trainData,CvMat testData) { double[] num = new double[trainData.rows()]; //获取测试样本特征向量与训练样本特征矩阵每一行的欧式距离 for (int i = 0; i < trainData.rows(); i++) { double sum = 0; for (int j = 0; j < trainData.cols(); j++) { sum += Math.pow(Math.abs(trainData.get(i, j))-Math.abs(testData.get(0, j)), 2); } num[i] = Math.sqrt(sum); } //获取欧氏距离的和中最小的类的序号 return minArrayElement(num); } private int minArrayElement(double[] array) { //将欧氏距离按类相加 double classifyArray[] = new double[array.length/5]; int count = 0; for (int i = 0; i < array.length; i++) { if (i%5==0&&i!=0) { count++; }else { classifyArray[count]+= array[i]; } } //求类间欧氏距离和的最小值,index为该类的序号 int index = 0; double min = classifyArray[0]; for (int i = 0; i < classifyArray.length; i++) { if (min>classifyArray[i]) { min = classifyArray[i]; index = i; } } return index; } /** * 获取识别结果的文件路径 * @return */ public String getResultPhotoPath() { int num = euclideanDistance(result, result2); return photos.get(num*5); } public CvMat getResult() { return result; } public void setResult(CvMat result) { this.result = result; } }
KNN问题:两段代码几乎相同,对同一个文件进行测试,一个错误率%1,一个80% ?
先上%1的 ``` from numpy import * import operator from os import listdir #--------------------------------------------- #分类模块 #@params # inX:输入向量、手写体识别的测试向量 # dataSet:训练集样本、手写体识别的训练集向量 # labels:训练集对应的标签向量 # k:最近邻居数目、本实验为3 #--------------------------------------------- def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] #手写体样本集容量 #(以下三行)距离计算 diffMat = tile(inX, (dataSetSize,1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 #欧氏距离开平方 sortedDistIndicies = distances.argsort() #距离排序的索引排序 classCount = {} #(以下两行)选择距离最小的k个点 for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 sortedClassCount = sorted(classCount.items(), #排序 key = operator.itemgetter(1), reverse = True) return sortedClassCount[0][0] #手写识别的测试代码 def handwritingClassTest(): hwLabels = [] trainingFileList = listdir(path='trainingDigits') #获取目录内容 m = len(trainingFileList) trainingMat = zeros((m,1024)) for i in range(m): #一下三行,从文件名解析分类数字 fileNameStr = trainingFileList[i] fileStr = fileNameStr.split('.')[0] classNumStr = int(fileStr.split('_')[0]) hwLabels.append(classNumStr) trainingMat[i,:] = img2vector('trainingDigits/%s'%fileNameStr) testFileList = listdir(path='testDigits') errorCount = 0.0 #错误个数计数器 mTest = len(testFileList) #从测试数据中提取数据 for i in range(mTest): fileNameStr = testFileList[i] fileStr = fileNameStr.split('.')[0] classNumStr = int(fileStr.split('_')[0]) vectorUnderTest = img2vector('testDigits/%s'% fileNameStr) classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) print("the classifier came back with:%d,the real answer is:%d"%(classifierResult,classNumStr)) if(classifierResult != classNumStr): errorCount += 1.0 print("\nthe total number of errors is:%d"%errorCount) print("\nthe total error rate is: %f"%(errorCount/float(mTest))) #识别手写字体模块-图像转向量32x32 to 1x1024 def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect[0,32*i+j] = int(lineStr[j]) return returnVect ``` 运行结果: the total number of errors is:10 the total error rate is: 0.010571 然后上80%的 ``` ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN) dataSet: size m data set of known vectors (NxM) labels: data set labels (1xM vector) k: number of neighbors to use for comparison (should be an odd number)有多少属性 Output: the most popular class label @author: pbharrin ''' from numpy import * import operator from os import listdir def creatDataSet(): group = array([[1.0,1.1], [1.0,1.0], [0 ,0 ], [0 ,0.1]]) labels = ['A','A','B','B'] return group,labels def classify0(inX, dataSet, labels, k): #(坐标,测试向量组,标签/属性,迭代次数) dataSetSize = dataSet.shape[0] #dataSetSize 返回值为 4 因为group有四行 diffMat = tile(inX, (dataSetSize,1)) - dataSet #x2-x1 y2-y1 sqDiffMat = diffMat**2 #x**2 y**2 sqDistances = sqDiffMat.sum(axis = 1) #x**2 + y**2 distances = sqDistances**0.5 #根号下x**2+y**2 sortedDistIndicies = distances.argsort() #距离排大小 classCount = {} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1), reverse = True) return sortedClassCount[0][0] def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) #get the number of lines in the file returnMat = zeros((numberOfLines,3)) #prepare matrix to return classLabelVector = [] #prepare labels return fr = open(filename) index = 0 for line in fr.readlines(): line = line.strip() listFromLine = line.split('\t') returnMat[index,:] = listFromLine[0:3] classLabelVector.append(int(listFromLine[-1])) index += 1 return returnMat,classLabelVector def autoNorm(dataSet): minVals = dataSet.min(0) maxVals = dataSet.max(0) ranges = maxVals - minVals normDataSet = zeros(shape(dataSet)) m = dataSet.shape[0] normDataSet = dataSet - tile(minVals,(m,1)) normDataSet = normDataSet/tile(ranges,(m,1)) #元素分割 return normDataSet, ranges, minVals def datingClassTest(): hoRadio = 0.10 datingDataMat, datingLabels = file2matrix('datingTestSet2.txt') normMat, ranges, minVals = autoNorm(datingDataMat) m = normMat.shape[0] numTestVecs = int(m*hoRadio) errorCount = 0.0 for i in range(numTestVecs): classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],\ datingLabels[numTestVecs:m],3) print("\n测试结果为 %d,正确的结果应该是 %d"%(classifierResult,datingLabels[i])) if(classifierResult != datingLabels[i]): errorCount += 1.0 print("\n该分类器错误率为%f"%(errorCount/float(numTestVecs))) # def datingClassTest(): # hoRatio = 0.10 #hold out 10% # datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file # normMat, ranges, minVals = autoNorm(datingDataMat) # m = normMat.shape[0] # numTestVecs = int(m*hoRatio) # errorCount = 0.0 # for i in range(numTestVecs): # classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) # print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]) # if (classifierResult != datingLabels[i]): errorCount += 1.0 # print "the total error rate is: %f" % (errorCount/float(numTestVecs)) # print errorCount def classifyPerson() : resultList = ['不喜欢','有点喜欢','特别喜欢'] percentTats = float(input("每周玩多久游戏? :")) ffMiles = float(input("每年飞行多少英里? :")) iceCream = float(input("每周吃多少冰淇淋? :")) datingDataMat, datingLabels = file2matrix('datingTestSet2.txt') normMat, ranges, minVals = autoNorm(datingDataMat) inArr = array([ffMiles,percentTats,iceCream]) result = classify0((inArr-minVals)/ranges,normMat,datingLabels,3) print("你将",resultList[result-1],"这个人") def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect[0,32*i+j] = int(lineStr[j]) return returnVect def handwritingClassTest(): hwLabels = [] trainingFileList = listdir(path='trainingDigits') m = len(trainingFileList) trainingMat = zeros((m,1024)) for i in range(m): fileNameStr = trainingFileList[i] fileStr = fileNameStr.split('.')[0] classNumStr = int(fileStr.split('_')[0]) hwLabels.append(classNumStr) trainingMat[i,:] = img2vector('trainingDigits/%s'%fileNameStr) testFileList = listdir(path='testDigits') errorCount = 0.0 mTest = len(testFileList) for i in range(mTest): fileNameStr = testFileList[i] fileStr = fileNameStr.split('.')[0] classNumStr = int(fileStr.split('_')[0]) vectorUnderTest = img2vector('testDigits/%s' %fileNameStr) classifyResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) print("测试结果为:%d,正确的结果为:%d" % (classifyResult,classNumStr)) if(classifyResult!=classNumStr): errorCount += 1.0 print("\n错误结果总数为:%d" % errorCount) print("\n错误率为:%f" % (errorCount/float(mTest))) ``` 运行结果: 错误结果总数为:777 错误率为:0.821353
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私有的数
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。 补充 有不少读者留言说本文章没有用,因为天气预报直接打开手机就可以收到了,为何要多此一举发送到邮箱呢!!!那我在这里只能说:因为你没用,所以你没用!!! 这里主要介绍的是思路,不是天气预报!不是天气预报!!不是天气预报!!!天气预报只是用于举例。请各位不要再刚了!!! 下面是我会用到的两个场景: 每日下
面试官问我:什么是消息队列?什么场景需要他?用了会出现什么问题?
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了无数
8年经验面试官详解 Java 面试秘诀
    作者 | 胡书敏 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官,前后累计面试了有两三百位候选人。在本文里,就将结合本人的面试经验,针对Java初学者、Java初级开发和Java开发,给出若干准备简历和准备面试的建议。   Java程序员准备和投递简历的实
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外
大学四年自学走来,这些珍藏的「实用工具/学习网站」我全贡献出来了
知乎高赞:文中列举了互联网一线大厂程序员都在用的工具集合,涉及面非常广,小白和老手都可以进来看看,或许有新收获。
《阿里巴巴开发手册》读书笔记-编程规约
Java编程规约命名风格 命名风格 类名使用UpperCamelCase风格 方法名,参数名,成员变量,局部变量都统一使用lowerCamelcase风格 常量命名全部大写,单词间用下划线隔开, 力求语义表达完整清楚,不要嫌名字长 ...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。 前前言 为啥今天有个前前言呢? 因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
Python爬虫精简步骤1 获取数据
爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。 这一篇的内容就是:获取数据。 首先,我们将会利用一个强大的库——requests来获取数据。 在电脑上安装
Python绘图,圣诞树,花,爱心 | Turtle篇
1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle.shape('circle') circle.color('red') circle.speed('fastest') circle.up() square = turtle.Turtle()
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 更多有趣分析教程,扫描下方二维码关注vx公号「裸睡的猪」 即可查看! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布
听说想当黑客的都玩过这个Monyer游戏(1~14攻略)
第零关 进入传送门开始第0关(游戏链接) 请点击链接进入第1关: 连接在左边→ ←连接在右边 看不到啊。。。。(只能看到一堆大佬做完的留名,也能看到菜鸡的我,在后面~~) 直接fn+f12吧 &lt;span&gt;连接在左边→&lt;/span&gt; &lt;a href="first.php"&gt;&lt;/a&gt; &lt;span&gt;←连接在右边&lt;/span&gt; o
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
别低估自己的直觉,也别高估自己的智商
所有群全部吵翻天,朋友圈全部沦陷,公众号疯狂转发。这两周没怎么发原创,只发新闻,可能有人注意到了。我不是懒,是文章写了却没发,因为大家的关注力始终在这次的疫情上面,发了也没人看。当然,我...
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。   再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。   下文是原回答,希望能对你能有所启发。   如果我说,这个世界上人真的分三六九等,
为什么听过很多道理,依然过不好这一生?
记录学习笔记是一个重要的习惯,不希望学习过的东西成为过眼云烟。做总结的同时也是一次复盘思考的过程。 本文是根据阅读得到 App上《万维钢·精英日课》部分文章后所做的一点笔记和思考。学习是一个系统的过程,思维模型的建立需要相对完整的学习和思考过程。以下观点是在碎片化阅读后总结的一点心得总结。
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
如何优雅地打印一个Java对象?
你好呀,我是沉默王二,一个和黄家驹一样身高,和刘德华一样颜值的程序员。虽然已经写了十多年的 Java 代码,但仍然觉得自己是个菜鸟(请允许我惭愧一下)。 在一个月黑风高的夜晚,我思前想后,觉得再也不能这么蹉跎下去了。于是痛下决心,准备通过输出的方式倒逼输入,以此来修炼自己的内功,从而进阶成为一名真正意义上的大神。与此同时,希望这些文章能够帮助到更多的读者,让大家在学习的路上不再寂寞、空虚和冷。 ...
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计
Linux 命令(122)—— watch 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] watch(1) manual
Linux 命令(121)—— cal 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] cal(1) manual
记jsp+servlet+jdbc实现的新闻管理系统
1.工具:eclipse+SQLyog 2.介绍:实现的内容就是显示新闻的基本信息,然后一个增删改查的操作。 3.数据库表设计 列名 中文名称 数据类型 长度 非空 newsId 文章ID int 11 √ newsTitle 文章标题 varchar 20 √ newsContent 文章内容 text newsStatus 是否审核 varchar 10 news...
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(三)发送篇
今天介绍的项目是使用 Itchat 发送统计报告 项目功能设计: 定时爬取疫情数据存入Mysql 进行数据分析制作疫情报告 使用itchat给亲人朋友发送分析报告(本文) 基于Django做数据屏幕 使用Tableau做数据分析 来看看最终效果 目前已经完成,预计2月12日前更新 使用 itchat 发送数据统计报告 itchat 是一个基于 web微信的一个框架,但微信官方并不允
作为程序员的我,大学四年一直自学,全靠这些实用工具和学习网站!
我本人因为高中沉迷于爱情,导致学业荒废,后来高考,毫无疑问进入了一所普普通通的大学,实在惭愧...... 我又是那么好强,现在学历不行,没办法改变的事情了,所以,进入大学开始,我就下定决心,一定要让自己掌握更多的技能,尤其选择了计算机这个行业,一定要多学习技术。 在进入大学学习不久后,我就认清了一个现实:我这个大学的整体教学质量和学习风气,真的一言难尽,懂的人自然知道怎么回事? 怎么办?我该如何更好的提升
新来个技术总监,禁止我们使用Lombok!
我有个学弟,在一家小型互联网公司做Java后端开发,最近他们公司新来了一个技术总监,这位技术总监对技术细节很看重,一来公司之后就推出了很多"政策",比如定义了很多开发规范、日志规范、甚至是要求大家统一使用某一款IDE。 但是这些都不是我这个学弟和我吐槽的点,他真正和我吐槽的是,他很不能理解,这位新来的技术总监竟然禁止公司内部所有开发使用Lombok。但是又没给出十分明确的,可以让人信服的理由。 于...
前端JS初级面试题二 (。•ˇ‸ˇ•。)老铁们!快来瞧瞧自己都会了么
1. 传统事件绑定和符合W3C标准的事件绑定有什么区别? 传统事件绑定 &lt;div onclick=""&gt;123&lt;/div&gt; div1.onclick = function(){}; &lt;button onmouseover=""&gt;&lt;/button&gt; 注意: 如果给同一个元素绑定了两次或多次相同类型的事件,那么后面的绑定会覆盖前面的绑定 (不支持DOM事...
2020金三银四,一篇文章教你如何征服面试官,拿到offer
2020年,跳槽面试就靠它们了,现在每天刷题,看源码文档,最近看的这些题目还是有些难度,有一部分我都要好好想一想才能回答出来,或者回答不出来,总的来说知识宽度够了深度还跟不上。所以要重点突破下底层的东西。这篇文章我总结了很久,希望对正在准备面试的同仁们有点帮助。没错我就是传说中的面霸!! 一. 面试准备 首先,是笔试题,这点是初级程序员绕不过去的坎。 笔试题一般的公司都会出的,除非你是大牛,可以选...
用Python开发实用程序 – 计算器
作者:隋顺意 一段时间前,自己制作了一个库 “sui-math”。这其实是math的翻版。做完后,python既然可以轻易的完成任何的数学计算,何不用python开发一个小程序专门用以计算呢? 现在我们越来越依赖于计算器,很多复杂的计算都离不开它。我们使用过各式各样的计算器,无论是电脑自带的,还是网也上的计算器,却都没有自己动手编写属于自己计算器。今天就让我们走进计算器的世界,用python来编写...
Python学习笔记(语法篇)
本篇博客大部分内容摘自埃里克·马瑟斯所著的《Python编程:从入门到实战》(入门类书籍),采用举例的方式进行知识点提要 关于Python学习书籍推荐文章 《学习Python必备的8本书》 Python语法特点: 通过缩进进行语句组织 不需要变量或参数的声明 冒号 1 变量和简单数据结构 1.1 变量命名 只能包含字母、数字和下划线,且不能以数字打头。 1.2 字符串 在Python中,用引号...
小白也会用的情人节表白神器
鉴于情人节女朋友总说直男,上网找了个模板,改了一下,发现效果还不错。然后又录了一个视频,发现凑合,能用。现在免费分享给程序员,去表白去吧。​​​​​​。当然比较low因为考研没时间优化,懒着优化了。 先看一下效果吧:页面太多了,这里我只放几个页面里面有音乐,还凑合不是太单调。 所有页面最后的合成效果: 接下来教大家如何使用: 新建文件夹:love 然后建立这几个...
论如何用python发qq消息轰炸虐狗好友
因为我的某个好友在情人节的时候秀恩爱,所以我灵光一闪制作了qq消息轰炸并记录了下来。 首先 我的编程环境是: windows 10系统 python3.6 记得要下载win32 pip install win32 思路介绍 其实也非常简单 将要发出去的句子储存在列表中 然后用随机模块调用 将随机出来的元素储存在剪贴板中 连接QQ 找到指定对象 疯狂输出 怎么样,简单吧 开始打代码吧 imp...
Python爬取冠状病毒“谣言”新闻进行数据分析
一、前言 今天给大家介绍的爬虫项目是爬取冠状病毒谣言数据,因为最近网络上有很多关于冠状病毒的谣言,官方也积极的出来辟谣,作为一名数据爱好者,我也想尽自己一份微薄之力,分享一些有用的数据分享,希望大家在特殊情况下能明辨是非,保护好自己和家人! 二、爬取数据 话不多说了,直接上代码( copy即可用 ) import requests import pandas as pd class Sp...
相关热词 c#导入fbx c#中屏蔽键盘某个键 c#正态概率密度 c#和数据库登陆界面设计 c# 高斯消去法 c# codedom c#读取cad文件文本 c# 控制全局鼠标移动 c# temp 目录 bytes初始化 c#
立即提问