Amreggot 2021-04-07 23:36 采纳率: 100%
浏览 505
已采纳

python散点图sactter函数x,y轴不按顺序

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter

df =pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/mammographic-masses/mammographic_masses.data', sep=',',header=None)
df.columns = ['BI-RADS assessment','Age','Shape','Margin','Density','Severity'] 

b= df.sort_values(by='Severity',ascending=False)
b.index = range(len(b))

plt.scatter(b[:50]['Shape'],b[:50]['Age'], label='1')
plt.scatter(b[800:900]['Shape'],b[800:900]['Age'], label='0')
plt.xlabel('Shape')
plt.ylabel('Age')
plt.legend()

 我是python初学者,

上面的代码是通过鸢尾花代码改过来的,想用UCI上的其他的库,但是输出的散点图x,y轴一直是乱序的

非常感谢大佬能够提供一些帮助,谢谢!!!

 

如下图:

  • 写回答

2条回答 默认 最新

  • 关注

    正常情况下, x轴会按照数值排序显示, 这里排序是乱的是因为Shape这一列, 不是数值型, 而是文本型.

    而是文本型是因为这列有值为"?"号的数据, 这样这一列实际上是一个分类变量了, 图上的顺序也就乱了. 

    修改了一下, 把数据进行过滤,并转成整数.(其他列不是数值类型也是上面的原因)

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    %matplotlib inline
    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from collections import Counter
    
    df =pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/mammographic-masses/mammographic_masses.data', sep=',',header=None)
    
    df.columns = ['BI-RADS assessment','Age','Shape','Margin','Density','Severity'] 
    
    b= df.sort_values(by='Severity',ascending=False)
    b=b[b['Shape']!='?'] # 过滤
    b['Shape']=b['Shape'].astype('int') #转整数
    
    b.index = range(len(b))
    
    plt.figure(figsize=(12,12))  # 增加了一句让y轴不重叠
    plt.scatter(b[:50]['Shape'],b[:50]['Age'], label='1')
    plt.scatter(b[800:900]['Shape'],b[800:900]['Age'], label='0')
    plt.xlabel('Shape')
    plt.xticks([1,2,3,4])
    plt.ylabel('Age')
    plt.legend(loc='upper right')
    
    #可通过 查看各列的属性
    b.info()

     

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 高缺失率数据如何选择填充方式
  • ¥50 potsgresql15备份问题
  • ¥15 Mac系统vs code使用phpstudy如何配置debug来调试php
  • ¥15 目前主流的音乐软件,像网易云音乐,QQ音乐他们的前端和后台部分是用的什么技术实现的?求解!
  • ¥60 pb数据库修改与连接
  • ¥15 spss统计中二分类变量和有序变量的相关性分析可以用kendall相关分析吗?
  • ¥15 拟通过pc下指令到安卓系统,如果追求响应速度,尽可能无延迟,是不是用安卓模拟器会优于实体的安卓手机?如果是,可以快多少毫秒?
  • ¥20 神经网络Sequential name=sequential, built=False
  • ¥16 Qphython 用xlrd读取excel报错
  • ¥15 单片机学习顺序问题!!