东燕西飞 2023-05-20 14:36 采纳率: 88.2%
浏览 13

php怎么给词组分类,有没什么比较好方法

我有一个几万的词库,里面有各种类型的中文关键词,请问怎么用PHP把他们自动分类?PY也行,或者提供一个思路

比如词库片段:
股票相关类:

光一科技股票牛叉诊股
证券公司发展前景
经济危机时拿什么股票好
为什么买入的股票不能卖
公司如何通过股票挣钱的
股票每天浮动百分比在多少
基金从哪儿买
中原证券集成版官网
买入退市整理股票条件
股票的日k线图怎么看
哪家证券公司收费低

篮球相关类:

东京奥运会篮球门票
nba历史各位置排名
哈尔滨盛龙实业篮球
cba球员爱吃的食物
篮球朱松玮
篮球是把球投到对方篮里吗
首都体育馆篮球培训
九台农商银行篮球队排名
锡安隔扣詹姆斯
国家篮球教练等级

  • 写回答

2条回答 默认 最新

  • CSDN专家-sinJack 2023-05-20 16:23
    关注

    明确以下问题

    1. 词库的格式是什么?
    2. 分类的标准是什么?
    3. 你想要使用哪种算法进行分类?
      参考如下:
    import pandas as pd
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.naive_bayes import MultinomialNB
    
    # 读取词库
    df = pd.read_csv('keywords.csv')
    
    # 分类标签
    df['label'] = df['category'].apply(lambda x: 1 if x == 'type1' else 0)
    
    # 特征提取
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(df['keyword'])
    
    # 训练模型
    clf = MultinomialNB()
    clf.fit(X, df['label'])
    
    # 预测新数据
    new_data = ['新的关键字']
    X_new = vectorizer.transform(new_data)
    y_pred = clf.predict(X_new)
    
    if y_pred[0] == 1:
        print('属于type1')
    else:
        print('不属于type1')
    

    这个代码框架使用了朴素贝叶斯算法进行分类

    评论 编辑记录

报告相同问题?

问题事件

  • 修改了问题 5月20日
  • 创建了问题 5月20日

悬赏问题

  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP
  • ¥15 Python turtle 画图
  • ¥15 关于大棚监测的pcb板设计
  • ¥15 stm32开发clion时遇到的编译问题
  • ¥15 lna设计 源简并电感型共源放大器
  • ¥15 如何用Labview在myRIO上做LCD显示?(语言-开发语言)
  • ¥15 Vue3地图和异步函数使用