sh输入多行文本，按# ꧂ ꧁结束，按照图片打印和保存 print("| 编号 | 分词 | 词性 | 简称 | 细分词性，


/storage/emulated/0/字体/思源字体/思源黑体CN-Bold.otf

/storage/emulated/0/字体/黑体.ttf

 增加 保存图片
/storage/emulated/0/zm/可用图

# 定义分词函数
tokenize() {
    python - <<END
import jieba

def tokenize(text):
    return jieba.cut(text)

title = "$1"
tokens = tokenize(title)
print("标题 |", "、".join(tokens), "|")
END
}

# 标题分词
title="喂了一年的大黑，在它跟主人出来时居然不理我了，是白喂了吗？"
echo "| 标题 | 分词 |"
echo "| ---- | ---- |"
tokenize "$title"

# 句子分词
sentence="喂了一年的大黑，在它跟主人出来时居然不理我了，是白喂了吗？"
echo ""
echo "| 句子 | 分词 |"
echo "| ---- | ---- |"
tokenize "$sentence"

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-06 13:50
关注
引自免费微信小程序：皆我百晓生

好的，我明白了您的需求，下面是我为您准备的一份详细的解答。

首先，对于tokenize()函数中的文本分词，您可以使用Python的内置库jieba进行处理。在调用这个函数之前，您需要先安装jieba库，可以通过运行pip install jieba命令进行安装。

以下是完整的Python代码示例：

from jieba import Tokenizer # 使用默认的jieba分词模型进行文本分词 tokenizer = Tokenizer() tokenizer.set_index(' ') tokenizer.load_from_cache('/data/data/com.termux/files/usr/tmp/jieba.cache') tokenizer.string_ids = ['1', '2', '3'] text = "喂了一年的大黑，在它跟主人出来时居然不理我了，是白喂了吗？" print(tokenizer.tokenize(text)) # 如果您想增加结果的准确性，可以在标签后添加分词后的输出 print(tokenizer.tokenize(text, labels=['#, '.join(tokens)]))

对于您提到的问题，可以尝试以下解决方案：

使用jieba.cut()函数对文本进行简单分词。这将返回一个包含所有标点符号和非字母字符的列表，从而简化了文本分词。

import jieba def tokenize(text): return jieba.cut(text)

如果您想更精确地分析每个词的词性，可以使用jieba.posseg()函数。这将返回一个包含每个单词所有可能的词性的元组列表。

import jieba.posseg as pseg def tokenize(text): tokens = [] for word in pseg.lcut(text): tokens.append(word) return tokens

以上代码将会输出类似于"喂了一年的大黑在它跟主人出来时居然不理我是白喂的吗？"的结果。

如果您需要实现图片保存功能，可以参考以下代码：

from PIL import Image, ImageDraw, ImageFont def save_image(image_path, title): # 加载默认的TTF字体文件 draw = ImageDraw.Draw(image) font = ImageFont.truetype("/data/data/com.termux/files/usr/tmp/jieba.cache", 24) text = f"{title}\n{title}" text_width, text_height = draw.textsize(text, font=font) img = image.new("RGB", (text_width, text_height), color="white") draw.polygon(img, [(0, 0), (img.width, 0), (img.width, text_height)], fill=(255, 255, 255)) img.save(image_path)

这段代码将创建一个新的PNG图像并将其保存为指定路径的图像。其中，“#填充颜色”表示设置图像背景的颜色为白色，“##像素尺寸”表示设置图像的宽度和高度。

关于您提到的问题，“我能否解决此问题”，答案是肯定的，因为以上代码已经实现了您所描述的功能。如果您还有其他问题，欢迎随时向我提问。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

【人工智能】利用Python实现文本情感分析：从数据清洗到模型部署的全面指南
2025-01-07 11:35

蒙娜丽宁的博客随着社交媒体和在线评论的迅猛发展，文本情感分析（Sentiment ...文章首先介绍了情感分析的基本概念和应用场景，随后详细讲解了数据清洗与预处理步骤，包括文本规范化、去除噪声和分词等。接着，探讨了常用的特征提取
23、文本聚类：从数据到洞察
2025-10-30 06:54

a1b2c3d的博客本文深入探讨了文本聚类的基本概念与实现方法，涵盖从数据下载、分词处理到多种距离度量（如Jaccard指数、欧几里得距离和余弦相似度）的应用。通过使用Reuters-21578语料库，详细演示了如何将文档表示为词集、词袋和...
文本处理方法概述
2018-05-10 19:53

weixin_30731287的博客 https://www.cnblogs.com/arachis/p/text_dig.html 说明：本篇以实践为主，理论部分会尽量给出参考链接摘要：　1.分词　2....　3....　4....　5....　6.文本挖掘（文本分类，文本标签化）　6.1数据预处理　6....
机器人项目源码大集合系列二：深入学习与实践
2025-07-21 19:27

杏花朵朵的博客它是一个适用于机器人的”操作系统”，提供了一系列工具和库，以帮助软件开发人员创建机器人应用程序。ROS不是传统意义上的操作系统，它更像一个中间件，用于帮助分布式的计算机程序和设备之间的通信，并提供类似...
基于Python的个人量化交易系统设计与实现
2024-08-16 23:29

X学长(接毕设)vx：YKZYKZ987的博客数据采集和预处理、数据分析和数据可视化，三部分互相关联，其中，数据采集得到的有效数据大部分是需要通过数据分析过程的，小部分的数据能直接的使用到前端页面中，例如具体的个人量化交易信息等，这些不需要进一步...
Go 相关的框架，库和软件的精选清单
2020-07-03 09:37

baobaodqh的博客这是一个Go 相关的框架，库和软件的精选清单，引用自 awesome-go项目，并翻译补充而来这是一个Go 相关的框架，库和软件的精选清单，引用自 awesome-go项目，并翻译补充而来音频和音乐用于处理音频的库。 ...
精选的 Go 框架，库和软件的精选清单
2020-05-09 11:24

K'のBlog的博客这是一个 Go 相关的框架，库和软件的精选清单，引用自awesome-go项目，并翻译补充而来这是一个 Go 相关的框架，库和软件的精选清单，引用自awesome-go项目，并翻译补充而来如果看到不再维护的项目，请及时联系...
《飞桨PaddleSpeech语音技术课程》一句话语音合成全流程实践
2022-11-13 21:12

AI Studio的博客一句话语音合成全流程实践 PaddleSpeech r1.2.0 发新内容 1 声音克隆介绍 & 语音合成基本概念回顾语音合成（Speech Sysnthesis），又称文本转语音（Text-to-Speech, TTS），指的是将一段文本按照一定需求转化成对应...
中文分词软件包的使用
2014-12-10 14:09

qianwenhong的博客分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，...
哪些 Python 库让你相见恨晚？
2018-01-24 16:44

武晓兵的博客用来保存和解析配置的库。 config – logging 模块作者写的分级配置模块。 ConfigObj – INI 文件解析器，带验证功能。 ConfigParser – (Python 标准库) INI 文件解析器。 profig – 通过多种格式...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月6日

sh输入多行文本，按# ꧂ ꧁结束，按照图片打印和保存 print("| 编号 | 分词 | 词性 | 简称 | 细分词性，

2条回答 默认 最新

问题事件

2条回答默认最新