当模型给出建议(例如法律文本修改或医学建议)时,如何量化“建议的可采纳性”(actionability)而不仅是语法/可读性?是否能提出界定 actionability 的客观指标并在用户研究中验证?
背景:看到 NLP 中的可执行性研究,但多为主观打分或小样本用户研究。
未解决点:缺少通用指标(例如建议所需人工干预次数、完成一项任务的总时间降低量)以及大规模用户研究数据。
希望给出:可采纳性指标定义、推荐的用户研究设计(样本、任务、测量项)与示例数据。
当模型给出建议(例如法律文本修改或医学建议)时,如何量化“建议的可采纳性”(actionability)而不仅是语法/可读性?是否能提出界定 actionability 的客观指标并在用户研究中验证?
背景:看到 NLP 中的可执行性研究,但多为主观打分或小样本用户研究。
未解决点:缺少通用指标(例如建议所需人工干预次数、完成一项任务的总时间降低量)以及大规模用户研究数据。
希望给出:可采纳性指标定义、推荐的用户研究设计(样本、任务、测量项)与示例数据。
下午好🌅🌅🌅
本答案参考通义千问
在自然语言处理(NLP)和生成式AI系统中,建议的可采纳性(actionability) 是一个关键指标,尤其在法律、医学等专业领域中,模型生成的建议不仅需要语法正确、语义清晰,更需要具备实际操作性,即用户能够根据建议采取具体行动。
Actionability 指的是建议或指令在实际应用中被用户采纳并执行的可能性。它超越了语法正确性和可读性,关注于:
以下是一些可用于量化 actionability 的客观指标,适用于不同领域的建议(如法律文本修改、医学建议、编程建议等):
| 指标 | 定义 | 测量方式 | |------|------|----------| | 明确性(Clarity) | 建议是否清晰易懂 | 通过用户理解度评分(例如5分制) | | 可行性(Feasibility) | 建议是否在现实中可执行 | 专家评估或用户反馈(如“是否可以立即执行”) | | 可操作性(Operability) | 是否可以直接操作,无需进一步解释 | 用户执行任务所需步骤数或时间 | | 有效性(Effectiveness) | 建议是否真正解决问题 | 用户任务完成率、问题解决成功率 | | 干预次数(Intervention Count) | 执行建议前需人工干预的次数 | 记录用户对建议进行修改、补充的次数 | | 执行时间(Execution Time) | 执行建议所需的时间 | 记录用户从接收建议到完成任务的时间 |
| 用户ID | 建议类型 | 明确性评分 | 可行性评分 | 可操作性评分 | 干预次数 | 执行时间(秒) | 任务完成率 | |--------|----------|------------|-------------|----------------|------------|------------------|-------------| | U001 | 法律建议 | 4.5 | 4.0 | 4.2 | 1 | 60 | 100% | | U002 | 医学建议 | 3.8 | 3.5 | 3.0 | 3 | 90 | 80% | | U003 | 编程建议 | 4.0 | 4.5 | 4.7 | 0 | 45 | 100% |
以下是一个简单的 Python 脚本,用于记录用户对建议的反馈,并计算 actionability 指标:
import pandas as pd
# 假设我们有用户反馈数据
data = {
'user_id': [1, 2, 3],
'clarity_score': [4.5, 3.8, 4.0],
'feasibility_score': [4.0, 3.5, 4.5],
'operability_score': [4.2, 3.0, 4.7],
'intervention_count': [1, 3, 0],
'execution_time': [60, 90, 45],
'task_completion_rate': [100, 80, 100]
}
df = pd.DataFrame(data)
# 计算平均得分
average_clarity = df['clarity_score'].mean()
average_feasibility = df['feasibility_score'].mean()
average_operability = df['operability_score'].mean()
# 计算平均干预次数
avg_interventions = df['intervention_count'].mean()
# 计算平均执行时间
avg_time = df['execution_time'].mean()
# 输出结果
print(f"平均明确性评分: {average_clarity}")
print(f"平均可行性评分: {average_feasibility}")
print(f"平均可操作性评分: {average_operability}")
print(f"平均干预次数: {avg_interventions}")
print(f"平均执行时间: {avg_time} 秒")
| 重点 | 内容 | |------|------| | Actionability 的定义 | 建议能否被用户直接执行并产生实际效果 | | 可采纳性指标 | 明确性、可行性、可操作性、有效性、干预次数、执行时间 | | 用户研究设计 | 多样化样本、任务驱动、量化反馈、A/B 测试 | | 验证方法 | 专家评分、A/B 测试、长期行为追踪 | | 代码工具 | 使用 Pandas 进行数据分析,构建指标体系 |
如果你希望我为特定领域(如法律、医学、编程)定制具体的 actionability 指标或用户研究方案,请告诉我!