张彦峰ZYF 2025-12-03 14:43 采纳率: 3.4%
浏览 1

当模型给出建议(例如法律文本修改或医学建议)时,如何量化“建议的可采纳性”(actionability)而不仅是语法/可读性?是否能提出界定 actionability 的客观指标并在用户研究中验证?

当模型给出建议(例如法律文本修改或医学建议)时,如何量化“建议的可采纳性”(actionability)而不仅是语法/可读性?是否能提出界定 actionability 的客观指标并在用户研究中验证?

背景:看到 NLP 中的可执行性研究,但多为主观打分或小样本用户研究。
未解决点:缺少通用指标(例如建议所需人工干预次数、完成一项任务的总时间降低量)以及大规模用户研究数据。
希望给出:可采纳性指标定义、推荐的用户研究设计(样本、任务、测量项)与示例数据。

  • 写回答

2条回答 默认 最新

  • 檀越@新空间 2025-12-03 14:55
    关注

    下午好🌅🌅🌅
    本答案参考通义千问

    在自然语言处理(NLP)和生成式AI系统中,建议的可采纳性(actionability) 是一个关键指标,尤其在法律、医学等专业领域中,模型生成的建议不仅需要语法正确、语义清晰,更需要具备实际操作性,即用户能够根据建议采取具体行动。


    一、什么是“建议的可采纳性”(Actionability)?

    Actionability 指的是建议或指令在实际应用中被用户采纳并执行的可能性。它超越了语法正确性和可读性,关注于:

    • 是否明确:建议是否清晰、无歧义;
    • 是否可行:建议是否符合现实条件,如资源、时间、能力等;
    • 是否可操作:建议是否能被用户直接执行,无需额外解释或调整;
    • 是否有效:建议是否能解决用户的问题或达成目标。

    二、如何量化“建议的可采纳性”?

    1. 定义可采纳性的客观指标

    以下是一些可用于量化 actionability 的客观指标,适用于不同领域的建议(如法律文本修改、医学建议、编程建议等):

    | 指标 | 定义 | 测量方式 | |------|------|----------| | 明确性(Clarity) | 建议是否清晰易懂 | 通过用户理解度评分(例如5分制) | | 可行性(Feasibility) | 建议是否在现实中可执行 | 专家评估或用户反馈(如“是否可以立即执行”) | | 可操作性(Operability) | 是否可以直接操作,无需进一步解释 | 用户执行任务所需步骤数或时间 | | 有效性(Effectiveness) | 建议是否真正解决问题 | 用户任务完成率、问题解决成功率 | | 干预次数(Intervention Count) | 执行建议前需人工干预的次数 | 记录用户对建议进行修改、补充的次数 | | 执行时间(Execution Time) | 执行建议所需的时间 | 记录用户从接收建议到完成任务的时间 |

    2. 推荐的用户研究设计

    (1)样本选择

    • 目标人群:法律从业者、医生、程序员等专业人士。
    • 样本数量:建议至少 100 名用户,以确保统计显著性。
    • 多样性:涵盖不同经验水平(初级、中级、高级)。

    (2)任务设计

    • 任务类型:提供一份原始文档(如法律文件、医疗诊断报告、代码片段),让用户提供修改建议。
    • 对比组:使用不同的建议版本(如传统方法 vs AI生成建议)。
    • 任务流程
      1. 用户阅读原始内容;
      2. 用户查看建议;
      3. 用户根据建议进行修改或执行;
      4. 用户填写反馈问卷。

    (3)测量项

    • 主观反馈:使用 Likert 量表(1-5 分)评价建议的 clearness, feasibility, operability 等。
    • 客观数据
      • 干预次数(用户修改建议的次数);
      • 执行时间(从看到建议到完成任务的时间);
      • 任务完成率(成功执行建议的比例);
      • 错误率(执行过程中出现错误的次数)。

    三、示例数据与分析

    示例数据(虚构)

    | 用户ID | 建议类型 | 明确性评分 | 可行性评分 | 可操作性评分 | 干预次数 | 执行时间(秒) | 任务完成率 | |--------|----------|------------|-------------|----------------|------------|------------------|-------------| | U001 | 法律建议 | 4.5 | 4.0 | 4.2 | 1 | 60 | 100% | | U002 | 医学建议 | 3.8 | 3.5 | 3.0 | 3 | 90 | 80% | | U003 | 编程建议 | 4.0 | 4.5 | 4.7 | 0 | 45 | 100% |

    数据分析

    • 高可采纳性建议:干预次数少、执行时间短、任务完成率高。
    • 低可采纳性建议:干预次数多、执行时间长、任务完成率低。

    四、可采纳性指标的验证方法

    1. 专家评估法

    • 邀请领域专家对建议进行评分,作为“黄金标准”。
    • 对比 AI 生成建议与专家建议的 actionability 指标。

    2. A/B 测试

    • 将同一任务分别交给两组用户,一组使用 AI 建议,另一组使用人工建议。
    • 对比两组的执行效率、错误率、满意度等指标。

    3. 长期跟踪

    • 跟踪用户使用建议后的行为(如是否保存建议、是否重复使用、是否分享给他人等)。

    五、代码示例(Python)

    以下是一个简单的 Python 脚本,用于记录用户对建议的反馈,并计算 actionability 指标:

    import pandas as pd
    
    # 假设我们有用户反馈数据
    data = {
        'user_id': [1, 2, 3],
        'clarity_score': [4.5, 3.8, 4.0],
        'feasibility_score': [4.0, 3.5, 4.5],
        'operability_score': [4.2, 3.0, 4.7],
        'intervention_count': [1, 3, 0],
        'execution_time': [60, 90, 45],
        'task_completion_rate': [100, 80, 100]
    }
    
    df = pd.DataFrame(data)
    
    # 计算平均得分
    average_clarity = df['clarity_score'].mean()
    average_feasibility = df['feasibility_score'].mean()
    average_operability = df['operability_score'].mean()
    
    # 计算平均干预次数
    avg_interventions = df['intervention_count'].mean()
    
    # 计算平均执行时间
    avg_time = df['execution_time'].mean()
    
    # 输出结果
    print(f"平均明确性评分: {average_clarity}")
    print(f"平均可行性评分: {average_feasibility}")
    print(f"平均可操作性评分: {average_operability}")
    print(f"平均干预次数: {avg_interventions}")
    print(f"平均执行时间: {avg_time} 秒")
    

    六、总结

    | 重点 | 内容 | |------|------| | Actionability 的定义 | 建议能否被用户直接执行并产生实际效果 | | 可采纳性指标 | 明确性、可行性、可操作性、有效性、干预次数、执行时间 | | 用户研究设计 | 多样化样本、任务驱动、量化反馈、A/B 测试 | | 验证方法 | 专家评分、A/B 测试、长期行为追踪 | | 代码工具 | 使用 Pandas 进行数据分析,构建指标体系 |


    如果你希望我为特定领域(如法律、医学、编程)定制具体的 actionability 指标或用户研究方案,请告诉我!

    评论

报告相同问题?

问题事件

  • 创建了问题 12月3日