前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[AI OpenAI-doc] 适度

[AI OpenAI-doc] 适度

作者头像
从零开始学AI
发布2024-04-29 09:18:11
460
发布2024-04-29 09:18:11
举报
文章被收录于专栏:AIAI

学习如何将适度考虑融入你的人工智能应用中。

概述

适度端点是一个工具,你可以用它来检查文本是否具有潜在的有害性。开发者可以使用它来识别可能有害的内容,并采取行动,比如将其过滤掉。

模型分类如下:

类别

描述

仇恨

基于种族、性别、族裔、宗教、国籍、性取向、残疾状态或种姓的仇恨表达、煽动或宣传。针对非受保护群体(例如象棋玩家)的仇恨内容属于骚扰。

仇恨/威胁

同时包含对基于种族、性别、族裔、宗教、国籍、性取向、残疾状态或种姓的目标群体的暴力或严重伤害的仇恨内容。

骚扰

对任何目标表达、煽动或宣传骚扰性语言的内容。

骚扰/威胁

同时包含对任何目标的暴力或严重伤害的骚扰内容。

自我伤害

促进、鼓励或描绘自我伤害行为,比如自杀、割伤和进食障碍。

自我伤害/意图

发言者表达自己正在从事或打算从事自我伤害行为,比如自杀、割伤和进食障碍。

自我伤害/指导

鼓励进行自我伤害行为,比如自杀、割伤和进食障碍,或提供如何实施这些行为的指导或建议。

旨在引起性兴奋的内容,比如性行为的描述,或者宣传性服务(不包括性教育和健康)。

性/未成年人

包含未满18岁的个人的性内容。

暴力

描绘死亡、暴力或身体伤害的内容。

暴力/图形

以图形方式描绘死亡、暴力或身体伤害的内容。

适度端点对大多数开发者是免费的。为了获得更高的准确性,请尝试将长文本拆分为小于2000个字符的较小片段。

我们正在不断努力提高我们分类器的准确性。我们目前对非英语语言的支持是有限的。

快速入门

要获取文本的分类,可以像下面的代码片段中演示的那样向适度端点发送请求:

代码语言:python
复制
from openai import OpenAI
client = OpenAI()

response = client.moderations.create(input="这里放置示例文本。")

output = response.results[0]

以下是端点的示例输出。它返回以下字段:

  • flagged:如果模型将内容分类为潜在有害,则设置为true,否则为false。
  • categories:包含每个类别违规标志的字典。对于每个类别,如果模型将相应的类别标记为违规,则该值为true,否则为false。
  • category_scores:包含模型输出的每个类别原始分数的字典,表示模型对输入违反 OpenAI 对该类别的政策的信心。该值介于 0 和 1 之间,数值越高表示信心越高。这些分数不应被解释为概率。
代码语言:json
复制
{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}

我们计划持续升级适度端点的基础模型。因此,依赖于 category_scores 的自定义策略可能需要随时间进行重新校准。


本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 快速入门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档