浅谈数据标注细分领域

文本标注
应用于聊天机器人、搜索引擎、情感分析、翻译、语音助手和内容审核。
| 类型 | 定义 | 用途 | 例子 |
| 实体标注 | 识别和标注文本中的关键实体(人物、地点、组织、日期等)。 | 用于搜索引擎、聊天机器人和信息提取。 | 在“苹果公司在巴黎开设新店”这句话中,将“苹果”标记为组织,“巴黎”标记为地点。 |
| 词性标注 | 给句子中的每个单词贴上语法角色标签(名词、动词、形容词等)。 | 改进机器翻译、语法纠错和文本转语音系统。 | 在“猫跑得很快”这句话中,“猫”被标记为名词,“跑”被标记为动词,“快”被标记为副词。 |
| 情感标注 | 识别文本中表达的情感基调或观点。 | 用于产品评测、社交媒体监测和品牌分析。 | 在“这部电影太棒了”这句话中,将情感标记为“积极”。 |
| 意图标注 | 在句子或查询中标记用户的意图。 | 用于虚拟助手和客户支持机器人。 | 在“帮我预订飞往纽约的航班”中,将意图标记为旅行预订。 |
| 语义标注 | 为概念添加元数据,将文本链接到相关实体或资源。 | 用于知识图谱、搜索引擎优化和语义搜索。 | 给“特斯拉”添加元数据标签,将其与“电动汽车”概念联系起来。 |
| 共指消解 | 识别不同词语指代同一实体的情况。 | 有助于对话式人工智能理解上下文并进行摘要。 | 在“约翰说他会来”中,将“他”标记为指代“约翰”。 |
| 语言标注 | 对文本进行语音、词法、句法或语义信息的标注。 | 用于语言学习、语音合成和自然语言处理研究。 | 为语音合成中的文本添加重音和语调标记。 |
| 内容审核 | 对有害、冒犯性或违反政策的内容进行标记。 | 用于社交媒体管理和网络安全。 | 将“我恨你”等攻击行为标记为冒犯性内容。 |
常见任务:
聊天机器人训练:标注用户输入,帮助聊天机器人理解查询并准确回复。
文档分类:根据主题或类别给文档贴上标签,以便于排序和自动化。
客户情绪监测:识别客户反馈中的情绪基调(积极、消极或中性)。
垃圾邮件过滤:标记不需要的或无关的邮件,以训练垃圾邮件检测算法。
实体链接和识别:检测和标记文本中的名称、组织或地点,并将它们链接到现实世界的参考资料。
图片标注
图像标注是指对图像中的对象、特征或区域进行标记或标注,以便计算机视觉模型能够识别和解释它们的过程。
| 类型 | 定义 | 用途 | 例子 |
| 边界框标注 | 在物体周围绘制一个矩形框,以确定其位置和大小。 | 图像和视频中的目标检测。 | 在交通监控录像中用矩形框出车辆。 |
| 多边形标注 | 利用多个连接点勾勒出物体的精确形状,以提高精度。 | 对卫星或农业图像中的不规则形状物体进行标记。 | 在航拍照片中描绘建筑物边界。 |
| 语义分割 | 根据类别对图像中的每个像素进行标记。 | 在自动驾驶或医学成像中识别精确的物体边界。 | 在街景中,将“道路”像素着色为灰色,“树木”像素着色为绿色,“汽车”像素着色为蓝色。 |
| 实例分割 | 即使属于同一类,也要分别给每个对象实例贴上标签。 | 对同一类型的多个对象进行计数或跟踪。 | 在人群图像中区分人物 |
| 关键点和地标标注 | 在物体上标记特定的兴趣点(例如,面部特征、身体关节)。 | 人脸识别、姿态估计、手势跟踪。 | 在人脸上标记眼睛、鼻子和嘴角的位置。 |
| 三维长方体标注 | 在物体周围绘制一个类似立方体的框,以捕捉其在三维空间中的位置、尺寸和方向。 | 自动驾驶汽车、机器人、AR/VR应用。 | 在送货卡车周围放置一个 3D 长方体,以检测其距离和大小。 |
| 线和折线标注 | 沿着线性结构绘制直线或曲线。 | 车道检测、道路测绘、电力线路巡检。 | 行车记录仪视频中可以看到在道路车道上画黄线。 |
| 骨骼或姿态标注 | 连接关键点,创建用于运动跟踪的骨架结构。 | 运动分析、医疗保健姿势分析、动画。 | 连接头部、肩部、肘部和膝盖,以追踪跑步者的运动。 |
常见任务:
目标检测:使用边界框识别和定位图像中的物体。
场景理解:为场景中的各种组成部分贴上标签,以便进行上下文图像解释。
人脸检测与识别:检测人脸并根据面部特征识别个体。
图像分类:根据视觉内容对整个图像进行分类。
医学影像诊断:标记 X 光片或 MRI 等扫描图像中的异常情况,以辅助临床诊断。
图像描述:分析图像并生成描述其内容的句子的过程。这包括目标检测和上下文理解。
光学字符识别 (OCR):从扫描的图像、照片或文档中提取印刷体或手写体文本,并将其转换为机器可读文本。
视频标注
视频标注是指对视频帧中的对象、事件或动作进行标记和标注,以便人工智能和计算机视觉模型能够随着时间的推移检测、跟踪和理解它们。
| 类型 | 定义 | 用途 | 例子 |
| 逐帧标注 | 手动标记视频中的每一帧以追踪物体。 | 用于需要高精度移动物体的场合。 | 在一部野生动物纪录片中,通过给每一帧画面贴上标签来追踪老虎的行踪。 |
| 边界框跟踪 | 在移动物体周围绘制矩形框,并跟踪它们在帧之间的移动。 | 用于交通监控、零售分析和安防领域。 | 通过监控录像追踪十字路口的车辆。 |
| 多边形跟踪 | 使用多边形勾勒运动物体的轮廓,比使用边界框获得更高的精度。 | 用于体育分析、无人机拍摄以及不规则形状物体检测。 | 在比赛中使用多边形追踪足球的运动轨迹。 |
| 3D长方体跟踪 | 绘制立方体状的方框,以捕捉物体在三维空间中随时间推移的位置、方向和尺寸。 | 用于自动驾驶和机器人技术。 | 通过行车记录仪视频追踪行驶中卡车的位置和大小。 |
| 关键点和骨骼追踪 | 通过标记和连接特定点(关节、地标)来跟踪身体运动。 | 用于人体姿态估计、运动表现分析和医疗保健。 | 追踪短跑运动员在比赛中的手臂和腿部动作。 |
| 视频语义分割 | 对每一帧中的每个像素进行标记,以对物体及其边界进行分类。 | 应用于自动驾驶汽车、AR/VR 和医学成像领域。 | 在视频的每一帧中标注道路、行人和车辆。 |
| 视频实例分割 | 与语义分割类似,但它还能将每个对象实例分开。 | 用于人群监测、行为追踪和物体计数。 | 在拥挤的火车站里给每个人贴上标签。 |
| 事件或动作标注 | 在视频中标记特定活动或事件。 | 用于体育赛事集锦、监控和零售行为分析。 | 标记足球比赛中的“进球”时刻。 |
常见任务:
活动检测:识别并标记视频中的人物或物体动作。
物体跟踪:逐帧跟踪并标记视频素材中移动的物体。
行为分析:分析视频流中对象的模式和行为。
安全监控:监控视频录像,以发现安全漏洞或不安全状况。
体育/公共场所事件检测:标记特定动作或事件,如进球、犯规或人群移动。
视频分类(标签):视频分类涉及将视频内容分类到特定类别中,这对于审核在线内容和确保用户安全体验至关重要。
视频字幕:类似于我们给图片添加字幕的方式,视频字幕是将视频内容转换为描述性文本。
音频标注
| 类型 | 定义 | 用途 | 例子 |
| 语音转文本 | 将音频文件中的语音转换为文本。 | 用于字幕、转录服务和语音助手。 | 将播客节目转录成文本格式。 |
| 说话人分割 | 识别并标记音频文件中的不同说话人。 | 应用于呼叫中心、面试和会议记录。 | 在客户支持电话中标记“发言人 1”和“发言人 2”。 |
| 语音标注 | 对语音中的音素(最小的声音单位)进行标记。 | 用于语言学习应用和语音合成。 | 标记单词“think”中的/th/音。 |
| 情感标注 | 对言语中表达的情绪进行标记(快乐、悲伤、愤怒、中性等)。 | 用于情感分析、通话质量监控和心理健康人工智能工具。 | 在客服电话中,将客户的语气贴上“沮丧”的标签。 |
| 意图标注 | 确定口头请求或命令的目的。 | 用于虚拟助手、聊天机器人和语音搜索。 | 在“播放爵士乐”中,将意图标记为“播放音乐”。 |
| 环境声音 | 对录音中的背景音或非语音声音进行标注。 | 用于声音分类系统、智慧城市和安防领域。 | 在街头录音中添加“狗吠”或“汽车喇叭”的标签。 |
| 时间戳标注 | 在音频中为特定词语、短语或事件添加时间标记。 | 用于视频编辑、转录对齐和 ASR 模型训练数据。 | 标记时间“00:02:15”,表示演讲中提到了某个特定词语。 |
| 语言和方言标注 | 标注音频的语言、方言或口音。 | 用于多语言语音识别和翻译。 | 将一段录音标记为“西班牙语 - 墨西哥口音”。 |
常见任务:
语音识别:识别单个说话者并将其与已知声音进行匹配。
情绪检测:分析语调和音高,以检测说话者的情绪,例如愤怒或喜悦。
音频分类:对非语音声音(如拍手声、警报声或引擎噪音)进行分类。
语言识别:识别音频片段中所说的语言。
多语言音频转录:将多种语言的语音转换为书面文本。
激光雷达(3D点云标注)
| 类型 | 定义 | 用途 | 例子 |
| 三维点云 | 对三维环境中的空间点簇进行标记。 | 从自动驾驶汽车的激光雷达数据中识别道路目标。 | |
| 立方体标注 | 在点云中的物体周围放置三维立方体,以估计其尺寸和方向。 | 在交通目标中创建一个三维立方体计算障碍物位置和面积。 | |
| 语义与实例分割 | 为每个雷达扫描到的点云数据分配类别 |
常见任务:
3D 物体检测:利用点云数据识别和定位 3D 空间中的物体。
障碍物分类:标记不同类型的障碍物,例如行人、车辆或障碍物。
机器人路径规划:标注供自主机器人遵循的安全最优路径。
环境测绘:创建带注释的周围环境 3D 地图,用于导航和分析。
运动预测:利用标记的运动数据来预测物体或人的运动轨迹。
LLM标注(大语言模型)
| 类型 | 定义 | 用途 | 例子 |
| 说明标注 | 精心设计并标注提示语以及相应的理想回答,以教会模型如何遵循指示。 | 用于训练 LLM 以执行聊天机器人任务、客户支持和问答系统。 | 提示:“用 50 个字概括这篇文章。” → 注释回答:简洁概括符合指导原则。 |
| 分类标注 | 根据文本的含义、语气或主题,为其分配类别或标签。 | 用于内容审核、情感分析和主题分类。 | 将推文标记为“积极”情绪和“体育”主题。 |
| 实体和元数据 | 在训练数据中标记命名实体、概念或元数据。 | 用于知识检索、事实提取和语义搜索。 | 在“特斯拉于 2024 年推出了一款新车型”中,将“特斯拉”标记为组织,“2024”标记为日期。 |
| 推理链标注 | 创建逐步解释如何得出答案的说明。 | 用于训练法学硕士进行逻辑推理、问题解决和数学任务。 | 问题:“15 × 12 等于多少?” → 注释推理:“15 × 10 = 150,15 × 2 = 30,总和 = 180。” |
| 对话标注 | 构建多轮对话,保留上下文,识别意图,并做出正确回应。 | 用于对话式人工智能、虚拟助手和交互式机器人。 | 顾客询问有关运送的问题 → AI 提供相关的后续问题和答案。 |
| 错误标注 | 识别 LLM 输出中的错误并对其进行标记以便重新训练。 | 用于提高模型精度和减少幻觉。 | 将“巴黎是意大利的首都”标记为事实错误。 |
| 安全与偏见标注 | 对有害、有偏见或违反政策的内容进行标记,以便进行过滤和调整。 | 用于使法学硕士项目更安全、更符合伦理。 | 将“冒犯性玩笑”内容标记为不安全。 |
常见任务:
指令执行评估:检查 LLM 执行或遵循用户提示的效果如何。
幻觉检测:识别 LLM 何时生成不准确或捏造的信息。
提示质量评级:评估用户提示的清晰度和有效性。
事实正确性验证:确保人工智能的回答在事实上是准确且可验证的。
危害标记:检测并标记有害、冒犯性或带有偏见的 AI 生成内容。
内容来源:“数据标注港”微信公众号