1. 简介

label-studio

假设我们想使用机器学习做文本分析,一般都需要先对数据进行标注,才能训练出效果比较好的监督机器学习模型。

label-studio是多媒体数据标注工具,可以很方便的进行标注和导出。

Label Studio 是一款开源数据标注工具,用于标注和探索多种类型的数据。 您可以使用多种数据格式执行的标记任务。

您还可以将 Label Studio 与机器学习模型集成,以提供标签(预标签)的预测,或执行持续的主动学习。

官方文档 https://labelstud.io/


操作步骤

  1. 安装Label Studio
  2. 启动Label Studio
  3. 创建Label Studio账号
  4. 项目默认配置
  5. 导入数据
  6. 标注数据
  7. 结束标记,导出标注数据

安装

命令行中执行

pip install label-studio==1.1.0

2 快速上手

在桌面创建自动生成一个名为Project的项目文件夹。

  • Win命令行执行
label-studio --data-dir Desktop/Project
  • Mac命令行执行
label-studio --data-dir desktop/Project


执行上方代码大概10s左右,会在浏览器弹出如下界面

注册好账号密码,点击Create Project


项目描述填写好,点击按钮**Data Import **,

这里我们要做文本分析,导入csv


设置标注模式,点击按钮Labeling Setup,选择Natural Language ProcessTEXT Classification。就考研进行pos、neg、neo三个类别的文本标注。

注意label-studio提供了diy,考研根据自己需要点击Code设定标注类别名称、增减类别。大家感兴趣的可以深入研究。

点击Save 按钮,开始准备标注数据啦


数据界面,勾选全部数据,点击蓝色按钮Label All Tasks

开始标注,勾选你认为合适的标签,点击右侧Submit


导出标注数据,先点击右侧Export按钮,选择导出格式,最后点击底部Export按钮执行导出。


广而告之