前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kmeans、数据稀疏问题、标签不均衡

Kmeans、数据稀疏问题、标签不均衡

作者头像
孟船长
发布2024-05-09 16:08:45
900
发布2024-05-09 16:08:45
举报

Kmeans

  • 随机选择k个点作为初始质心
  • 重复一下操作
    • 将每个点指派到最近的质心,形成k个簇
    • 重新计算每个簇的质心
  • 直到
    • 质心不发生变化

Kmeans使用技巧

  • 先设定较多的聚类类别
  • 聚类结束后计算类内平均距离
  • 排序后,舍弃平均距离较长的类别
  • 计算距离时可以使用欧氏距离、余弦距离或其他距离
  • 短文本聚类记得先去重,以及其他预处理

Kmeans优点

  1. 速度很快,可以支持很大量的数据
  2. 样本均匀,特征明显的情况下效果不错

Kmeans缺点

  1. 人为设定聚类数量
  2. 初始化中心影响效果,导致结果不稳定
  3. 对于个别特殊样本敏感,会大幅影响聚类中心位置
  4. 不适合多分类或样本较为离散的数据

数据稀疏问题

训练数据量小,模型在训练样本上能收敛,但预测准确率很低

解决方案:

  1. 标注更多的数据
  2. 尝试构造训练样本(数据增强)
  3. 更换模型(使用预训练模型)减少数据需求
  4. 增加规则弥补
  5. 调整阈值,用召回率换准确率
  6. 重新定义类别(减少类别)

标签不均衡

部分类别样本充裕,部分类别样本极少

解决方案:

  1. 解决数据稀疏的所有方法依然适用
  2. 过采样——复制指定类别的样本,在采样中重复
  3. 降采样——减少多样本类别的采样,随机使用部分
  4. 调整样本权重——通过损失函数权重调整来实现
  • 预测数值,属于回归问题,损失函数使用均方差
  • 分类问题使用交叉熵
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 自动化测试实战 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Kmeans
  • Kmeans使用技巧
  • Kmeans优点
  • Kmeans缺点
  • 数据稀疏问题
  • 标签不均衡
相关产品与服务
标签
标签(Tag)是腾讯云推出的云资源管理工具,您可从不同维度对具有相同特征的云资源进行分类、搜索和聚合,从而轻松管理云上资源。 标签是由标签键和标签值共同组成,您可以为云资源创建和绑定标签
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档