Stage1st

 找回密码
 立即注册
搜索
查看: 3990|回复: 13
打印 上一主题 下一主题

[欢乐] 一个关于NLP的问题,求解

[复制链接]
     
楼主
发表于 2024-3-17 08:33 | 显示全部楼层
本帖最后由 Jumbohard 于 2024-3-17 12:11 编辑

感觉楼主的思路再拓展一下就是朴素贝叶斯分类器了,要不然试着训练一个,或者用决策树来分类?按照出现的关键词给文档打标签

重新看了下主楼,楼主是不是这个意思:
1. 分词得到一个生语料词典,把其中的词(自动?)分为n类然后得到一个有n个类别的关键词词典。
2. 对待分类文档进行检索,出现对应关键词就打上相应分类标签。

如果是这个意思的话,我也有两点建议:
1. 第一步可能可以用词向量做聚类分析做到,不过就我做近义词检索的经验来看,(spacy内置的300维)词向量做这么精细的语意分类效果不好。自己训练词向量可能效果会好点。但是,推荐还是手动分类,工作量比自己炼词向量小。
2. 如果只需要分类文档的话,主题分类有很多成熟的机器学习算法了,就比如说支持向量机之类的,不关心算法也可以用别人现成的模型,比如这个:https://spacy.io/usage/training。我个人用来做过新闻类别分类,基于transformer的模型准确率能有个95%上下,不用费劲做词典。
—— 来自 S1Funhttps://spacy.io/usage/training
回复

使用道具 举报

     
2#
发表于 2024-3-21 20:55 | 显示全部楼层
zuckmydik 发表于 2024-3-21 13:04
对的,就是这样,十分感谢。在此还有一个问题想问一问,如果这n个分类已经被订好各自的名称(个属性)了, ...

用词向量对词汇进行聚类本质上是把几何距离近的词分类在一起,计算机是不知道这些词大概都是什么意思或者说属于哪个领域的,只有分类完了你自己去看各个类别手动赋予名字。
回复

使用道具 举报

     
3#
发表于 2024-3-22 08:02 | 显示全部楼层
zuckmydik 发表于 2024-3-21 21:49
其实可以这样说,假设我有n个产品相关的充足语料,也有已经订好数量和名字的m个分类。(这些分类从BB霜到B ...

那我觉得可以不用拘泥于字典,直接用现成的分类器(比如上面说的那个)去试试,效果不好再考虑别的

—— 来自 S1Fun
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-12 01:17 , Processed in 0.015460 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表