Stage1st

 找回密码
 立即注册
搜索
查看: 3919|回复: 13
打印 上一主题 下一主题

[欢乐] 一个关于NLP的问题,求解

[复制链接]
     
跳转到指定楼层
楼主
发表于 2024-3-16 00:52 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
假设我将所有的分词结果合并,成为一个分词词库,现在我有一个已知的目录,我该如何将这些词语分类到已知的目录中,使得我之后进行测试的语料中只要含有该词语,这一部分就进入目录?
(假设这一部分语料可以进入多个目录)
回复

使用道具 举报

     
2#
发表于 2024-3-16 00:55 来自手机 | 只看该作者
不知道呢,为什么不去程序员的论坛?
回复

使用道具 举报

     
3#
发表于 2024-3-16 02:13 | 只看该作者
我没看太明白这个目录是指的directory还是index, 但你是不是想整个文本主题分类器?
回复

使用道具 举报

     
4#
 楼主| 发表于 2024-3-16 02:28 来自手机 | 只看该作者
WiiGe 发表于 2024-3-16 02:13
我没看太明白这个目录是指的directory还是index, 但你是不是想整个文本主题分类器? ...

大概是类似于“计算及控制芯片”“驱动芯片”“通讯芯片”这种已经定好的分类目录吧
回复

使用道具 举报

     
5#
发表于 2024-3-16 02:40 | 只看该作者
zuckmydik 发表于 2024-3-16 02:28
大概是类似于“计算及控制芯片”“驱动芯片”“通讯芯片”这种已经定好的分类目录吧 ...

我能不能这么理解:
你有一些语料(比如一堆文档),大致可以分为 计算及控制芯片/ 驱动芯片/ 通讯芯片 etc 这么几个手工设定的大类。
现在你希望有一个文本主题分类器, 可以输入语料然后输出一个该语料所属的分类, 然后把这个文件移动到对应分类的文件夹目录中去?

是这样的需求吗?
回复

使用道具 举报

     
6#
 楼主| 发表于 2024-3-17 00:45 来自手机 | 只看该作者
WiiGe 发表于 2024-3-16 02:40
我能不能这么理解:
你有一些语料(比如一堆文档),大致可以分为 计算及控制芯片/ 驱动芯片/ 通讯芯片 etc ...

对的。不过不是把文件移动到某个目录下,而是给予她某个目录的标签,因为一个语料符合条件下可以有多个目录。
回复

使用道具 举报

     
7#
发表于 2024-3-17 00:48 | 只看该作者
没看明白这跟NLP有啥关系,这想要的不就是一张多对多(多个语料对应多个标签)的表吗?
回复

使用道具 举报

     
8#
发表于 2024-3-17 04:30 | 只看该作者
zuckmydik 发表于 2024-3-17 00:45
对的。不过不是把文件移动到某个目录下,而是给予她某个目录的标签,因为一个语料符合条件下可以有多个目 ...

7楼说得对, 你的输出应该是张表, 结果应为这样的形式:

文档名       分类结果
C:\文档A    计算及控制芯片, 驱动芯片
C:\文档B    通讯芯片, 驱动芯片, 计算及控制芯片
C:\文档C    驱动芯片
C:\文档D    皮衣黄炒狗芯片, 通讯芯片

感觉使用主题分类器即可, 输出一个语料文档所有分类概率大于85%的分类标签就可以得到↑这张表
回复

使用道具 举报

头像被屏蔽
     
9#
发表于 2024-3-17 08:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
10#
发表于 2024-3-17 08:33 | 只看该作者
本帖最后由 Jumbohard 于 2024-3-17 12:11 编辑

感觉楼主的思路再拓展一下就是朴素贝叶斯分类器了,要不然试着训练一个,或者用决策树来分类?按照出现的关键词给文档打标签

重新看了下主楼,楼主是不是这个意思:
1. 分词得到一个生语料词典,把其中的词(自动?)分为n类然后得到一个有n个类别的关键词词典。
2. 对待分类文档进行检索,出现对应关键词就打上相应分类标签。

如果是这个意思的话,我也有两点建议:
1. 第一步可能可以用词向量做聚类分析做到,不过就我做近义词检索的经验来看,(spacy内置的300维)词向量做这么精细的语意分类效果不好。自己训练词向量可能效果会好点。但是,推荐还是手动分类,工作量比自己炼词向量小。
2. 如果只需要分类文档的话,主题分类有很多成熟的机器学习算法了,就比如说支持向量机之类的,不关心算法也可以用别人现成的模型,比如这个:https://spacy.io/usage/training。我个人用来做过新闻类别分类,基于transformer的模型准确率能有个95%上下,不用费劲做词典。
—— 来自 S1Funhttps://spacy.io/usage/training
回复

使用道具 举报

     
11#
 楼主| 发表于 2024-3-21 13:04 来自手机 | 只看该作者
Jumbohard 发表于 2024-3-17 08:33
感觉楼主的思路再拓展一下就是朴素贝叶斯分类器了,要不然试着训练一个,或者用决策树来分类?按照出现的关 ...

对的,就是这样,十分感谢。在此还有一个问题想问一问,如果这n个分类已经被订好各自的名称(个属性)了,还可以用训练的词向量进行分类吗?
回复

使用道具 举报

     
12#
发表于 2024-3-21 20:55 | 只看该作者
zuckmydik 发表于 2024-3-21 13:04
对的,就是这样,十分感谢。在此还有一个问题想问一问,如果这n个分类已经被订好各自的名称(个属性)了, ...

用词向量对词汇进行聚类本质上是把几何距离近的词分类在一起,计算机是不知道这些词大概都是什么意思或者说属于哪个领域的,只有分类完了你自己去看各个类别手动赋予名字。
回复

使用道具 举报

     
13#
 楼主| 发表于 2024-3-21 21:49 来自手机 | 只看该作者
本帖最后由 zuckmydik 于 2024-3-21 21:51 编辑
Jumbohard 发表于 2024-3-21 20:55
用词向量对词汇进行聚类本&# ...

其实可以这样说,假设我有n个产品相关的充足语料,也有已经订好数量和名字的m个分类。(这些分类从BB霜到BB机涵盖完全,但这些分类是已经被固定好不能修改的。)现在我的问题就是如何用训练集训练出可以把这些产品送入这些分类的模型。(一个产品可以放多个分类)
请问这种问题能靠什么方式解决呢?是不是该用one hot做超大矩阵?
回复

使用道具 举报

     
14#
发表于 2024-3-22 08:02 | 只看该作者
zuckmydik 发表于 2024-3-21 21:49
其实可以这样说,假设我有n个产品相关的充足语料,也有已经订好数量和名字的m个分类。(这些分类从BB霜到B ...

那我觉得可以不用拘泥于字典,直接用现成的分类器(比如上面说的那个)去试试,效果不好再考虑别的

—— 来自 S1Fun
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-4-28 08:27 , Processed in 0.021740 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表