xchiminer 发表于 2024-12-24 17:41:07

有做tg聊天记录采集并投喂给大模型的开源项目不?

主要痛点是:

1.不想群聊,9成废话,但不到0.1成的信息又超级有用。减少走弯路。
总结:有用信息的获取成本高昂,与时间正相关。特别一天1w+讨论的群组。

2.采集信息,投喂给比如LLAMA3,训练他给出日报,周报,月报。合并同类项,权重,时间推移,关联度等。
总结:这样可以列表,将主题做缩进查看。权重来置顶相关话题。过滤垃圾主题。比如N26开户,通过时间过滤,可以查看到最新政策和坑点。

3.标记大神,让ai来判断人品。
总结:平时因为一个网友发了一个很有用的信息,但对此人没有太多背调,所以贸然接触可能会上当受骗。让ai自动对他的发言进行采集,从对话进行性格推断,增加可信度辨识率。

大体是这样,当然后面还想有一些完善的,不知道有没有轮子,没有就先记录记录了。

callmefeifei 发表于 2024-12-24 17:49:59

某研究所已经做了

rrw 发表于 2024-12-24 17:54:48

。。。 是不是把ai 想的 过于ai 了

xchiminer 发表于 2024-12-24 17:54:56

callmefeifei 发表于 2024-12-24 17:49
某研究所已经做了

求明示,只想做用户,并不想自己搞轮子。

callmefeifei 发表于 2024-12-24 17:57:15

xchiminer 发表于 2024-12-24 17:54
求明示,只想做用户,并不想自己搞轮子。

1、制作识别模型(收集数据集、标注、训练出模型)
2、收集TG数据
3、用模型来识别TG数据,给人打标注,用一套算法来计算这些标注的权重,然后出分析报告。

xchiminer 发表于 2024-12-24 18:00:23

rrw 发表于 2024-12-24 17:54
。。。 是不是把ai 想的 过于ai 了

这些都是数据分析,还没上到行为模拟,ai已经很ai了,比如谷歌早4月份就出了浏览器拟人化。
我说的这些已经是相当简单的text应用了。

xchiminer 发表于 2024-12-24 18:03:13

callmefeifei 发表于 2024-12-24 17:57
1、制作识别模型(收集数据集、标注、训练出模型)
2、收集TG数据
3、用模型来识别TG数据,给人打标注, ...

想找个现成的,而且又能快速出结果的,最近在看Llama-3-Groq-70B-Tool-Use

eastcukt 发表于 2024-12-24 19:54:08

不错,我找找有没有类似的,没有我就写一个

HOH 发表于 2024-12-24 20:15:00

早就做好了,收集群聊数据,打标识别一个人的身份,然后下发请来喝茶

hyf3513 发表于 2024-12-24 20:29:13

关键词监控我做过
页: [1] 2
查看完整版本: 有做tg聊天记录采集并投喂给大模型的开源项目不?