最新公告:

中华视窗是诚信为本,市场在变,我们的诚信永远不变...

中华视窗

咨询热线

400-123-4657

公司动态

当前位置: 首页 > 新闻动态 > 公司动态

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

添加时间:2024-02-25

/

一、热点事件概述

热点事件具有不可预测性,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质,当然,重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾)等除外,不平凡的2019年发生的一些列重大事件都先后成为国内和国际社会所关注的热点。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点。别的热点则不会这个样子,过去一个非突发性事件发生了,到了后面发生了,则不一定会成为热点,因为当时的客观和主观条件因素都已经截然不同。因此,对弈常规热点而言,是无法进行提前预测的。

二、热点事件的挖掘可行性

最近,有个公司有个项目想让我提提建议,大致的任务是:能不能提前发现热点,并且做热点的演化分析。作为实验,给了我三天的全网资讯,每天大约10万篇新闻,根据标题去重后大约是每天5万左右的资讯。周末之余,对这三天的资讯进行了实验,大致技术路线:

公司动态大事件_动态事件大公司怎么做_动态事件触发机制

1)、热点发现

1、对三日文本进行分词、去停用词等预处理,使用lda主题模型进行主题建模,形成领域主题模型。

2、基于领域主题模型,对文本进行稠密向量表示,设定相似度阈值,计算文本之间的相似度,并构建相似度无向图,使用-pass聚类算法,形成文本类簇,将三日共23万文本聚类成6万余个类簇,称为热点。

3、根据热点类簇结果,对三日文本进行文本类标引。根据每日的文本,计算每个热点的热度。热度计算值为热点簇大小/当日新闻总数。

4、根据热点类簇的热度结果&

联系我们

电话:400-123-4657

传真:+86-123-4567

地址:浙江 温州市 温州大道欧江大厦26188号

邮箱:admin@kakqq.cn

电话:400-123-4657 传真:+86-123-4567 地址:浙江 温州市 温州大道欧江大厦26188号
版权所有:Copyright © 2002-2024 中华视窗 版权所有 非商用版本 ICP备案编号:粤IP**********    网站地图