全国咨询热线:4008-365-895 | 申请试用 |
移动恩讯舆情 | 收藏本站| 网站地图:(XML /HTML)
当前位置:首页 > 舆情监测动态 >
【舆情监测系统】网络舆情监测技术解析
2017-11-16    点击频次:    发布人:恩讯舆情监测中心
     互联网时代,网络舆情作为一种具有传播速度快、影响面广的信息,其中有意识或者无意识表达出来的民情民意越来越值得研究。本文将介绍一种利用情报学领域中的信息组织理论与方法,对网络舆情的传播机制进行深化研究与应用的方法,从而帮助相关部门更好的把握民情、体贴民意、倾听民声。
  研究中借鉴和融合了社会学、新闻传播学、统计学、管理学等方面的研究视角和研究方法,但更多的是从情报学特有的研究方法和范式出发,关注信息本身,并且以技术手段作为支撑,充分利用计算机和互联网技术。具体而言,舆情研究是情报学研究领域中信息采集、信息组织、信息分析方法的具体应用。
  一、基础分析方法
  舆情分析中涉及大量的相关技术,比如事情检测与跟踪系统、自然语言处理特别是中文信息处理、数据挖掘等。具有情报学特点的研究方法主要有:
  1.内容分析法
  内容分析法是一种对文献内容作客观系统的定量分析的专门方法,其目的是弄清或测验文献中本质性的事实和趋势,揭示文献所含有的隐性情报内容,对事物发展作情报预测。它实际上是一种半定量研究方法,其基本做法是把媒介上的文字、非量化的有交流价值的信息转化为定量的数据,建立有意义的类目分解交流内容,并以此来分析信息的某些特征。
  内容分析法可以揭示文献(包括保存的网页)的隐性内容,和舆情研究结合起来可以揭示网络宣传的技巧、策略,衡量互联网内容的可读性,发现作者或者评论者的个人风格,分辨不同时期不同环境的舆情特征,反映个人与团体的态度、兴趣,揭示大众关注的焦点等。
  2.实证分析法
  实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法,比如社会调查法和网络计量法等。
  社会调查法是有目的、有计划、有系统地搜集有关研究对象社会现实状况或历史状况材料的方法,它可以用谈话、问卷、个案研究、测验或实验等科学方式,对有关社会现象进行有计划的、周密的、系统的了解,并对调查搜集到的大量资料进行分析、综合、比较、归纳,借以发现存在的社会问题,探索有关规律。
  网络计量法是将传统信息计量方法应用在Web分析上,就诸如语言、单词、词汇、频次、作者特征、用户行为等进行计量研究。这个是目前网络舆情研究中数据分析的主要方向。
 二、信息采集方法
  网络信息采集主要采用基于垂直搜索引擎的主题爬虫技术,对互联网上的某类主题信息页面全自动识别、分类、抓取,并能够实现网页指纹消重和信息消重,同时对主题信息页面进行去除无关信息和信息自动抽取,垂直引擎系统对某一领域的采集和提取具有较高的准确性和较广的信息查全率。
  1.主题蜘蛛实现
  主题蜘蛛实现主要包括两方面内容,一是主题搜索智能下载,二是互联网上的反屏蔽策略。前者主要包括:蜘蛛爬行模块、种子网站设定、URL处理模块、主题确立模块等,主要涉及技术有:web下载技术、智能更新搜索功能、爬行深度控制、智能下载模拟浏览器技术等。
  2.主题相关判别
  一般意义下的相关度通常是根据检索词在命中记录中出现的次数(词频)和位置,以及不同检索词的相邻程度来计算的。网络舆情研判主要关注的是网络新闻、论坛帖子、微博、微信等网络素材的相关度问题,其中借鉴了大量传统文献中关于相关度计算的标准和算式。
  主要涉及技术有:自动主题网站识别、种子库动态维护和自动扩展更新、网页消重等。其中,网页消重可主要采取以下策略:
  1)根据URL列表进行消重。在抓取时不断提取新的URL,判断其是否存在于“已访问的URL列表”中;
  2)网页的指纹去重技术。对已访问的页面采用加密算法获得该网页具有唯一性的指纹信息。
  3)基于领域知识库的去重规则。根据实际的应用领域,可以制定更加具体的消重规则,进行信息消重。对具有标识性的属性信息组合,如舆情中的敏感词、热点问题等具有唯一性的属性值生成其指纹信息,若指纹信息重复,则根据“互补”策略和投票规则对现有信息进行补充或更改,从而能够在保证信息完整性和准确性的同时,达到信息消重的目的。
  三、信息处理技术
  1.信息预处理
  信息预处理是对采集到的网页进行初步的加工和处理,为后继舆情关键信息抽取和舆情内容分析奠定基础。
  基于统计的信息预处理一般忽略文本的语言学上的特征,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权,比如向量空间模型。
  基于规则的信息预处理是在定义元符号及演算规则的基础上,根据字符串匹配,给出了一个互联网信息文本的过滤模型,其核心语料库包括词库和规则库。
  由于舆情是一类具有很强领域性和倾向性的信息,所以需要将统计与规则预处理技术相结合。除此之外,预处理环节还需要对网页进行索引、储存与统计。
  2.舆情关键信息抽取
  首先,需要进行网页去噪。抓取下来的主题信息页面往往存在着一定的噪音信息,如导航、广告、版权信息、logo信息、javascript等。这些噪音信息对信息抽取的速度和质量都有较大的影响,因此要先进行网页净化。
  然后,利用智能节点识别技术自动识别出属性信息标示词或满足特定属性值结构的信息。其具有人工干预性少,不依赖网页结构,高通用性特征,能够准确快速地抽取各种结构的页面信息。
  最后,进行逻辑信息抽取。从逻辑意义层面上去理解主题页面的信息内容,而不依赖于信息页面的结构和信息页面的语义。
  3.舆情内容主题聚类分析
  主题聚类主要通过对文本、查询式等聚类对象进行基于机器学习的主题分析,将聚类对象转换为基于主题的表示形式,以达到降低特征空间维度的目的,然后以主题表示为基础进行对象的聚类分析,最后得到基于主题的聚类结果描述。
  【结语】我们对网络舆情的分析是期望变堵为疏,变被动控制为主动引导,真正通过舆情分析倾听民声,了解民意。同时提升政府信息管理能力,帮助有关部门更好地应对网络突发事件。通过对互联网海量信息持续不断的监测与分析,从中提取有用的舆情信息,通过多种手段和渠道做舆论方向引导,为构建和谐的网络环境尽一份力。
恩讯舆情监测系统

立即注册 免费试用 TRIAI FOR FREE

联系恩讯 CONDADT US

  • 北京CBD朝阳区慈云寺住邦2000四号楼1801
  • 4008-365-895

恩讯名片!