全国咨询热线:4008-365-895 | 申请试用 |
移动恩讯舆情 | 收藏本站| 网站地图:(XML /HTML)
当前位置:首页 > 舆情监测动态 >
【恩讯舆情监测】大数据时代如何面对网络舆情
2018-04-16    点击频次:    发布人:恩讯舆情监测中心
   跟着网络技艺的高速展开,网络自媒体的数量庞大,网民人数的不时增加,互联网资源数量呈现指数型的增加,网络曾经成为民众获取信息的最首要途径。网络在传达社情民意方面的优势也逐渐显现出来,成为反响社会舆情的首要载体之一,在表达民众心声、反映社会行动方面发挥极端重要的作用。 
  在海量数据中,经过勘探并发现网络舆情中的热点话题,有助于整理舆情监控的思绪,捉住纷乱的监控作业中的要点,从海量的互联网信息中找到目的信息,将有限的人力物力用到关键的当地,进步作业的针对性和有用性,更好地应对网络舆情。 
  而怎样对网络舆情加以有用的监视和引导,活泼化解网络行动危机,使调和的互联网环境为维护社会稳定、促进国度展开、构建社会主义调和社会发挥重要作用,不只具有重要的理想意义,也曾经成为网络舆情作业面临的一个重要课题。根据上述分析,我们以为网络舆情数据越来越呈现出大数据特征。 
  1 问题与应战 
  大数据环境下的网络舆情分析和挖掘方法具有如下应战: 
  1.1 为了得到更准确的舆情信息,所需求的数据量大幅胀大。跟着数据生成的主动化以及数据生成速度的加快,自媒体年代的到来,为了获得准确的网络舆情信息需求处置的数据量急剧胀大。一种处置大数据的方法是运用采样技艺,经过采样,把数据规划变小,以便运用现有的技艺停止数据办理和分析。 
  1.2 数据深度分析需求的增加。为了从数据中得到准确的舆情信息进而辅导人们的决议方案,有必要对大数据停止深化的分析,这些杂乱的分析有必要依赖于杂乱的分析模型。所以对网络舆情信息的分析还需求途径分析、时辰序列分析、图分析、What-if分析等。 
  1.3 主动化和可视化分析需求的呈现。在TB级的杂乱舆情信息环境下,网络舆情体系应该能根据网站的内容主动构造查询,主动供应热点举荐,主动分析数据的价值并决议能否需求保管。 
舆情监测系统
  2 大数据技艺的首要展开 
  针对传统分析技艺的局限性,研讨者提出了一些实验性的处理方法和途径。R是开源的统计分析软件,IBM公司研讨人员努力于对R和Hadoop停止深度集成,把核算面向数据并且并行处置,使Hadoop获得强壮的深度分析才干,为运用开发者供应了丰厚的数据分析功用。 
  针对频频方式挖掘、分类和聚类等传统的舆情分析方法,研讨人员也提出了相应的大数据处理计划。如,Iris Miliaraki等人提出了一种可扩展的在MapReduce框架下停止频频序列方式挖据的算法[1],Alina Ene等人用MapReduce 完成了大规划数据下的K-center 和 k-median聚类方法[2],Kai-wei chang 等人提出了针对线性分类模型的大数据分类方法[3]。U kang等人运用“BP算法”处置大规划图数据挖掘反常方式。Jayanta Mondal等人[4]提出了一个根据内存的散布式数据办理体系来办理大规划动态改动的图以支撑低推延的查询处置方法。Shengqi Yang等人[5]对根据集群上的大规划图数据办理和局部图的访问特征停止研讨,为了在图查询处置中削减机器间通讯,提出来散布式图数据环境。Jiewen Huang等人提出了一个多节点的可扩展RDF数据办理体系,比如今体系的功率高出3个数量级。 
  3 网络舆情分析展开方向 
  3.1 完成愈加杂乱和更大规划的分析和挖掘是网络舆情分析将来展开的必然趋向。在大数据新式核算方式上完成愈加杂乱和更大规划的分析和挖掘是网络舆情分析将来展开的必然趋向,需求停止更细粒度的仿真、时辰序列分析、大规划图分析和大规划社会核算等。 
  这些舆情主体间频频联络、互相影响,在这个过程中涌现出一些大V,他们左右着其他主体的行动方向,最终影响整个行动场。一同,关注点相似的舆情主体间也盲目或不盲目地势成了一些联络相对严密的子集体,在子集体中信息传播速度更快。要办理和引导网络舆情,就有必要对网络舆情主体和行动子集体停止研讨,而社会网络分析方法就是有用的手法。 
  3.2 网络舆情信息的实时分析和挖掘。面临海量数据,分析和挖掘的功率成为网络舆情分析范畴的宏大应战。固然可以运用大规划集群并行核算,但在数10TB以上的数据规划上,分析和挖掘的实时性遭到了严峻的应战,而查询和分析的实时处置才干,关于舆情运用个体来说及时获得决议方案信息,做出有用应对是非常关键的条件。 
  3.3 相关不同范畴数据停止舆情分析,非构造化大数据处置分析成尴尬点和要点。网络上的信息是千千万万的人随机发作的,从事网络舆情研讨要从这些看似乌七八糟的数据中寻觅有价值的信息。网络大数据有许多不同于自然科学数据的特征,包含多源异构、交互性、失效性、社会性、突发性和高噪音等,不但非构造化数据多,而且数据的实时性强,很多数据都是随机动态发作。网络数据的搜集相对科学数据的搜集本钱较低,网上许多数据是反复的或许没有价值的,价值密度低。普通来说,网络舆情的数据分析及猜想,比科学实验的数据分析更艰难。所以我们不要一味的寻求获取越来越多的数据,而是数据的去冗分类,沙里淘金,从数据中挖掘有用信息,削减不用要的数据搜集。 
  3.4 词汇理解的杂乱性研讨。既思索词汇的情感倾向性,又权衡语义方式对议论的情感倾向值的影响,能比拟全面地分析突发事情网络舆情的态势。可是词典的构建与语义方式的建立需求人工参与,个人的客观性影响比拟大,机器学习的才干不强,准确度不高。别的,由于网络言语表达的灵敏性,技艺的展开速度跟不上社会言语变化的杂乱性。在国内的网络语境中,谐音、暗语是常用的表现手法,借古讽今、借外讽内是常用的叙事手法,隐喻、借代是常见的修辞。现有技艺还不能彻底准确地判定语句的情感倾向性,机器对词汇的理解才干需求进一步研讨。 
政府舆情监测解决方案
  4 完毕语 
  跟着大数据年代的到来,我们要不时改良舆情的分析方法,将大数据思想及方法运用到网络舆情分析中去。首先要开端关注大数据分析,其次不再只是依托语义分析,而是求诸于主动化的数据分析,再非必需相关不同范畴数据停止舆情分析,等等。总归,我们要突破传统,将舆情分析向大数据分析的方向立异。

立即注册 免费试用 TRIAI FOR FREE

联系恩讯 CONDADT US

  • 北京CBD朝阳区慈云寺住邦2000四号楼1801
  • 4008-365-895

恩讯名片!