在会议数据增长的问题中,文章针对会议用户流失和使用信用的问题是,主要从防止会议用户的流失和增长情况进行分析预测,找出潜在的可能会流失的学者,对会议数据的流失率进行监控,激活定向会议用户的运营,从而有效对会议用户流失的风险进行控制,从而将会议用户的存下率和活跃程度提高。监控会议数据的流失效率,展开激活定向激活,从而实现对会议用户流失的监控和预测风险,进而提升会议用户可以长期使用和会议用户可以长期保持活跃。会议行业服务质量方面会直接导致行业服务质量。有时候学者的流失是学者自己或者运营商出现了不合法操作,违反服务协议,从而出现对学者出现终止或者学者自动终止服务的行为是学者流失的广泛说法。也有可能出现这种行为的原因和常见的现象是因为学者对运营商的服务不满意或者其他运营商有更加优惠的策略。当下, 中国会议用户和人口数量保持一致,使用会议跟踪系统的人数已经达到2.9亿,根据市场出现了逐渐饱和是日趋激烈的竞争,会议用户不会使用更加昂贵的价格来使用服务,在会议学术方面出现很大的竞争,开发市场有不足的市场,市场也出现被抢走的现象。文中使用大数据开发框架和方法,使用会议最近数据,对减少学者流失、预期会议用户使用的周期,也是会议行业会议学术等发展的重中之重
构造分析样本
对分析数据进行选取,分析预测情况,分析样本数据:
1)针对业务使用会议用户的活跃程度,统计14天之后的使用情况;
2)对数据分析进行曲线分析,特别是根据14天不使用的账号和14天使用频率极高的会议用户抽取为活跃会议用户,并打上标签,方便后续使用;
3)通过曲线,样本账号是观察在8周之前的行为数据,按照每个周的频率进行统计,同时加入包括数据图像的特征属性。
关于模型待选变量的选择标准主要从四个方面加以考虑:
. 变量的预测能力
. 变量的稳定性
. 变量与业务的趋势一致性
. 变量间的相关性
1) 变量的预测能力
在预测方面的能力的大小,选择合适的计算信息值的IV(Information Value)来量度。IV值可以体现两方面:预测变量和判断分组数据的依据。
IV的定义和熵(平均信息量)的定义很相似:
IV = ∑((p_non-eventattribute – p_eventattribute) * woeattribute)
一般情况下,使用支持向量机的分析有以下情况:
本文采用分析数据方法和scipy框架对数据进行分析,最终用 pillow 库来实现交互界面。在做设计的过程中,了解了很多大数据分析方法,锻炼了自主学习的能力,使用最新的知识对数据进行分析,更好的将数据分析应用到实际应用中去。文章对数据移动会议用户进行流失情况的分析,得出影响会议用户使用的多种因素。使用第三方库抽取会议跟踪数据,本文使用的是会议移动设备,对会议用户的使用属性和行为数据进行分析挖掘,建立预测会议用户模型。
目 录
第一章 绪 论 1
第二章 预测模型构建 4
第三章 预测模型构建 5
3.1业务理解 5
3.1.1业务现状 5
3.1.2问题定义 5
3.2 流失行为 6
3.2.1. 会议用户流失行为定义 6
3.2.2 滚动使用分析 6
3.3 构造分析样本 7
3.4. 检验数据质量 8
第四章 建模分析 9
4.1. django的选择 9
4.2. 抽样与过抽样 9
4.3. 数据探索与修改 9
4.3.1. 变量离散化 10
4.3.2. WOE(Weights of Evidence)值计算: 10
4.3.3. 变量选择 10
4.4. 建模 12
第五章 模型评价 13
1) 是否达到符合应用要求的准确性水平 13
2) 是否具有较高的稳定性 13
3) 是否简单 13
4) 是否有意义 13
第六章 模型应用 14
1) 用未举办的会议的重要因素 14
2) 用会议历史数据分析可能性 15
3)优化研究方向 15
第七章 结语 15
致谢 17
参考文献 18