|
Post by account_disabled on Nov 27, 2023 1:46:17 GMT -5
Web 使用挖掘是一种从大型数据集中识别或发现有趣的使用模式的技术。这些模式使得理解用户行为或类似的事情成为可能。Web 挖掘是提取重要且有用的模式,但隐式存储在万维网服务上相对较大的数据集中。在网络挖掘中,用户访问网络上的数据并以日志的形式收集数据。所以,网络挖掘也称为日志挖掘。 网络使用挖掘的阶段 实施网络使用挖掘以获取信息源有3个阶段/阶段:网络挖掘中使用了多种类型的技术,即网络内容挖掘、网络结构挖掘和网络使用挖掘。 预处理阶段 该预处理 阶段是启动网络使用挖掘整个过程的初始阶段。这个阶段对于进行数据标准化、剔除挖掘过程中不需要的部分数据非常重要。这个预处理阶段又分为几个阶段,即: 数据清理,该阶段的作用是使用挖掘过程从数据中清理不相关的日志文件,例如多媒体数据以及CSS 和 Javascript脚本。 用户识别,即充当用户识别过程的阶段。实际上,多个用户可以使用同一台计算机(主机)。 会话识别是用户访问页面后开始的阶段,也必须将其划分为某些会话,以便为每个访问该页面的用户创建一个会话。 路径完成,即完成可能不完整的路径的阶段,因为它存储在日志文件中。 交易识别,即识别一定数量的会话以显示用户所进行的交易过程的阶段。 模式发现阶段 Web 使用挖掘 的第二阶段是搜索应用程序用户的访问模式。这个阶段是最重要的阶段,真正决定了网络使用挖掘过程的输出。这个阶段也有几种算法和技术,即 Statistical Analysis(统计分析),这是最广泛使用 工作职能邮件数据库 的从用户访问模式中获取信息或知识的技术。统计分析可以以各种分析形式呈现,其中各种变量成为分析参数。可以生成的分析示例是从每天的访问时间看出的用户访问模式。 关联规则,一种可应用于Web 使用挖掘的技术,以网页访问模式的形式生成输出示例。从这个模式中,可以看出哪些页面总是被用户同时访问。这可以用作设计或重新排列网页以使其更有效的基础。 聚类,是一种根据物理和抽象对象的相似性将其分组为某些类的过程形式的技术。与网络使用挖掘相关,聚类技术通常用于根据访问模式和人口统计的相似性来确定电子商务网站访问者的市场细分。 分类,即基于先前定义的类进行分组过程形式的技术。分类分为两个部分,即根据预定类别构建模型的过程和应用模型对一组数据进行分类的过程。 顺序模式,这是一种用于分析用户访问网页的顺序模式的技术。用户访问模式序列的趋势可用于预测未来趋势或调节菜单放置。 依赖性建模,这是一种尝试查找网络上一个变量与另一个变量之间的依赖性的技术。这对于预测未来模式很有用。 模式分析阶段 第三阶段是网络使用挖掘的最后阶段。在此阶段,将执行上一步中已执行的模式分析结果的可视化过程。数据的呈现在此步骤中很重要,具体取决于用户和业务需求。根据此可视化的结果,可以做出决策(操作),例如决定更改网站的外观、优化网站导航、通过缓存某些经常访问的页面来提高网站的功能。
|
|