数据质量量化分析研究及应用
这是一篇关于数据质量,评价模型,指标权重,层次分析法,熵权系数法的论文, 主要内容为随着数据的爆炸性增长,由于网络和软硬件故障等因素,数据在存储时可能会有错误或者漏存等情况。这些缺失数据、错误数据可能会导致数据分析、挖掘结果的偏差,甚至造成很大的决策失误,因而数据质量问题被越来越多的专家和学者所重视。目前,学术界与业界对数据质量方面的研究已经提出了不少方法,但还是缺少定制化、面向具体领域的数据质量量化研究方法。本文的项目背景是某机构需要一个定制化、面向特定领域的数据质量量化分析评价平台。论文的主要研究内容及创新点如下:1.针对项目需求,本文基于GB/T一系列国家标准结合作者在机构的实习经验,通过研究、分析、问询相关专家意见裁剪指标,构建了一个多维度可量化的数据质量评价模型。2.本文通过研究发现,可用于数量质量评价模型中计算指标权重的方法有Delphi法、层次分析法、缺陷扣分法、云模型法和熵权法等。实际应用中一般使用其中的某种方法,这种单一策略可能会导致权重的主观性过强。针对此类问题,本文融合了Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,这样一方面弥补了单一方法计算权重的主观性,另一方面应用基于信息熵的熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使得权重进一步客观准确。另外针对层次分析法的判断矩阵经计算不满足一致性,需重新构造判断矩阵,导致成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免该问题发生。3.本文在前述构建评价模型、改进指标权重确定方法的基础上,设计并开发了一个B/S架构的多模块数据质量评价系统,并对系统进行了优化。为了降低系统的耦合性,系统采用了前后端分离的架构,前端使用Vue框架,后端使用Spring Boot框架。为了解决浏览器同源策略的问题,系统采用Nginx反向代理来实现跨域访问。针对多个指标同时计算时,单线程执行效率低下、CPU利用率低、多线程创建和销毁耗时的问题,系统采用线程池技术实现并行高效计算。另外系统搭建了Zookeeper集群来管理和协调Kafka集群,实现了将评分计算与邮件发送解耦,并且使得系统具有HA的特性。4.本文使用系统对电商领域的数据集进行了数据质量综合评价分析,将评价过程与结果通过ECharts进行数据可视化展示,同时生成了详细的数据质量评价报告并结合Thymeleaf以邮件的方式发送给测评人员。验证了所构建的数据质量量化评价框架、模型及其相应系统的可用性和高效性,可以满足企业的实际需求。
数据质量量化分析研究及应用
这是一篇关于数据质量,评价模型,指标权重,层次分析法,熵权系数法的论文, 主要内容为随着数据的爆炸性增长,由于网络和软硬件故障等因素,数据在存储时可能会有错误或者漏存等情况。这些缺失数据、错误数据可能会导致数据分析、挖掘结果的偏差,甚至造成很大的决策失误,因而数据质量问题被越来越多的专家和学者所重视。目前,学术界与业界对数据质量方面的研究已经提出了不少方法,但还是缺少定制化、面向具体领域的数据质量量化研究方法。本文的项目背景是某机构需要一个定制化、面向特定领域的数据质量量化分析评价平台。论文的主要研究内容及创新点如下:1.针对项目需求,本文基于GB/T一系列国家标准结合作者在机构的实习经验,通过研究、分析、问询相关专家意见裁剪指标,构建了一个多维度可量化的数据质量评价模型。2.本文通过研究发现,可用于数量质量评价模型中计算指标权重的方法有Delphi法、层次分析法、缺陷扣分法、云模型法和熵权法等。实际应用中一般使用其中的某种方法,这种单一策略可能会导致权重的主观性过强。针对此类问题,本文融合了Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,这样一方面弥补了单一方法计算权重的主观性,另一方面应用基于信息熵的熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使得权重进一步客观准确。另外针对层次分析法的判断矩阵经计算不满足一致性,需重新构造判断矩阵,导致成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免该问题发生。3.本文在前述构建评价模型、改进指标权重确定方法的基础上,设计并开发了一个B/S架构的多模块数据质量评价系统,并对系统进行了优化。为了降低系统的耦合性,系统采用了前后端分离的架构,前端使用Vue框架,后端使用Spring Boot框架。为了解决浏览器同源策略的问题,系统采用Nginx反向代理来实现跨域访问。针对多个指标同时计算时,单线程执行效率低下、CPU利用率低、多线程创建和销毁耗时的问题,系统采用线程池技术实现并行高效计算。另外系统搭建了Zookeeper集群来管理和协调Kafka集群,实现了将评分计算与邮件发送解耦,并且使得系统具有HA的特性。4.本文使用系统对电商领域的数据集进行了数据质量综合评价分析,将评价过程与结果通过ECharts进行数据可视化展示,同时生成了详细的数据质量评价报告并结合Thymeleaf以邮件的方式发送给测评人员。验证了所构建的数据质量量化评价框架、模型及其相应系统的可用性和高效性,可以满足企业的实际需求。
数据质量量化分析研究及应用
这是一篇关于数据质量,评价模型,指标权重,层次分析法,熵权系数法的论文, 主要内容为随着数据的爆炸性增长,由于网络和软硬件故障等因素,数据在存储时可能会有错误或者漏存等情况。这些缺失数据、错误数据可能会导致数据分析、挖掘结果的偏差,甚至造成很大的决策失误,因而数据质量问题被越来越多的专家和学者所重视。目前,学术界与业界对数据质量方面的研究已经提出了不少方法,但还是缺少定制化、面向具体领域的数据质量量化研究方法。本文的项目背景是某机构需要一个定制化、面向特定领域的数据质量量化分析评价平台。论文的主要研究内容及创新点如下:1.针对项目需求,本文基于GB/T一系列国家标准结合作者在机构的实习经验,通过研究、分析、问询相关专家意见裁剪指标,构建了一个多维度可量化的数据质量评价模型。2.本文通过研究发现,可用于数量质量评价模型中计算指标权重的方法有Delphi法、层次分析法、缺陷扣分法、云模型法和熵权法等。实际应用中一般使用其中的某种方法,这种单一策略可能会导致权重的主观性过强。针对此类问题,本文融合了Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,这样一方面弥补了单一方法计算权重的主观性,另一方面应用基于信息熵的熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使得权重进一步客观准确。另外针对层次分析法的判断矩阵经计算不满足一致性,需重新构造判断矩阵,导致成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免该问题发生。3.本文在前述构建评价模型、改进指标权重确定方法的基础上,设计并开发了一个B/S架构的多模块数据质量评价系统,并对系统进行了优化。为了降低系统的耦合性,系统采用了前后端分离的架构,前端使用Vue框架,后端使用Spring Boot框架。为了解决浏览器同源策略的问题,系统采用Nginx反向代理来实现跨域访问。针对多个指标同时计算时,单线程执行效率低下、CPU利用率低、多线程创建和销毁耗时的问题,系统采用线程池技术实现并行高效计算。另外系统搭建了Zookeeper集群来管理和协调Kafka集群,实现了将评分计算与邮件发送解耦,并且使得系统具有HA的特性。4.本文使用系统对电商领域的数据集进行了数据质量综合评价分析,将评价过程与结果通过ECharts进行数据可视化展示,同时生成了详细的数据质量评价报告并结合Thymeleaf以邮件的方式发送给测评人员。验证了所构建的数据质量量化评价框架、模型及其相应系统的可用性和高效性,可以满足企业的实际需求。
数据质量量化分析研究及应用
这是一篇关于数据质量,评价模型,指标权重,层次分析法,熵权系数法的论文, 主要内容为随着数据的爆炸性增长,由于网络和软硬件故障等因素,数据在存储时可能会有错误或者漏存等情况。这些缺失数据、错误数据可能会导致数据分析、挖掘结果的偏差,甚至造成很大的决策失误,因而数据质量问题被越来越多的专家和学者所重视。目前,学术界与业界对数据质量方面的研究已经提出了不少方法,但还是缺少定制化、面向具体领域的数据质量量化研究方法。本文的项目背景是某机构需要一个定制化、面向特定领域的数据质量量化分析评价平台。论文的主要研究内容及创新点如下:1.针对项目需求,本文基于GB/T一系列国家标准结合作者在机构的实习经验,通过研究、分析、问询相关专家意见裁剪指标,构建了一个多维度可量化的数据质量评价模型。2.本文通过研究发现,可用于数量质量评价模型中计算指标权重的方法有Delphi法、层次分析法、缺陷扣分法、云模型法和熵权法等。实际应用中一般使用其中的某种方法,这种单一策略可能会导致权重的主观性过强。针对此类问题,本文融合了Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,这样一方面弥补了单一方法计算权重的主观性,另一方面应用基于信息熵的熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使得权重进一步客观准确。另外针对层次分析法的判断矩阵经计算不满足一致性,需重新构造判断矩阵,导致成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免该问题发生。3.本文在前述构建评价模型、改进指标权重确定方法的基础上,设计并开发了一个B/S架构的多模块数据质量评价系统,并对系统进行了优化。为了降低系统的耦合性,系统采用了前后端分离的架构,前端使用Vue框架,后端使用Spring Boot框架。为了解决浏览器同源策略的问题,系统采用Nginx反向代理来实现跨域访问。针对多个指标同时计算时,单线程执行效率低下、CPU利用率低、多线程创建和销毁耗时的问题,系统采用线程池技术实现并行高效计算。另外系统搭建了Zookeeper集群来管理和协调Kafka集群,实现了将评分计算与邮件发送解耦,并且使得系统具有HA的特性。4.本文使用系统对电商领域的数据集进行了数据质量综合评价分析,将评价过程与结果通过ECharts进行数据可视化展示,同时生成了详细的数据质量评价报告并结合Thymeleaf以邮件的方式发送给测评人员。验证了所构建的数据质量量化评价框架、模型及其相应系统的可用性和高效性,可以满足企业的实际需求。
数据质量量化分析研究及应用
这是一篇关于数据质量,评价模型,指标权重,层次分析法,熵权系数法的论文, 主要内容为随着数据的爆炸性增长,由于网络和软硬件故障等因素,数据在存储时可能会有错误或者漏存等情况。这些缺失数据、错误数据可能会导致数据分析、挖掘结果的偏差,甚至造成很大的决策失误,因而数据质量问题被越来越多的专家和学者所重视。目前,学术界与业界对数据质量方面的研究已经提出了不少方法,但还是缺少定制化、面向具体领域的数据质量量化研究方法。本文的项目背景是某机构需要一个定制化、面向特定领域的数据质量量化分析评价平台。论文的主要研究内容及创新点如下:1.针对项目需求,本文基于GB/T一系列国家标准结合作者在机构的实习经验,通过研究、分析、问询相关专家意见裁剪指标,构建了一个多维度可量化的数据质量评价模型。2.本文通过研究发现,可用于数量质量评价模型中计算指标权重的方法有Delphi法、层次分析法、缺陷扣分法、云模型法和熵权法等。实际应用中一般使用其中的某种方法,这种单一策略可能会导致权重的主观性过强。针对此类问题,本文融合了Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,这样一方面弥补了单一方法计算权重的主观性,另一方面应用基于信息熵的熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使得权重进一步客观准确。另外针对层次分析法的判断矩阵经计算不满足一致性,需重新构造判断矩阵,导致成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免该问题发生。3.本文在前述构建评价模型、改进指标权重确定方法的基础上,设计并开发了一个B/S架构的多模块数据质量评价系统,并对系统进行了优化。为了降低系统的耦合性,系统采用了前后端分离的架构,前端使用Vue框架,后端使用Spring Boot框架。为了解决浏览器同源策略的问题,系统采用Nginx反向代理来实现跨域访问。针对多个指标同时计算时,单线程执行效率低下、CPU利用率低、多线程创建和销毁耗时的问题,系统采用线程池技术实现并行高效计算。另外系统搭建了Zookeeper集群来管理和协调Kafka集群,实现了将评分计算与邮件发送解耦,并且使得系统具有HA的特性。4.本文使用系统对电商领域的数据集进行了数据质量综合评价分析,将评价过程与结果通过ECharts进行数据可视化展示,同时生成了详细的数据质量评价报告并结合Thymeleaf以邮件的方式发送给测评人员。验证了所构建的数据质量量化评价框架、模型及其相应系统的可用性和高效性,可以满足企业的实际需求。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://bishedaima.com/lunwen/52841.html