【Hadoop+Spark+python毕设】强迫症特征与影响因素数据分析系统、计算机毕业设计、包括数据爬取、数据分析

2026-02-08 10:06:08

本系统是一个基于Hadoop+Spark+Python技术栈构建的强迫症特征与影响因素数据分析系统，旨在利用大数据处理技术对心理健康领域的问卷数据进行深度挖掘。系统整体架构依托于Hadoop分布式文件系统（HDFS）进行海量数据的可靠存储，并运用Spark计算引擎实现高效的数据清洗、转换与分析。后端采用Python语言，利用其丰富的数据科学库（如Pandas、NumPy）与Spark进行交互，处理包含33个字段的强迫症问卷数据集。系统的核心功能涵盖了全面的数据预处理流程，包括对缺失值、异常值及不一致数据的智能修正；多维度的人口学特征分析，如探究年龄、性别、教育水平与强迫症严重程度的关系；深入的临床特征分析，揭示每日仪式时长、痛苦程度与病情的内在关联；以及基于K-Means算法的核心症状聚类分析，用以识别不同的患者亚群并描绘其独特画像。最终，系统将所有分析结果结构化地输出，为理解强迫症的复杂模式提供数据驱动的洞察和决策支持。

基于大数据的强迫症特征与影响因素数据分析系统-技术介绍

大数据框架：Hadoop+Spark（本次没用Hive，支持定制）

开发语言：Python+Java（两个版本都支持）

后端框架：Django+Spring Boot(Spring+SpringMVC+Mybatis)（两个版本都支持）

前端：Vue+ElementUI+Echarts+HTML+CSS+JavaScript+jQuery

详细技术点：Hadoop、HDFS、Spark、Spark SQL、Pandas、NumPy

数据库：MySQL

基于大数据的强迫症特征与影响因素数据分析系统-背景与意义

选题背景

强迫症作为一种常见的精神障碍，其复杂的临床表现和对患者生活质量造成的显著影响，一直是心理健康领域关注的重点。传统的临床研究往往受限于样本量较小、数据收集周期长等因素，难以全面揭示强迫症在不同人群中的特征分布及其背后多样的影响因素。随着信息技术的飞速发展，大规模问卷调查数据的获取变得更为便捷，这为从宏观视角研究强迫症提供了新的契机。然而，如何有效处理和分析这些规模庞大、结构复杂且可能存在大量缺失与噪声的数据，成为了一个新的技术挑战。因此，将大数据技术引入到强迫症的研究中，通过构建一个自动化的数据分析系统来处理和分析大规模临床数据，不仅能够弥补传统研究方法的不足，也为深入、客观地理解强迫症的群体特征与潜在规律开辟了一条切实可行的技术路径。

选题意义

本课题的意义在于将计算机领域的大数据技术应用于心理健康数据分析的具体实践中，探索了一套从数据采集、清洗到多维度分析再到聚类挖掘的完整技术流程。从学术研究的角度看，这个系统能够帮助研究者快速处理和分析大规模的强迫症问卷数据，通过聚类分析发现潜在的患者亚型，为后续的精细化诊断和干预策略提供数据参考。虽然这只是一个毕业设计项目，但它构建的分析框架能够为相关研究者提供一个处理类似临床数据的参考思路，具有一定的方法论价值。对于计算机专业的学生而言，完成这样一个项目本身就是一次宝贵的跨学科实践锻炼，它不仅检验了对Hadoop、Spark等大数据核心技术的掌握程度，也锻炼了运用技术解决实际领域问题的能力，充分体现了现代信息技术在社会人文科学中的应用潜力与价值。

基于大数据的强迫症特征与影响因素数据分析系统-视频展示

基于大数据的强迫症特征与影响因素数据分析系统-视频展示

基于大数据的强迫症特征与影响因素数据分析系统-图片展示

基于大数据的强迫症特征与影响因素数据分析系统-代码展示

from pyspark.sql import SparkSessionfrom pyspark.sql.functions import col, mean, when, isnan, isnull, round, avgfrom pyspark.ml.feature import VectorAssemblerfrom pyspark.ml.clustering import KMeansspark = SparkSession.builder.appName("OCD_Analysis_System").getOrCreate()# 核心功能1: 数据预处理与清洗def preprocess_data(df):    # 处理年龄异常值99，将其转为None以便后续填充    df = df.withColumn("age", when(col("age") == 99, None).otherwise(col("age")))    # 计算数值列的平均值用于填充缺失值    age_mean = df.select(mean(col('age'))).collect()[0][0]    distress_mean = df.select(mean(col('distress_level_0_10'))).collect()[0][0]    impairment_mean = df.select(mean(col('impairment_work_school_0_10'))).collect()[0][0]    onset_age_mean = df.select(mean(col('ocd_onset_age'))).collect()[0][0]    # 填充数值型缺失值    df = df.fillna({'age': age_mean, 'distress_level_0_10': distress_mean, 'impairment_work_school_0_10': impairment_mean, 'ocd_onset_age': onset_age_mean})    # 填充分类型缺失值    df = df.fillna({'gender': '未知', 'education': '未知', 'prior_diagnosis': '未知', 'treatment_status': '未知'})    # 重新计算ocd_total_score    symptom_cols = [f'C{i}' for i in range(1, 6)] + [f'CH{i}' for i in range(1, 6)] + [f'S{i}' for i in range(1, 6)] + [f'IT{i}' for i in range(1, 6)]    # 填充症状评分内部的缺失值    for sc_col in symptom_cols:        sc_mean = df.select(mean(col(sc_col))).collect()[0][0]        df = df.fillna({sc_col: sc_mean})    # 使用填充后的分项计算总分    df = df.withColumn("ocd_total_score_calculated", sum(col(c) for c in symptom_cols))    # 用计算出的总分填充原始的缺失总分    df = df.withColumn("ocd_total_score", when(col("ocd_total_score").isNull(), col("ocd_total_score_calculated")).otherwise(col("ocd_total_score")))    # 移除辅助列    df = df.drop("ocd_total_score_calculated")    # 移除完全为空的行    df = df.na.drop(how="all")    return df# 核心功能2: 人口学特征与严重程度交叉分析def analyze_demographics_severity(df):    # 分析不同性别下的平均年龄和严重程度分布    gender_severity_analysis = df.groupBy("gender", "ocd_severity").agg(        round(avg("age"), 2).alias("平均年龄"),        round(avg("distress_level_0_10"), 2).alias("平均痛苦程度"),        round(avg("impairment_work_school_0_10"), 2).alias("平均功能受损程度")    ).orderBy("gender", "ocd_severity")    # 分析不同教育水平下的平均发病年龄和严重程度分布    edu_severity_analysis = df.groupBy("education", "ocd_severity").agg(        round(avg("ocd_onset_age"), 2).alias("平均发病年龄"),        round(avg("hours_rituals_per_day"), 2).alias("平均每日仪式时长")    ).orderBy("education", "ocd_severity")    # 将两个分析结果union起来（实际应用中可能分开保存）    # 这里仅作为示例，展示一个函数内可以包含多个业务逻辑    return gender_severity_analysis, edu_severity_analysis# 核心功能3: 基于核心症状的患者聚类分析def cluster_patients_by_symptoms(df, k=3):    # 选择用于聚类的核心症状维度列    symptom_cols = [f'C{i}' for i in range(1, 6)] + [f'CH{i}' for i in range(1, 6)] + [f'S{i}' for i in range(1, 6)] + [f'IT{i}' for i in range(1, 6)]    # 使用VectorAssembler将特征列合并为一个特征向量    assembler = VectorAssembler(inputCols=symptom_cols, outputCol="features")    df_with_features = assembler.transform(df)    # 初始化K-Means模型    kmeans = KMeans(featuresCol="features", predictionCol="cluster", k=k, seed=42)    # 训练模型    model = kmeans.fit(df_with_features)    # 进行聚类预测    clustered_df = model.transform(df_with_features)    # 为聚类结果添加中文说明，便于理解    # 这里简化处理，实际应根据聚类中心特征来命名    cluster_mapping = {0: "簇群0：混合症状型", 1: "簇群1：检查行为主导型", 2: "簇群2：侵入性思维主导型"}    from pyspark.sql.functions import lit, create_map    mapping_expr = create_map([lit(x) for x in sum(cluster_mapping.items(), ())])    clustered_df = clustered_df.withColumn("cluster_description", mapping_expr.getItem(col("cluster")))    # 返回包含聚类标签和描述的DataFrame    return clustered_df.select("respondent_id", "age", "gender", "ocd_severity", "cluster", "cluster_description")