巴西 Olist 电商全链路数据洞察:从底层清洗、NLP 评价归因到供应链 SLA 监控
项目背景:在真实的拉美电商市场中,复杂的地形、高昂的物流成本以及极度依赖分期的消费习惯,构成了独特的商业生态。本项目基于巴西头部电商平台 Olist 的真实业务数据集(涵盖 10 万+ 订单与三十多万条明细),完全通过 Python 进行底层数仓清洗与 NLP 文本降维,利用 MySQL 搭建多维业务宽表(DWD/DWS),最终产出针对供应链 SLA、运费经济学与用户体验(CX)的商业洞察体系。 🛒 数据来源:Kaggle - Brazilian E-Commerce Public Dataset by Olist🔗 完整源码获取:点击访问我的 GitHub 仓库获取完整 Python 与 SQL 源码 破除原始泥潭:全维度数据资产预处理 (Python 阶段)海外电商的真实数据往往夹杂着多语言编码冲突、业务逻辑断层以及系统底层的记录异常。为确保下游 MySQL 聚合与 Tableau 可视化的绝对精准,第一阶段必须构建严密的 Python 探查与清洗链路。 跨越语言与编码陷阱在读取 order_reviews (用户评价表) 时,直接引发了 UTF-8 解码崩...
北京二手房市场深度洞察:31万次交易与13万套房源的流动性及溢价分析
项目背景:作为中国最具代表性的一线城市存量房市场,北京二手房的交易活跃度与价格分布不仅是经济基本面的晴雨表,更蕴含着深刻的城市微观空间特征。本项目基于 Kaggle 链家网开源数据集,通过 Python 进行数据清洗与 EDA,结合 SQL 进行多维度聚合提炼,最终产出宏观流动性与微观资产溢价的商业洞察报告。 🛒 数据来源:Housing price in Beijing-RUIQURM🔗 完整源码获取:点击访问我的 GitHub 仓库获取完整 Python 与 SQL 源码 核心可视化成果 (Tableau Dashboard) (注:由于静态图片展示受限,如果您对动态交互看板感兴趣,请点击此处查看 Tableau Public 在线版本) 数据资产预处理与特征工程 (Python 阶段)原始数据集存在大量不规则文本、缺失值以及类型错配等数仓痛点。为保证后续 BI 看板与统计建模的绝对精准,在第一阶段构建了严密的数据清洗与特征衍生链路。 数据导入导入数据: 12345import pandas as pdimport numpy as npdf = pd.read_cs...
穿透“时空错位”的均价幻觉:基于经纬度与窗口函数的二手房绝对溢价量化实战
复盘导读:在分析北京二手房数据时,我想探究一个常识问题:“带电梯到底能让房子每平米贵多少钱?”。然而,初次 SQL 计算的结果令人大跌眼镜:没电梯的房子竟然比有电梯的更贵!是数据错了,还是常识错了?本文复盘了我是如何通过排查“时空错位”与“隐藏维度”,并结合经纬度空间计算,最终剥离出真实的资产溢价密码。 遭遇悖论:没电梯的房子凭什么更贵?起初,为了计算电梯带来的溢价,我直接用房源的 price (成交单价) 减去 communityAverage (小区均价),然后按是否有电梯进行 GROUP BY。 初版 SQL 结果出来后,我惊呆了:计算出的溢价竟然是负值,甚至无电梯的均价高于有电梯的均价! 1234567with new_biao as (select id,price,communityAverage,(price - communityAverage) as premium_per_sqm,elevator,ladderRatiofrom real_estate_db.beijing_house_saleswhere communityAverage >0 a...
拒绝暴力强转:从报错 float64 to int8 看数十万级脏数据的自动化嗅探与动态降维
复盘导读:在处理 Kaggle 链家网 30 万条北京二手房数据集时,我最初试图用一个简单的字典映射来批量转换 26 个字段的数据类型。然而,一个刺眼的报错 cannot safely cast non-equivalent float64 to int8 彻底打乱了计划。本文复盘了我是如何放弃低效的“人工查阅 CSV”,转而用 Python 构建“自动化异常扫描仪”,并实现数据类型的智能向下转型(Downcast)的全过程。 出师不利:CSV 读取时的“混合类型”陷阱刚用 pd.read_csv 载入数据,还没来得及高兴,控制台就飘来一行橙色警告: 1234import pandas as pdimport numpy as npdf = pd.read_csv('new.csv', encoding='gbk') C:...: DtypeWarning: Columns (1,11,12,14) have mixed types.Specify dtype option on import or set low_memory...
打破RFM模板陷阱:基于淘宝亿级长尾数据的阈值重构与业务分层实战
复盘导读:在数据分析的日常中,RFM 模型几乎是用户分层的“万金油”。网上绝大多数教程都会教你直接用 NTILE(5) 窗口函数进行等频分桶。但在面对真实的亿级业务数据时,生搬硬套模板往往会带来灾难性的“业务误杀”。本文将结合淘宝亿级用户行为数据,复盘我为何放弃等频分桶,转而基于长尾分布特征进行阈值重构。 一、常规分桶法 (NTILE) 的优势与盲区在没有强业务标准前,做 RFM 模型先用 NTILE(5) 分桶拿到客观画像,是大多数分析师的默认选择。 分桶法的优点显而易见: 客观性:让数据自己说话,避免拍脑袋自定义阈值(比如主观判定“R ≤ 30 天算高”在不同业务期可能并不准确)。 自适应:能跟着业务节奏自动调整,客户行为会随时间整体偏移。 分层均匀:每一层都有足够的分析样本,避免出现某一档人数极少导致统计不稳定。 可复用性强:只需一行 SQL 即可跨品类、跨行业通用。 常规分桶的 SQL 实现示例: 123456789101112131415161718192021222324252627282930WITH new_biao AS ( SELECT ...
淘宝电商用户行为数据分析
项目导读:本项目基于亿级电商真实用户行为数据,还原真实业务场景下的底层逻辑。从放弃 MySQL 转向 ClickHouse 搭建明细数据层 (DWD) 开始,通过漏斗分析、时间序列、RFM模型、同期群分析及用户路径追踪等 9 大步骤,最终输出可落地的精细化运营与增长策略。 🛒 数据来源:阿里天池实验室 - 淘宝电商用户行为数据集 (User Behavior Data)⚠️ 合规声明:本项目使用之数据仅用于个人数据分析技能展示与技术交流,已进行脱敏处理,底层数据版权归属阿里巴巴天池实验室所有。 核心可视化成果 (Tableau Dashboard)下面是我基于清洗后的数据,使用 Tableau 制作的全局交互式数据大屏,涵盖了流量热力图、漏斗转化、RFM 树状图及商品气泡图等核心业务指标。 (注:由于静态图片展示受限,如果您对动态交互看板感兴趣,请点击此处查看 Tableau Public 在线版本) 数据处理与深度业务分析数据清洗与底层数仓建设 (ODS 到 DWD)由于数据规模高达上亿条,传统 MySQL (OLTP) 导入查询过慢,本项目采用 ClickHouse...
