通常一个公司的业务,无论是最近热门的大模型,还是传统的数据分析、数据治理。都需要涉及到数据采集,数据驱动整个业务流程。Python,少儿编程语言,简单易上手,国外电影里面的程序员,多是python语言,人生苦短,快用Python。https://blog.junxu666.top/p/7624.html
https://www.runoob.com/python3/python3-install.html
数据采集,通常会涉及些常见的文件格式:txt,csv,excel等,也可以是数据库文件,脚本sqlite.db 等;而python非常适合处理这些数据。比如:pandas。这个没有入门和精通的说法,可以作为一个工具,开箱即用。不用特意系统的学习。pandas入门教程
https://www.runoob.com/pandas/pandas-dataframe.html
https://zhuanlan.zhihu.com/p/150411236
现在有很多的大模型数据处理工具:比如,ChatExcel,可以直接自然语言来处理数据,不过大批量的企业使用,还是需要开发python辅助脚本,倒也不存在技术困难。Python采集数据库或者工业上通常使用Mqtt消息中间件。在没有大模型的时候,学习遇到问题都是baidu或者google搜索,其实还是挺麻烦的。现在有了大模型的辅助,这些上手基本都没有什么曲折。pymysql.connect(host=self.url, user=self.username, password=self.password, database=self.databaseName)
显而易见的,知识的宽度比深度更重要,大模型负责深度。https://www.zhihu.com/question/24590883/answer/1220720307
https://github.com/wonderfulsuccess/weixin_crawler
采集到的数据做什么?
采集数据是业务流程的一部分,比如工业上面,就是需要传感器的数据,来进行监测,分析,然后预测,管理工业生产过程的。异步的数据分析,比如:电商的评论,用户的浏览,点赞,收藏行为。首要是保证用户的功能使用,不能用户评论不了,无法点赞了。“异步”的采集用户的数据,偷偷的分析用户的“喜好、情感”。前提就是数据采集的质量,业务需要评判采集的数据质量,以及数据的“修复”,比如:缺失数据的处理等。采集到的数据,通常需要做一些数据校验,比如:一些数据源可能人为的输入错误等。一些有业务含义的数据,范围校验,缺失怎么处理。取近几条的平均值,采集数据的单位换算,重复等。数据采集的一些通用业务规范:比如:完整性的案例,滴滴司机的坐标点数据,5秒采集一次,正常24小时,应该是:24*60*12条数据。根据采集数量来预算司机的位置,工作时长等,采集错误,可能对司机的评判出现问题。校验的程序也很重要,通常需要编写脚本,自动化的审查采集数据质量。或者通常有大数据平台来进行“数据治理”。数据分析的目的是挖掘和实现业务价值,通常需要更懂业务,贴近业务。在网络看到一个挺好的比喻:数据分析的业务目的是,帮助我们“追女孩”。白话数据概念 - 追女孩
每个女孩有单独文件夹(元数据),里面有姓名生日(数据元 - 数据单元)等数据挖掘会帮助你确定追哪个女孩,并且整理好套路给你用为了方便记忆,把不同朋友推荐的女孩信息和成一个 - 数据集成有些女孩给你的体重信息是斤有些是公斤 - 数据变换具体的案例
- 司机的车速信息,司机的轨迹信息,有没有按照系统设定的路线驾驶。
- 位置的中断,那司机在这个时间点休息了多长时间,是不是偷懒了。这个司机喜欢在那个地方吃饭?
从这些继续推算什么?司机的评级,司机的保险,司机的一些其他需求?精准司机的画像,更好的压榨司机,平台拿捏的死死的,科技向善。对于电商网站,从用户的浏览,下单的这种“漏斗型”转化率,看到,到底是哪个环节的业务需要优化。看着很厉害,实际上,大白话说一下,大家也都是知道,这个就是工作需要,好看一些,促进业务分析。 但是,为什么转化率低,自己心里没有一点B数吗? 公司大了,就喜欢掩耳盗铃,用PPT和概念,来掩盖技术的匮乏和业务的偷懒。掩耳盗铃,都觉得可笑,可工作大多数不都是在干这个。https://zhuanlan.zhihu.com/p/72757270