想不到有生之年开始学习R语言了
3023 86
[58 楼] haiyangsea [陈年泡菜]
22-10-19 09:58
给大家汇报一些近期的成果。
首先是R不用了,麻烦效率低。
自己搞了MYSQL数据库,一般的系统日志文件就用这个搞,很方便但是也也有很多问题,主要是效率低,优化这块做了但是不彻底,很多慢查询居然要几百秒查一次。但是就一般的取数做图,这个就挺好了。
目前每天其他数据能累积个50GB左右,我自己搞了一套JAVA的小工具,凑合也可以实现基本的数据解析,也能画个图啥的,就是维度不多,还需要很多功能。
BI这块原来用POWER BI,后来发现报表需要上传到他们的服务器才能发布,本地部署又麻烦,干脆找了个开源的BI工具,自己正在研究HTML代码,很多固定的框架就能自己改了。这东西还能定时刷新数据库,写个SQL它自己帮你定时完成,挺方便的。
目前正在学HADOOP和ClickHouse这套东西,争取年底前再搞一票。
大家给的意见都很中肯,原来听着一知半解,现在差不多啥意思了,也知道自己想要什么了。
[57 楼] yejun [老坛泡菜]
21-12-20 04:28
qingcai 发表于 2021-12-20 00:43
R里面本来就内置了。 还有python有一个大杀器jupiter , numpy,panda 完全可以替代R


R也可以在jupyter里面用。
[56 楼] qingcai [资深泡菜]
21-12-20 00:43
R里面本来就内置了。 还有python有一个大杀器jupiter , numpy,panda 完全可以替代R
[55 楼] 闲聊状态 [泡菜]
21-12-20 00:23
haiyangsea 发表于 2021-12-19 20:48
我这数据非常敏感,云上服务是断然不行的,所以目前考虑的都是单机处理。
OLAP没听说过,我赶紧学学


有了数据库才能有这个 一般也是不能在生产库上直接做这个的
需要先洗一遍数据 在数据仓库上折腾这个

现在的报表系统基本上都是这种类似的玩意
各种维度拆分 一份数据分N份 方便快速查询

要方便就得要资源
然后 看那个报表系统的上限和拖拽那人的水平了

你要是打算问问国产 客服代表都挺热情的 要是愿意花钱 有个常驻的也不是难事。然后报表 他做就得了
[54 楼] haiyangsea [陈年泡菜]
21-12-19 20:48
yejun 发表于 2021-12-15 23:26
云上面的大数据平台不是很多嘛。建议楼主找OLAP架构的文章学习一下。

转一篇OLAP主流架构介绍的文章。这几年发展好快啊,好多没听说过的,
https://segmentfault·com/a/1190000040428093


我这数据非常敏感,云上服务是断然不行的,所以目前考虑的都是单机处理。
OLAP没听说过,我赶紧学学
[53 楼] 闲人最无闲 [泡菜]
21-12-17 17:31
臭手 发表于 2021-12-17 10:17
学习了。
不过数据库的功能主要并不是在增删上,以前自己鼓捣的时候感觉最麻烦的是数据的汇总和提炼,想把若干个表里的不同数据弄在一起然后再进行一番计算,再以某种形式显示出来。

多表联合查询,再加个echarts,报表漂漂亮亮的。
[52 楼] 詹士邦 [资深泡菜]
21-12-17 15:29
数据量大就直接扔到云上去。下面是兼职给我老婆做得营销数据分析。
[51 楼] 詹士邦 [资深泡菜]
21-12-17 15:02
用啥R啊,用啥python啊。大把的功能强大的可视化数据分析工具。你这点数据真的不算什么。微软的Power BI和甲骨文的Analytics Desktop了解一下。我现在都是用这两个工具做数据分析。
[50 楼] 臭手 [老坛泡菜]
21-12-17 10:17
闲人最无闲 发表于 2021-12-17 10:11
我也文科生,SQL弄清表行列关系后常用的无非是增删改查,增:INSERT INTO,删:DELETE,改:update, 查:select。再加上一些条件判断and、or等就基本上手了。一点点英语基础加逻辑能力。


学习了。
不过数据库的功能主要并不是在增删上,以前自己鼓捣的时候感觉最麻烦的是数据的汇总和提炼,想把若干个表里的不同数据弄在一起然后再进行一番计算,再以某种形式显示出来。
[49 楼] 闲人最无闲 [泡菜]
21-12-17 10:11
臭手 发表于 2021-12-12 09:07
受教了,看来还是要抽空学习一下SQL。

关系型数据库什么的多少还有点概念,但是文科生没这方面的知识,EXCEL的功能感觉有点不够用的时候就想着再研究研究,结果SQL和VB之类的看不懂只能用ACCESS凑合着用。
最头疼的就是面向对象的编程逻辑麻烦,知其然不知其所以然,某点功能想稍微的改一点点但是面对着自动生成的一大堆代码无从下手,不知道从哪里加一行能实现。

一直也想着从头系统的学习一遍,只是看别人弄数据库好像喜欢用VB而不是SQL,所以不知道哪个更合适。多谢了。

我也文科生,SQL弄清表行列关系后常用的无非是增删改查,增:INSERT INTO,删:DELETE,改:update, 查:select。再加上一些条件判断and、or等就基本上手了。一点点英语基础加逻辑能力。
[48 楼] yejun [老坛泡菜]
21-12-15 23:26
云上面的大数据平台不是很多嘛。建议楼主找OLAP架构的文章学习一下。 本帖最后由 yejun 于 2021-12-15 23:46 编辑
以下内容由 yejun 于 2021-12-16 00:35 补充
转一篇OLAP主流架构介绍的文章。这几年发展好快啊,好多没听说过的,
https://segmentfault.com/a/1190000040428093
[47 楼] 闲聊状态 [泡菜]
21-12-14 12:25
数据可视化 有了数据库以后 就比较方便了

帆软也可以啊 要求不高的筛选 拖拽就行了

自己sql echarts也很不错啊

但是 可视化是结果 不会数据加工 也不会有啥好的可视化结果
[46 楼] haiyangsea [陈年泡菜]
21-12-14 12:00
ChK 发表于 2021-12-14 08:58
一天数据有几TB的话,你需要考虑一下,这些数据 是不是都需要汇总保存?
也许,只有其中一小部分是需要放到后期做分析的,那么你前期就要把有用的部分抽出来,而不是全都放到中心库里。
如果每天真有几TB的数据,那应该是很多终端生成的,你需要分布式的结构,逐级管理,这是个大框架,按你前面的描述来看,这事显然不适合你自己一个人来做,因为你没有这方面的经验(先不说编程的事)。


这就不是我的事儿了,肯定是找个大公司总包,我们提需求。
大数据这个行业真进来才知道,能分析的都是小数据,大量的数据都被浪费了,我们是这样,估计很多大平台也差不多,浪费严重。
[45 楼] 闲聊状态 [泡菜]
21-12-14 11:47
每天的数据量上T的话 支持下国产吧

gbase 行云 达梦啥的
Hadoop 换壳 但是不适合实时数据库 只适合数据仓库(当然了 他们也有实时数据库的版本 但是我没见过)

上T了 可以外包 专门弄弄了
[44 楼] 闲聊状态 [泡菜]
21-12-14 11:20
几万条的话 随便找个东西就行了
个人觉得dbeaver+access 或者dbeaver+sqlite 都挺好的

其实 我觉得吧 R也好 Python也好 不会SQL的都是废柴

所以。。先学SQL 但是SQL与SQL也是不一样的 Oracle的sql mysql的sql postgresql的sql access的sql mssql的sql
大家都是方言 方言。。。

要想屏蔽方言 就需要使用编程语言里的数据库框架库屏蔽方言,统一说话比如 python下的sqlalchemy,但是坏处是 只能说蹩脚的垃圾话。当然 sqlalchemy+pandas 对于很多表可以不那么蹩脚,但是复杂度也是高于SQL的,毕竟SQL是比python这种更高级 更精炼的语言

数据库么 个人推荐--POSTGRESQL 好歹不用去IOE
当然了 前提是自己用,否则肯定是单位用啥 你用啥   本帖最后由 闲聊状态 于 2021-12-14 11:25 编辑
[43 楼] ChK [陈年泡菜]
21-12-14 09:07
iamanewbee5 发表于 2021-12-13 11:05
哦,我严重低估了非技术性的困难。
绝大多数时候,技术都不是最大的困难
[42 楼] ChK [陈年泡菜]
21-12-14 08:58
haiyangsea 发表于 2021-12-14 08:32
这个数据量还是悠着说,真要是全量数据,一天差不多2-3个T,甚至更多。
二期系统数据量翻几番甚至十几番,那样的话真是个大数据中心了。
一天数据有几TB的话,你需要考虑一下,这些数据 是不是都需要汇总保存?
也许,只有其中一小部分是需要放到后期做分析的,那么你前期就要把有用的部分抽出来,而不是全都放到中心库里。
如果每天真有几TB的数据,那应该是很多终端生成的,你需要分布式的结构,逐级管理,这是个大框架,按你前面的描述来看,这事显然不适合你自己一个人来做,因为你没有这方面的经验(先不说编程的事)。
[41 楼] yzdz [等待验证会员]
21-12-14 08:38
居然没人推荐powerbi?
[40 楼] haiyangsea [陈年泡菜]
21-12-14 08:32
lhy000 发表于 2021-12-13 14:24
这用我说的那两个工具倒是没啥问题。
但你后面说的每天80-100G左右,那确实吓人,一般的硬盘一块也存不下几天的数据。
access记得是单文件存储数据库,那肯定不行。


这个数据量还是悠着说,真要是全量数据,一天差不多2-3个T,甚至更多。
二期系统数据量翻几番甚至十几番,那样的话真是个大数据中心了。
[39 楼] haiyangsea [陈年泡菜]
21-12-14 08:28
海淀镇的郊外 发表于 2021-12-13 14:40
你好像有个误解,领导们要看的不是 “作假” 的数据,而是更加 “科学” 并且 “与时俱进” 的权值配比。


是是,谢谢兄弟提点
[38 楼] 海淀镇的郊外 [禁言中]
21-12-13 14:40
haiyangsea 发表于 2021-12-13 14:23
兄弟我现在是吹牛高手,什么简单做什么,什么能在领导面前卖弄就做什么,没一点真东西。
什么数据分析都没有,全都靠我编,11月的数据不齐,催了很久要不到,干脆就用10月的套。俺们那个组长敲打我说你数据造假,我说你倒是有真的,敢往上放吗?敢给领导看吗?系统运行问题太多,数字都水的不得了,怎么用怎么看?以这种东西做分析,鬼才信。
你好像有个误解,领导们要看的不是 “作假” 的数据,而是更加 “科学” 并且 “与时俱进” 的权值配比。
[37 楼] lhy000 [禁言中]
21-12-13 14:24
haiyangsea 发表于 2021-12-13 08:58
不复杂,但是数据量不小,现在每天一个EXCEL表,累计2个月就将近80MB,搞一年就很大量。
而且过几天还得翻倍,因为要加上另外一批用户的数据,量是一样的。

这用我说的那两个工具倒是没啥问题。
但你后面说的每天80-100G左右,那确实吓人,一般的硬盘一块也存不下几天的数据。
access记得是单文件存储数据库,那肯定不行。

[36 楼] haiyangsea [陈年泡菜]
21-12-13 14:23
海淀镇的郊外 发表于 2021-12-13 14:06


兄弟我现在是吹牛高手,什么简单做什么,什么能在领导面前卖弄就做什么,没一点真东西。
什么数据分析都没有,全都靠我编,11月的数据不齐,催了很久要不到,干脆就用10月的套。俺们那个组长敲打我说你数据造假,我说你倒是有真的,敢往上放吗?敢给领导看吗?系统运行问题太多,数字都水的不得了,怎么用怎么看?以这种东西做分析,鬼才信。
[35 楼] 海淀镇的郊外 [禁言中]
21-12-13 14:06
haiyangsea 发表于 2021-12-13 10:32
我现在就5个人呀,但是一个懂技术的都没有,只有我和另外一个人有积极性,剩下3个都躺平,压根不想干活,我也没法轰走人家。
所以,技术只是一方面。
[34 楼] haiyangsea [陈年泡菜]
21-12-13 13:19
iamanewbee5 发表于 2021-12-13 11:05
哦,我严重低估了非技术性的困难。


其实团队我都找好了,五六个人,他们负责数据的维护一点问题都没有。
我负责跑行业做调研,搞搞产学研一体化,一年下来不能说雄踞一方吧,混个行业专家不成问题。
[33 楼] iamanewbee5 [泡菜]
21-12-13 11:05
haiyangsea 发表于 2021-12-13 10:32
我现在就5个人呀,但是一个懂技术的都没有,只有我和另外一个人有积极性,剩下3个都躺平,压根不想干活,我也没法轰走人家。
所以,技术只是一方面。


哦,我严重低估了非技术性的困难。
[32 楼] haiyangsea [陈年泡菜]
21-12-13 10:32
iamanewbee5 发表于 2021-12-13 09:09
excel根本不是数据库,家里数据处理勉强凑合,工作不行的。Access是最低门槛。

按我说眼光要放远,上甲骨文,输入数据格式处理雇个码农,数据分析一个码农,各种报表一个码农,前台网页一个码农,你这不就是一个5人小部门的经理了?


我现在就5个人呀,但是一个懂技术的都没有,只有我和另外一个人有积极性,剩下3个都躺平,压根不想干活,我也没法轰走人家。
所以,技术只是一方面。
[31 楼] shoppo0505 [资深泡菜]
21-12-13 09:25
数据处理还是数据库快。
python容易上手,平台兼容性高,但是纯粹的数据处理,还是数据库高效。

可以python和数据库结合使用。
[30 楼] walkman222 [泡菜]
21-12-13 09:11
非结构化的数据应该用NoSQL了, MongoDB 考虑一下
[29 楼] iamanewbee5 [泡菜]
21-12-13 09:09
haiyangsea 发表于 2021-12-13 09:03
以我现在的感觉来看,SQL是必须的,搞数据不会这个基本上等于没搞。
其实对你我这种入门小白而言,学习SQL和学个ACCESS或者EXCEL时间成本差不多,也就高点有限,何不一步到位直接搞个专业的呢?
当然EXCEL必须学,因为它简单方便,大家都用。


excel根本不是数据库,家里数据处理勉强凑合,工作不行的。Access是最低门槛。

按我说眼光要放远,上甲骨文,输入数据格式处理雇个码农,数据分析一个码农,各种报表一个码农,前台网页一个码农,你这不就是一个5人小部门的经理了?