想不到有生之年开始学习R语言了
3023
86
|
[58 楼] haiyangsea
[陈年泡菜]
22-10-19 09:58
给大家汇报一些近期的成果。
首先是R不用了,麻烦效率低。 自己搞了MYSQL数据库,一般的系统日志文件就用这个搞,很方便但是也也有很多问题,主要是效率低,优化这块做了但是不彻底,很多慢查询居然要几百秒查一次。但是就一般的取数做图,这个就挺好了。 目前每天其他数据能累积个50GB左右,我自己搞了一套JAVA的小工具,凑合也可以实现基本的数据解析,也能画个图啥的,就是维度不多,还需要很多功能。 BI这块原来用POWER BI,后来发现报表需要上传到他们的服务器才能发布,本地部署又麻烦,干脆找了个开源的BI工具,自己正在研究HTML代码,很多固定的框架就能自己改了。这东西还能定时刷新数据库,写个SQL它自己帮你定时完成,挺方便的。 目前正在学HADOOP和ClickHouse这套东西,争取年底前再搞一票。 大家给的意见都很中肯,原来听着一知半解,现在差不多啥意思了,也知道自己想要什么了。 |
|
[57 楼] yejun
[老坛泡菜]
21-12-20 04:28
qingcai 发表于 2021-12-20 00:43 R也可以在jupyter里面用。 |
|
[56 楼] qingcai
[资深泡菜]
21-12-20 00:43
R里面本来就内置了。 还有python有一个大杀器jupiter , numpy,panda 完全可以替代R
|
|
[55 楼] 闲聊状态
[泡菜]
21-12-20 00:23
haiyangsea 发表于 2021-12-19 20:48 有了数据库才能有这个 一般也是不能在生产库上直接做这个的 需要先洗一遍数据 在数据仓库上折腾这个 现在的报表系统基本上都是这种类似的玩意 各种维度拆分 一份数据分N份 方便快速查询 要方便就得要资源 然后 看那个报表系统的上限和拖拽那人的水平了 你要是打算问问国产 客服代表都挺热情的 要是愿意花钱 有个常驻的也不是难事。然后报表 他做就得了 |
|
[54 楼] haiyangsea
[陈年泡菜]
21-12-19 20:48
yejun 发表于 2021-12-15 23:26 我这数据非常敏感,云上服务是断然不行的,所以目前考虑的都是单机处理。 OLAP没听说过,我赶紧学学 |
|
[53 楼] 闲人最无闲
[泡菜]
21-12-17 17:31
臭手 发表于 2021-12-17 10:17 多表联合查询,再加个echarts,报表漂漂亮亮的。 |
|
[52 楼] 詹士邦
[资深泡菜]
21-12-17 15:29
数据量大就直接扔到云上去。下面是兼职给我老婆做得营销数据分析。
|
|
[51 楼] 詹士邦
[资深泡菜]
21-12-17 15:02
用啥R啊,用啥python啊。大把的功能强大的可视化数据分析工具。你这点数据真的不算什么。微软的Power BI和甲骨文的Analytics Desktop了解一下。我现在都是用这两个工具做数据分析。
|
|
[50 楼] 臭手
[老坛泡菜]
21-12-17 10:17
闲人最无闲 发表于 2021-12-17 10:11 学习了。 不过数据库的功能主要并不是在增删上,以前自己鼓捣的时候感觉最麻烦的是数据的汇总和提炼,想把若干个表里的不同数据弄在一起然后再进行一番计算,再以某种形式显示出来。 |
|
[49 楼] 闲人最无闲
[泡菜]
21-12-17 10:11
臭手 发表于 2021-12-12 09:07 我也文科生,SQL弄清表行列关系后常用的无非是增删改查,增:INSERT INTO,删:DELETE,改:update, 查:select。再加上一些条件判断and、or等就基本上手了。一点点英语基础加逻辑能力。 |
|
[48 楼] yejun
[老坛泡菜]
21-12-15 23:26
云上面的大数据平台不是很多嘛。建议楼主找OLAP架构的文章学习一下。 本帖最后由 yejun 于 2021-12-15 23:46 编辑
以下内容由 yejun 于 2021-12-16 00:35 补充 转一篇OLAP主流架构介绍的文章。这几年发展好快啊,好多没听说过的, https://segmentfault.com/a/1190000040428093 |
|
[47 楼] 闲聊状态
[泡菜]
21-12-14 12:25
数据可视化 有了数据库以后 就比较方便了
帆软也可以啊 要求不高的筛选 拖拽就行了 自己sql echarts也很不错啊 但是 可视化是结果 不会数据加工 也不会有啥好的可视化结果 |
|
[46 楼] haiyangsea
[陈年泡菜]
21-12-14 12:00
ChK 发表于 2021-12-14 08:58 这就不是我的事儿了,肯定是找个大公司总包,我们提需求。 大数据这个行业真进来才知道,能分析的都是小数据,大量的数据都被浪费了,我们是这样,估计很多大平台也差不多,浪费严重。 |
|
[45 楼] 闲聊状态
[泡菜]
21-12-14 11:47
每天的数据量上T的话 支持下国产吧gbase 行云 达梦啥的 Hadoop 换壳 但是不适合实时数据库 只适合数据仓库(当然了 他们也有实时数据库的版本 但是我没见过) 上T了 可以外包 专门弄弄了 |
|
[44 楼] 闲聊状态
[泡菜]
21-12-14 11:20
几万条的话 随便找个东西就行了
个人觉得dbeaver+access 或者dbeaver+sqlite 都挺好的 其实 我觉得吧 R也好 Python也好 不会SQL的都是废柴 所以。。先学SQL 但是SQL与SQL也是不一样的 Oracle的sql mysql的sql postgresql的sql access的sql mssql的sql 大家都是方言 方言。。。 要想屏蔽方言 就需要使用编程语言里的数据库框架库屏蔽方言,统一说话比如 python下的sqlalchemy,但是坏处是 只能说蹩脚的垃圾话。当然 sqlalchemy+pandas 对于很多表可以不那么蹩脚,但是复杂度也是高于SQL的,毕竟SQL是比python这种更高级 更精炼的语言 数据库么 个人推荐--POSTGRESQL 好歹不用去IOE 当然了 前提是自己用,否则肯定是单位用啥 你用啥 本帖最后由 闲聊状态 于 2021-12-14 11:25 编辑 |
|
[43 楼] ChK
[陈年泡菜]
21-12-14 09:07
iamanewbee5 发表于 2021-12-13 11:05 |
|
[42 楼] ChK
[陈年泡菜]
21-12-14 08:58
haiyangsea 发表于 2021-12-14 08:32 也许,只有其中一小部分是需要放到后期做分析的,那么你前期就要把有用的部分抽出来,而不是全都放到中心库里。 如果每天真有几TB的数据,那应该是很多终端生成的,你需要分布式的结构,逐级管理,这是个大框架,按你前面的描述来看,这事显然不适合你自己一个人来做,因为你没有这方面的经验(先不说编程的事)。 |
|
[41 楼] yzdz
[等待验证会员]
21-12-14 08:38
居然没人推荐powerbi?
|
|
[40 楼] haiyangsea
[陈年泡菜]
21-12-14 08:32
lhy000 发表于 2021-12-13 14:24 这个数据量还是悠着说,真要是全量数据,一天差不多2-3个T,甚至更多。 二期系统数据量翻几番甚至十几番,那样的话真是个大数据中心了。 |
|
[39 楼] haiyangsea
[陈年泡菜]
21-12-14 08:28
海淀镇的郊外 发表于 2021-12-13 14:40 是是,谢谢兄弟提点 |
|
[38 楼] 海淀镇的郊外
[禁言中]
21-12-13 14:40
haiyangsea 发表于 2021-12-13 14:23 ![]() |
|
[37 楼] lhy000
[禁言中]
21-12-13 14:24
haiyangsea 发表于 2021-12-13 08:58 这用我说的那两个工具倒是没啥问题。 但你后面说的每天80-100G左右,那确实吓人,一般的硬盘一块也存不下几天的数据。 access记得是单文件存储数据库,那肯定不行。 |
|
[36 楼] haiyangsea
[陈年泡菜]
21-12-13 14:23
海淀镇的郊外 发表于 2021-12-13 14:06 兄弟我现在是吹牛高手,什么简单做什么,什么能在领导面前卖弄就做什么,没一点真东西。 什么数据分析都没有,全都靠我编,11月的数据不齐,催了很久要不到,干脆就用10月的套。俺们那个组长敲打我说你数据造假,我说你倒是有真的,敢往上放吗?敢给领导看吗?系统运行问题太多,数字都水的不得了,怎么用怎么看?以这种东西做分析,鬼才信。 |
|
[35 楼] 海淀镇的郊外
[禁言中]
21-12-13 14:06
haiyangsea 发表于 2021-12-13 10:32 ![]() |
|
[34 楼] haiyangsea
[陈年泡菜]
21-12-13 13:19
iamanewbee5 发表于 2021-12-13 11:05 其实团队我都找好了,五六个人,他们负责数据的维护一点问题都没有。 我负责跑行业做调研,搞搞产学研一体化,一年下来不能说雄踞一方吧,混个行业专家不成问题。 |
|
[33 楼] iamanewbee5
[泡菜]
21-12-13 11:05
haiyangsea 发表于 2021-12-13 10:32 哦,我严重低估了非技术性的困难。 |
|
[32 楼] haiyangsea
[陈年泡菜]
21-12-13 10:32
iamanewbee5 发表于 2021-12-13 09:09 我现在就5个人呀,但是一个懂技术的都没有,只有我和另外一个人有积极性,剩下3个都躺平,压根不想干活,我也没法轰走人家。 所以,技术只是一方面。 |
|
[31 楼] shoppo0505
[资深泡菜]
21-12-13 09:25
数据处理还是数据库快。
python容易上手,平台兼容性高,但是纯粹的数据处理,还是数据库高效。 可以python和数据库结合使用。 |
|
[30 楼] walkman222
[泡菜]
21-12-13 09:11
非结构化的数据应该用NoSQL了, MongoDB 考虑一下
|
|
[29 楼] iamanewbee5
[泡菜]
21-12-13 09:09
haiyangsea 发表于 2021-12-13 09:03 excel根本不是数据库,家里数据处理勉强凑合,工作不行的。Access是最低门槛。 按我说眼光要放远,上甲骨文,输入数据格式处理雇个码农,数据分析一个码农,各种报表一个码农,前台网页一个码农,你这不就是一个5人小部门的经理了? |
每天的数据量上T的话 支持下国产吧
