想不到有生之年开始学习R语言了
3023
86
|
[1 楼] haiyangsea
[陈年泡菜]
21-12-9 10:54
单位有个项目需要拉人头,于是硬生生弄了一个数据分析的工作给我。
刚开始还以为就是摸鱼呢,结果去了才知道真的干活。 这数据量也真够大的,每天更新就几万条,用EXCEL根本干不动,而且我也不会EXCEL。 权衡了一下,干脆学点专业的东西吧,于是一把年纪又开始抱着书本啃编程语言,搞数据首选当然是R和python,折腾了一个多月,终于搞了十几二十行R代码,把根本不可能手动整理的东西自动化抽取了,算是阶段性成果。 大家给出个主意,有没有什么好用的数字可视化处理工具?最起码让我啃R和python之间过渡一下? |
|
[87 楼] benniewang
[资深泡菜]
22-10-25 10:51
|
|
[86 楼] haiyangsea
[陈年泡菜]
22-10-25 09:16
|
|
[85 楼] benniewang
[资深泡菜]
22-10-25 08:23
haiyangsea 发表于 2022-10-24 11:11 都找不到地方可以发私信的。。。 |
|
[84 楼] haiyangsea
[陈年泡菜]
22-10-24 17:10
at18zzx 发表于 2022-10-24 15:00 报表我目前用的是datagear,一个开源的工具。它最大的好处是写SQL直接调用数据,还支持自动刷新,交互要求不高可以试试。但是可能需要一定的前台开发经验,最好会改代码,不过都很简单。复杂的话,可以试试powerbi一类的,但是可能需要你学DAX语言,类似EXCEL函数,但是又不一样。 发布自 色影无忌小程序 |
|
[83 楼] 大信
[泡菜]
22-10-24 15:16
at18zzx 发表于 2022-10-24 15:00 一点建议: Python加pandas 数据数据高效处理 Python加matplotlib 实现数据可视化展示 需要花一定的时间学习。运用Python编码最大的好处是很灵活,你想要的都能实现。 发布自 iOS客户端 |
|
[82 楼] at18zzx
[资深泡菜]
22-10-24 15:00
haiyangsea 发表于 2022-10-19 09:58 以前也是在无忌问了类似的问题,得到建议后开始学着用ACCESS处理数据,然后就必然的要接触SQL,也凑合着搞了个销售管理平台,EXCEL用的就少了,目前的问题就是报表展示这块不够好。 |
|
[81 楼] 大信
[泡菜]
22-10-24 13:59
活到老,学到老。给楼主点赞!
2003年注册的泡菜,请问楼主贵庚? |
|
[80 楼] haiyangsea
[陈年泡菜]
22-10-24 11:11
benniewang 发表于 2022-10-24 10:29 私信,可以交流交流 |
|
[79 楼] benniewang
[资深泡菜]
22-10-24 10:29
haiyangsea 发表于 2022-10-24 09:28 要是不怕泄露隐私,大可聊聊你的数据分析项目。沟通交流之间或许会给数据增值。 ![]() 之前做商业数据分析,现在做金融数据分析。 |
|
[78 楼] haiyangsea
[陈年泡菜]
22-10-24 09:30
SangReal 发表于 2022-10-22 13:07 的确是很综合的问题,索引是加上了,但是估计没起作用。 MYSQL这块真是博大精深,我感觉如果能把这块搞明白,我出去混个温饱应该问题不大。 |
|
[77 楼] haiyangsea
[陈年泡菜]
22-10-24 09:28
benniewang 发表于 2022-10-21 21:46 你说对了,我这里只有数据和我,我自己提需求自己实现,分析结果都是我出的,但是很遗憾没人看。 其实不是数据不好,是我水平不够,不能引起重视或者有所改变。 |
|
[76 楼] SangReal
[资深泡菜]
22-10-22 13:07
太没劲了 发表于 2022-10-22 12:50 数据量未知,条件未知,io性能未知,再加上没索引,几百秒很正常 |
|
[75 楼] 太没劲了
[陈年泡菜]
22-10-22 12:50
benniewang 发表于 2022-10-21 21:46 。前面本来想提 mysql 索引的事,后来想想如果真是索引问题估计不只是几百秒的延误,就罢了 |
|
[74 楼] benniewang
[资深泡菜]
22-10-21 21:46
haiyangsea 发表于 2022-10-21 12:13 看了一下你所有的留言,你这是前台后台底层一把抓啊?兼职:商业分析师,数据分析师,数据库管理构架师,数据库管理员,系统管理员。 |
|
[73 楼] 行行重行行
[泡菜]
22-10-21 19:21
学日语了吗?
|
|
[72 楼] SangReal
[资深泡菜]
22-10-21 18:17
haiyangsea 发表于 2022-10-21 14:18 既然用mysql,就有时间慢慢研究下,尤其是数据库优化,索引的建立。你那个查下几百秒太耗时间了。 数据库用好了。事半功倍,也利于后期的数据分析 发布自 色影无忌小程序 |
|
[71 楼] haiyangsea
[陈年泡菜]
22-10-21 14:18
SangReal 发表于 2022-10-21 12:41 目前看数据量确实不大,MYSQL优化好了可以满足应用,但是为了以后着想还是想有个长期的解决方案,所以目前正在看CK的相关内容,不过CK其实也不太适合做原始数据的存储,这个留着以后再说吧。汇总表这类外表目前还没用,暂时还用不上这些。 其实我觉得最难的并不是技术这块,最难的是数据应用,不然光做出一堆表格没人看,就是自娱自乐。 |
|
[70 楼] SangReal
[资深泡菜]
22-10-21 12:41
haiyangsea 发表于 2022-10-19 09:58 结构化数据好办,数据量也不算大,优化的话,要结合你的查询条件对表加索引。。。。或者优化查询语句 如果条件固定就好办,可以按月汇总数据存一个汇总表这类方案 |
|
[69 楼] haiyangsea
[陈年泡菜]
22-10-21 12:13
benniewang 发表于 2022-10-21 09:38 是的,EXCEL足够强大了。 POWER BI和tableau都用过了,功能确实强大,但是发布要到网上他们的服务器,我这边当然是不允许的。本地部署挺麻烦的,懒得弄。 现在是用的开源的代码生成图表,自己改改前台就能用,方便不少。就是分析功能差一些,画图还可以。 |
|
[68 楼] technician
[泡菜]
22-10-21 09:45
haiyangsea 发表于 2022-10-21 09:31 SPSS是IBM的收费软件,用于行业报告需要授权的,R是免费的,虽然界面简陋一些,需要打不少代码,但胜在开源免费。 |
|
[67 楼] benniewang
[资深泡菜]
22-10-21 09:38
haiyangsea 发表于 2022-10-21 09:31 你的需求excel能满足99%,powerbi或者tableau能满足99.999999%。 |
|
[66 楼] haiyangsea
[陈年泡菜]
22-10-21 09:31
technician 发表于 2022-10-20 20:39 当初不懂呀,以为R能搞定一切,现在看根本不需要。 如果是统计的话SPSS自然更专业,但是EXCEL可以满足绝大部分需要了。 |
|
[65 楼] haiyangsea
[陈年泡菜]
22-10-21 09:30
lwangls 发表于 2022-10-19 20:28 现在的想法很简单,精通MYSQL、CK以及HIVE,另外还有基础统计,顺手把HTML搞定,其他的都可以往后排。 |
|
[64 楼] haiyangsea
[陈年泡菜]
22-10-21 09:28
原版咕咚 发表于 2022-10-20 19:15 我看中CK的一大优点是MergeTree原生的数据分区,如果用MYSQL存就必须指定where去过滤条件,数据大了一下子就慢下来。数据分区很好的避免了这种情况,而且建表就能做好,不需要所谓的高级优化。另外它的引擎数量也很多,有些引擎很适合我的需要。 |
|
[63 楼] technician
[泡菜]
22-10-20 20:39
也在学,R不是用来做数据库管理的,它是SPSS一类的统计学软件,作为开源软件,出报告不需要提供版权授权说明。
|
|
[62 楼] 原版咕咚
[资深泡菜]
22-10-20 19:15
haiyangsea 发表于 2022-10-19 09:58 |
|
[61 楼] arondes
[陈年泡菜]
22-10-20 17:32
R语言现在衰落的趋势很明显 我工作后几乎没见过身边有人用的 但是在学术界还是有他的基本盘
|
|
[60 楼] 手倦抛书
[泡菜]
22-10-19 21:06
sqlite pandas
发布自 安卓客户端 |
|
[59 楼] lwangls
[泡菜]
22-10-19 20:28
我年轻时也喜欢瞎折腾,c ,Pascal,basicc,Java,Linux学了一大堆,疲于奔命地学习新工具。
后面想明白了,既然是桌面单机应用,就用微软全家桶好: c#,net,Excel,access或sqlserver,各种api和文档以及第三方图形界面库该有的都有,不再在工具选择上浪费时间。 编辑于:2022-10-19 20:36:09 |


。前面本来想提 mysql 索引的事,后来想想如果真是索引问题估计不只是几百秒的延误,就罢了