想不到有生之年开始学习R语言了
3023 86
[1 楼] haiyangsea [陈年泡菜]
21-12-9 10:54
单位有个项目需要拉人头,于是硬生生弄了一个数据分析的工作给我。
刚开始还以为就是摸鱼呢,结果去了才知道真的干活。
这数据量也真够大的,每天更新就几万条,用EXCEL根本干不动,而且我也不会EXCEL。
权衡了一下,干脆学点专业的东西吧,于是一把年纪又开始抱着书本啃编程语言,搞数据首选当然是R和python,折腾了一个多月,终于搞了十几二十行R代码,把根本不可能手动整理的东西自动化抽取了,算是阶段性成果。

大家给出个主意,有没有什么好用的数字可视化处理工具?最起码让我啃R和python之间过渡一下?
[87 楼] benniewang [资深泡菜]
22-10-25 10:51
haiyangsea 发表于 2022-10-25 09:16
还真是,先发邮件吧,wendushiyi@126·com
发了

[email][email protected][/email]
[86 楼] haiyangsea [陈年泡菜]
22-10-25 09:16
benniewang 发表于 2022-10-25 08:23
都找不到地方可以发私信的。。。

还真是,先发邮件吧,[email protected]
[85 楼] benniewang [资深泡菜]
22-10-25 08:23
haiyangsea 发表于 2022-10-24 11:11
私信,可以交流交流

都找不到地方可以发私信的。。。
[84 楼] haiyangsea [陈年泡菜]
22-10-24 17:10
at18zzx 发表于 2022-10-24 15:00
特地留个名,学习借鉴一下。
以前也是在无忌问了类似的问题,得到建议后开始学着用ACCESS处理数据,然后就必然的要接触SQL,也凑合着搞了个...

报表我目前用的是datagear,一个开源的工具。它最大的好处是写SQL直接调用数据,还支持自动刷新,交互要求不高可以试试。但是可能需要一定的前台开发经验,最好会改代码,不过都很简单。复杂的话,可以试试powerbi一类的,但是可能需要你学DAX语言,类似EXCEL函数,但是又不一样。
发布自 色影无忌小程序
[83 楼] 大信 [泡菜]
22-10-24 15:16
at18zzx 发表于 2022-10-24 15:00
特地留个名,学习借鉴一下。
以前也是在无忌问了类似的问题,得到建议后开始学着用ACCESS处理数据,然后就必然的要接触SQL,也凑合着搞了个...

一点建议:
Python加pandas 数据数据高效处理
Python加matplotlib 实现数据可视化展示

需要花一定的时间学习。运用Python编码最大的好处是很灵活,你想要的都能实现。
发布自 iOS客户端
[82 楼] at18zzx [资深泡菜]
22-10-24 15:00
haiyangsea 发表于 2022-10-19 09:58
给大家汇报一些近期的成果。
首先是R不用了,麻烦效率低。
自己搞了MYSQL数据库,一般的系统日志文件就用这个搞,很方便但是也也有很多问题,主要是效率低,优化这块做了但是不彻底,很多慢查询居然要几百秒查一次。但是就一般的取数做图,这个就挺好了。
目前...
特地留个名,学习借鉴一下。
以前也是在无忌问了类似的问题,得到建议后开始学着用ACCESS处理数据,然后就必然的要接触SQL,也凑合着搞了个销售管理平台,EXCEL用的就少了,目前的问题就是报表展示这块不够好。
[81 楼] 大信 [泡菜]
22-10-24 13:59
活到老,学到老。给楼主点赞!
2003年注册的泡菜,请问楼主贵庚?

[80 楼] haiyangsea [陈年泡菜]
22-10-24 11:11
benniewang 发表于 2022-10-24 10:29
要是不怕泄露隐私,大可聊聊你的数据分析项目。沟通交流之间或许会给数据增值。
之前做商业数据分析,现在做金融数据分析。

私信,可以交流交流
[79 楼] benniewang [资深泡菜]
22-10-24 10:29
haiyangsea 发表于 2022-10-24 09:28
你说对了,我这里只有数据和我,我自己提需求自己实现,分析结果都是我出的,但是很遗憾没人看。
其实不是数据不好,是我水平不够,不能引起重视或者有所改变。

要是不怕泄露隐私,大可聊聊你的数据分析项目。沟通交流之间或许会给数据增值。

之前做商业数据分析,现在做金融数据分析。
[78 楼] haiyangsea [陈年泡菜]
22-10-24 09:30
SangReal 发表于 2022-10-22 13:07
数据量未知,条件未知,io性能未知,再加上没索引,几百秒很正常

的确是很综合的问题,索引是加上了,但是估计没起作用。
MYSQL这块真是博大精深,我感觉如果能把这块搞明白,我出去混个温饱应该问题不大。
[77 楼] haiyangsea [陈年泡菜]
22-10-24 09:28
benniewang 发表于 2022-10-21 21:46
看了一下你所有的留言,你这是前台后台底层一把抓啊?兼职:商业分析师,数据分析师,数据库管理构架师,数据库管理员,系统管理员。

你说对了,我这里只有数据和我,我自己提需求自己实现,分析结果都是我出的,但是很遗憾没人看。
其实不是数据不好,是我水平不够,不能引起重视或者有所改变。
[76 楼] SangReal [资深泡菜]
22-10-22 13:07
太没劲了 发表于 2022-10-22 12:50
所谓“全栈”,。前面本来想提 mysql 索引的事,后来想想如果真是索引问题估计不只是几百秒的延误,就罢了

数据量未知,条件未知,io性能未知,再加上没索引,几百秒很正常
[75 楼] 太没劲了 [陈年泡菜]
22-10-22 12:50
benniewang 发表于 2022-10-21 21:46
看了一下你所有的留言,你这是前台后台底层一把抓啊?兼职:商业分析师,数据分析师,数据库管理构架师,数据库管理员,系统管理员。
所谓“全栈”,。前面本来想提 mysql 索引的事,后来想想如果真是索引问题估计不只是几百秒的延误,就罢了
[74 楼] benniewang [资深泡菜]
22-10-21 21:46
haiyangsea 发表于 2022-10-21 12:13
是的,EXCEL足够强大了。
POWER BI和tableau都用过了,功能确实强大,但是发布要到网上他们的服务器,我这边当然是不允许的。本地部署挺麻烦的,懒得弄。
现在是用的开源的代码生成图表,自己改改前台就能用,方便不少。就是分析功能差一些,画图还可以。

看了一下你所有的留言,你这是前台后台底层一把抓啊?兼职:商业分析师,数据分析师,数据库管理构架师,数据库管理员,系统管理员。
[73 楼] 行行重行行 [泡菜]
22-10-21 19:21
学日语了吗?
[72 楼] SangReal [资深泡菜]
22-10-21 18:17
haiyangsea 发表于 2022-10-21 14:18
目前看数据量确实不大,MYSQL优化好了可以满足应用,但是为了以后着想还是想有个长期的解决方案,所以目前正在看CK的相关内容,不过CK其实...

既然用mysql,就有时间慢慢研究下,尤其是数据库优化,索引的建立。你那个查下几百秒太耗时间了。
数据库用好了。事半功倍,也利于后期的数据分析
发布自 色影无忌小程序
[71 楼] haiyangsea [陈年泡菜]
22-10-21 14:18
SangReal 发表于 2022-10-21 12:41
结构化数据好办,数据量也不算大,优化的话,要结合你的查询条件对表加索引。。。。或者优化查询语句
如果条件固定就好办,可以按月汇总数据存一个汇总表这类方案

目前看数据量确实不大,MYSQL优化好了可以满足应用,但是为了以后着想还是想有个长期的解决方案,所以目前正在看CK的相关内容,不过CK其实也不太适合做原始数据的存储,这个留着以后再说吧。汇总表这类外表目前还没用,暂时还用不上这些。

其实我觉得最难的并不是技术这块,最难的是数据应用,不然光做出一堆表格没人看,就是自娱自乐。
[70 楼] SangReal [资深泡菜]
22-10-21 12:41
haiyangsea 发表于 2022-10-19 09:58
给大家汇报一些近期的成果。
首先是R不用了,麻烦效率低。
自己搞了MYSQL数据库,一般的系统日志文件就用这个搞,很方便但是也也有很多问题,主要是效率低,优化这块做了但是不彻底,很多慢查询居然要几百秒查一次。但是就一般的取数做图,这个就挺好了。
目前...

结构化数据好办,数据量也不算大,优化的话,要结合你的查询条件对表加索引。。。。或者优化查询语句
如果条件固定就好办,可以按月汇总数据存一个汇总表这类方案
[69 楼] haiyangsea [陈年泡菜]
22-10-21 12:13
benniewang 发表于 2022-10-21 09:38
你的需求excel能满足99%,powerbi或者tableau能满足99.999999%。

是的,EXCEL足够强大了。
POWER BI和tableau都用过了,功能确实强大,但是发布要到网上他们的服务器,我这边当然是不允许的。本地部署挺麻烦的,懒得弄。
现在是用的开源的代码生成图表,自己改改前台就能用,方便不少。就是分析功能差一些,画图还可以。
[68 楼] technician [泡菜]
22-10-21 09:45
haiyangsea 发表于 2022-10-21 09:31
当初不懂呀,以为R能搞定一切,现在看根本不需要。
如果是统计的话SPSS自然更专业,但是EXCEL可以满足绝大部分需要了。

SPSS是IBM的收费软件,用于行业报告需要授权的,R是免费的,虽然界面简陋一些,需要打不少代码,但胜在开源免费。
[67 楼] benniewang [资深泡菜]
22-10-21 09:38
haiyangsea 发表于 2022-10-21 09:31
当初不懂呀,以为R能搞定一切,现在看根本不需要。
如果是统计的话SPSS自然更专业,但是EXCEL可以满足绝大部分需要了。

你的需求excel能满足99%,powerbi或者tableau能满足99.999999%。
[66 楼] haiyangsea [陈年泡菜]
22-10-21 09:31
technician 发表于 2022-10-20 20:39
也在学,R不是用来做数据库管理的,它是SPSS一类的统计学软件,作为开源软件,出报告不需要提供版权授权说明。

当初不懂呀,以为R能搞定一切,现在看根本不需要。
如果是统计的话SPSS自然更专业,但是EXCEL可以满足绝大部分需要了。
[65 楼] haiyangsea [陈年泡菜]
22-10-21 09:30
lwangls 发表于 2022-10-19 20:28
我年轻时也喜欢瞎折腾,c  ,Pascal,basicc,Java,Linux学了一大堆,疲于奔命地学习新工具。
后面想明白了,既然是桌面单机应用,就用微软全家桶好:  c#,net,Excel,access或sqlserver,各种api和文档以及...
这大半年我最大的收获就是知道自己想要什么了,而不是年初那种什么都想要的态度。
现在的想法很简单,精通MYSQL、CK以及HIVE,另外还有基础统计,顺手把HTML搞定,其他的都可以往后排。
[64 楼] haiyangsea [陈年泡菜]
22-10-21 09:28
原版咕咚 发表于 2022-10-20 19:15
比较大量的数据统计用 clickhouse 比较好

我看中CK的一大优点是MergeTree原生的数据分区,如果用MYSQL存就必须指定where去过滤条件,数据大了一下子就慢下来。数据分区很好的避免了这种情况,而且建表就能做好,不需要所谓的高级优化。另外它的引擎数量也很多,有些引擎很适合我的需要。
[63 楼] technician [泡菜]
22-10-20 20:39
也在学,R不是用来做数据库管理的,它是SPSS一类的统计学软件,作为开源软件,出报告不需要提供版权授权说明。
[62 楼] 原版咕咚 [资深泡菜]
22-10-20 19:15
haiyangsea 发表于 2022-10-19 09:58
给大家汇报一些近期的成果。
首先是R不用了,麻烦效率低。
自己搞了MYSQL数据库,一般的系统日志文件就用这个搞,很方便但是也也有很多问题,主要是效率低,优化这块做了但是不彻底,很多慢查询居然要几百秒查一次。但是就一般的取数做图,这个就挺好了。
目前...
比较大量的数据统计用 clickhouse 比较好
[61 楼] arondes [陈年泡菜]
22-10-20 17:32
R语言现在衰落的趋势很明显 我工作后几乎没见过身边有人用的 但是在学术界还是有他的基本盘
[60 楼] 手倦抛书 [泡菜]
22-10-19 21:06
sqlite   pandas
发布自 安卓客户端
[59 楼] lwangls [泡菜]
22-10-19 20:28
我年轻时也喜欢瞎折腾,c  ,Pascal,basicc,Java,Linux学了一大堆,疲于奔命地学习新工具。

后面想明白了,既然是桌面单机应用,就用微软全家桶好:  c#,net,Excel,access或sqlserver,各种api和文档以及第三方图形界面库该有的都有,不再在工具选择上浪费时间。
编辑于:2022-10-19 20:36:09