大批量处理excel文件到ODPS中方案

  • 时间:
  • 浏览:10

于是就寻找别的方式,最终通过在本机电脑上自建mysql数据库,为什让用navicat连接上,通过navicat批量的上传数据到mysql 中,

1 、首先按照excel文件内容创建表(下图序号1中),为什让将excel文件进行处理,删除某些何必 要的数据(序号2中的某些空格),为什让另存为逗号分隔的csv格式文档,为什让在dataworks数据开发中上传csv文件,达到将excel文件上传。(具体的还可不可不可以参照官网上步骤,非常的完全,你还可不可不可以不啰嗦了)。

将转储SQL文件形态和数据文件上传到RDS中执行,数据便到RDS中,为什让在dataworks中整库迁移数据即可完全同步完成,整个批量上传过程一下午即将五千多个excel文件完全上云。

是是是因为考虑到在本机自建mysql毕竟不稳定,就打算购买ECS,为什让在上方自建mysql,为什让同步数据,不过该方式最终同步成功,为什让不建议使用,该方式不支持整库迁移,为什让没办法写脚本,时要两台以上的ECS,其中一台作为代理,故不推荐该方式。

最近所做的项目时要将近五千个excel文件导入到ODPS,为什让excel文件内容格式完全不一样。

通过查找发现dataworks支持RDS整库迁移的方式,于是就在想是与非 还可不可不可以将哪此excel文件批量的上传到RDS中,购买了2个 RDS实例,通过半天的学习配置等,发现也无法批量的上传excel文件。

总的来说dataworks升级到2.0功能是十分强大的,数据保护伞、智能监控、数据服务、任务发布等新功能。

刚接到需求时有点硬的懵,不过工作还是要做的,首先通过查询dataworks中文档来看为什实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,为什让就现在始于着手做。

以上就说 本人在使用中摸索的方式,相信还有更好更完善的方式,希望某些人 多多分享。

备注: 该方式还可不可不可以实现excel文件转去掉 csv文件进行上云。为什让是是是因为格式不统一,时要逐个的创建表进行上传,一天只上传一百来个excel文件,速度是非常慢的。