Mr.c-深圳市万拓科创有限公司-6年高级node.js工程师,高级python工程师-猿急送
ID:183426

Mr.c

高级node.js工程师,高级python工程师

  • 公司信息:
  • 深圳市万拓科创有限公司
  • 工作经验:
  • 6年
  • 兼职日薪:
  • 700元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 南山
  • 桃源街道平山民企科技园1栋B座3楼
  • 技术能力

    1、node.js / Express / Koa 框架,API接口输出,web页面搭建。
    1.1、node-crawler 爬虫框架

    2、python / Flask / Django 框架,API接口输出,web页面搭建。
    2.1、scrapy 高并发爬虫框架

    3、RestFul API 接口架构设计,提供高可用性的对外输出数据接口。

    项目经验

    hsb_spider工程

    内容:
    ● Scrapy框架搭建起来的一个项目

    用途:
    1. 为内部估价系统提供外部数据分析做支撑。
    2. 机型机况自动更新、各渠道价格对比。
    3. 历史数据沉淀至BI系统,做大数据分析。

    @requests
    4. 提供实时的API接口,供估价系统做单个机型下某个机况的询价或机况更新。

    ● 负责设计、开发、维护爬虫系统
    ● 参与数据层建设,专注于垂直领域的数据爬取,进行多平台信息的抓取和分析
    ● 设计爬虫反屏蔽规则,提升网页、APP抓取的效率和质量
    ● 实现数据提取、清洗、结构化、入库、统计分析等需求

    技术:
    1. rabbitMQ做消息队列,将机况数据推送至队列里面,消费者消费数据获取价格。
    2. 分布式消费者,在确保IP代理和账号安全访问次数满足的情况下提供消费速度。
    3. Redis缓存,存储在定期时间内的机型价格数据,避免重复爬取,减少资源开销。
    4. 针对爬虫的不稳定性情况,接入了钉钉预警处理。在捕获到不能正常采集到数据时,
    第一时间自动通知到指定负责人。
    5.进程多开: 在业务需要的情况下开启多进程处理量大的友商渠道爬取任务。

    业绩:
    ● 搭建了Scrapy框架统一的管理业务中各个渠道的爬虫,统一管理,统一部署。
    ● 摆脱了之前的临时脚本处理爬虫零散的状态。




    估价系统
    研发
    内容:● 各个友商渠道的机型数据采集、分析、入库。
    ● 机型机况组合,获取价格。
    ● 友商价格对比。
    ● 自有价格估价调整。
    ● 价格预测。
    ● 历史数据分析。
    业绩:稳定提供外部友商数据给内部业务做数据支撑。


    二、vantop_spider_x
    1、搭建针对电商网站的大批量高并发爬虫架构。
    2、经过验证的量有当日最高采集量5000W,采用的消息队列的方式实现分布式高并发采集架构。

    案例展示

  • compare_price

    compare_price

    所有的外部数据采集工作,采集完了之后包括数据筛选过滤,分析,价格对比,价格预测。以及价格以接口的形式输出到公司的各个业务方。

  • vantop_spider

    vantop_spider

    独立构建通用爬虫框架,支持node.js , python。 1、支持分布式高并发爬取目标网站数据。 2、支持数据下载和分析隔离,最大程度的保证了在高并发时采集数据的完整性。 3、

  • 查看案例列表(含更多 0 个案例)

    信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
  • 微信扫码,建群沟通

    发布任务

    企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

    微信接收人才推送

    关注猿急送微信平台,接收实时人才推送

    接收人才推送
    联系招聘专员
    联系招聘专员