Copyright © 2009-2022 安陆网 版权所有 All Rights Reserved. ( 鄂ICP备14016734号-3 )
为3000企业寻干净数据
◆ 造数创始人黄震昕 文| 铅笔道 记者 刘金策 ?导语 初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获奖,高二孤身上京拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资…… 外人眼里的黄震昕,是一个类似科幻电影里天才少年式的人物。 去年10月,他带着一帮同样“Geek”的员工成立了北京造数科技有限公司,开始新一次创业。 造数是一家技术驱动的公司,通过智能解析网页,帮助客户在没有编程基础的情况下,快速获取互联网的公开数据。企业可运用这些外部数据来分析市场、应对竞争、促进销售等,并省去招募爬虫工程师和爬虫维护的成本。 目前,造数已经累计爬取2000万个网页,服务3000家以上企业客户。
注:黄震昕承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。 大数据基础层的商业价值 成都,电子科技大学,去年7月。 黄震昕带着同伴在校内游荡。 他在找自己的导师周涛(仟跃数据CEO),导师是一位业内的传奇人物:27岁成为四川最年轻的教授,《大数据时代》译者、电子科技大学互联网科学中心主任……这串头衔可以排到很长。 更重要的是,从自己入校那天起,导师就给予了自己信任和支持。他相信这次也不会例外。 三人在一栋教学楼的三楼走廊见面。年轻的教授从走廊翻到天台,示意他俩跟着过去。 黄震昕开门见山,“老师,我在酝酿想做一个新的事情。” 周涛教授的回答同样直接,“你想做什么?” “智能云爬虫,我想从大数据产业链的基础层切入,把互联网上已经开源但是混乱的大数据转成结构化数据,为企业提供有价值的数据资产。” “那你的优势在哪,你凭什么来做这件事?” “我的团队成员有完整的创业经验,愿意跟我一起干的都是待了3、4年老员工,技术层面绝对信得过……”黄震昕从技术、团队方面回答了老师的问题。 “好,我支持你。”老师当场拍板。 不久之后,前一项目的投资方——明势资本投决定再次投资他的新项目。 就这样,导师和明势资本成为黄震昕的天使投资方。 300万天使投资,一支跟了自己4年的技术团队,这是黄震昕去年8月启动造数时的全部资本。 选择数据挖掘领域,他经过了仔细考虑。 对很多中小企业来说,需要从互联网获取外部数据,以便进行市场分析、舆情监控和竞对分析等活动, 例如,对京东、亚马逊的商品进行追踪以获得市场的最新动态,对商圈内大众点评店铺数据进行分析以得到最佳的店铺选点,或者对政府的招投标网站进行检测以第一时间获得市场动态。 大数据时代到来,市场上爬虫的需求越来越多,但是爬虫需要的代码基础使这项服务的专业性门槛较高。“一个小型企业聘请爬虫工程师的成本至少在20万,中型企业的爬虫工程维护成本更高。” 很多时候,企业因为技术和成本限制居然还是手动复制粘贴来收集数据。 黄震昕想做的,是用智能算法来做互联网数据的挖掘,提高效率,为企业节省人力成本,让企业把更多时间集中在数据本身上。 8月的一天,天气正好,日历上说宜动土装修、搬家、结婚、开业,这是黄震昕特意选的黄道吉日,那天,项目正式开工。 对造数团队来说,产品研发过程算的上顺风顺水。 ◆ 造数网站首页截图 与传统爬虫工具相比,造数做了两点改进: 一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。 第二则是造数的服务搭建在云上,客户只需访问网站即可使用,不需要下载专门的软件。“整个平台都是基于云端的”。 智能算法+云服务 去年年底,项目进入测试阶段。 一位客户主动找上门来,说自己之前想用某工具采集亚马逊上一件商品的所有评论结果,要学习大量专业名词,看5个以上的长视频来学习,“花了一周时间也没学会软件操作”。 改用造数之后,客户5分钟学会操作,从创建爬虫和得到结果一共也没用上十分钟。 得到这个消息的时候,黄震昕觉得有些自豪。 年初,网站服务器突然崩溃,团队却开了两瓶香槟庆祝。 之所以如此,是因为团队此前运营推广效果开始显现,“那天造数网站的独立访问量超过2000,用户量激增”。 对造数这种以技术驱动的公司来说,技术研发过程难度虽大,但心中总算有谱。重点要做的,反而是如何将产品推向市场。 入测试阶段后,团队就开始考虑这个问题。 恰好,团队负责运营的一位同事在知乎拥有10万粉丝。他在“你写论文时发现了哪些神网站?”这个问题下作答,提到了自己家的网站。 无心插柳,最终这个问题得到约400个赞同,给网站带来1500多的独立访客。 那天之后,团队立马重新调整了系统架构,并对服务器进行了升级。“增加此前平台没有的集群架构,提高了系统可伸缩性”。 为了保持系统持续性运转,团队一直在优化底层技术。2月下旬,造数完成了对网站的深度爬取功能。3月中旬,造数完成了API功能…… 现阶段,造数可以提供两种服务模式,一种是根据爬取次数收费的普通服务,另一种则是根据企业需求单独定制的服务,包括私有化部署版本购买,知识图谱,数据产品开发等。 企业用户在使用造数时,需要先行注册,之后输入需要爬取的页面并选取得所需的数据,配置地址规则,之后平台会自动抓取,得到用户所需数据。 数据导出时,用户可通过控制台选择自己喜欢的格式输出,系统目前已经支持Excel,CSV,JSON等多种格式,也可以通过API与企业内部系统进行融合。 现阶段,团队已经累计服务3000家以上的企业,爬取2000万以上网页。 今年,黄震昕和团队将继续优化算法,提高系统智能度以使产品更加易用。同时,团队正计划启动下一轮融资,资金主要用于技术的研发升级。 责编:申燕伟 |
关于我们|免责申明|手机客户端|在线排版|小黑屋|Archiver|Sitemap|重庆论坛|
免责声明:安陆网(www.anluw.com)转载第三方信息并不代表本网站赞同其观点和对其真实性负责,转载信息版权属于原媒体及作者
暨安陆网论坛(bbs.anluw.com)所有帖子仅代表作者本人意见,不代表本网立场,本网不承担由此引起的法律责任。
Copyright © 2009-2020 安陆网 版权所有 All Rights Reserved. ( 鄂ICP备14016734号-3 )