`
文章列表
机器学习的趋势和人工智能的未来 每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。   有了机器学习模型,企业现在可以快速分析大型,复杂的数据,并提供更快,更准确的见解,没有部署和维护机器学习系统的高成本。 “当今建立的每一个成功的新应用程序将是一个智能应用程序,智能构建块和学习服务将是应用程序背后的大脑。”
HanLP代码与词典分离方案与流程 之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录 data与hanlp.properties合成一个data.jar文件. 1. pom.xml 过滤资源文件的配置       <plugin>         <groupId>org.apache
Elasticsearch集成HanLP分词器 1、通过git下载分词器代码。 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ 2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。 官方安装配置说明:
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难! 趁着学校放假的时间,写了一些hadoop学习分享的文章。刚开始写的几篇稍微有点乱,其中有一篇就是在说学习hadoop需要什么样基础的。所谓的难不会,会不难,必然也是建立你现在的基础之上的。假定你连基础的计算机基础都没有,那可能真的就是“难不会”了。如果你是有一个良好的计算机基础的,比如,虚拟机的配置你会、拥有JAVA基础和Linux操作基础,那学习hadoop对 ...
最近几年随着大数据技术快速发展与应用,智慧城市随即被正式提出。而且,我们也可以深刻感受到“智慧”正在慢慢改变我们的生活方式和城市。要让城市变智慧的地方太多太多,当前我们接触做多的可能就是外出停车,比如很多商场的停车系统,很多商城的停车场都实现了无人值守。这就是得益于智慧城市停车云平台。 很多人对智慧停车云的概念不是明白,智慧停车平台就是利用云计算、物联网、大数据处理技术等手段,通过可持续运营的商业服务模式,面向各类停车场实现跨区域、多层级的集中监控和管理,为政府、相关主管部门和运营企业提供远程监控、决策支持、统计分析和数据展现等服务,同时可面向公众提供多渠道停车即时讯息的平台。 汽车已经成 ...
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。 大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等; 与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。  
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行 ...
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB)级别。 传统的数据处理方法是:随着数据量的加大,不断更新硬件指标,采用更加强大的CPU、更大容量 ...
hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。 Hadoop 还提供了软件基础架构,以一系列 map 和 reduce 任务的形式运行 MapReduce 作业。Map 任务在输入数据的子集上调用map函数。在完成这些调用后,reduce任务开始在 map函数所生成的中间数据上调用reduce任务,生成最终的输出 ...
如今有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,来探索对数据的深入利用。 大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因。另外一个难题是如何判断数据是否有价值。尤其是在大数据时代,为了避免数据丢失你必须采集并存储这些数据。一些看起来与业务无关的数据,如手机GPS数据,将来也可能会有大用处。
Global site tag (gtag.js) - Google Analytics