-
做数据治理前 应该明白并避开的几大坑
所属栏目:[大数据] 日期:2022-06-28 热度:82
Gartner 的一项调查显示,超过90%的数据治理项目都以失败告终。 这个数据可能会劝退一大波正准备做或者正在观望数据治理的企业:既然这笔投资90% 的概率失败,那为什么要继续。 1. 目标不明晰 数据治理是一个复杂的系统工程,一个明确合理的目标,能让数据治[详细]
-
大数据平台核心架构图鉴 提议收藏
所属栏目:[大数据] 日期:2022-06-28 热度:79
大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。 所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。 01数据采集 数据采集的任务就是把数据从各种[详细]
-
新时代开源数据调度在1000+企业的进化之途
所属栏目:[大数据] 日期:2022-06-28 热度:192
近年来,随着互联网的飞速发展,业务量在短时间内呈现爆发式增长,对应的数据量快速从数百 G 涨至数百 T。无论数据存储还是数据调度,当前数据量已经远超处理能力的上限。若信息处理技术仍渐进式发展,数据处理能力的提升将远落后于指数级增长的数据量。 可[详细]
-
为何很多人宁可用 Excel 也不用 Python
所属栏目:[大数据] 日期:2022-06-27 热度:156
有人说,Python即使不是最好的编程语言,也是最受欢迎的语言之一。因为它简洁易用,功能强大,对初学者也很友好。在众多培训机构的小广告中,学了Python就能批量处理Excel表格,Python是实现办公自动化的利器,从此告别996之类的口号随处可见。但实际工作中[详细]
-
云数据仓库中的数据安全思虑
所属栏目:[大数据] 日期:2022-06-26 热度:161
近年来,由于云计算与云存储具有一定的廉价性和可扩展性,云数据仓库(Cloud data warehouses,CDW)得到了广泛的应用并飞速发展。同时,CDW不但能够存储比本地数据库更多的数据,而且可以通过现代化数据管道,简化了ETL的各种流程,因此许多企业都开始用它[详细]
-
终于有人把MPP大数据系统架构讲清楚了
所属栏目:[大数据] 日期:2022-06-26 热度:80
本文首先回顾并行硬件架构的发展,并进一步介绍基于并行硬件架构的数据库一体机系统与基于MPP架构的数据库软件系统。数据库一体机系统在银行等大型企业中采用广泛,一体机的优点是开箱即用、功能丰富、稳定、售后服务好,缺点是价格昂贵、扩展不灵活。基于普[详细]
-
数据科学家应对的几大挑战及解决方法
所属栏目:[大数据] 日期:2022-06-26 热度:138
每天,全球各地的组织都在寻找2.5万亿字节的数据,以获得对其业务的见解和价值驱动的行动。为了实现这一目标,需要高技能的科学专家或数据科学家参与开发业务中的企业AI。在不断增长的业务领域中,数据科学家的每一个行动都有助于改进业务的功能。 下面来探[详细]
-
使用Java和Python进行数据统计和剖析
所属栏目:[大数据] 日期:2022-06-26 热度:103
Java 和 Python 是当今最流行的两种计算机语言。两者都非常成熟,并提供了工具和技术生态系统,帮助我们解决数据科学领域出现的挑战性问题。每种语言都各有优势,我们要知道什么时候应该使用哪种工具,或者什么时候它们应该协同工作相互补充。 Python 是一种[详细]
-
云迁移之后 企业凭什么充分挖掘数据潜力
所属栏目:[大数据] 日期:2022-06-26 热度:58
近年来,基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)等业务模式正飞速发展,也推动着云投资屡创新高。根据GlobalData的报告,2024年亚太地区云计算市场规模预计将达到1918亿美元,2019至2024年期间的复合年增长率为7.7%。 然而,云迁移[详细]
-
字节跳动数据平台技术揭晓
所属栏目:[大数据] 日期:2022-06-26 热度:100
ClickHouse作为目前业内主流的列式存储数据库(DBMS)之一,拥有着同类型DBMS难以企及的查询速度。作为该领域中的后起之秀,ClickHouse已凭借其性能优势引领了业内新一轮分析型数据库的热潮。但随着企业业务数据量的不断扩大,在复杂query场景下,ClickHouse容[详细]
-
大规模分布式计算学习引擎Ray在字节跳动NLP场景下的践行
所属栏目:[大数据] 日期:2022-06-26 热度:68
RayRTC 是字节基础架构组与字节 AML 组共同合作,在内部 RTC(Realtime Text Classification)文本训练平台上基于 Ray 进行的下一代 Serverless ML 的探索。RTC 文本分类平台是一个一站式的 NLP 服务平台,包括了数据预处理,标注,模型训练,打分,评估,Au[详细]
-
远程访问装有GPU的电脑很不方便 如今有一个值得试试的办法
所属栏目:[大数据] 日期:2022-06-26 热度:143
由于多种原因,很多人无法将在本地存储了大量文件的电脑和软件带回家,好在有办法做到从任何地方发起高质量的远程访问,而无需额外费用。下面介绍几种经过测试的方法,实现方便地远程管理办公电脑。 DOC怎么了? 普通员工只需使用远程桌面协议(RDP协议)连[详细]
-
几款日常的开源无代码测试工具
所属栏目:[大数据] 日期:2022-06-26 热度:178
编程语言一直是自动化测试、自动化测试人员、框架甚至工作职责中不可或缺的一部分。如果一个遗留项目已经使用了Java进行测试,该公司会为该项目寻找具备Java专业知识的人员。同样,如果新项目需要从零开始构建测试流程,那么首要考虑的事情就是团队擅长哪种[详细]
-
通过AI系统分级协助企业控制成本
所属栏目:[大数据] 日期:2022-06-13 热度:82
就像国际汽车工程师学会(SAE)对自动驾驶汽车分级一样,为了预测人工智能系统的成本,给它们分个级别想必也是不错的选择。采用分级系统可以帮助组织计划和准备AI系统,且随着时间的推移,AI系统的复杂性也会不断增加。 设计和构建人工智能系统不是件容易事。[详细]
-
智能虚拟助理如何助力你在2022年成倍提高工作效率
所属栏目:[大数据] 日期:2022-06-13 热度:142
智能虚拟助理 (IVA, Intelligent Virtual Assistants) 也称为智能个人助理 (IPA, Intelligent Personal Assistants) ,是由人工智能驱动的代理,能从客户元数据、先前对话、知识库、地理位置、以及其他模块化数据库和插件等环境中提取信息,并生成个性化响应[详细]
-
2022年优质预测分析工具和软件
所属栏目:[大数据] 日期:2022-06-13 热度:72
数据管理一直是企业面临的挑战。随着新的数据源不断涌入,使用合适的工具比以往任何时候都更为关键。预测分析工具和软件是完成这项任务的最佳解决方案。数据专家和商业管理者必须能够组织和清理数据,以启动这一进程。随后是对数据进行分析,并与同事分享结[详细]
-
Twins重新思量高效的视觉注意力模型设计
所属栏目:[大数据] 日期:2022-06-13 热度:158
Twins [1] 是美团和阿德莱德大学合作提出的视觉注意力模型,相关论文已被 NeurIPS 2021 会议接收,代码也已在GitHub上进行开源。NeurIPS(Conference on Neural Information Processing Systems)是机器学习和计算神经科学相关的学术会议,也是人工智能方向[详细]
-
不要想当然认为人工智能不会替代你的工作!
所属栏目:[大数据] 日期:2022-06-13 热度:148
我们已经看到,一些平淡无奇或单调乏味的任务已经被机器人或自动化所取代,那么怎样才能阻止它们让我们所有人都失业呢? 希望总是存在的:有很多工作还需完全依赖于人的素质,比如创造力或同情心。这些是计算机程序无法复制的东西难道可以复制?接下来,让我们[详细]
-
AI可以跨过GitHub危机吗?
所属栏目:[大数据] 日期:2022-06-13 热度:62
机器学习如今正在面临一些危机,将会阻碍该领域的快速发展。这些危机源于一个更广泛的困境,即科学研究的可重复性。根据《自然》杂志对 1,500 名科学家进行的一项调查,70% 的研究人员曾尝试复制其他科学家的实验但未能获得成功,50% 以上的研究人员未能复制[详细]
-
2022年人工智能趋向AI将如何影响你?
所属栏目:[大数据] 日期:2022-06-13 热度:79
人工智能(AI)在2022年及以后将在我们的生活中扮演哪些更重要的角色?以下或许是人工智能大有可为的几个方面。 元宇宙和AI相碰撞 元宇宙结合了虚拟现实、增强现实、在线世界、定制体验和游戏。这使得人们可以完全在网上沟通交流、成交业务和塑造个性,这方[详细]
-
无代码可重用的人工智能将怎样跨越人工智能的鸿沟
所属栏目:[大数据] 日期:2022-06-13 热度:144
重复使用预先构建的人工智能解决方案和组件以及无需编码即可对其进行自定义,最终将允许企业创建人工智能解决方案,而无需雇佣人工智能专业人士或采用成本昂贵的 IT 资源。 人工智能技术先驱、麻省理工学院教授 J.C.R. Licklider 于 1960 年在他撰写的一篇名[详细]
-
2022,大模型还可以走多远
所属栏目:[大数据] 日期:2022-06-13 热度:69
2021 年是大模型层出不穷的一年。从去年 OpenAI GPT-3 发布开始,今年华为、谷歌、智源、快手、阿里、英伟达等厂商先后推出自己的大模型,人工智能产业开始了新一轮的激烈角逐,而且有愈演愈烈之势。作为探索通用人工智能的路径之一,AI 大模型不仅本身是一[详细]
-
2022年,AI将给网络安全行业带来什么?
所属栏目:[大数据] 日期:2022-06-13 热度:101
近年来,人工智能(AI)已经成为了我们日常生活中重要的组成部分。各种算法通过执行一系列与市场决策相关的任务,以发现在基本技术实现之外的、与人类习惯有关的洞察。在YouTube和TikTok上使用的建议算法,会根据您的反馈,提供个性化的内容。而虚拟地图之类的[详细]
-
大数据如何改变制造业
所属栏目:[大数据] 日期:2022-06-11 热度:110
区块链如何改变制造业 由于该领域的独家技术突破,制造业正处于一场革命之中。 制造业的大数据正在实现明智的战略,并制定未来的路线图。 制造业是在过去几十年里经历了巨大变化的行业之一。除了简单地自动化相关流程之外,制造业还利用技术实现各种其他目的[详细]
-
一文读懂元数据管理!
所属栏目:[大数据] 日期:2022-06-11 热度:120
一文读懂元数据管理! 一、什么是元数据? 元数据(metadata)是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。概念总是生涩,对于没有IT背景的人来说比较抽象,不容易理解,下面举几个例子。 示例1:歌词中的元数据 有一首很多[详细]