Apache Parquet - 搜索 News

7 天

AWS 宣称在客户另有需求之前将一直坚持使用 Iceberg

2023 年，AWS 首次公开宣布支持 Iceberg，预览版允许用户使用其云原生数据仓库 Redshift 在外部数据湖中运行 Iceberg 表的分析查询，但仅限于新建表，不支持从 Parquet 转换为 Iceberg 的表。

腾讯网13 天

Apache Iceberg成为事实上的标准，湖仓一体真的来了！

不过随着Apache Iceberg有望成为湖仓一体开放表格式事实上的标准，业界预计2025年，企业对数据湖仓一体的应用将明显提速，湖仓一体加速落地几乎没有什么悬念。 Apache ...

7 天

AWS全力拥抱Apache Iceberg，重塑云存储与数据分析生态

在大数据时代，选择合适的数据存储与分析格式关系到企业的核心竞争力。近期，亚马逊网络服务 (AWS)正式宣布将在其分析、机器学习和存储技术栈中全面采用Apache Iceberg开放表格式 (OTF)。这一决定，标志着AWS对其广受欢迎的S3对象存储用户需求的积极回应，更向市场传达了对未来数据处理方案的深远思考。

51CTO27 天

Apache Tika 轻松实现各种文档内容解析

Apache Tika可以解析和提取一千多种不同的文件类型(如PPT、XLS和PDF)的内容和格式，并且Apache Tika提供了多种使用方式，既可以使用图形化操作页面（tika-app），又可以独立部署（tika-server）通过接口调用，还可以引入到项目中使用。 Apache tika是Apache开源的一个文档 ...

腾讯网29 天

Apache Doris 创始人：何为“现代化”的数据仓库？

Apache Doris 在高并发查询方面进行多 ... 常用于用户行为和画像分析、点查、查询数据湖中 Parquet ORC 等格式数据的场景。 Variant 数据类型：支持 Variant ...

GitHub27 天

Data Processing for and with Foundation Models

欢迎您为社区贡献新的预处理工具。我们强烈建议将复杂的数据预处理为 jsonl 或 parquet 文件。 Data-Juicer 在 Apache License 2.0 协议下发布。贡献大模型是一个高速发展的领域，我们非常欢迎贡献新功能、修复漏洞以及文档改善。请参考开发者指南。致谢 Data-Juicer ...

搜狐20 天

YashanDB多模数据融合管理技术探索与实践

YashanDB通过database link提供无需迁移数据即可直接查询异构数据库的能力：支持Apache Hive、Iceberg ... 包括CSV、Parquet、ORC等；实现统一的联邦查询 ...

GitHub17 天

Distributed_ZH.md

并为 Apache Arrow 贡献了一个第三方补丁（PR 到 repo）。这将有助于缓解内存不足问题。使用此补丁后， Data-Juicer 的Ray模式将默认使用流式加载接口加载 JSON 文件。此外，如果输入变为 CSV 和 Parquet 文件，Ray模式下流式读取已经会自动开启。去重在 Ray 模式下 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果