推广 热搜： 行业机械设备杯系统教师经纪参数金蒸汽

大数据工具之Trino

日期：2024-11-10 移动：http://tiush.xhstdz.com/mobile/quote/71907.html

不少人没有听说过Trino，但绝大多数人都听说过Presto，一个基于JVM的MPP计算引擎，Presto是一个高性能的、分布式的大数据SQL查询引擎。

大数据工具之Trino

诞生于Facebook(脸书)，扬名于Linux基金会！

官网：https://trino.io/

广告词：Connect Everything(别人总结的，自己的有点长)

从字面意思可以看到它支持的数据源应该是没有限制的，例如：Hadoop、AWS S3、Alluxio、MySQL、Cassandra、Kafka、ES、Kudu、MongoDB、MySQL等等，一句话，就是在市面能看到的存储，它基本上都支持。

Trino没有自己的存储，实现了存储与计算分离，而存储与计算分离的核心就是基于连接器的架构。连接器为Trino提供了连接任意数据源的接口，也可以自定义编程实现连接器

操作系统要求

64位Linux系统
为运行trino的用户提供足够的unlimit。包括trino能够打开的文件描述符，官方推荐以下配置：

Java运行时要求

Trino要求使用Java 11 64位版本，最低要求为：11.0.11，注意：不支持Java 8，也不支持 Java 12或者Java 13。Trino官方推荐我们使用Azul Zulu的JDK版本。此处，我们选择较新的11.0.12+7版本。

Python版本要求

版本：2.6.x、2.7.x、或者3.x

当前主流的Liunx系统：Centos 7自带的版本是2.7.5，ubuntu16.04自带两个python版本,一个是Python 2.7.12，另一个是Python 3.5.2，够用，如果想折腾另说

节点矩阵

一般来说集群各节点之间都属于局域网环境，把防火墙关了

192.168.137.128节点配置域名映射如下：

nodehostnameroleMemory192.168.137.128paratera128coordinator1G192.168.137.129paratera129worker2G192.168.137.130paratera130worker2G

假装Worker给了2G，其实只有一个G（迫于财力），只想说明一点就是coordinator可以只作为协调者，有限的资源应该偏向Worker！

创建trino用户

我们这里就不创建了，三台机器都用root账号，如果需要的可以通过命令创建并设置权限：

节点免密登录

方便后面资料分发和切换操作

安装JDK

zulu11.50.19-ca-jdk11.0.12-linux_x64.tar.gz 下载连接：https://download.csdn.net/download/huxiang19851114/86248146

分发脚本

在这里因为涉及到集群部署，包括安装文件和启动脚本都有很多重复的操作，考虑使用分发脚本的模式，一台配置好后scp过去即可，所以创建一个文件夹把所有trino相关的安装资料都放一块

xync.sh

后续有任何需要同时在三台服务器上执行的操作都可以往这里加

安装Trino

trino-server-359.tar.gz 下载链接：https://download.csdn.net/download/huxiang19851114/86248147

解压配置trino

配置目录将配置如下信息：

trino节点配置：配置每个trino节点的环境。
JVM配置：配置JVM的相关参数。
Config属性：配置trino服务器。
Catalog属性：配置trino的connector（数据源）

配置节点属性

/etc/node.properties

说明：

node.environment：集群中的所有trino节点都必须由相同的环境名称。必须以小写字母开头，只能包含小写字母、数字和下划线。
node.id：安装的trino节点的唯一标识符。每个节点都必须由唯一的标识符。标识符必须以字母数字字符开头，并且只能包含字母数字、- 或 _ 字符。
node.data-dir：trino的数据目录，trino会在该目录中存放日志、以及其他数据。

配置JVM

/etc/jvm.config

每个节点可以配置不同的容量，根据自己服务器内存大小量力而行

配置trino服务器

Trino的服务器集群有两种角色：coordinators 和 workers。

在这里插入图片描述

Coordinators

Trino的coordinator是负责解析语句、计划查询和管理 Trino workers的服务器。它是 Trino 安装的“大脑”，也是客户端连接以提交执行语句的节点。每个 Trino 安装都必须有一名 Trino coordinator以及一名或多名 Trino workers。出于开发或测试目的，可以将 Trino 的单个实例配置为执行这两个角色。
coordinator跟踪每个worker的活动并协调查询的执行。coordinator创建涉及一系列阶段的查询的逻辑模型，然后将其转换为在worker集群上运行的一系列连接任务。
coordinator使用 REST API 与worker和client进行通信。

Workers

worker 负责执行任务和处理数据。worker从连接器获取数据并相互交换中间数据。coordinator负责从worker那里获取结果并将最终结果返回给client。
当 Trino worker进程启动时，它会将自己通告给coordinator中的discovery服务器，这使得 Trino coordinator可以使用它来执行任务。
worker使用 REST API 与worker和 Trino coordinator进行通信。

Coordinators配置：/etc/config.properties

Workers配置：/etc/config.properties

配置日志级别

/etc/log.properties

配置connector

catalog可以对应数据schema，可以配置多种语言扩展管理，我们这里配置JMX（Java Management Extensions，即Java管理扩展）意思意思，后续连接不同数据源再创建不同的connector

更新分发脚本

修改Workers节点配置

node.properties修改node.id，与coordinator不同且唯一即可

config.properties修改coordinator=false

config.properties、jvm.config如果资源足够，端口也没有需要修改，可以忽略；

paratera129:

paratera130:

一键启停脚本

启停

安装trino cli客户端

trino-cli-359-executable.jar 下载连接：https://download.csdn.net/download/huxiang19851114/86248133

将jar包导入trino安装/bin目录下/trino-cli目录

我们可以通过：http://paratera128:10080/ui/访问trino的web ui。在这里插入图片描述

页面很low，现在因为没有任何任务执行，不是0就是空

连接MySQL

Connector

这种运行时的文件分发另外创建一个脚本

重启trino服务

通过trino-cli查询connector：

查询示例

查询MySQL connector 的数据库Schema信息

切换到数据库进行查询操作

灵魂拷问

如果仅仅从以上来看，我们费了半天劲，还是通过MySQL脚本来进行查询，有啥区别，意义何在？

我们来看看Trino内部是怎么操作的，我们指导MySQL有个Explain执行计划，同样的，Trino也有一个查询计划，查看查询计划：

在这里插入图片描述

可以看到两台Workers节点参与查询的信息，可以看到130节点分摊了整个任务的16/17，而129节点是1/17

在这里插入图片描述

继续进入看详细的查询计划：在这里插入图片描述

一共分为两个Stage。第一个执行的Stage是TableScan，第二个直接Output输出，所以查询的落脚点其实就在Stage1，我们点击进去看看

在这里插入图片描述

Table Scan并只拉取了一条数据，直接执行了sql语句，然后输出，是不是体现不出Trino查询引擎的强大，甚至完全没必要费这么大劲？

好了，我们来换个复杂点的查询操作：在这里插入图片描述

一共分为4个Stage执行，对应查询Mysql就是4个任务，限于我本地环境只有两个Workers，且迫于财力，虚拟机分配到的内存（2G,1G,1G）和CPU（单核）资源有限，速度上看不出太多的优点，**灵魂拷问：同一个事情一个人做快还是分成好几个步骤，多个task去做更快？**当然，这个事情应该足够复杂！

可以看到Tasks 129，130分别有两个值为1的task，这个其实就是协调器通知的交互线程！

我们再看Live Plan图，原理其实很简单，他把这个SQL的操作拆成了三步：

第一步：穷举出两个关联查询表的数据在这里插入图片描述

第二步：根据条件对两组数据进行聚合

在这里插入图片描述

第三步：对聚合数据进行输出在这里插入图片描述

相当于Trino智能给你把查询脚本进行拆分，然后分布到不同的Worker节点进行操作！

Live Plan图不够详细的话，可以通过EXPLAIN计划命令查看

在这里插入图片描述

解读：

扫描 cluster_user表，Trino自动选择 cluster_id进行hash分区。并且拉取两个字段：cluster_id、$hashvalue_2，这一步包括where条件都是下推到MySQL进行的。
扫描 cluster表，按照id_0 hash分区，拉取了id，$hashvalue_5。
拉取完数据后，在本地按照hash值执行shuffle分区。然后执行INNER JOIN操作，按分区执行的------灵魂拷问，这一步还跟MySQL有关吗？
然后对分区的执行结果再聚合计算，计算并输出最终结果。

灵魂拷问：为什么要这么做，不要想得太深奥了，高端的食材往往只需要最简单的烹饪！同样，高深的设计往往都源于最基础的理论

最后来个图说明一下：

在这里插入图片描述

开启https访问

本文地址：http://tiush.xhstdz.com/quote/71907.html 物流园资讯网 http://tiush.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行