聊聊一种读取亿级Doris数据库的方法聊聊spark读取支持两种方式

2024-05-19 03:32:44 [百科] 来源：避面尹邢网

聊聊一种读取亿级Doris数据库的聊聊方法

作者：京东云开发者 2023-07-12 10:01:00数据库其他数据库如果数据量比较大，超过千万，种读甚至过亿，取亿单节点读取会遇到超时以及时效过低的数据问题。可以使用spark.read.jdbc分布式多节点并发读取。聊聊spark读取支持两种方式。种读

工作中，取亿常常需要将线上doris同步至集市。数据读取doris数据同读取常规mysql基本相同。聊聊如果数据行小于千万，种读比较简单的取亿方式直接单节点连接、读取和存储。数据Python示例如下：

def get_data(sql,聊聊host='',port=2000,user='',password='',db=''):    # 支持doris    import pymysql    connect = pymysql.connect(host=host,port=port,user=user,password=password,db=db,charset='utf8')    cursor = connect.cursor()    cursor.execute('SET query_timeout = 216000;') #单位秒    cursor.execute(sql)    result = cursor.fetchall()    for row in result:        pass # 存储格式可以自行控制     cursor.close()    connect.close()    return result

如果数据量比较大，超过千万，种读甚至过亿，取亿单节点读取会遇到超时以及时效过低的问题。可以使用spark.read.jdbc分布式多节点并发读取。spark读取支持两种方式。

主要参数介绍：

read.jdbc(url=url,table=remote_table,column='item_sku_id',numPartitions=50,lowerBound=lowerBound, upperBound=upperBound,properties=prop)

url：格式如'jdbc:mysql://**.jd.com:2000/数据库名?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&failOverReadOnly=false&zeroDateTimeBehavior=convertToNull&useSSL=false&serverTimezone=Asia/Shanghai'

聊聊一种读取亿级Doris数据库的方法聊聊spark读取支持两种方式