Apache Kudu简介及 JavaAPI示例

Apache Kudu 简介

Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析

特性:

  • OLAP
  • 对数据扫描(scan)和随机访问(random access)同时具有高性能,简化用户复杂的混合架构
  • 支持单条或批量的数据读写,支持schema的创建修改
  • 既可以当作简单的key-value 使用,也可以作为复杂的几百不同的强类型属性。

常见的几个应用场景:

  1. 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到
  2. 时间序列相关的应用,需要同时支持
  3. 根据海量历史数据查询
  4. 非常快地返回关于单个实体的细粒度查询
  5. 实时预测模型的应用,支持根据所有历史数据周期地更新模型

基于Gitbook 制作电子书

基于 Gitbook 制作电子书

安装gitbook 命令行工具

1
sudo npm install -g gitbook-cli

安装完之后,你可以检验下是否安装成功。

1
gitbook -V

常用命令

gitbook help 可以查看所有指令:

1
2
3
4
5
6
7
8
gitbook build #build a book
gitbook serve #serve the book as a website for testing
gitbook install # install all plugins dependencies
gitbook parse #parse and print debug information about a book
gitbook init #setup and create files for chapters
gitbook pdf #build a book into an ebook file
gitbook epub
gitbook mobi

简单又好看的5款CSS样式,让你的Markdown文稿锦上添花

简单又好看的5款CSS样式,让你的Markdown文稿锦上添花

语法很简单,用上5分钟简单学习下,掌握一些简单的格式控制就可以,像其他什么表格、数学公式、代码什么的对于我们写文稿基本用不上,只有少部分特殊群体或者特殊场景才会派上用场

那么今天主要分享几个被大多数所推崇的CSS样式,这些样式可以让你平淡无奇的Markdown 文稿锦上添花,有兴趣的记得收藏一波~~

为什么要使用CSS样式?

因为Markdown说到底就是一个格式控制语法,它本身不支持修改字体、字号与颜色等功能的;但是如果你想让你的文章变得好看而不单调,比如最基本的字体颜色,这也是被人问的最多的一个问题,其实多半情况都是经过CSS样式渲染后的效果


GIT FORK 相关操作

GIT FORK 相关操作

fork 了别人的仓库后,原作者又更新了仓库,如何将自己的代码和原仓库保持一致?

假设远程源仓库为A,自己fork后的远程仓库为B,自己本地的代码仓库为C

  1. 给 fork下来的仓库 配置一个 remote源

    一般来说从自己远程仓库B去拉代码后就会有remote

    使用 git remote -v 查看远程状态。

    git remote -v
    origin  https://github.com/YOUR_USERNAME/YOUR_FORK.git (fetch)
    origin  https://github.com/YOUR_USERNAME/YOUR_FORK.git (push)

SpringBoot集成Mongodb

SpringBoot集成Mongodb

1. SpringBoot集成

pom.xml

1
2
3
4
5
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-mongodb</artifactId>
<version>${spring.boot.version}</version>
</dependency>

application.properties

1
spring.data.mongodb.uri=mongodb://user:pwd@ip:27017/database

集群版mongodb

1
spring.data.mongodb.uri=mongodb://user:pwd@ip1:port1,ip2:port2/database

2. 下划线转驼峰


令人惊讶的网页动画效果工作流介绍

The Ultimate Workflow of Creating Scroll-Based Animations

原文地址

Why Scroll?
Scrolling is the fundamental interaction of the Internet. Having animated elements triggered on scroll is a common practice, but what if you want to take it to another level? For example, websites like r2d3 — A visual introduction to machine learning and NASA: Prospect all features full-scale animations that users can control and interact with through scrolling.

I was really drawn to this form of interaction, which has inspired me to create OKAI — An Interactive Introduction to Artificial Intelligence(AI). Every chapter (except Chapter 0) features full-scale scroll-based animations that visualize and break down complicated concepts in AI. Allowing users to control the pace of the animations give them a sense of control and security when exploring the unknown world of AI principles.

https://okai.brown.edu/chapter1.html

In this article, I am presenting the workflow of how these animations are created and controlled through scrolling.


Linux上的常用文件传输方式介绍与比较

Linux 上的常用文件传输方式介绍与比较

  • ftp 作为最常用的入门式的文件传输方法,使用简单,易于理解,并且可以实现脚本自动化;
  • rcp 相对于 ftp 可以保留文件属性并可递归的拷贝子目录;
  • scp 利用 ssh 传输数据,并使用与 ssh 相同的认证模式,相对于 rcp 提供更强的安全保障;
  • wget,实现递归下载,可跟踪 HTML 页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构,适合实现远程网站的镜像;
  • curl 则适合用来进行自动的文件传输或操作序列,是一个很好的模拟用户在网页浏览器上的行为的工具;
  • rsync 更适用于大数据量的每日同步,拷贝的速度很快,相对 wget 来说速度快且安全高效。

各项对比


Linux 挂载新硬盘

为Linux 挂载新硬盘

最近新购入一块3T硬盘,准备划给Linux 系统2T,用来玩数据分析。开始新硬盘的挂载之旅

1.fdisk -l 查找新硬盘

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
[root@sloong sloong]# fdisk -l

磁盘 /dev/sda:3000.6 GB, 3000592982016 字节,5860533168 个扇区
Units = 扇区 of 1 * 512 = 512 bytes
扇区大小(逻辑/物理):512 字节 / 4096 字节
I/O 大小(最小/最佳):4096 字节 / 4096 字节

WARNING: fdisk GPT support is currently new, and therefore in an experimental phase. Use at your own discretion.

磁盘 /dev/sdb:240.1 GB, 240057409536 字节,468862128 个扇区
Units = 扇区 of 1 * 512 = 512 bytes
扇区大小(逻辑/物理):512 字节 / 512 字节
I/O 大小(最小/最佳):512 字节 / 512 字节
磁盘标签类型:gpt
Disk identifier: A3B5CB97-6552-486A-8323-77AFD94DC178


# Start End Size Type Name
1 2048 1023999 499M Windows recover Basic data partition
2 1024000 1226751 99M EFI System EFI system partition
......

可以看到新磁盘为 /dev/sda, 3000G, 扇区 0.5k/4k ,IO大小 4k/4k


Hadoop Shell

Hadoop_Shell

1
2
3
4
5
6
7
8
9
10
11
12
13
14
hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -ls  显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir  创建目录
hadoop fs -rm   删除文件,-rm -R 递归删除目录和文件
hadoop fs -put  [localsrc] [dst]  从本地加载文件到HDFS
hadoop fs -get  [dst] [localsrc]  从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst]  从本地加载文件到HDFS,与put一致
hadoop fs -copyToLocal [dst] [localsrc]  从HDFS导出文件到本地,与get一致
hadoop fs -test -e  检测目录和文件是否存在,存在返回值$?为0,不存在返回1
hadoop fs -text  查看文件内容
hadoop fs -du  统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
hadoop fs -tail  显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录

Presto 主动Kill 机制

Presto 主动Kill 机制

背景:用户界面中,为了改善用户使用体验,移除了 查询时点击按钮的操作,变更为只要检测到查询条件的修改都会自动触发计算。而实际使用过程中,用户在最终条件确定前,所有条件变更导致的查询计算均是计算资源的浪费

目的:为了避免自动触发的计算导致Presto 计算资源的浪费

如图所示,左侧指标、细分维度、公共过滤条件以及 日期范围、日期粒度、人群的变化都会导致分析查询的调用

方案:


Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×