Eric 发布的文章

由 hypervisor 驱动内存泄漏导致的 VM CPU飙高的问题

今天有开发人员说他们同一个 cluster 里面运行同一版本的某些 server 出现 JVM CPU 非常高的情况, 而其它 server 的JVM
CPU 维持正常. 他们表示说以前没出现过这种情况, 而出现这种情况的server 比正常其它server 的CPU usage 要高很多, 所以被内部某些监控工具自动重启了. 据他们观察这些机器可能正在被内部的某些漏洞扫描工具在扫描, 但是又不能确认, 想请SRE帮忙确认一下原因是什么?

SRE 首先确认了这些 CPU usage 非常高的server 跟内部的漏洞扫描基本没关系, 因为这些漏洞扫描的 traffic 基本进不了程序内部代码逻辑, 在应用框架层就被拦截了, 基本不会造成CPU usage 高. 另外还有其它被漏洞扫描的server 并没有出现 CPU 飙高的情况.

SRE 另外明确看到, 这些出问题的server(其实都是通过OpenStack 虚拟出来的VM)的CPU usage大概都在40%左右, 不出问题的server 的CPU usage 大概在3%左右. 出问题server 的JVM CPU usage 大概在8%左右, 而没有问题的 server 的 JVM CPU usage 大概在1%左右. 所以可以大概得出结论, 这些CPU 大部分并不是被 JVM 所占用, 但是 JVM 也受到了一定的影响.

进一步观察发现出现问题的server 都是在同一台 hypervisor 上, 进一步去查看同一台 hypervisor 上面的其它 vm server, 也都表现出了 CPU 较高的情况.

登录到这台 Hypervisor 上面, 使用下面的命令可以看到, 这些Hypervisor 有kernel的内存泄漏问题:

admin@hv-8hhy:~$ smem -twk
Area                           Used      Cache   Noncache
firmware/hardware                 0          0          0
kernel image                      0          0          0
kernel dynamic memory        159.2G       6.5G     152.7G
userspace memory             139.3G     196.2M     139.1G
free memory                   15.6G      15.6G          0
----------------------------------------------------------
                             314.1G      22.3G     291.8G

在 kernel dynamic memory 这行的 Noncache 这列, 我们看到它使用了152.7G, 这明显是个问题. 对于 Cloud team来说这是一个已知的issue, 并且给出了 kernel 的fix link:
https://git.kernel.org/pub/scm/linux/kernel/git/davem/net.git/commit/drivers/net/ethernet/intel/i40e/i40e_txrx.c?id=2b9478ffc550f17c6cd8c69057234e91150f5972

更改网站标题

  1. 更改站点名称, 从“活着 就是要折腾” 改为 “选择比努力重要, 每天要有新期待”. 这个更改反映了最近半年多的一些思考.
    活着__就是要折腾.png

  2. 虽然从来没做过SEO, 自然流量还是有一些的, 可以看到以前百度不收录https的时候, 从来没有百度来的, 现在各个引擎都有了, 还看到有人用 google translate 翻译某个页面的记录. 记录下最近的网站访问情况:
    网站概况<em>-</em>百度统计.png

微鲸M1投影仪 使用感受

  1. 开箱
    包装是啥样的我都忘了,当时只顾看东西了. 里面主要是机器, 电源线,遥控器. 机器比以前我见过的其它投影仪都小,稍高. 据说得了IF设计大奖, 总体来说比我见过的其它正方体的投影仪都要好看. 另外它有3个接口, 分别是U盘, HDMI接口,音频输出接口, 方便播放本地视频和HDMI输入, 这可能对办公室里面的投影比较方便, 家里很少用到.

  2. 设置
    开机第一次使用设置特别特别简单, 连上电源, 打开开关, 就自动开始投影了, 关键是它会自动对焦, 并且非常快的完成自动对焦, 然后画面就呈现出来了. 唯一可能需要设置的是Wi-Fi, 选择家里的Wi-Fi, 输入密码,就没有其它需要设置的了.

  3. 体验画面
    这个是最直观的感受, 你们感受一下下面这个图片, 鸟的羽毛感觉太清晰了. 当时投影距墙大概2米, 用iphone 手机直接拍摄的画面(如果用华为最新手机拍摄, 是不是期待可以更好?). 我看说明书上说支持1670万色,如此之多. 对于常人来说还是最直接的眼睛感受的效果. 1080P的画面对于眼睛来说, 确实很舒服. 另外官网说还支持3D, 可惜我没有3D片源去试一下.

  4. 立体声
    声音效果和家里的Bose SOUNDLINK REVOLVE差不多吧, 看电影的时候, 关上门, 效果还是很不错的, 虽然比不上影院里面的几个喇叭组成的立体声效果.

  5. 视频内容
    首先它自带了自家的各种视频频道, 电影,电视剧, 综艺, 动漫, 儿童动画, 新闻啥都有. 另外它就像一个电视盒子, 也就是说你可以安装任意第三方的视频APP, 比如爱奇艺, 腾讯视频, 优酷, PPTV, 央视视频等. 因为我有爱奇艺的会员, 就装了一个爱奇艺的app. 它自带的app商店如果没有某些app, 可以通过电脑下载到U盘, 然后插入U盘, 选择本地文件安装就可以.

  6. 儿童动画
    这个呢, 要单独说一下, 里面自带的视频里面专门有儿童视频资源, 儿子最喜欢的小猪佩奇既有中文版, 还有英文版, 各种其它动画也都有. 另外还有家长控制的儿童锁, 可以限制小孩看的时间. 晚上很晚之后, 如果在打开动画, 会有专门的提示告诉你太晚了.

  7. 投屏
    如果它和手机在同一个Wi-Fi, 那么不管是iphone, 还是安卓手机, 都可以直接投. 投影仪里面有个详细介绍怎么投的, 非常好用. 更神奇的是, 如果没有Wi-Fi, 它竟然也可以投, 它会自己建立一个Wi-Fi热点, 你手机连上去, 就可以投屏了! 看到有人说它还可以异地投屏! 不知道这是什么更神奇的功能.

  8. 智能音箱
    它还可以当作音箱来用, 这个时候,它会熄灭屏幕, 如果你没有通过蓝牙连接它, 它会自动选择歌曲播放, 当然你也可以语音控制播放. 如果它正在投影,突然有手机连上它的蓝牙, 它也会问你要不要当音箱用, 还是继续投影. 手机蓝牙连接之后, 它就是一个手机控制播放的音箱了.

  9. 其它
    历史记录功能, 之前看了啥, 上次看到哪里了, 这次接着看; 开关机有短暂广告,貌似无法去掉; 它还可以语音交互, 这个挺方便; 没有播放声音的情况下, 能听到机器的声音, 播放声音之后, 基本就听不到机器运行的声音了.

总体来说, 非常值.
============== 有关其它问题 ===========

  1. 支持USB播放吗?
    有个USB接口, 插入USB后, 找到播放本地文件, 除了能看到机器自带的盘, 另外的盘就是插入的U盘. 其实我没有使用U盘播放电影, 不过我用电脑下载一个爱奇艺电视app, 通过U盘拷贝进去, 点击安装该app.

  2. USB 能带动移动硬盘吗?
    虽然我有移动硬盘, 不过没有试过, 它的输入电源类似dell笔记本电脑, 我想应该可以带动.

  3. 连不上网 Wi-Fi?
    恢复出厂设置, 再连就可以了.

============== 附带团购链接 ===========
官网4999, 团购 4299 链接: https://m.weibo.cn/2351518005/4356919244580426

java 启动参数 -XX:+PrintHeapAtGC

在启动时, 加入 -XX:+PrintHeapAtGC 将会看到如下log 打印

{Heap before GC invocations=4 (full 0):
 PSYoungGen      total 17408K, used 17392K [0x00000000fdf00000, 0x0000000100000000, 0x0000000100000000)
  eden space 16384K, 100% used [0x00000000fdf00000,0x00000000fef00000,0x00000000fef00000)
  from space 1024K, 98% used [0x00000000fef00000,0x00000000feffc010,0x00000000ff000000)
  to   space 1024K, 0% used [0x00000000fff00000,0x00000000fff00000,0x0000000100000000)
 ParOldGen       total 68608K, used 34096K [0x00000000f9c00000, 0x00000000fdf00000, 0x00000000fdf00000)
  object space 68608K, 49% used [0x00000000f9c00000,0x00000000fbd4c000,0x00000000fdf00000)
 Metaspace       used 2612K, capacity 4486K, committed 4864K, reserved 1056768K
  class space    used 285K, capacity 386K, committed 512K, reserved 1048576K

[GC (Allocation Failure) [PSYoungGen: 17392K->1024K(32768K)] 51488K->52816K(101376K), 0.0101398 secs] [Times: user=0.00 sys=0.00, real=0.00

Heap after GC invocations=4 (full 0):
 PSYoungGen      total 32768K, used 1024K [0x00000000fdf00000, 0x0000000100000000, 0x0000000100000000)
  eden space 31744K, 0% used [0x00000000fdf00000,0x00000000fdf00000,0x00000000ffe00000)
  from space 1024K, 100% used [0x00000000fff00000,0x0000000100000000,0x0000000100000000)
  to   space 1024K, 0% used [0x00000000ffe00000,0x00000000ffe00000,0x00000000fff00000)
 ParOldGen       total 68608K, used 51792K [0x00000000f9c00000, 0x00000000fdf00000, 0x00000000fdf00000)
  object space 68608K, 75% used [0x00000000f9c00000,0x00000000fce94050,0x00000000fdf00000)
 Metaspace       used 2612K, capacity 4486K, committed 4864K, reserved 1056768K
  class space    used 285K, capacity 386K, committed 512K, reserved 1048576K
}

参考:
https://blogs.oracle.com/poonam/how-do-i-find-whats-getting-promoted-to-my-old-generation/comment-submitted?cid=216c187b-792f-487b-843b-a326449b7120

Java GC 之 CMS 的一些 trade off

  1. 若young gen 过小, 则会频繁发生young GC, gc overhead 过高, 同时大量premature对象被promote到 old gen, 同时old gen 可能会引起大量碎片, 最终引起碎片化;
  2. -XX:PrintFLSStatistics=1 打印free list in BinaryTreeDictionary. 如果=2, 则会花费更多时间打印更多信息.

参考:
https://blogs.oracle.com/poonam/can-young-generation-size-impact-the-application-response-times