腾讯蓝鲸论坛-专业的技术交流论坛

 找回密码
 立即注册
忘了密码?
搜索
热搜: 用户手册 FAQ
123
返回列表 发新帖
楼主: huang'q

[官方文档] 社区版3.1常见问题

 关闭 [复制链接]

18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-10-31 11:27:10 |显示全部楼层
本帖最后由 huang'q 于 2017-12-21 14:36 编辑

21.  服务名.service.consul 无法解析
  1. 1.  关闭nscd服务
  2. 2.  resolv.conf文件第一行添加nameserver 127.0.0.1
  3. 3.  检查服务,consul是否正常
  4. 4.        ————————如果以上都正常可以重启下consul再解析
  5. 5.        日志路径,登录所在服务器:/data/bkce/logs/
复制代码

18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-11-4 10:48:46 |显示全部楼层
本帖最后由 huang'q 于 2017-12-21 14:37 编辑

22. rabbitmq服务启动/initdata失败
  1. 关闭nscd 服务
  2. resolv.conf 文件第一行添加 nameserver 127.0.0.1
  3. hosts 文件第一行添加 127.0.0.1 hostname(主机名)
  4. paas.service.consul 是否能解析到 ip(这条不需要添加到hosts,可以用ping或者dig)如果不能请参照第20条
  5. ./bkcec stop rabbitmq
  6. ./bkcec installl rabbitmq 1
  7. ./bkcec start rabbitmq
  8. ./bkcec initdata rabbitmq
复制代码

18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-11-4 11:02:45 |显示全部楼层
本帖最后由 huang'q 于 2018-1-5 17:13 编辑

23.  启动app或者某个服务的是否报错
supervisord.sock refused connection
QQ图片20171104110434.png

可以根据错误信息执行以下操作:
  1. 删除supervisord.sock文件:/data/bkce/paas_agent/apps/projects/bk_agent_setup/run/supervisord.sock
  2. cd /data/bkce/paas_agent/apps/Envs/bk_agent_setup/bin/
  3. ./supervisord -c /data/bkce/paas_agent/apps/projects/bk_agent_setup/conf/supervisord.conf
  4. ./supervisorctl -c /data/bkce/paas_agent/apps/projects/bk_agent_setup/conf/supervisord.conf  start all
复制代码
QQ图片20171104110908.png




18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-12-14 15:15:35 |显示全部楼层
本帖最后由 huang'q 于 2018-1-5 10:14 编辑

24.  agent的排查方法及常见问题
agent的排查方法及常见问题
http://bbs.bk.tencent.com/forum. ... 1%E9%97%AE%E9%A2%98

agent已经安装成功,但是显示异常,此情况一般为
1.   gse进程异常
  1. 去gse所在服务器
  2. ps -ef |grep ./gse_ | awk '{print $2}'  |xargs kill -9
  3. 重启gse
  4. cd /data/bkce/gse/gse/bin/
  5. ./gse.sh start all
复制代码
2.   申请证书时没有加上gse所在服务器的mac地址导致,更换证书请参考
     http://bbs.bk.tencent.com/forum. ... =570&page=2#pid2128
  1. 去gse所在的服务器,/data/bkce/etc/gse/task.conf
  2. vim /data/bkce/etc/gse/task.conf
  3. 将error改为debug
  4. 重启task,看task的日志
  5. cd /data/bkce/gse/gse/bin/
  6. ./gse.sh stop task
  7. ./gse.sh start task
复制代码
如果更换了证书,agent客户端方面请按以下操作
a:重新安装agent
b:如果不想重装agent,可以将证书拷贝到安装agent的服务器/usr/local/gse/gseagent/conf/crt/目录下(拷贝前请先将改目录下的证书删除)


18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-12-25 11:51:03 |显示全部楼层
本帖最后由 huang'q 于 2018-1-4 10:04 编辑

25.  正式(appo)环境激活失败
日志:/data/bkce/logs/paas_agent/agent.log
1.  打开paas页面——开发者中心——服务器信息——正式服务器,查看:服务器ID,Token

QQ图片20171225114512.png



2.  进入服务器(appo所在的服务器)/data/bkce/etc/paas_agent_config.yaml
检查appo跟正式服务器信息是否跟上图对应,如果不对应则改为相同的。
服务器ID=sid
Token=token

QQ图片20171225114806.png


最后重启appo即可
  1. ./bkcec stop appo
  2. ./bkcec start appo
复制代码

18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-12-25 18:07:52 |显示全部楼层
本帖最后由 huang'q 于 2018-1-17 17:09 编辑

26.  监控没有数据

1.  去gse所在服务器ps -ef | grep ./gse_  检查进程是不是都是一对的
QQ图片20171225175149.png

如果不是一对,执行以下操作
  1. 去gse所在服务器
  2. ps -ef |grep ./gse_ | awk '{print $2}'  |xargs kill -9
  3. 启动gse
  4. cd /data/bkce/gse/gse/bin/
  5. ./gse.sh start all
复制代码
以及检查是否有48533,58625,9092端口
  1. netstat -anp |grep 48533
  2. netstat -anp |grep 58625
  3. netstat -anp |grep 9092
复制代码
2.  去中控机/data/install,检查看下是不是running的
  1.   ./bkcec status all
复制代码
3.  监控页面点击上报看有没有报错
4.  查看kafka有没有数据
  1. cd /data/bkce/service/kafka/
  2. zkaddr=`cat config/server.properties |grep common_kafka |cut -d '=' -f 2`
  3. sh bin/kafka-topics.sh --list --zookeeper $zkaddr
  4. sh bin/kafka-console-consumer.sh --zookeeper $zkaddr --topic $topic
  5. ($topic一般为mem3或者mem4或者mem5可以从上一条命令结果查看)
复制代码
5.  如果kafka没有数据且监控点击上报是正常的,可以重启kafka,gse,bkdata
  1. ./bkcec stop bkdata
  2. ./bkcec stop gse
  3. ./bkcec stop kafka
  4. ./bkcec start kafka
  5. ./bkcec start gse
  6. ./bkcec start bkdata
复制代码
6. 重启服务后重新点击接入等待20分钟左右(最长20分钟,一般为5分钟)
7. 检查服务器跟agent之间时间是否同步(需要同步时间)
8. 日志路径:appo所在的服务器/data/bkce/paas_agent/apps/logs/bk_monitor/
9. 如果以上都正常,请把每一步的执行结果截图以及日志私发给蓝鲸助手

18

主题

0

好友

5306

积分

超级版主

Rank: 32Rank: 32

发表于 2017-12-29 09:43:26 |显示全部楼层
本帖最后由 huang'q 于 2018-1-18 09:50 编辑

27.  日志检索下发失败
1.  装蓝鲸的三台服务器需要安装agent

2. 去gse所在服务器ps -ef | grep ./gse_  检查进程是不是都是一对的

175211zjiucacgjc9euusc.png

如果不是一对,执行以下操作
  1. 去gse所在服务器
  2. ps -ef |grep ./gse_ | awk '{print $2}'  |xargs kill -9
  3. 启动gse
  4. cd /data/bkce/gse/gse/bin/
  5. ./gse.sh start all
复制代码
3.  去中控机/data/install,检查看下是不是running的
  1.   ./bkcec status all
复制代码
4.  bkdata所在服务器检查es的端口(10050)是否冲突

5. 检查agent是否能够正常执行脚本以及下发文件(去job执行)

6.  重启kafka,gse,bkdata
  1. ./bkcec stop bkdata
  2. ./bkcec stop gse
  3. ./bkcec stop kafka
  4. ./bkcec stop es
  5. ./bkcec start es
  6. ./bkcec start kafka
  7. ./bkcec start gse
  8. ./bkcec start bkdata
复制代码
7. 日志路径:appo所在的服务器/data/bkce/paas_agent/apps/logs/bk_log_search/

8.  日志检索是增量查询


您需要登录后才可以回帖 登录 | 立即注册

蓝鲸官网

GMT+8, 2018-1-20 21:23

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部