副本节点的选择(机架感知)
1、默认情况下
第一个副本在client所处的节点上,如果客户端在集群之外,(在win7上运行程序,写文件到集群上),随机选一个。
第二个副本和第一个副本在不同机架上,节点随机选
第三个副本和第二个副本在相同的机架上,节点随机
2、hadoop2.7.2
第一个副本在client所处的节点上,如果客户端在集群之外,(在win7上运行程序,写文件到集群上),随机选一个
第二个副本与第一个副本在同一机架上
第三个副本在不同的机架上
{对于副本来讲,有一个副本在不同的机架上,可以保证可用性,在client上写入数据,用网络拓扑距离计算,在client上写入两个副本的速度强于 将两个副本写入到另外的机架上}
自定义机架感知
1、创建类实现DNSToSwitchMapping接口
2、配置文件core-site.xml
<property>
<name>net.topology.node.switch.mapping.impl</name>
<value>自己定义的jar的全路径</value>
</property>
3、分发core-site.xml
4、编译程序并打包成jar,分发给所有节点的hadoop的classpath下
/app/hadoop/shared/hadoop/common/lib/
hadoop不能探测到节点所在的交换机,只能知道节点的IP地址和主机名称,所以需要自己定义规则。
package Hadoop;
import org.apache.hadoop.net.DNSToSwitchMapping;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
/**
* 2018/7/5
* 16:11
* 自定义机架感知
*/
public class RackAware implements DNSToSwitchMapping {
/**
* 传递的是客户端的ip列表,返回机架感知的路径列表
*/
@Override
public List<String> resolve(List<String> names) {
ArrayList<String> list = new ArrayList<String>();
if (names != null && names.size() > 0) {
for (String name : names) {
if (name.startsWith("s")) {
String ip = name.substring(1);
Integer intIP = Integer.parseInt(ip);
if (intIP < 103) {
list.add("/rack1/" + intIP);
} else {
list.add("/rack2/" + intIP);
}
} else if (name.startsWith("192")) {
int ip = Integer.parseInt(name.substring(name.lastIndexOf(".")) + 1);
if (ip < 103) {
list.add("/rack2/" + ip);
} else {
list.add("/rack2/" + ip);
}
}
}
}
// 写入文件
try {
FileOutputStream fos = new FileOutputStream("");
for (String name : list) {
fos.write((name + "\r\n").getBytes());
}
fos.close();
} catch (Exception e) {
e.printStackTrace();
}
return list;
}
@Override
public void reloadCachedMappings() {
}
@Override
public void reloadCachedMappings(List<String> list) {
}
}