如何用spark将带有union类型的avro消息存入hive

我现在是用spark streaming 读取kafka中的avro消息,反序列化后希望使用spark sql存入hive或者hdfs
但是不管我是将avro转成json还是case class,即使在DStream.print能够正确打印出来,使用spark.foreachRdd进行后续操作时都会报错。

  1. 我找了第三方包,将avdl文件转成caseclass,由于avro中存在union(record,record,record)的类型,所以case class是带有shapeless的类型的,在转成spark后会报 is not a term的错误
  2. 这一次是使用json4s将对象转换成了json,同样,在DStream.print能够正确打印,但是进入spark.foreachRdd后就会报错,no value for 'BAD', 不知道是不是因为不同的json中有一些属性是null,有一些不是null
  3. 这一次我直接使用avro的tostring,和不同的是,在DStream中能打印,进入foreachRdd也并没有报错,但是部分json显示是corrupt.

第二和第三的json我把打印出来的字符串放入json文件里,使用spark.read.json读都是完全没问题的,我就有点搞不明白了,各位大神,有办法能够处理吗?
大家如果有这种需求一般是如何做的呢?
Code Snippet:

def main {
val kafkaStream = KafkaUtils.createDirectStream[String, Array[Byte]](ssc, PreferConsistent,
Subscribe[String, Array[Byte]](topics, kafkaParams))

println("Schema:" + schema)
val stream = deserialize(config, kafkaStream)

process(approach, isPrint, stream)
ssc.start()
ssc.awaitTermination()
}

def process(approach: Int, isPrint: Boolean, stream: DStream[DeserializedFromKafkaRecord]): Unit = {
approach match {
/**
* Approach 1 avrohugger + avro4s
* Convert GenericData into CaseClass
*/
case 1 => {
val mappedStream = stream.map(record => {
val format = RecordFormat[A]
val ennio = format.from(record.value)
ennio
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = rdd.toDF()
df.show()
}

})
}
}
/**
* Approach 2 avro4s + json4s
* Convert CaseClass into Json
*/
case 2 => {
val mappedStream = stream.map(record => {
val format = RecordFormat[A]
val ennio = format.from(record.value)
implicit val formats = DefaultFormats.preservingEmptyValues
write(ennio)
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = spark.read.json(spark.createDataset(rdd))
df.show()
}

})
}
}
/**
* Approach 3
* Convert GenericData into Json
*/
case 3 => {
val mappedStream = stream.mapPartitions(partition => {
partition.map(_.value.toString)
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = spark.read.json(spark.createDataset(rdd))
df.show()
}

})
}
}
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
在go中使用Kafka Avro消息

<div class="post-text" itemprop="text"> <p>I'm trying to consume Kafka messages in avro format but I'm not able to decode the messages from avro to json in Go.</p> <p>I'm using the Confluent platform (3.0.1). For example I produce avro messages like:</p> <pre><code>kafka-avro-console-producer --broker-list localhost:9092 --topic test --property value.schema='{"type":"record","name":"myrecord","fields":[{"name":"f1","type":"string"}]}' {"f1":"message1"} {"f1":"message2"} </code></pre> <p>Now I consume messages with the go Kafka libary: sarama. Plain text message are working fine. Avro message have to be decoded. I found different libs: github.com/linkedin/goavro, github.com/elodina/go-avro</p> <p>But after decoding I get a json without values (both libs):</p> <pre><code>{"f1":""} </code></pre> <p>goavro:</p> <pre><code>avroSchema := ` {"type":"record","name":"myrecord","fields":[{"name":"f1","type":"string"}]} ` codec, err := goavro.NewCodec(avroSchema) if err != nil { log.Fatal(err) } bb := bytes.NewBuffer(msg.Value) decoded, err := codec.Decode(bb) log.Println(fmt.Sprintf("%s", decoded)) </code></pre> <p>go-avro:</p> <pre><code>schema := avro.MustParseSchema(avroSchema) reader := avro.NewGenericDatumReader() reader.SetSchema(schema) decoder := avro.NewBinaryDecoder(msg.Value) decodedRecord := avro.NewGenericRecord(schema) log.Println(decodedRecord.String()) </code></pre> <p>msg = sarama.ConsumerMessage</p> </div>

spark读取avro序列化的parquet时报错:Illegal Parquet type: FIXED_LEN_BYTE_ARRAY

avro格式定义如下图:![图片说明](https://img-ask.csdn.net/upload/202002/14/1581611055_583617.png) 然后spark正常读取生成的parquet则报错:Illegal Parquet type: FIXED_LEN_BYTE_ARRAY。问怎么读取parquet(不一定要用spark)?详细错误如下: org.apache.spark.sql.AnalysisException: Illegal Parquet type: FIXED_LEN_BYTE_ARRAY; at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.illegalType$1(ParquetSchemaConverter.scala:107) at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convertPrimitiveField(ParquetSchemaConverter.scala:175) at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convertField(ParquetSchemaConverter.scala:89) at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.$anonfun$convert$1(ParquetSchemaConverter.scala:71) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:237) at scala.collection.Iterator.foreach(Iterator.scala:941) at scala.collection.Iterator.foreach$(Iterator.scala:941) at scala.collection.AbstractIterator.foreach(Iterator.scala:1429) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at scala.collection.TraversableLike.map(TraversableLike.scala:237) at scala.collection.TraversableLike.map$(TraversableLike.scala:230) at scala.collection.AbstractTraversable.map(Traversable.scala:108) at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convert(ParquetSchemaConverter.scala:65) at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convert(ParquetSchemaConverter.scala:62) at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.$anonfun$readSchemaFromFooter$2(ParquetFileFormat.scala:664) at scala.Option.getOrElse(Option.scala:138) at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.readSchemaFromFooter(ParquetFileFormat.scala:664) at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.$anonfun$mergeSchemasInParallel$2(ParquetFileFormat.scala:621) at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:801) at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:801) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)

已知Avro的schema信息,如何用avro读取二进制文件流(非.avro文件)?

RT,输入为二进制文件流,或者ByteBuffer;Avro的Schema对象信息。 需要输出Avro泛型对象GenericRecord。 求解

[HDFS]hive表文件下的.metadata文件夹是什么?

我生成avro或者parquet文件的时候,会有.metadata文件夹在hive表文件中,但是textfile类型的表就没有, 在或者我从textfile表数据insert到parquet表的时候,parquet表不会出现metadata文件夹,这是为什么? (主要是最近在用sqoop1从hive转数据到mysql,碰到了hive表是parquet格式的,用java api的时候,总是报错说找不到.metadata文件夹,textfile的就没事,所以想问下这个问题,虽然还没解决)

无法在Golang中解析AVRO模式

<div class="post-text" itemprop="text"> <p>I am having trouble parsing my AVRO json schema. I try to use the <strong>avro.ParseSchema</strong> function from this library: <a href="https://github.com/go-avro/avro" rel="nofollow noreferrer">https://github.com/go-avro/avro</a>. However, i get the following error message: </p> <blockquote> <p>Unknown type name: array</p> </blockquote> <p>I've been trying to fix this for a long time but i cannot seem to make it right. I have the following strucs implemented:</p> <pre><code>import ( "bytes" "log" avro "gopkg.in/avro.v0" ) type Matrix struct { UID int `avro:"uid"` Data [][]float64 `avro:"data"` } type MatrixContainer struct { MatricesArray []*Matrix `avro:"matrices_array"` } //Somewhere in here it goes wrong schema, err := avro.ParseSchema(`{ "type": "record", "name": "MatrixContainer", "fields": [ { "name": "matrices_array", "type": "array", "items": { "type": "record", "name": "Matrix", "fields": [ {"name": "uid","type":"int"}, {"name": "data","type":"array","items": {"type":"array","items":"double"} } ] } } ] }`) </code></pre> <p>Any help would be greatly appreciated.</p> </div>

用PHP编码/解码avro记录

<div class="post-text" itemprop="text"> <p>Are there any libraries to encode/decode avro records in PHP? I'm specifically looking to decode kafka records (that are produced via PHP RDKafka)</p> </div>

高分悬赏 apache avro数据 C与Java通信 序列化问题

最近需要配合C做一些数据解析工作。使用AVRO封装数据。由于C支持的PRC还不完整 没有采用这种方式。而是以流的方式通过HTTP 由C发送给Java解析并存储下来。双方定义相同的schema.目前遇到一个问题。 avro-c 库函数序列化发送的数据没有schema。只包含如图所示的序列化数据![图片说明](https://img-ask.csdn.net/upload/201708/07/1502073565_844101.png)。 而Java解析和输出的数据内容均包含scheam 信息和数据信息。尝试过使用内容拼接来解析。但是解析失败了。请问大家 此类问题应该怎样解决

如何在Go中自动生成Avro模式?

<div class="post-text" itemprop="text"> <p>I'm trying to integrate Avro and Schema Registry in our Kafka data pipelines. Now it looks inside of Go service like</p> <p>Get data -&gt; Encode data to JSON -&gt; Write to Kafka</p> <p>I want to use avro schema in the same way</p> <p>Generate schema -&gt; Update schema in Schema Registry -&gt; Get data -&gt; Encode to Avro -&gt; Write to Kafka</p> <p>But there are several questions:</p> <ol> <li>How can I generate schema from Go classes automatically?</li> <li>How should I check schema compatibility with Schema Registry? </li> </ol> </div>

kafka avro jdbc sink 如何更新主键值

在使用Kafka Avro时,配置了JDBC Sink的连接(Mysql),且已经可以成功添加表的结构和数据,但是在更新主键值的时候,产生一些疑问: 例如:主键为ID,且在JDBC Sink的相关配置中增加了主键的配置(insert.mode = upsert, pk.mode=ID), JDBC Sink会忽略value里的值,使用key的值作为主键ID,那么我应该使用JDBC Sink更新主键,有什么配置被我遗漏或者需要注意的地方吗?

使用goavro创建的Avro文件将数值数据加载到BigQuery中

<div class="post-text" itemprop="text"> <p>I am trying to figure out how to load dollar values into a Numeric column in BigQuery using an Avro file. I am using golang and the <a href="https://github.com/linkedin/goavro" rel="nofollow noreferrer">goavro</a> package to generate the avro file.</p> <p>It appears that the appropriate datatype in go to handle money is big.Rat.</p> <p>BigQuery <a href="https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-avro#decimal_logical_type" rel="nofollow noreferrer">documentation</a> indicates it should be possible to use Avro for this.</p> <p>I can see from a few <a href="https://github.com/linkedin/goavro/blob/05dc57f3d804f985f554fbd6da9011aac77da68e/logical_type_test.go#L82" rel="nofollow noreferrer">goavro test cases</a> that encoding a *big.Rat into a fixed.decimal type is possible.</p> <p>I am using a goavro.OCFWriter to encode data using a simple avro schema as follows:</p> <pre><code>{ "type": "record", "name": "MyData", "fields": [ { "name": "ID", "type": [ "string" ] }, { "name": "Cost", "type": [ "null", { "type": "fixed", "size": 12, "logicalType": "decimal", "precision": 4, "scale": 2 } ] } ] } </code></pre> <p>I am attempting to Append data with the "Cost" field as follows:</p> <pre><code>map[string]interface{}{"fixed.decimal": big.NewRat(617, 50)} </code></pre> <p>This is successfully encoded, but the resulting avro file fails to load into BigQuery:</p> <pre><code>Err: load Table MyTable Job: {Location: ""; Message: "Error while reading data, error message: The Apache Avro library failed to parse the header with the following error: Missing Json field \"name\": {\"logicalType\":\"decimal\",\"precision\":4,\"scale\":2,\"size\":12,\"type\":\"fixed\"}"; Reason: "invalid"} </code></pre> <p>So am doing something wrong here... Hoping someone can point me in the right direction.</p> </div>

avro php - 从缓冲区读取

<div class="post-text" itemprop="text"> <p>I am writing a php script using avro to deserialize data. I receive the data as a buffer of avro binary stream. In the avro php example, I see only an example of reading the data from a file. not a binary buffer.</p> <p>How can I deserialize the data? What I am looking for is a binary decoder for avro</p> </div>

java 实现 sparksql 时,mysql数据库查询结果只有表头没有数据

这两天尝试用java实现sparksql连接mysql数据库,经过调试可以成功连接到数据库,但奇怪的是只能够查询出表头和表结构却看不到表里面数据 代码如下 import java.util.Hashtable; import java.util.Properties; import javax.swing.JFrame; import org.apache.avro.hadoop.io.AvroKeyValue.Iterator; import org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolServerSideTranslatorPB; import org.apache.hadoop.hive.ql.exec.vector.expressions.IsNull; import org.apache.log4j.Logger; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.rdd.RDD; import org.apache.spark.sql.DataFrameReader; import org.apache.spark.sql.DataFrameWriter; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.SparkSession.Builder; import org.apache.spark.sql.jdbc.JdbcDialect; import org.datanucleus.store.rdbms.identifier.IdentifierFactory; import antlr.collections.List; import scala.Enumeration.Val; public class Demo_Mysql3 { private static Logger logger = Logger.getLogger(Demo_Mysql3.class); public static void main(String[] args) { SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("Demo_Mysql3"); sparkConf.setMaster("local[5]"); sparkConf.setSparkHome("F:\\DownLoad\\spark\\spark-2.0.0-bin-hadoop2.7"); sparkConf.set("spark.sql.warehouse.dir","F:\\DownLoad\\spark\\spark-2.0.0-bin-hadoop2.7"); SparkContext sc0=null; try { sc0=new SparkContext(sparkConf); SparkSession sparkSession=new SparkSession(sc0); SQLContext sqlContext = new SQLContext(sparkSession); // 一个条件表示一个分区 String[] predicates = new String[] { "1=1 order by id limit 400000,50000", "1=1 order by id limit 450000,50000", "1=1 order by id limit 500000,50000", "1=1 order by id limit 550000,50000", "1=1 order by id limit 600000,50000" }; String url = "jdbc:mysql://localhost:3306/clone"; String table = "image"; Properties connectionProperties = new Properties(); connectionProperties.setProperty("dbtable", table);// 设置表 connectionProperties.setProperty("user", "root");// 设置用户名 connectionProperties.setProperty("password", "root");// 设置密码 // 读取数据 DataFrameReader jread = sqlContext.read(); //Dataset<Row> jdbcDs=jread.jdbc(url, table, predicates, connectionProperties); sqlContext.read().jdbc(url, table, predicates, connectionProperties).select("*").show(); } catch (Exception e) { logger.error("|main|exception error", e); } finally { if (sc0 != null) { sc0.stop(); } } } } 控制台输出如下: ![图片说明](https://img-ask.csdn.net/upload/201707/22/1500708689_839040.png)

使用Avro Schema验证Json文件

<div class="post-text" itemprop="text"> <p>I'm trying to check if a Json string matches an Avro schema. I don't care about doing serialization of the data, just getting a bool result of <code>isValidJson=true/false</code>. I'll go with every <strong>golang</strong> library. I've tried to write something with this <a href="https://github.com/linkedin/goavro" rel="nofollow noreferrer">goavro</a> lib, but it didn't work for me, maybe because I'm new to go like.</p> <p>Desired pseudo code:</p> <pre><code>func main() { avroSchema := `{"type":"record","name":"raw","namespace":"events","fields":[{"name":"my_int","type":["null","int"],"default":null},{"name":"my_string","type":["null","string"],"default":"null"},{"name":"my_string2","type":null}]}` jsonString := `{"my_int": 3, "my_string": "foo", "my_string2": null}` ok ;= isValidJson(jsonString, avroSchema) } </code></pre> <p>Any idea how to implement the <code>isValidJson(..)</code> method?</p> </div>

难倒多数人的面试题,哪位大神给个完整答案

培训班组织技术学习与分享,有如下技术可供选择: VirtualBox Vagrant WebSocket JSONP Redis MongoDB Cassandra RabbitMQ ActiveMQ Kafka Lucene Solr ElasticSearch Hadoop HDFS HIVE PIG Mahout HBase Spark Guava Protobuf Avro Thrift Motan Docker DynamoDB Scala Groovy SpringBoot 学员每人选择其中两项进行学习,并在学习会以Demo的形式分享给其他同事。学员们的意向如下: 吕鹏飞 ElasticSearch Redis 丁虎 Redis SpringBoot 梁秀斗 Hadoop HDFS 李文鹏 Docker Kafka 苗恒飞 Lucene Solr 佘昊 Solr Redis 杜世阳 ActiveMQ Hadoop 刘翩 SpringBoot ActiveMQ 史建智 Docker Lucene 王帅 Cassandra Spark 张昌昌 SpringBoot MongoDB 王腾飞 SpringBoot Spark 杨小平 WebSocket RabbitMQ 请编写程序为学员安排最终的技术学习清单,要求: 如果一项技术只有一个学员选择,则直接为该学员指定该技术 如果一项技术有多个学员选择,则在选择了该项技术的学员中随机指定一位学习该技术 如果一个学员被指定的技术不足两项,则在未被指定的技术中随机指定一项或两项给该学员,以凑足两项但不能多于两项。 每个学员被指定的技术不能重复 需要输出最终的技术指定清单 需要输出未被指定给学员的技术清单。

如何解决使用avroschema将xml转换成json时数组外面会多包一层?

我的xml源文件如下所示 ![图片说明](https://img-ask.csdn.net/upload/201907/24/1563956224_830778.jpg) 我的schema是 { "type": "record", "name": "main", "namespace": "list1", "fields": [ { "name": "a", "type": "string" }, { "name": "b", "type": "string" }, { "name": "c", "type": { "type": "record", "name": "main", "namespace": "c.list1", "fields": [ { "name":"list2", "type": { "type": "array", "items": { "type": "record", "name": "main", "namespace": "list2.c.customer", "fields": [ { "name": "d", "type": "string" }, { "name": "e", "type": "string" } ] } } } ] } } ] } 转换出来的json格式如下 {"a":"china","b":"hb","c":{lists:[{"d":2222,"e":"s130"},{"d":2222,"e":"s130"}]}}现在想让转换出来的json没有c这个层级,就是{"a":"china","b":"hb",lists:[{"d":2222,"e":"s130"},{"d":2222,"e":"s130"}]} 那么我的schema应该改成什么样的?

flume+kafka+hdfs 整合问题

本想搭建一个 flume+hdfs+kafka+storm+mysql 的日志实时分析和存储的系统,但是flume日志收集这块一直不通,查看flume的日志也没有报错,不知道该怎么解决了,求大家帮帮忙,贴出集群配置和配置文件如下: 共5台机器:node1~node5,其中node3~node5为日志收集的agent,node1~node2为flume的collector,最终存储两份,一份到kafka,一份到hdfs。 agent的配置文件如下: #def agent.sources = src_spooldir agent.channels = file memory agent.sinks = collector_avro1 collector_avro2 # sources agent.sources.src_spooldir.type = spooldir agent.sources.src_spooldir.channels = file memory agent.sources.src_spooldir.spoolDir = /data/flume/spoolDir agent.sources.src_spooldir.selector.type = multiplexing agent.sources.src_spooldir.fileHeader = true # channels agent.channels.file.type = file agent.channels.file.checkpointDir = /data/flume/checkpoint agent.channels.file.dataDirs = /data/flume/data agent.channels.memory.type = memory agent.channels.memory.capacity = 10000 agent.channels.memory.transactionCapacity = 10000 agent.channels.memory.byteCapacityBufferPercentage = 20 agent.channels.memory.byteCapacity = 800000 # sinks agent.sinks.collector_avro1.type = avro agent.sinks.collector_avro1.channel = file agent.sinks.collector_avro1.hostname = node1 agent.sinks.collector_avro1.port = 45456 agent.sinks.collector_avro2.type = avro agent.sinks.collector_avro2.channel = memory agent.sinks.collector_avro2.hostname = node2 agent.sinks.collector_avro2.port = 4545 collector端的配置文件如下: #def agent.sources = src_avro agent.channels = file memory agent.sinks = hdfs kafka # sources agent.sources.src_avro.type = avro agent.sources.src_avro.channels = file memory agent.sources.src_avro.bind = node1 agent.sources.src_avro.port = 45456 agent.sources.src_avro.selector.type = replicating # channels agent.channels.file.type = file agent.channels.file.checkpointDir = /data/flume/checkpoint agent.channels.file.dataDirs = /data/flume/data agent.channels.memory.type = memory agent.channels.memory.capacity = 10000 agent.channels.memory.transactionCapacity = 10000 agent.channels.memory.byteCapacityBufferPercentage = 20 agent.channels.memory.byteCapacity = 800000 # sinks agent.sinks.hdfs.type = hdfs agent.sinks.hdfs.channel = file agent.sinks.hdfs.hdfs.path = hdfs://node1/flume/events/%y-%m-%d/%H%M/%S agent.sinks.hdfs.hdfs.filePrefix = log_%Y%m%d_%H agent.sinks.hdfs.hdfs.fileSuffix = .txt agent.sinks.hdfs.hdfs.useLocalTimeStamp = true agent.sinks.hdfs.hdfs.writeFormat = Text agent.sinks.hdfs.hdfs.rollCount = 0 agent.sinks.hdfs.hdfs.rollSize = 1024 agent.sinks.hdfs.hdfs.rollInterval = 0 agent.sinks.kafka.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.kafka.channel = memory agent.sinks.kafka.kafka.topic = test agent.sinks.kafka.kafka.bootstrap.servers = node3:9092,node4:9092,node5:9092 agent.sinks.kafka.kafka.flumeBatchSize = 20 agent.sinks.kafka.kafka.producer.acks = 1 agent.sinks.kafka.kafka.producer.linger.ms = 1 agent.sinks.kafka.kafka.producer.compression.type = snappy 最终 hdfs和kafka都没有接收到数据。

如何从Avro生成Go

<div class="post-text" itemprop="text"> <p>I have a project that's using the gradle <a href="https://github.com/commercehub-oss/gradle-avro-plugin" rel="nofollow noreferrer">gogen-avro-plugin</a> to generate Java code for Apache Avro. I'd like to generate Go code for the avro as well. I didn't see any gradle plugins to do that, so I'm curious if anyone knows of any or has any suggestions? </p> <p>Currently, I'm using <a href="https://github.com/actgardner/gogen-avro" rel="nofollow noreferrer">gogen-avro</a> to generate the Go code, but it's a manual process. It involves running a command (<code>go generate</code>) to generate the code. If there aren't any equivalents to the gogen-avro-plugin to generate the Go code, I'd be interested if there are any ways to have Gradle automatically execute a command like? </p> </div>

java关于二进制文件读取问题

用lucene写了一个抓包程序,在检索文件过程中,我通过数据包偏移量来读取指定内容并写入新文件,但是根据偏移量单次去读可以找到文件内容,但是使用循环只能读到第一次循环的内容后面的都读取不到,我根据生成的偏移量,一次一次去查询,可以找到内容,但在这个循环里却无法找到,求大神指点 这是关键代码部分: long start=System.currentTimeMillis(); InputStream os=new FileInputStream("dfda.cap"); DataInputStream in=new DataInputStream(os); byte[] bytes=new byte[24]; in.read(bytes, 0, 24); System.out.println(bytes); FileOutputStream fos3=new FileOutputStream("abd.cap",true); //System.out.println(bytes.length); fos3.write(bytes); fos3.flush(); TopDocs hits=isa.search(t1, 10); long end=System.currentTimeMillis(); System.out.println("共花费"+(end-start)+"milliseconds"); System.out.println("共有"+hits.totalHits+"匹配"); for(ScoreDoc scoreDoc:hits.scoreDocs) { Document doc=isa.doc(scoreDoc.doc); int length=Integer.parseInt(doc.get("length")); int len=Integer.parseInt(doc.get("len")); System.out.println(length); System.out.println(len); byte[] bytess=new byte[len]; in.skipBytes(length); in.read(bytess); System.out.println(bytess); fos3.write(bytess); fos3.flush(); System.out.println("写入完成!"); } in.close(); fos3.close(); }

goavro无法使用架构验证json数据

<div class="post-text" itemprop="text"> <p>I'm new to go and avro and struggling with validating data.I have this avro schema</p> <pre><code>{ "namespace": "com.input", "name": "parent", "type": "record", "fields": [ { "name": "field1", "type": [ "null", { "type": "record", "name": "child", "fields": [ { "name": "child1", "type": "string" }, { "name": "child2", "type": "string" } ] } ] } ] } </code></pre> <p>Data to be validated:</p> <pre><code>{ "field1": { "child1": "1", "child2": "abc" } } </code></pre> <p>This is the code which i'm using to validate using goavro library:</p> <pre><code>func loadMockData() (stringFormatData string) { mockData, err := ioutil.ReadFile("sample.json") if err != nil { log.Println(err) } return string(mockData) } func loadSchema() (stringFormatData string) { mockSchema, err := ioutil.ReadFile("schema.avsc") if err != nil { log.Println(err) } return string(mockSchema) } avroSchema := loadSchema() jsonString := loadMockData() codec, err := goavro.NewCodec(avroSchema) decoded, _, err := codec.NativeFromTextual([]byte(jsonString)) </code></pre> <p>This gives me following error: <strong>NativeFromTextual error: cannot decode textual record "com.input.parent": cannot decode textual union: cannot decode textual map: cannot determine codec: "parentid"</strong></p> <p>I tried debugging the goavro library, seems that fieldcodec remains nil for parentid in map.go. With simple fields this setting works fine. Problem is with nested data its not able to get codec for parentid.</p> <p><em>Any help is much appreciated.</em> </p> </div>

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

ArrayList源码分析(入门篇)

ArrayList源码分析 前言: 写这篇博客的主要原因是,在我上一次参加千牵科技Java实习生面试时,有被面试官问到ArrayList为什么查找的速度较快,插入和删除的速度较慢?当时我回答得不好,很大的一部分原因是因为我没有阅读过ArrayList源码,虽然最后收到Offer了,但我拒绝了,打算寒假学得再深入些再广泛些,下学期开学后再去投递其他更好的公司。为了更加深入理解ArrayList,也为

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

玩转springboot启动banner定义所得

最近接手了一个springboot项目,不是不熟悉这个框架,启动时打印的信息吸引了我。 这不是我熟悉的常用springboot的打印信息啊,我打开自己的项目: 还真是的,不用默认的感觉也挺高大上的。一时兴起,就去研究了一下源代码,还正是有些收获,稍后我会总结一下。正常情况下做为一个老程序员,是不会对这种小儿科感兴趣的,不就是一个控制台打印嘛。哈哈! 于是出于最初的好奇,研究了项目的源代码。看到

带了6个月的徒弟当了面试官,而身为高级工程师的我天天修Bug......

即将毕业的应届毕业生一枚,现在只拿到了两家offer,但最近听到一些消息,其中一个offer,我这个组据说客户很少,很有可能整组被裁掉。 想问大家: 如果我刚入职这个组就被裁了怎么办呢? 大家都是什么时候知道自己要被裁了的? 面试软技能指导: BQ/Project/Resume 试听内容: 除了刷题,还有哪些技能是拿到offer不可或缺的要素 如何提升面试软实力:简历, 行为面试,沟通能...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

你打算用Java 8一辈子都不打算升级到Java 14,真香

我们程序员应该抱着尝鲜、猎奇的心态,否则就容易固步自封,技术停滞不前。

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《经典算法案例》01-08:如何使用质数设计扫雷(Minesweeper)游戏

我们都玩过Windows操作系统中的经典游戏扫雷(Minesweeper),如果把质数当作一颗雷,那么,表格中红色的数字哪些是雷(质数)?您能找出多少个呢?文中用列表的方式罗列了10000以内的自然数、质数(素数),6的倍数等,方便大家观察质数的分布规律及特性,以便对算法求解有指导意义。另外,判断质数是初学算法,理解算法重要性的一个非常好的案例。

立即提问
相关内容推荐